OpenAI 推出新工具 助企業打造 AI 代理人

在週二,OpenAI 發布了旨在幫助開發者和企業構建 AI 代理人的新工具,這些自動化系統可以獨立完成各種任務,並使用該公司的 AI 模型和框架。

這些工具是 OpenAI 新推出的 Responses API 的一部分,允許企業開發自定義的 AI 代理人,能夠執行網絡搜索、掃描公司文件以及導航網站,類似於 OpenAI 的 Operator 產品。Responses API 實際上取代了 OpenAI 的 Assistants API,該公司計劃在 2026 年上半年停止使用該 API。

AI 代理人的興起

儘管科技行業在展示或定義「AI 代理人」方面面臨挑戰,但對 AI 代理人的熱潮在近年來顯著增長。最近,中國初創公司 Butterfly Effect 的一個新 AI 代理平台 Manus 在網上迅速走紅,但用戶很快發現該平台未能實現許多公司的承諾。

因此,對於 OpenAI 來說,正確開發代理人至關重要。

OpenAI 的 API 產品負責人 Olivier Godemont 在接受 TechCrunch 訪問時表示:「展示你的代理人相對簡單,但要擴展代理人則非常困難,讓人們經常使用它也很難。」

提升代理人的自主性

今年早些時候,OpenAI 在 ChatGPT 中推出了兩個 AI 代理人:Operator,能夠代替用戶導航網站,和深度研究,能夠為用戶編寫研究報告。這兩個工具展示了代理技術的潛力,但在「自主性」方面仍有很大的改進空間。

現在,借助 Responses API,OpenAI 希望能夠將驅動 AI 代理人的組件提供給開發者,讓他們能夠創建類似 Operator 和深度研究的自主應用程序。OpenAI 希望開發者能夠利用其代理技術創建出比當前可用工具更具自主性的應用。

強大的搜索模型

使用 Responses API,開發者可以使用 OpenAI ChatGPT Search 網絡搜索工具背後的相同 AI 模型(目前處於預覽階段):GPT-4o search 和 GPT-4o mini search。這些模型能夠在網上查找問題的答案,並在生成回覆時引用來源。

OpenAI 聲稱,GPT-4o search 和 GPT-4o mini search 的事實準確性非常高。在公司的 SimpleQA 基準測試中,測量模型回答短小事實性問題的能力,GPT-4o search 得分為 90%,而 GPT-4o mini search 得分為 88%(得分越高越好)。相比之下,OpenAI 最近發布的更大模型 GPT-4.5 得分僅為 63%。

搜索工具的挑戰

AI 驅動的搜索工具比傳統 AI 模型更準確並不令人驚訝,因為理論上,GPT-4o search 只需查找正確答案。然而,網絡搜索並未解決 AI 產生幻覺的問題。除了事實準確性,AI 搜索工具在處理短小的導航查詢(例如「今天湖人隊的比分」)時也常常遇到困難,最近的報導顯示,ChatGPT 的引用並不總是可靠。

Responses API 還包含一個文件搜索工具,能夠快速掃描公司數據庫中的文件以檢索信息。(OpenAI 聲稱不會基於這些文件訓練模型。)此外,使用 Responses API 的開發者還可以使用 OpenAI 的 Computer-Using Agent(CUA)模型,該模型驅動 Operator,能夠生成鼠標和鍵盤操作,讓開發者自動化數據輸入和應用程序工作流程等任務。

未來的發展方向

企業可以選擇在自己的系統上本地運行 CUA 模型,OpenAI 表示該模型目前正處於研究預覽階段。可用於 Operator 的消費者版本 CUA 僅能在網絡上執行操作。

需要明確的是,Responses API 不會解決當前困擾 AI 代理人的所有技術問題。

儘管 AI 驅動的搜索工具比傳統 AI 模型更準確,但 GPT-4o search 仍然有 10% 的事實性問題回答錯誤。除了準確性,AI 搜索工具在處理短小導航查詢時也存在挑戰,最近的報導指出,ChatGPT 的引用並不總是可靠。

在提供給 TechCrunch 的一篇博客文章中,OpenAI 表示 CUA 模型「尚未對操作系統的任務自動化高度可靠」,並且容易出現「無意」的錯誤。

不過,OpenAI 表示這些是其代理工具的早期版本,並且正在不斷努力改進它們。

隨著 Responses API 的推出,OpenAI 還發布了一個開源工具包 Agents SDK,為開發者提供免費工具,以便將模型與其內部系統集成,設置安全措施,並監控 AI 代理人的活動以進行調試和優化。Agents SDK 是 OpenAI 去年年底發布的多代理協調框架 Swarm 的後續產品。

Godemont 表示,他希望 OpenAI 能夠在今年彌合 AI 代理人演示和產品之間的差距,並認為「代理人是 AI 最具影響力的應用」。這與 OpenAI CEO Sam Altman 在一月所作的聲明相呼應,他表示 2025 年將是 AI 代理人進入工作場所的一年。

無論 2025 年是否真的成為「AI 代理人的年度」,OpenAI 最近的發布顯示該公司希望從華麗的代理演示轉向有影響力的工具。

【教學】如何在香港申請 Google Gemini 及訂閱 Google Gemini Advanced /
【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT

十斗
十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。