OpenAI 推出全新 ChatGPT Agent:可操控電腦執行任務

OpenAI 正式推出全新 ChatGPT Agent,這是一款專為執行複雜多步驟任務而設計的 AI 工具,旨在超越傳統聊天機器人。該公司於週四介紹了這一工具,聲稱它可以利用其虛擬電腦為用戶完成工作。

在與《The Verge》的簡報和演示中,ChatGPT Agent 的產品負責人 Yash Kumar 和研究負責人 Isa Fulford 表示,這一工具由 OpenAI 專門為該產品開發的新模型驅動。該公司指出,這款新工具能夠執行多種任務,例如查看用戶的日曆以簡報即將到來的客戶會議、計劃並購買製作家庭早餐的食材,以及根據對競爭公司分析來製作幻燈片。

ChatGPT Agent 背後的模型(目前尚無具體名稱)經過強化學習訓練,專注於需要多個工具的複雜任務,包括文本瀏覽器、視覺瀏覽器和允許用戶導入數據的終端。OpenAI 表示,ChatGPT Agent 結合了其現有的兩個 AI 工具 Operator 和 Deep Research 的功能。

為了開發這一新工具,公司將 Operator 和 Deep Research 的團隊合併為一個統一的團隊。Kumar 和 Fulford 告訴《The Verge》,這個新團隊由 20 至 35 名來自產品和研究的成員組成。

在演示中,Kumar 和 Fulford 展示了 ChatGPT Agent 的潛在用例,例如要求其通過連接 Google Calendar 來計劃約會夜,查看用戶何時有空,然後交叉參考 OpenTable 找到特定類型餐廳的空位。他們還展示了用戶如何可以在過程中插入其他餐廳類別進行搜索。另一個演示則顯示了 ChatGPT Agent 如何生成有關 Labubus 與 Beanie Babies 崛起的研究報告。

Fulford 表示,她喜歡使用這款工具進行網上購物,因為 Deep Research 和 Operator 的技術結合比單獨使用 Operator 更有效率。Kumar 則提到,他已經開始利用 ChatGPT Agent 自動化生活中的小部分,例如每週四請求新的辦公室停車位,而不是在週一出現時忘記請求而找不到停車位。

Kumar 表示,由於 ChatGPT Agent 擁有“整個電腦”的訪問權限,而不僅僅是一個瀏覽器,因此他們“增強了工具集”。

根據演示,該工具的反應速度可能稍慢。對於延遲問題,Kumar 表示,他們的團隊更專注於“優化困難任務”,用戶並不需要靜靜地等待 ChatGPT Agent 工作。

“即使需要 15 分鐘、半小時,這也比自己完成所需的時間要快得多,”Fulford 說,並補充道 OpenAI 的搜索團隊更注重低延遲的用例。“這是一種可以在背景中啟動某項任務,然後再回來查看的方式。”

在 ChatGPT Agent 執行任何“不可逆”操作之前,例如發送電子郵件或進行預訂,Fulford 表示會先請求用戶的許可。

由於該工具背後的模型擁有增強的能力,OpenAI 表示已啟用其為“高生物和化學能力”設置的安全措施,儘管該公司表示沒有“直接證據表明該模型能夠有效幫助新手創造嚴重的生物或化學傷害”形式的武器。今年 5 月,Anthropic 在推出其 Claude 模型 Opus 4 時也啟用了類似的安全措施。

當被問及該工具是否被允許進行金融交易時,Kumar 表示這些行為目前已被限制,並且有一個額外的保護措施稱為監察模式,當用戶瀏覽某些類別的網頁,例如金融網站時,必須不離開 ChatGPT Agent 操作的標籤,否則該工具將停止工作。

OpenAI 將於今天開始向 Pro、Plus 和 Team 用戶推出該工具——在工具菜單中選擇“agent mode”或輸入“/agent”以訪問,並表示將在今夏稍後向 ChatGPT Enterprise 和 Education 用戶提供。尚未公布針對歐洲經濟區和瑞士的推出時間表。

AI 代理的概念在業界已經引起了多年的熱議。理想中的開發者所追求的是類似 Iron Man 的 J.A.R.V.I.S.,這是一種可以執行特定工作功能、檢查日曆以安排最佳事件時間、根據朋友的偏好購買禮物等的工具,但目前它們的功能仍然有限,主要協助編碼和編纂研究報告。

“AI 代理”這個術語在 2023 年變得更加普遍,尤其是在金融科技公司 Klarna 在 2024 年 2 月宣布其 AI 代理在短短一個月內處理了三分之二的客戶服務聊天——相當於 700 名全職人員的工作量之後,迅速引起投資者和科技高管的關注。隨後,亞馬遜、Meta、Google 等公司的高管在財報電話會議中頻繁提到他們的 AI 代理目標。此後,AI 公司也在戰略性地招聘以實現這些目標:例如,Google 上週聘請了 Windsurf 的 CEO、聯合創始人及部分研發團隊成員,以進一步推進其 AI 代理項目。

OpenAI 的 ChatGPT Agent 推出緊隨其 1 月發布的 Operator,該公司宣稱這是一個“可以上網為你執行任務的代理”,因為它經過訓練能夠處理互聯網的按鈕、文本框等。這也是 AI 行業的一個更大趨勢,因為各大公司都在追求能夠吸引消費者注意並最終形成習慣的 AI 代理。去年 10 月,獲亞馬遜支持的 AI 初創公司 Anthropic 推出了名為“Computer Use”的類似工具,聲稱能夠像人類一樣使用電腦以完成用戶的任務。多家 AI 公司,包括 OpenAI、Google 和 Perplexity,也提供一種它們稱為 Deep Research 的 AI 工具,這是一種可以撰寫用戶所需的詳細分析和研究報告的 AI 代理。

同場加映:香港無痛,不用 VPN 情況下使用 ChatGPT

【教學】免費使用 ChatGPT-4 的 6 個方法 /
【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT


十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。