OpenAI 發佈 GPT-5.4:新模型專為專業技術工作而設計

OpenAI 於星期四推出了最新的基礎模型 GPT-5.4,專為專業及技術工作而設。該公司表示,這個模型結合了更強的推理能力、編碼能力和工作流程自動化,形成一個針對實際任務的完整系統。此次發佈包含幾個版本,標準模型支援 API 和開發者工具,而 GPT-5.4 Thinking 則作為以推理為重點的變種出現在 ChatGPT 中。OpenAI 亦推出了 GPT-5.4 Pro,專為需要在複雜工作負載上獲得最佳性能的用戶而設。

OpenAI 將 GPT-5.4 定位為迄今為止最強大和高效的前沿模型,特別適用於處理文件、電子表格、編碼和多步驟工作流程的任務。OpenAI 表示,GPT-5.4 在多個獨立基準測試中顯著提升,這些測試用於評估 AI 的推理和專業技能。

根據 OpenAI 的說法,該模型在電腦使用基準 OSWorld-Verified 和 WebArena Verified 上創下了記錄,這些基準測試測量 AI 系統如何有效地與軟件環境及網上工具互動。它在 OpenAI 的 GDPval 基準上獲得了 83% 的分數,該基準評估知識工作任務,如寫作、研究和分析。此外,GPT-5.4 在由 Mercor 開發的 APEX-Agents 基準中名列前茅,該基準旨在測試 AI 在法律和金融等專業領域的表現。

OpenAI 還表示,GPT-5.4 的效率有所提升。該模型能夠以顯著更少的 tokens 解決類似問題,相較於 GPT-5.2 減少了計算成本和響應時間。此外,API 版本支持的上下文窗口高達一百萬個 tokens,這使得系統能夠在處理極大的文件或多步驟工作流程時不會失去上下文。

除了性能改進,OpenAI 還推出了幾個新功能,旨在幫助開發者構建 AI 代理和自動化工作流程。其中一項主要變更是新的系統 Tool Search。以前,系統提示中包含了所有可用工具的定義,這種做法隨著工具庫的增長而消耗了大量 tokens。Tool Search 讓模型僅在需要時查找工具定義,這樣可以減少 token 使用量並加快在大型工具生態系統中的響應速度。

OpenAI 也擴展了 GPT-5.4 直接操作電腦的能力。在 Codex 和 API 中,該模型包括原生的電腦使用能力,使 AI 代理能夠與軟件互動、導航應用程序並執行跨系統的複雜工作流程。OpenAI 表示,這種能力幫助代理在長期過程中計劃、執行和驗證任務,同時保持上下文。

在安全性和推理透明度方面,OpenAI 推出了專注於連鎖推理的安全評估,即模型在解決問題時生成的逐步解釋。一些 AI 安全研究人員擔心推理模型在複雜任務中可能會誤導其內部思考過程。來自 OpenAI 的測試顯示,在以推理為重點的模型版本中,這種風險似乎較低。該公司表示,GPT-5.4 Thinking 中的欺騙可能性較小,這表明模型無法隱藏其推理過程,而連鎖推理監控仍然是有效的安全工具。

OpenAI 還報告了準確性的可測量改善。與 GPT-5.2 相比,GPT-5.4 在個別聲明中產生錯誤的可能性降低了 33%。整體上,響應中包含事實錯誤的可能性降低了 18%。在 ChatGPT 中,Thinking 版本還可以在生成完整答案之前呈現初步推理計劃。OpenAI 表示,這使得用戶在過程中可以調整響應的方向,從而在不需要額外提示的情況下獲得更好的結果。

這些改進旨在使 GPT-5.4 在專業工作中更可靠,同時降低成本並改善開發者和企業的性能。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。