OpenAI 發佈 GPT-5.5　Terminal-Bench 2.0 得分 82.7% 勝 Claude Opus 4.7

OpenAI 推出 GPT-5.5，將其定位為公司迄今最強大且直觀的模型，專注幫助用戶獨立完成複雜的多步驟任務。此版本延續向「代理式」（agentic）AI 系統推進，這些系統能規劃、執行並優化工件，減少人類干預。公司表示，該模型提升用戶在編碼、研究及一般知識工作中的 AI 互動體驗。用戶無需指導每個步驟，即可分配更廣泛任務，讓模型處理歧義並完成工作流程。「GPT-5.5 更快理解用戶意圖，並自行承擔更多工作，」公司指出。

GPT-5.5 的編碼能力大幅躍升

在編碼領域，GPT-5.5 展現重大進展，尤其在需規劃及工具協調的複雜工作流程上。於 Terminal-Bench 2.0 基準測試中，它達到 82.7% 準確率，創下業界最佳紀錄；在 SWE-Bench Pro 上，則達 58.6%，單次通過解決更多真實 GitHub 問題，超越前代。內部基準測試顯示，它在長時程工程任務上表現優異，此類任務通常需人類開發者耗時高達 20 小時。

| 基準測試 | GPT-5.5 分數 | 備註 | |———-|————-|——| | Terminal-Bench 2.0 | 82.7% | 業界最佳 | | SWE-Bench Pro | 58.6% | 單次解決更多 GitHub 問題 | OpenAI 表示，進展不僅限於基準測試。早期測試者回饋，GPT-5.5 更善於理解系統架構及故障點，能定位修復位置並預測程式碼下游影響。公司強調效率與能力並重，GPT-5.5 的每 token 延遲與 GPT-5.4 相當，儘管智能更高，且完成相同任務使用更少 token，降低運算成本。「GPT-5.5 在不犧牲速度下實現智能躍升，」OpenAI 補充，並維持實務回應速度。除了編碼，GPT-5.5 擴展至日常知識工作，能跨任務收集資訊、分析數據並產生結構化輸出，如文件及試算表。

公司指，這反映 AI 系統主動操作軟件及工具的轉變，模型可解讀介面、執行動作並無縫切換工作流程。內部採用率高，逾 85% OpenAI 員工每周跨部門使用 Codex，包括工程、財務及市場部門。例如，傳播團隊用 GPT-5.5 處理六個月演講邀請數據，建立評分及風險框架，自動化低風險審批；財務團隊審核 24,771 份 K-1 稅表，總頁數逾 71,000 頁，排除個人數據並縮短兩週處理時間；另一團隊自動化每周業務報告，每周節省 5 至 10 小時。

OpenAI 強調安全部署，施加強大防護，包括紅隊測試、高級驗證及近 200 名早期合作夥伴回饋。「GPT-5.5 現向 ChatGPT 及 Codex 的 Plus、Pro、Business 及 Enterprise 用戶推出，」公司表示，API 存取將在滿足額外安全及擴展要求後跟進。此舉彰顯 OpenAI 持續打造代理式 AI 基礎設施，擴大人群及企業跨領域複雜工作應用。

OpenAI 發佈 GPT-5.5　Terminal-Bench 2.0 得分 82.7% 勝 Claude Opus 4.7

GPT-5.5 的編碼能力大幅躍升

Henderson

搜尋文章

GPT-5.5 的編碼能力大幅躍升

相關文章

Henderson

搜尋文章