OpenAI 發佈 GPT-5.5 Terminal-Bench 2.0 得分 82.7% 勝 Claude Opus 4.7

OpenAI 推出 GPT-5.5,將其定位為公司迄今最強大且直觀的模型,專注幫助用戶獨立完成複雜的多步驟任務。此版本延續向「代理式」(agentic)AI 系統推進,這些系統能規劃、執行並優化工件,減少人類干預。公司表示,該模型提升用戶在編碼、研究及一般知識工作中的 AI 互動體驗。用戶無需指導每個步驟,即可分配更廣泛任務,讓模型處理歧義並完成工作流程。「GPT-5.

5 更快理解用戶意圖,並自行承擔更多工作,」公司指出。

GPT-5.5 的編碼能力大幅躍升

在編碼領域,GPT-5.5 展現重大進展,尤其在需規劃及工具協調的複雜工作流程上。於 Terminal-Bench 2.0 基準測試中,它達到 82.7% 準確率,創下業界最佳紀錄;在 SWE-Bench Pro 上,則達 58.6%,單次通過解決更多真實 GitHub 問題,超越前代。內部基準測試顯示,它在長時程工程任務上表現優異,此類任務通常需人類開發者耗時高達 20 小時。

| 基準測試 | GPT-5.5 分數 | 備註 | |———-|————-|——| | Terminal-Bench 2.0 | 82.7% | 業界最佳 | | SWE-Bench Pro | 58.6% | 單次解決更多 GitHub 問題 | OpenAI 表示,進展不僅限於基準測試。早期測試者回饋,GPT-5.

5 更善於理解系統架構及故障點,能定位修復位置並預測程式碼下游影響。公司強調效率與能力並重,GPT-5.5 的每 token 延遲與 GPT-5.4 相當,儘管智能更高,且完成相同任務使用更少 token,降低運算成本。「GPT-5.5 在不犧牲速度下實現智能躍升,」OpenAI 補充,並維持實務回應速度。 除了編碼,GPT-5.5 擴展至日常知識工作,能跨任務收集資訊、分析數據並產生結構化輸出,如文件及試算表。

公司指,這反映 AI 系統主動操作軟件及工具的轉變,模型可解讀介面、執行動作並無縫切換工作流程。內部採用率高,逾 85% OpenAI 員工每周跨部門使用 Codex,包括工程、財務及市場部門。例如,傳播團隊用 GPT-5.5 處理六個月演講邀請數據,建立評分及風險框架,自動化低風險審批;財務團隊審核 24,771 份 K-1 稅表,總頁數逾 71,000 頁,排除個人數據並縮短兩週處理時間;另一團隊自動化每周業務報告,每周節省 5 至 10 小時。

OpenAI 強調安全部署,施加強大防護,包括紅隊測試、高級驗證及近 200 名早期合作夥伴回饋。「GPT-5.5 現向 ChatGPT 及 Codex 的 Plus、Pro、Business 及 Enterprise 用戶推出,」公司表示,API 存取將在滿足額外安全及擴展要求後跟進。此舉彰顯 OpenAI 持續打造代理式 AI 基礎設施,擴大人群及企業跨領域複雜工作應用。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。