OpenAI 發佈 GPT-5.5 價格翻倍端到端操作及數學推理表現遙遙領先

OpenAI 意外發佈 GPT-5.5，大型模型越來越像智能體。核心變化不在回應寫得更炫麗，而在於它更像一個能自我接管系統：理解複雜目標，自己拆解任務、調試步驟、核結結果，將一件多環節任務從頭推到尾。OpenAI 這次想賣的不只是更聰明，而是真正能幹活。能力上去了，價格也跟著上去了。官方 API 定價 GPT-5.5 輸入每百萬 token US$5 (約 HK$39)；輸出 US$30 (約 HK$234)，對比 GPT-5.4 的 US$2.50 (約 HK$20) 和 US$15 (約 HK$117) 正好翻了一倍。不過 OpenAI 也說了，GPT-5.5 在不少複雜任務裡能用更少的 token 把事辦完。目前 GPT-5.5 已開始向 ChatGPT 和 Codex 滾動上線。ChatGPT 裡 GPT-5.5 Thinking 面向 Plus、Pro、Business 和 Enterprise 用戶，GPT-5.5 Pro 面向 Pro、Business 和 Enterprise 用戶。API 版本官方說很快跟上。

一份讓對手沉默的成績單：終端操作和數學推理全面開花

先看數據。GPT-5.5 在一系列硬核基準測試中，把上一代 GPT-5.4 甩在身後，也壓過了競爭對手一頭。在最能體現智能體規模和工作協調能力的 Terminal-Bench 2.0 測試中，GPT-5.5 達到 82.7% 正確率，大幅領先 Claude Opus 4.7 的 69.4% 和 Gemini 3.1 Pro 的 68.5%。在評估跨 44 種職業知識工作能力的 GDPval 測試中，GPT-5.5 取得 84.9% 勝率或平局率，Claude Opus 4.7 為 80.3%，Gemini 3.1 Pro 只有 67.3%。在量測模型自主操作真實計算機環境的 OSWorld-Verified 上，GPT-5.5 得分 78.7%，與 Claude Opus 4.7 的 78% 不相上下。數學能力方面 GPT-5.5 在 FrontierMath 上的表現尤其突出。

1 至 3 級題目得分 51.7%，Claude Opus 4.7 為 43.8%，Gemini 3.1 Pro 為 36.9%。到了最難的 4 級，GPT-5.5 的 35.4% 遠遠超過 Claude Opus 4.7 的 22.9%。網絡安全方面，CyberGym 測試中 GPT-5.5 得分 81.8%，Claude Opus 4.7 為 73.1%。

在客服場景的 Tau2-bench Telecom 測試中，GPT-5.5 無需任何提示調試即達到 98.0% 正確率。以下為部分基準測試成績比較：

測試項目	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0 正確率	82.7%	75%	69.4%	68.5%
GDPval 勝率/平局率	84.9%	–	80.3%	67.3%
OSWorld-Verified 分數	78.7%	–	78%	–
FrontierMath 1-3 級	51.7%	–	43.8%	36.9%
FrontierMath 4 級	35.4%	–	22.9%	–
CyberGym 分數	81.8%	–	73.1%	–
Tau2-bench Telecom 正確率	98.0%	92%	–	–

OpenAI 內部還有 Expert-SWE 基準，用來評估長週期編碼任務並預測人類專家中位完成時間為 20 小時。GPT-5.5 在這裡達到 73.1%，上一代 GPT-5.4 是 68.5%。在公開的 SWE-bench Pro 上，GPT-5.5 的 58.6% 與 Claude Opus 4.7 的 64.3% 互有勝負。第三方評測機構 Artificial Analysis 做了全面測試。

他們的結論是 GPT-5.5 讓 OpenAI 重回 AI 領軍絕對第一，在他們設定的智能指數中領先 3 分，打破了此前與 Anthropic 和 Google 三方平局的格局。五項核心評估中，GPT-5.5 在 Terminal-Bench Hard、GDPval-AA 和 APEX-Agents-AA 中平均居首。科學研究領域同樣沒落下。在專注遺傳學和定量生物學的 GeneBench 上 GPT-5.5 得分約 25%，GPT-5.4 約為 19%。在生物信息學基準 BixBench 上，GPT-5.5 以 80.5% 領先 GPT-5.4 的 74.0%。這些數字拼在一起，畫出了一個輪廓，即 GPT-5.5 在需要規模和持續執行的智能體任務上優勢明顯，在數學和網絡安全等需要深度推理的領域也拉開了距離，但在一些純學術推理上仍有進步空間。OpenAI 研究副總裁 Amelia Glaese 說，無論是在基準測試上，這絕對是他們至今最強的編碼模型。

但有一組數據不得不提前報開。在 Artificial Analysis 的私有基準測試 AA-Omniscience 中，GPT-5.5 展現了一個令人不安的特徵。GPT-5.5 的正確率是所有模型中最高的，達到 57%，意味著它在回憶事實方面的確優於所有競爭產品。然而它的幻覺率高達 86%。作為對比，Claude Opus 4.7 的幻覺率是 36%，Gemini 3.1 Pro 是 50%。換句話說，GPT-5.5 知道的東西確實更多，但當它不確定答案時，它選擇閉嘴的概率遠低於對手。它更傾向於給出一個回答，哪怕這個回答可能是錯的。這組數據與它明明該做什麼的核心特性形成了直接對沖。一個幻覺率 86% 的模型，意味著它在下次不確定的情況下有將近九次會選擇硬答而不是承認自己不知道。這種自信做錯事的傾向，恰恰是個被寄望於自主規模和執行任務的模型最需要警惕的特質。

這意味著，GPT-5.5 確實比前更願意幹活了，但它在幹活過程中不知道自己不知道什麼的概率，也比幾個主要競爭對手高出一大截。這不是一個能輕易抹帶過去的小瑕疵。如果這個模型真被委以獨立操作電腦、分析數據、生成報告的職責，那麼用它的人最好記住，它幹活的主動性和它犯錯的主動性可能來自同一種底層機制。Artificial Analysis 的測試表明，從 GPT-5.4 到 GPT-5.5 在這項基準上 14 分的增長主要由知識增長驅動，幻覺方面並無相應改善。這意味著在目前的架構下，更強的能力和更高的幻覺率可能是同一枚硬幣的兩面。

想睇更深入嘅 AI 模型與工程科技報道？

前往 The Base Principle 繁體中文 AI 新聞 →

OpenAI 發佈 GPT-5.5 價格翻倍端到端操作及數學推理表現遙遙領先

一份讓對手沉默的成績單：終端操作和數學推理全面開花

Henderson

搜尋文章

一份讓對手沉默的成績單：終端操作和數學推理全面開花

相關文章

Henderson

搜尋文章