OpenAI GPT-5.5 聯手英偉達 GB200 系統效能勝 GPT-5.4 延遲不變

OpenAI 這次沒有親自上陣解釋「初體驗被打到慘敗，那一幕就像看到原子的彈爆」，而是請來一群倉促（早期測試用戶）。其中一位英國達工程師，在早期測試結束後短暫失去了 GPT-5.5 的存取權限，之後說了這句話：失去 GPT-5.5，就好像被截肢。說歸說，吃歸吃。OpenAI 與英國達的這次合作是前所未有的。首先，GPT-5.5 和英國達 GB200、GB300 NVL72 系統是聯動設計的，訓練到部署，模型和硬體之間從碰撞開始就雙向馴化。

其次，推廣 Codex 到英國達全公司，奧特曼還出了與老黃的問答。

性能數據全面領先

合作成果，先看數據。與上個版本 GPT-5.4 相比，新模型在代碼、知識工作、科學研究三個領域全部拉開差距。綜合測試 Artificial Analysis Intelligence Index 結果，有兩種解讀方式：

指標	GPT-5.5	Claude Opus 4.7	GPT-5.4
Intelligence Index (相同分數)	消耗 token 更少	–	–
Intelligence Index (相同 token)	完成任務更多	–	–
Terminal-Bench 2.0	82.7%	69.4%	75.1%
GDPval (知識工作)	84.9%	80.3%	–
FrontierMath Tier 4	39.6%	22.9%	–

但最讓人意外的不是高分。過去每次模型升級，「更強」和「更慢」幾乎是賣點。這是 Scaling Law 的代價，更大的模型、更多參數、更長思考時間。用戶為智能買單的同時也在為延遲買單。GPT-5.5 打破了這鐵律。在真實生產環境中，它的逐 token 延遲與 GPT-5.4 相當，完成相同任務需要的 token 還比 GPT-5.4 少。效率更高，功能更強大。

（但價格翻倍）截至發稿，Codex 最新版已能用上 GPT-5.5。上上下文窗口也升級到 400K 給程式開絮。程式是 GPT-5.5 提升最兇猛的領域。上代模型用起來，還得小心翼翼拆任務，一步步看著它走，隨時準備抽鞭子。GPT-5.5 不一樣了。把需求丟過去，它自己拆解、自己執行、自己檢查。你只需看結果。 OpenAI 展示 Codex 下 GPT-5.

5 生成的 3D 動作品遊戲，在網頁上直接運行。包括用 TypeScript/Three.js 實現數戰系統、怪物遭遇、HUD 反饋以及 GPT 生成的環境織理。程式之外，知識工作和科學研究同樣展現壓倒性優勢。越來越多高級工程師在反饋同一件事：GPT-5.5 在推論和自主性上明顯強於 GPT-5.4 和 Claude Opus 4.7。它能提前發現問題，並在沒有明確提示下預測測試和審查需求。

早期測試者 Dan Shipper 做了一個實驗。他是初創公司 CEO，同時也是一名活躍的 AI 產品開發者。他的 App 上線後出了 bug，請一位頂尖工程師來重構。工程師花了一番工夫，最終給出解決方案。之後 Shipper 把時鐘撥回：把那段有 bug 的代碼丟給模型，看它能不能獨立做出與工程師一樣的決定。GPT-5.4 做不到。GPT-5.5 做到了。

Shipper 說，這是他第一次在程式模型身上感受到真正的「概念新奇」。不是接話，而是理解問題後自己想明白如何解決。科學家們這樣用它。Bartosz Naskręcki 是波蘭當代密爾瓦基大學的數學助教教授。他給 Codex 寫了一句話，11 分鐘後，一個描繪雙曲面交線的可視化應用就跑起來了。標成紅色，這能用 Riemann-Roch 定理解釋交線轉成 Weierstrass 曲線的標準形式。

後來他又擴展開更穩定的奇點可視化功能。一句話，11 分鐘。以前，光搭項目框架就得半天。 Derya Unutmaz 是紐約大學朗格謠免疫學實驗室的免疫學教授。他用 GPT-5.5 Pro 分析一份基因表達數據集：62 個樣本，將近 28000 個基因。最終產出一份完整的報告。他說，這本來要花整整一個月的時間。 OpenAI 對 GPT-5.5 在科研中的定位，有一句話概括得很準，它不再像一次性答案引擎，更像一個「研究夥伴」。

早期測試者拿它做的，不只是查資料。多輪批改論文，逐條挑戰證明的漏洞，提出新的分析方案。它記住了整個研究脈絡，每一輪對話都能建立在前一輪基礎上。 GPT-5.5 在數學領域做了件大事。Ramsey 數，組合數學裡最核心問題之一。通俗說，它研究的是一種網絡要大到什麼程度，才能保證某種顏色自然出現？比如，六個人裡一定有三個人互識，或三個人互不認識，這就是最簡單的 Ramsey 定理。

它是數學界頭疼十年的痛點，off-diagonal Ramsey 數的漸近性質更是長期懸而未決。GPT-5.5 找到了一條新證明路徑。不是複現已知方法，而是發現了一條新路。隨後，這個證明被數學界最嚴格的形式化驗證工具之一 Lean 確認無誤。一個 AI，在純數學的核心領域，做出了被形式化工具驗證的原創貢獻。一年前，這還不可想像。更強且不更慢的秘密「更強且更慢」怎麼做到？

答案不在某個環節做了優化。OpenAI 把整個推理系統推倒重來。前述 GPT-5.5 和英國達 GB200、GB300 NVL72 系統聯動設計，結果在同等延遲下，智能水準大幅提升。但還有另一細節。GPT-5.5 驅動的 Codex 系統，分析了數週的生產流量數據，然後寫出了一個負載均衡的自適應分區啟動式算法。以前，請求被切分成固定數量的塊，分發給多加速器處理。

但固定分塊策略在不同流量模式下並非總是最優。有時塊分得太粗，有時太細，資源利用率忽高忽低。Codex 看了數週真實流量數據，自己寫了一套自適應分區算法。根據實時流量形態動態調整分塊策略。token 生成速度提升超過 20%。模型優化了運行自己的基礎設施，AI 在讓自己跑得更快。推理系統的整體重構，加上模型參與自優化，兩件事湊在一起，帶來了這樣的結果。OpenAI 說，這是「走向用計算機完成工作的下一步」。

但當模型已經開始優化自己的運行基礎設施—— 這一步，到底走了多遠？ One More Thing 有 GPT-5.5，OpenAI 預計接下來模型發佈數據將加快。我們看到短期有相當顯著的進度，中期有極其顯著的進度。說這話的是首席科學家 Jakub Pachocki，場合是與記者的電台會議上。

AI 內容聲明：本文由 AI 工具輔助撰寫初稿，經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正，歡迎聯絡我們。

OpenAI GPT-5.5 聯手英偉達 GB200 系統 效能勝 GPT-5.4 延遲不變

性能數據全面領先

推薦內容

關於我們

OpenAI GPT-5.5 聯手英偉達 GB200 系統效能勝 GPT-5.4 延遲不變