OpenAI GPT-5.5 聯手英偉達 GB200 系統 效能勝 GPT-5.4 延遲不變

OpenAI 這次沒有親自上陣解釋「初體驗被打到慘敗,那一幕就像看到原子的彈爆」,而是請來一群倉促(早期測試用戶)。其中一位英國達工程師,在早期測試結束後短暫失去了 GPT-5.5 的存取權限,之後說了這句話:失去 GPT-5.5,就好像被截肢。說歸說,吃歸吃。OpenAI 與英國達的這次合作是前所未有的。 首先,GPT-5.5 和英國達 GB200、GB300 NVL72 系統是聯動設計的,訓練到部署,模型和硬體之間從碰撞開始就雙向馴化。

其次,推廣 Codex 到英國達全公司,奧特曼還出了與老黃的問答。

性能數據全面領先

合作成果,先看數據。與上個版本 GPT-5.4 相比,新模型在代碼、知識工作、科學研究三個領域全部拉開差距。綜合測試 Artificial Analysis Intelligence Index 結果,有兩種解讀方式:

指標GPT-5.5Claude Opus 4.7GPT-5.4
Intelligence Index (相同分數)消耗 token 更少
Intelligence Index (相同 token)完成任務更多
Terminal-Bench 2.082.7%69.4%75.1%
GDPval (知識工作)84.9%80.3%
FrontierMath Tier 439.6%22.9%

但最讓人意外的不是高分。過去每次模型升級,「更強」和「更慢」幾乎是賣點。這是 Scaling Law 的代價,更大的模型、更多參數、更長思考時間。用戶為智能買單的同時也在為延遲買單。GPT-5.5 打破了這鐵律。在真實生產環境中,它的逐 token 延遲與 GPT-5.4 相當,完成相同任務需要的 token 還比 GPT-5.4 少。效率更高,功能更強大。

(但價格翻倍) 截至發稿,Codex 最新版已能用上 GPT-5.5。上上下文窗口也升級到 400K 給程式開絮。程式是 GPT-5.5 提升最兇猛的領域。上代模型用起來,還得小心翼翼拆任務,一步步看著它走,隨時準備抽鞭子。GPT-5.5 不一樣了。把需求丟過去,它自己拆解、自己執行、自己檢查。你只需看結果。 OpenAI 展示 Codex 下 GPT-5.

5 生成的 3D 動作品遊戲,在網頁上直接運行。包括用 TypeScript/Three.js 實現數戰系統、怪物遭遇、HUD 反饋以及 GPT 生成的環境織理。 程式之外,知識工作和科學研究同樣展現壓倒性優勢。越來越多高級工程師在反饋同一件事:GPT-5.5 在推論和自主性上明顯強於 GPT-5.4 和 Claude Opus 4.7。它能提前發現問題,並在沒有明確提示下預測測試和審查需求。

早期測試者 Dan Shipper 做了一個實驗。他是初創公司 CEO,同時也是一名活躍的 AI 產品開發者。他的 App 上線後出了 bug,請一位頂尖工程師來重構。工程師花了一番工夫,最終給出解決方案。之後 Shipper 把時鐘撥回:把那段有 bug 的代碼丟給模型,看它能不能獨立做出與工程師一樣的決定。GPT-5.4 做不到。GPT-5.5 做到了。

Shipper 說,這是他第一次在程式模型身上感受到真正的「概念新奇」。不是接話,而是理解問題後自己想明白如何解決。 科學家們這樣用它。Bartosz Naskręcki 是波蘭當代密爾瓦基大學的數學助教教授。他給 Codex 寫了一句話,11 分鐘後,一個描繪雙曲面交線的可視化應用就跑起來了。標成紅色,這能用 Riemann-Roch 定理解釋交線轉成 Weierstrass 曲線的標準形式。

後來他又擴展開更穩定的奇點可視化功能。一句話,11 分鐘。以前,光搭項目框架就得半天。 Derya Unutmaz 是紐約大學朗格謠免疫學實驗室的免疫學教授。他用 GPT-5.5 Pro 分析一份基因表達數據集:62 個樣本,將近 28000 個基因。最終產出一份完整的報告。他說,這本來要花整整一個月的時間。 OpenAI 對 GPT-5.5 在科研中的定位,有一句話概括得很準,它不再像一次性答案引擎,更像一個「研究夥伴」。

早期測試者拿它做的,不只是查資料。多輪批改論文,逐條挑戰證明的漏洞,提出新的分析方案。它記住了整個研究脈絡,每一輪對話都能建立在前一輪基礎上。 GPT-5.5 在數學領域做了件大事。Ramsey 數,組合數學裡最核心問題之一。通俗說,它研究的是一種網絡要大到什麼程度,才能保證某種顏色自然出現?比如,六個人裡一定有三個人互識,或三個人互不認識,這就是最簡單的 Ramsey 定理。

它是數學界頭疼十年的痛點,off-diagonal Ramsey 數的漸近性質更是長期懸而未決。GPT-5.5 找到了一條新證明路徑。不是複現已知方法,而是發現了一條新路。隨後,這個證明被數學界最嚴格的形式化驗證工具之一 Lean 確認無誤。一個 AI,在純數學的核心領域,做出了被形式化工具驗證的原創貢獻。一年前,這還不可想像。 更強且不更慢的秘密「更強且更慢」怎麼做到?

答案不在某個環節做了優化。OpenAI 把整個推理系統推倒重來。前述 GPT-5.5 和英國達 GB200、GB300 NVL72 系統聯動設計,結果在同等延遲下,智能水準大幅提升。但還有另一細節。GPT-5.5 驅動的 Codex 系統,分析了數週的生產流量數據,然後寫出了一個負載均衡的自適應分區啟動式算法。 以前,請求被切分成固定數量的塊,分發給多加速器處理。

但固定分塊策略在不同流量模式下並非總是最優。有時塊分得太粗,有時太細,資源利用率忽高忽低。Codex 看了數週真實流量數據,自己寫了一套自適應分區算法。根據實時流量形態動態調整分塊策略。token 生成速度提升超過 20%。 模型優化了運行自己的基礎設施,AI 在讓自己跑得更快。推理系統的整體重構,加上模型參與自優化,兩件事湊在一起,帶來了這樣的結果。OpenAI 說,這是「走向用計算機完成工作的下一步」。

但當模型已經開始優化自己的運行基礎設施—— 這一步,到底走了多遠? One More Thing 有 GPT-5.5,OpenAI 預計接下來模型發佈數據將加快。我們看到短期有相當顯著的進度,中期有極其顯著的進度。說這話的是首席科學家 Jakub Pachocki,場合是與記者的電台會議上。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。