OpenAI 今日發佈了 GPT‑5.1-Codex-Max,這是一款專為長時間運行任務設計的新一代 Agentic 編碼模型。相較於之前的模型,GPT‑5.1-Codex-Max 採用了「壓縮(compaction)」技術,能在多個上下文窗口間有效運作,甚至可以在單次任務中可靠地處理百萬級別的 Token。OpenAI 表示,該模型不僅性能提升,還實現了更快、更高效的 Token 利用率。
根據了解,GPT‑5.1-Codex-Max 的訓練過程涵蓋了真實世界的軟件工程任務,包括 PR 創建、代碼評審、前端開發及問答等,並在眾多前沿編程評測中表現超越此前的模型。
例如,該模型在 SWE-Bench Verified(樣本數 500)上獲得了 77.9% 的得分,在 SWE-Lancer IC SWE 測評中達到 79.9%,在 TerminalBench 2.0 測評中則取得 58.1% 的成績,均高於 GPT-5.1-Codex 之前的表現。
除支持 Unix 平台外,GPT‑5.1-Codex-Max 還專門針對 Windows 環境進行了訓練。在複雜重構及長時間運行的 agent 循環中,大多數市面上的編碼模型受限於上下文窗口,難以持續工作。而 GPT‑5.
1-Codex-Max 能夠在接近窗口限制時自動壓縮會話內容,從而自主運行數小時甚至數十小時。根據 OpenAI 內部測試數據顯示,該模型可持續運行超過 24 小時。
此外,得益於推理能力的提升,GPT‑5.1-Codex-Max 在 SWE-Bench Verified 上完成相同任務時,使用的思考 Token 比 GPT-5.1-Codex 減少了 30%。透過「Extra High(xhigh)」推理模式,模型在複雜任務中可投入更深入的思考。
目前,GPT‑5.1-Codex-Max
已在 Codex CLI、IDE 擴展、雲端和代碼評審等產品中上線,支持 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 高級訂閱用戶。同時,OpenAI 也將於近期將該模型引入 API,並在 Codex 中替換為默認模型。




