OpenAI 最近發佈了其首個專為即時編碼而設計的 AI 模型 GPT-5.3-Codex-Spark,該模型能夠每秒生成超過 1,000 個標記,並能處理現實世界的軟件工程任務。Codex-Spark 是 GPT-5.3-Codex 的小型版本,現已作為研究預覽向 ChatGPT Pro 用戶推出。該模型針對超低延遲性能進行了優化,並在與 Cerebras 合作開發的專用硬件上運行。與為長期自動任務設計的大型前沿模型不同,Codex-Spark 專注於瞬時互動。開發者可以進行有針對性的編輯、重塑邏輯、優化界面,並立即看到變更。
Codex-Spark 的設計目的是支持協作編碼會話,在這些會話中,速度與智能同樣重要。啟動時,Codex-Spark 支持 128k 的上下文窗口,並且僅限文本使用。在預覽階段,它的使用受到單獨的速率限制,而這些使用不計入標準限制。然而,在需求高峰期間,用戶可能會經歷暫時排隊的情況。
Codex-Spark 的互動工作流程經過調校,默認情況下只進行最小且有針對性的編輯,除非被指示,否則不會自動運行測試。這種輕量級的工作風格允許開發者在任務進行中中斷或重定向模型,快速迭代。在如 SWE-Bench Pro 和 Terminal-Bench 2.0 等軟件工程基準測試中,Codex-Spark 展示了強大的準確性,並在完成任務的時間上大幅縮短,相比於 GPT-5.3-Codex 省時不少。這一速度優勢來自於模型優化和基礎設施升級,OpenAI 在其服務管道中實施了端到端的延遲改進,降低了客戶端與伺服器之間的往返延遲 80%,每標記的延遲 30%,以及首次標記的時間 50%。
Codex-Spark 預設啟用持久的 WebSocket 連接,並將很快擴展到其他模型。該模型基於 Cerebras Wafer Scale Engine 3 運行,這是一個專為高速推理而優化的 AI 加速器。這一合作為 OpenAI 的生產堆棧增加了一個低延遲服務層。Cerebras 的首席技術官兼聯合創始人 Sean Lie 表示,GPT-5.3-Codex-Spark 讓我們與 OpenAI 及開發者社區合作,探索高速推理所帶來的可能性,包括新的互動模式、新的用例,以及根本不同的模型體驗。這一預覽僅僅是個開始。
GPU 仍然是 OpenAI 更廣泛的訓練和推理系統的核心,提供了具有成本效益的性能。Cerebras 的硬件則通過專注於極低延遲的工作流程來補充這一設置。兩個系統也可以結合使用,以平衡速度和效率。Codex-Spark 包含與 OpenAI 主要模型相同的安全訓練,包括與網絡相關的安全保障。根據公司的評估過程,該模型未能達到在網絡安全或生物學方面的高風險能力閾值。此次發佈標誌著朝著融合即時協作和長期推理的雙模式 Codex 系統邁出的第一步。未來的更新預期將擴大功能,包括更大模型、更長的上下文窗口和多模態輸入。




