OpenAI 發佈 GPT-5.6 系列模型 限制初期合作夥伴使用權限

OpenAI 推出了 GPT-5.6,這是一系列大型語言模型的新家族,以其旗艦模型 Sol 為首,並同時推出了針對不同性能和成本需求而設的 Terra 和 Luna 變體。然而,該公司在美國政府的要求下,將初始推出限制在少數可信賴的美國合作夥伴中。GPT-5.6 系列引入了一個新的命名系統,其中 Sol 代表最高能力層級,Terra 提供相當於 GPT-5.5 的性能,但成本僅為其一半,而 Luna 則針對低成本和快速 AI 應用。

OpenAI 表示,這些模型將在未來幾周內通過 ChatGPT、Codex 和其 API 一般可用。GPT-5.6 Sol 還引入了一種新的最大推理模式,讓模型有更多時間解決複雜任務。OpenAI 亦推出了一種超級模式,使用子代理來處理超出單一 AI 代理能力的複雜工作流程。該公司表示,GPT-5.6 Sol 在編程、生物學和網絡安全方面提供了迄今為止最強的性能,同時引入了“最強的安全堆疊”。

根據 OpenAI 的説法,GPT-5.6 Sol 在 TerminalBench 2.1 上達到了新的領先水平,這是針對命令行編程工作流的基準測試。在生物學方面,該模型在 GeneBench v1 上的表現超過了 GPT-5.5,且使用的輸出標記更少。OpenAI 亦強調在網絡安全方面的進步。在 ExploitBench 上,GPT-5.6 Sol 的表現與 Anthropic 的 Mythos Preview 相當,但使用的輸出標記大約只有三分之一。

在由加州大學伯克利分校的研究人員與 OpenAI 和其他前沿 AI 實驗室共同開發的 ExploitGym 上,所有三個 GPT-5.6 模型的網絡能力隨著推理的增加而有所改善。儘管取得了這些進展,OpenAI 表示 GPT-5.6 Sol 在其準備框架下仍未超越網絡安全關鍵閾值。該公司表示:“GPT-5.6 Sol 更擅長幫助人們發現和修復漏洞,而不是可靠地進行端到端攻擊。

OpenAI 引入分層安全系統以加強模型保護

該公司還引入了一套分層安全系統,結合了模型層級的保護、實時濫用檢測、賬户層級監控、差異化訪問以及廣泛的自動化和人工紅隊測試。OpenAI 表示,為了在發布前揭示越獄技術,公司投入了超過 700,000 小時的 A100 等效 GPU 時間進行自動化紅隊測試。與以往的發布不同,GPT-5.6 將最初僅對選定的可信合作夥伴提供。OpenAI 表示:“作為我們與美國政府持續接觸的一部分,我們在今天的發布之前預覽了我們的計劃和模型的能力,應他們的要求,我們將以有限的預覽開始,僅對一小部分已經與政府分享的可信夥伴開放,

然後再進行更廣泛的發布。” OpenAI 表示不希望政府預覽成為標準做法。“我們不認為這種政府訪問程序應該成為長期的默認做法,”該公司表示,並補充説,這是與政府合作建立未來前沿 AI 發布的可重複框架時所採取的臨時措施。首席執行官 Sam Altman 在 X 平台上重申了這一觀點,表示政府要求進行有限的預覽,而非 OpenAI 原本計劃的更廣泛發布。

他補充説,該公司希望能盡快將 GPT-5.6 廣泛提供,同時為未來的發布制定透明的流程。

Henderson
Henderson

Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。