Anthropic 正在推出 Claude Opus 4.5,這是一個全新的旗艦模型,定位為其迄今為止最佳的編碼選擇,適合長期運行的代理和計算機使用,並且在其平台和合作夥伴雲端的可用性更廣泛,價格亦大幅降低。
發佈日期、價格及可用性
Claude Opus 4.5 現在已在 Anthropic 自家的應用程式中提供,通過 Claude API 以模型名稱 claude-opus-4-5-20251101 使用,並在 Amazon Bedrock、Google Cloud 的 Vertex AI 及 Microsoft Foundry 上可用。
Anthropic 亦已為擁有 Opus 4.5 訪問權限的用戶撤銷了 Opus 特定的限制,並增加了 Max 和 Team Premium 計劃的整體限制,使 Opus 的使用大致上與之前在消費者應用中的 Sonnet 分配相當。
Claude Opus 4.5 的新功能
Anthropic 表示,Opus 4.5 是其迄今為止最具能力的模型,在現實世界的軟件工程基準測試中,其表現達到了尖端水平。在 SWE-bench Verified 的軟件修正評估中,Opus 4.5 的得分達到 80.9%,領先於 Claude Sonnet 4.5 和之前版本的 Opus,在 Anthropic 的內部排行榜上名列前茅。
該模型設計用來處理:
- 高級編碼 – 將數天的軟件項目壓縮至幾小時內,並在各種語言、規劃和架構方面進行改進。
- 代理工作流程 – 需要規劃、工具使用和適應性決策的長期、多步驟任務。
- 企業文檔 – 生成和編輯電子表格、簡報和長篇文檔,保持一致的結構和語調。
Opus 4.5 亦改善了視覺和計算機使用。在 OSWorld 測評中,該模型在現實世界的計算機任務上達到了 Anthropic 至今最佳的得分,使得瀏覽器和桌面自動化更為可靠。
Anthropic 特別強調 20 萬個令牌的上下文窗口和“混合推理”功能,支持快速回答和延展性思考。Claude API 上的努力參數讓開發者可以在延遲和成本之間進行權衡,以獲得更深層的推理:在中等努力下,Opus 4.5 的表現匹配 Sonnet 4.5 的最佳 SWE-bench Verified 得分,但使用的輸出令牌少了 76%;在高努力下,Opus 4.5 超越了 Sonnet 4.5,同時仍然使用較少的令牌。
編碼、代理及計算機使用的改進
Opus 4.5 的目標是生產軟件工程和可以跨多種工具工作的代理。Anthropic 報告稱:
- 在 SWE-bench Multilingual 的 8 種編程語言中,7 種的表現為領先。
- 在 Aider Polyglot 編碼基準中,較 Sonnet 4.5 提升了 10.6 分。
- 在代理搜索(BrowseComp-Plus)及長期任務基準(如 Vending-Bench)中獲得了更高的得分。
測試 Opus 4.5 的客戶表示在長期編碼任務中效率有所提升,其中一些人報告稱為達到相同或更好結果,所需的令牌減少了高達 65%,並且在工具調用和構建錯誤方面明顯減少。Anthropic 自家用於性能工程候選人的內部工程考試中,Opus 4.5 在兩小時的限制內的得分高於任何人類候選者,當時使用了 Claude Code 內的並行測試計算。
該模型的代理行為設計得更加持久和創造,能夠在約束條件下找到非顯而易見但符合政策的解決方案,例如在航空訂票問題中通過升級票類再更改航班日期來重組步驟。
Claude 應用程式和開發者工具的更新
除了該模型,Anthropic 還在更新整個 Claude 生態系統,以利用 Opus 4.5 的優勢。
- Claude 應用程式:長對話現在會自動壓縮舊的上下文,以便聊天可以繼續而不會達到硬性限制。Claude for Chrome 擴展讓模型可以在瀏覽器標籤之間工作,已對所有 Max 用戶開放,而 Claude for Excel 在 Max、Team 和 Enterprise 層級中處於測試階段。
- Claude Code:計劃模式現在會詢問澄清問題,生成用戶可以編輯的 plan.md 文件,然後根據該計劃執行。Claude Code 也可在桌面應用中使用,允許多個本地和遠程編碼會話並行進行。
- 開發者平台:努力控制、上下文壓縮助手和高級工具使用功能現在對開發者開放,能夠支持運行更長時間的代理而需要更少的干預。Anthropic 報告稱,當將這些技術與 Opus 4.5 結合使用時,深度研究評估的得分提升了約 15 分。
在 Azure 上,Microsoft Foundry 將 Opus 4.5 整合到其模型目錄、GitHub Copilot 的付費計劃以及 Microsoft Copilot Studio,將其定位為跨編碼、金融建模、網絡安全及其他重度工具使用的生產代理選擇。
安全性、對齊及保安
Anthropic 將 Opus 4.5 分類為其迄今為止最強大的對齊前沿模型,在其內部對齊指標上,該模型的“令人擔憂的行為”得分低於之前的 Claude 發佈版本。Claude Opus 4.5 的系統卡詳述了在欺騙、拍馬屁、權力追求及其他失敗模式的評估。
該模型亦增強了對提示注入攻擊的防禦,這類攻擊會試圖通過惡意指令覆蓋預期行為。Anthropic 報告稱,Opus 4.5 比其他前沿模型在由 Gray Swan 開發的強大外部提示注入基準測試中更難被欺騙。
對於考慮使用哪個 Claude 層級的企業來說,Opus 4.5 現在位於 Sonnet 4.5 和 Haiku 的上方,面向最艱難的編碼和代理工作負載,同時保持成本和安全與大規模部署相符。
隨著 Anthropic 和其雲端合作夥伴將 Opus 4.5 整合到更多產品中,該模型很可能會成為許多自主編碼代理和辦公室自動化的默認引擎,而不再是一個小眾的高端選擇。