Anthropic 發佈 Claude Opus 4.7 軟件工程基準升至 64.3%

Anthropic 近日發佈 Claude Opus 4.7，這款模型距離上一次 Opus 4.6 僅相隔兩個月，延續每兩個月一次的穩定迭代節奏。在軟件工程領域，Opus 4.7 取得最突出進步。在業界公認最硬核的 SWE-bench Pro 基準測試中，Opus 4.7 從前代的 53.4% 躍升至 64.3%，單代升級提升近 11 個百分點，大幅領先 GPT-5.4（57.7%）和 Gemini 3.1 Pro（54.2%）。在 SWE-bench Verified 上更達 87.6%，CursorBench 也從 58% 升至 70%。

基準測試表現

Anthropic 表示，這是首個能自主通過「隱含需求測試」的 Claude 模型，模型需自行推斷所需工具或行動，而非被明確告知。早期測試中，它甚至能反駁用戶，拒絕盲從錯誤指令，用戶評價其「感覺像一個更好的同事」。在多項基準測試中，Opus 4.7 超越 GPT-5.4 和 Gemini 3.1 Pro：金融分析代理測試取得全球最高分；工具調用規模化評測 MCP-Atlas 達 77.3%，超 GPT-5.4 的 68.1% 和 Gemini 的 73.9%；法律 AI 平台 Harvey 的 BigLaw 基準上拿下 90.9%；多步智能體推理提升 14%，工具錯誤減少三分之一。 | 基準測試項目 | Opus 4.7 | GPT-5.4 | Gemini 3.1 Pro | |———————–|———-|———|—————-|

| SWE-bench Pro | 64.3% | 57.7% | 54.2% | | SWE-bench Verified | 87.6% | – | – | | CursorBench | 70% | – | – |

| MCP-Atlas | 77.3% | 68.1% | 73.9% | | BigLaw (Harvey) | 90.9% | – | – | 不過，並非全面領先——Agentic search 評測 BrowseComp 從前代的 83.7% 降至 79.3%，被 GPT-5.4（89.3%）和 Gemini（85.9%）反超。整體而言，在直接可比基準上 Opus 4.7 僅以 7 比 4 的優勢領先 GPT-5.4，各實驗室差距正迅速縮小。值得注意的是，Opus 4.7 並非 Anthropic 最強模型——Claude Mythos Preview 因安全顧慮被限制使用，與 Opus 4.7 存在全方位能力差距。在實際應用中，Opus 4.7 可交付最複雜編碼任務，能自行設計驗證機制檢查輸出結果。Claude Code 新增自動化 Routines 功能，支持定時 / API / GitHub 觸發，合上電腦也能 7×24 小時運行，其年化營收已達 25 億美元。金融分析方面，它能生成嚴謹分析與建模、专业報告展示，任務間整合更緊密。視覺多模態支持邊長最大 2576 像素的圖像（約 3.75 百萬像素，是前代三倍多），可解讀密集截圖、複雜圖表和界面佈局，官方稱其更有「品味」且更具創造力。

此外，模型能跨會話記住關鍵信息並復用於新任務，減少前置上下文，並引入新護欄，自動檢測並攔截高風險網絡安全請求。

Anthropic 發佈 Claude Opus 4.7 軟件工程基準升至 64.3%

基準測試表現

Henderson

搜尋文章

基準測試表現

相關文章

Henderson

搜尋文章