Anthropic 發佈 Claude Opus 4.7 軟件工程基準升至 64.3%

Anthropic 近日發佈 Claude Opus 4.7,這款模型距離上一次 Opus 4.6 僅相隔兩個月,延續每兩個月一次的穩定迭代節奏。在軟件工程領域,Opus 4.7 取得最突出進步。在業界公認最硬核的 SWE-bench Pro 基準測試中,Opus 4.7 從前代的 53.4% 躍升至 64.3%,單代升級提升近 11 個百分點,大幅領先 GPT-5.

4(57.7%)和 Gemini 3.1 Pro(54.2%)。在 SWE-bench Verified 上更達 87.6%,CursorBench 也從 58% 升至 70%。

基準測試表現

Anthropic 表示,這是首個能自主通過「隱含需求測試」的 Claude 模型,模型需自行推斷所需工具或行動,而非被明確告知。早期測試中,它甚至能反駁用戶,拒絕盲從錯誤指令,用戶評價其「感覺像一個更好的同事」。在多項基準測試中,Opus 4.7 超越 GPT-5.4 和 Gemini 3.1 Pro:金融分析代理測試取得全球最高分;工具調用規模化評測 MCP-Atlas 達 77.

3%,超 GPT-5.4 的 68.1% 和 Gemini 的 73.9%;法律 AI 平台 Harvey 的 BigLaw 基準上拿下 90.9%;多步智能體推理提升 14%,工具錯誤減少三分之一。 | 基準測試項目 | Opus 4.7 | GPT-5.4 | Gemini 3.1 Pro | |———————–|———-|———|—————-|

| SWE-bench Pro | 64.3% | 57.7% | 54.2% | | SWE-bench Verified | 87.6% | – | – | | CursorBench | 70% | – | – |

| MCP-Atlas | 77.3% | 68.1% | 73.9% | | BigLaw (Harvey) | 90.9% | – | – | 不過,並非全面領先——Agentic search 評測 BrowseComp 從前代的 83.7% 降至 79.3%,被 GPT-5.

4(89.3%)和 Gemini(85.9%)反超。整體而言,在直接可比基準上 Opus 4.7 僅以 7 比 4 的優勢領先 GPT-5.4,各實驗室差距正迅速縮小。值得注意的是,Opus 4.7 並非 Anthropic 最強模型——Claude Mythos Preview 因安全顧慮被限制使用,與 Opus 4.7 存在全方位能力差距。在實際應用中,Opus 4.

7 可交付最複雜編碼任務,能自行設計驗證機制檢查輸出結果。Claude Code 新增自動化 Routines 功能,支持定時 / API / GitHub 觸發,合上電腦也能 7×24 小時運行,其年化營收已達 25 億美元。金融分析方面,它能生成嚴謹分析與建模、专业報告展示,任務間整合更緊密。視覺多模態支持邊長最大 2576 像素的圖像(約 3.75 百萬像素,是前代三倍多),可解讀密集截圖、複雜圖表和界面佈局,官方稱其更有「品味」且更具創造力。

此外,模型能跨會話記住關鍵信息並復用於新任務,減少前置上下文,並引入新護欄,自動檢測並攔截高風險網絡安全請求。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。