Anthropic 發佈 Claude Opus 4.7 具自審代碼能力軟件工程基準得分升至 87.6%

Anthropic 其他 AI 廠商不同，鮮少大肆宣傳自家產品的強大性能。他們傾向於表示「我們有更強大的，但暫時不能提供」。因此，在 2026 年 4 月 17 日，Anthropic 發佈了 Claude Opus 4.7。這次發佈並無太多噱頭，官方博客平實列出性能分數、能力提升及應用場景。但若仔細閱讀整篇公告，會發現一些不尋常之處。Opus 4.7 緊隨 Anthropic 的 Project Glasswing 和 Mythos Preview 之後。

上週他們才宣布 Mythos Preview 因網絡安全能力過強，暫時限量發佈。因此，Opus 4.7 被明確定位為「首款用來測試新網絡安全保護的公開模型」。官方甚至透露，在訓練過程中，他們實驗性地削弱了這個模型的網絡安全能力。

Opus 4.7 的性能表現

先看標準分數。Opus 4.7 在多個基準測試中超越 Opus 4.6，尤其在高級軟件工程任務上。以下為官方圖表數據：

基準測試	Opus 4.7	Opus 4.6
SWE-Bench Verified	87.6%	80.8%
SWE-Bench Pro	64.3%	53.4%
Terminal-Bench 2.0	69.4%	65.4%
Finance agent v11	64.4%	60.1%

這些數字意味著，用戶可將更複雜的編程工作交給 Opus 4.7，它能更嚴謹處理長時間運行的任務，更精確遵守指令，並在提交前思考驗證自身輸出。在早期測試的反饋中，有幾點值得留意。首先是指令遵守能力大幅提升。Opus 4.7 會嚴格按字面意思理解指令，而以往模型往往鬆散解讀或跳過某些部分。這聽來是好事，但實際可能帶來麻煩。Opus 4.7 更「聽話」，卻讓一些舊提示詞失效。

以往 Claude 會比較「懂事」，用戶寫模稜兩可的指令，它會自動補全真實意圖，或忽略不重要、互相衝突、不嚴謹的要求。許多用戶提示詞，正是依賴這種舊模型特性而生。但 Opus 4.7 官方表示，它更傾向嚴格按字面意思執行指令。因此，以前被模型自動忽略的小細節，現在可能被認真執行。以往模型會靈活處理模稜表達，現在反而會按最直接方式理解。結果模型明顯更強，但輸出反與用戶預期不一。

其次，多模態支援改善。Opus 4.7 可接收長達 2576 像素的圖像，約 3.75 百萬像素，是之前 Claude 模型的三倍。這非一般「識圖能力」升級，而是為 Anthropic 的 Computer Use 功能服務，讓 AI 看懂軟件界面。agent 若看不懂密集表格、終端輸出、設計細節、代碼截圖，其操作能力再強也無用，因為它只知該做什麼，卻不知去哪操作。

Anthropic 提升圖像解析度，本質是給 Claude 更精準的眼睛。未來 AI 代理、AI 測試、AI 安全、AI 前端開發，多數任務非純文字，而是屏幕任務。第三，實務表現更佳。內部測試顯示，Opus 4.7 在金融分析任務上比 Opus 4.6 更有效，能產生更嚴謹的分析模型、更專業的演示文稿，以及更緊密的跨任務整合。它在第三方評估 GPQA val-AA 中也拿下最高分，涵蓋金融、法律等領域。

第四，記憶能力增強。Opus 4.7 更依賴文件系統記憶。它能在長週期、多會話工作中記住重點筆記，後續任務所需前提資訊更少。這點官方公告未明示，但應是長遠使用中最重要的更新。一個能跨會話記住項目約束、用戶偏好、架構決策及上次失敗原因的 agent，才能從「臨時幫手」變成「穩定夥伴」。安全性和對齊方面，Opus 4.7 與 Opus 4.6 整體表現相若。

它在欺騙性和抵抗惡意提示注入攻擊上有所提升，在給出有害建議的能力上有所下降，例如如何製作管制刀具等問題。官方對齊評估結論是，這個模型「基本對齊且值得信賴，但行為上仍不完全理想」。價格方面，Opus 4.7 與 Opus 4.6 維持不變。輸入每百萬 token US$5 (約 HK$39)；輸出每百萬 token US$25 (約 HK$195)。但遷移指南提到兩個本質變化。

新 tokenizer 可讓相同輸入變成 1.0 至 1.35 倍 token。在強思維模式下，尤其 agent 多輪對話，模型會思考更多，輸出 token 也可能更多。因此，這是 Anthropic 小心機之處。名義上價格沒變，但用得多就變貴。過往模型計價主要看輸入輸出長度，現在要看思考等級、任務預算、agent 用了幾輪、工作失敗後有無持續推理。Anthropic 新增 x-high effort 和 task budgets，表明高端模型的使用方式，正走現代雲計算的計費邏輯。

用戶買的不只是一次回應，而是給一個會思考、會試錯、會驗證的任務過程付費。 Anthropic 為何發佈「閹割」模型？Opus 4.7 的真正賣點之一，恐怕是它未完全釋放能力。這聽來反直覺，但可能是下一代模型公司的常態。模型越接近真實生產環境，越不能只求更強。它需知哪些事能做、哪些不能做、哪些用戶能開放更多複雜、哪些請求需擋下。Anthropic 發佈 Opus 4.7 的同時，推出 Cyber Verification Program。這項目本質是給能力分級。普通用戶拿到的是有保護的 Opus，經認證的安全專家才能申請更寬的網絡安全路徑。模型會自動偵測阻擋明顯禁用或高風險網絡安全路徑的請求。Anthropic 表示，他們會從 Opus 4.7 的真實部署中學習，為未來 Mythos 級別模型廣泛發佈做準備。不得不說這是 Anthropic 會玩。

他們認為 Opus 目前能力過剩，所以就把安全這件事，變成產品能力。過往一年，AI 公司的競爭邏輯是「我比你強」。分數更高、參數更多、能做的事更複雜。但當模型能力達某臨界點後，這邏輯開始失效。一個在網絡安全測試中表現太好的模型，可能意味它也能被惡意使用。一個完全不設限的 agent，就可能在用戶不知情情況下做出危險決策。Anthropic 選擇的路徑是，先把最強模型鎖起來，用積弱但足夠好的模型測試安全機制。

這非技術上做不到，而是主動選擇不做。這類「閹割」本已成產品差異化一部分。這策略能否成功，取決於市場是否認可「安全」概念。若用戶只在「能不能做到」，那 Anthropic 的做法會顯保守。但若企業客戶開始重視「會不會出事」，那這種分級發佈、主動削弱某些能力的做法，反可能成競爭優勢。發佈 Opus 4.7 的同時，Anthropic 還更新 Claude Code，新增 auto mode 和 /ultrareview 功能。

auto mode 非模型自動選型，而是複雜選項。它允許 Claude 替用戶做某些複雜決策，讓長任務少被打斷，但風險低於完全跳過複雜確認。這設計針對 agent 產品的核心痛點：問太多，agent 像實現生；不問，風險太大。agent 時代最難設計的按鈕，不是「開始」，而是「允許」。過往 AI 只回應問題，複雜很少。現在它要改代碼、讀文件、聽指令、開網頁、提交 PR，每步都涉風險。

若每操作都要用戶確認，agent 自主性就失意義。但若完全放手，用戶又怕 AI 做不可逆錯誤。auto mode 本質，是在「別煩我」和「別亂來」間找平衡。它會依操作風險等級，決定自動執行、提示用戶，還是要求明確認權。這也是 agent 從「能幹什麼」，到「能不能用」間的巨大飛躍。 /ultrareview 是一個專門代碼審查會話，讀取變更並指出 bug 和設計問題。

這功能比寫代碼好玩得多，因為它標誌 AI 編程正式進入第二階段，讓 AI 自己審查 AI 自己產生的代碼。AI 寫代碼已不稀奇，真正稀缺的是 AI 能否審查自家代碼。/ultrareview 像 Anthropic 給 Claude Code 補上的第二雙眼睛。一個 agent 負責寫，另一個更嚴格的會話負責審。不用看數據也能猜到，這兩個功能一定是高頻。一來，本質上，這兩個功能過往就是所有用 Claude Code 的程式員幹的活。

生成代碼只是開發流程一部分，審查、測試、重構、文檔同等重要。若 AI 只做第一步，它永遠只是輔助工具。若它能參與整個流程，它才真正改變軟件開發方式。這次發佈還有細節值得留意。官方在遷移指南專門提醒廣大用戶，Opus 4.7 的 token 使用可能增加，但在實際編程評估中，整體效率反提升。這表明他們優化的非單次調用成本，而是完成任務的總成本。一個 agent 若第一次就把事做對，即便單次調用貴一點，總成本也比反覆試錯低。

這是一種更成熟的產品思維。早期 AI 產品追求「便利」和「快」，現在開始追求「可靠」。

Anthropic 發佈 Claude Opus 4.7 具自審代碼能力軟件工程基準得分升至 87.6%

Opus 4.7 的性能表現

Henderson

搜尋文章

Opus 4.7 的性能表現

相關文章

Henderson

搜尋文章