Anthropic 發佈 Claude Opus 4.7 具自審代碼能力 軟件工程基準得分升至 87.6%

Anthropic 其他 AI 廠商不同,鮮少大肆宣傳自家產品的強大性能。他們傾向於表示「我們有更強大的,但暫時不能提供」。因此,在 2026 年 4 月 17 日,Anthropic 發佈了 Claude Opus 4.7。這次發佈並無太多噱頭,官方博客平實列出性能分數、能力提升及應用場景。但若仔細閱讀整篇公告,會發現一些不尋常之處。Opus 4.7 緊隨 Anthropic 的 Project Glasswing 和 Mythos Preview 之後。

上週他們才宣布 Mythos Preview 因網絡安全能力過強,暫時限量發佈。因此,Opus 4.7 被明確定位為「首款用來測試新網絡安全保護的公開模型」。官方甚至透露,在訓練過程中,他們實驗性地削弱了這個模型的網絡安全能力。

Opus 4.7 的性能表現

先看標準分數。Opus 4.7 在多個基準測試中超越 Opus 4.6,尤其在高級軟件工程任務上。以下為官方圖表數據:

基準測試Opus 4.7Opus 4.6
SWE-Bench Verified87.6%80.8%
SWE-Bench Pro64.3%53.4%
Terminal-Bench 2.069.4%65.4%
Finance agent v1164.4%60.1%

這些數字意味著,用戶可將更複雜的編程工作交給 Opus 4.7,它能更嚴謹處理長時間運行的任務,更精確遵守指令,並在提交前思考驗證自身輸出。在早期測試的反饋中,有幾點值得留意。首先是指令遵守能力大幅提升。Opus 4.7 會嚴格按字面意思理解指令,而以往模型往往鬆散解讀或跳過某些部分。這聽來是好事,但實際可能帶來麻煩。Opus 4.7 更「聽話」,卻讓一些舊提示詞失效。

以往 Claude 會比較「懂事」,用戶寫模稜兩可的指令,它會自動補全真實意圖,或忽略不重要、互相衝突、不嚴謹的要求。許多用戶提示詞,正是依賴這種舊模型特性而生。但 Opus 4.7 官方表示,它更傾向嚴格按字面意思執行指令。因此,以前被模型自動忽略的小細節,現在可能被認真執行。以往模型會靈活處理模稜表達,現在反而會按最直接方式理解。結果模型明顯更強,但輸出反與用戶預期不一。

其次,多模態支援改善。Opus 4.7 可接收長達 2576 像素的圖像,約 3.75 百萬像素,是之前 Claude 模型的三倍。這非一般「識圖能力」升級,而是為 Anthropic 的 Computer Use 功能服務,讓 AI 看懂軟件界面。agent 若看不懂密集表格、終端輸出、設計細節、代碼截圖,其操作能力再強也無用,因為它只知該做什麼,卻不知去哪操作。

Anthropic 提升圖像解析度,本質是給 Claude 更精準的眼睛。未來 AI 代理、AI 測試、AI 安全、AI 前端開發,多數任務非純文字,而是屏幕任務。 第三,實務表現更佳。內部測試顯示,Opus 4.7 在金融分析任務上比 Opus 4.6 更有效,能產生更嚴謹的分析模型、更專業的演示文稿,以及更緊密的跨任務整合。它在第三方評估 GPQA val-AA 中也拿下最高分,涵蓋金融、法律等領域。

第四,記憶能力增強。Opus 4.7 更依賴文件系統記憶。它能在長週期、多會話工作中記住重點筆記,後續任務所需前提資訊更少。這點官方公告未明示,但應是長遠使用中最重要的更新。一個能跨會話記住項目約束、用戶偏好、架構決策及上次失敗原因的 agent,才能從「臨時幫手」變成「穩定夥伴」。 安全性和對齊方面,Opus 4.7 與 Opus 4.6 整體表現相若。

它在欺騙性和抵抗惡意提示注入攻擊上有所提升,在給出有害建議的能力上有所下降,例如如何製作管制刀具等問題。官方對齊評估結論是,這個模型「基本對齊且值得信賴,但行為上仍不完全理想」。 價格方面,Opus 4.7 與 Opus 4.6 維持不變。輸入每百萬 token US$5,約 HK$39;輸出每百萬 token US$25,約 HK$195。但遷移指南提到兩個本質變化。

新 tokenizer 可讓相同輸入變成 1.0 至 1.35 倍 token。在強思維模式下,尤其 agent 多輪對話,模型會思考更多,輸出 token 也可能更多。因此,這是 Anthropic 小心機之處。名義上價格沒變,但用得多就變貴。過往模型計價主要看輸入輸出長度,現在要看思考等級、任務預算、agent 用了幾輪、工作失敗後有無持續推理。Anthropic 新增 x-high effort 和 task budgets,表明高端模型的使用方式,正走現代雲計算的計費邏輯。

用戶買的不只是一次回應,而是給一個會思考、會試錯、會驗證的任務過程付費。 Anthropic 為何發佈「閹割」模型?Opus 4.7 的真正賣點之一,恐怕是它未完全釋放能力。這聽來反直覺,但可能是下一代模型公司的常態。模型越接近真實生產環境,越不能只求更強。它需知哪些事能做、哪些不能做、哪些用戶能開放更多複雜、哪些請求需擋下。Anthropic 發佈 Opus 4.

7 的同時,推出 Cyber Verification Program。這項目本質是給能力分級。普通用戶拿到的是有保護的 Opus,經認證的安全專家才能申請更寬的網絡安全路徑。模型會自動偵測阻擋明顯禁用或高風險網絡安全路徑的請求。Anthropic 表示,他們會從 Opus 4.7 的真實部署中學習,為未來 Mythos 級別模型廣泛發佈做準備。 不得不說這是 Anthropic 會玩。

他們認為 Opus 目前能力過剩,所以就把安全這件事,變成產品能力。過往一年,AI 公司的競爭邏輯是「我比你強」。分數更高、參數更多、能做的事更複雜。但當模型能力達某臨界點後,這邏輯開始失效。一個在網絡安全測試中表現太好的模型,可能意味它也能被惡意使用。一個完全不設限的 agent,就可能在用戶不知情情況下做出危險決策。Anthropic 選擇的路徑是,先把最強模型鎖起來,用積弱但足夠好的模型測試安全機制。

這非技術上做不到,而是主動選擇不做。這類「閹割」本已成產品差異化一部分。這策略能否成功,取決於市場是否認可「安全」概念。若用戶只在「能不能做到」,那 Anthropic 的做法會顯保守。但若企業客戶開始重視「會不會出事」,那這種分級發佈、主動削弱某些能力的做法,反可能成競爭優勢。 發佈 Opus 4.7 的同時,Anthropic 還更新 Claude Code,新增 auto mode 和 /ultrareview 功能。

auto mode 非模型自動選型,而是複雜選項。它允許 Claude 替用戶做某些複雜決策,讓長任務少被打斷,但風險低於完全跳過複雜確認。這設計針對 agent 產品的核心痛點:問太多,agent 像實現生;不問,風險太大。agent 時代最難設計的按鈕,不是「開始」,而是「允許」。過往 AI 只回應問題,複雜很少。現在它要改代碼、讀文件、聽指令、開網頁、提交 PR,每步都涉風險。

若每操作都要用戶確認,agent 自主性就失意義。但若完全放手,用戶又怕 AI 做不可逆錯誤。auto mode 本質,是在「別煩我」和「別亂來」間找平衡。它會依操作風險等級,決定自動執行、提示用戶,還是要求明確認權。這也是 agent 從「能幹什麼」,到「能不能用」間的巨大飛躍。 /ultrareview 是一個專門代碼審查會話,讀取變更並指出 bug 和設計問題。

這功能比寫代碼好玩得多,因為它標誌 AI 編程正式進入第二階段,讓 AI 自己審查 AI 自己產生的代碼。AI 寫代碼已不稀奇,真正稀缺的是 AI 能否審查自家代碼。/ultrareview 像 Anthropic 給 Claude Code 補上的第二雙眼睛。一個 agent 負責寫,另一個更嚴格的會話負責審。不用看數據也能猜到,這兩個功能一定是高頻。一來,本質上,這兩個功能過往就是所有用 Claude Code 的程式員幹的活。

生成代碼只是開發流程一部分,審查、測試、重構、文檔同等重要。若 AI 只做第一步,它永遠只是輔助工具。若它能參與整個流程,它才真正改變軟件開發方式。 這次發佈還有細節值得留意。官方在遷移指南專門提醒廣大用戶,Opus 4.7 的 token 使用可能增加,但在實際編程評估中,整體效率反提升。這表明他們優化的非單次調用成本,而是完成任務的總成本。一個 agent 若第一次就把事做對,即便單次調用貴一點,總成本也比反覆試錯低。

這是一種更成熟的產品思維。早期 AI 產品追求「便利」和「快」,現在開始追求「可靠」。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。