Anthropic 技術報告承認 Claude 模型性能下降 源於三項調整錯誤

人造智能企業 Anthropic 發佈技術重盤報告承認,產品層面的三項近期調整導致 Claude 模型性能力下降,但明確否認為節省算力而「降智」的說法。目前,相關漏洞及限制已修復。 近期,AI 圈內關於 Anthropic 旗下模型 Claude「暗中縮水」的質疑聲四起。大量開發者與資深用戶在各大技術社群反饋,Claude 不僅在處理複雜工程任務時持續推理能力斷崖式下滑、幻覺頻發,在 Token 消耗上也變得極為低效。

面對外界質疑,Anthropic 在官方博客回應指:「公司極為重視關於性能力退化的反饋,絕不會有意降低模型性能力。經排查確認,API 及推理層並未受影響。」

三項調整詳情

報告指出,底層模型權重 (Model weights) 並未發生變化,問題源於模型外圍「封裝框架」(Harness) 的三項獨立調整:

調整項目日期詳情影響
默認推理力度下調3 月 4 日為緩解用戶界面 (UI) 延遲及無響應問題,將 Claude Code 的默認推理力度由「高」調至「中」。直接導致模型處理複雜任務時的邏輯分析能力受限。
緩存邏輯漏洞3 月 26 日部署的緩存優化方案存代碼缺失。原計劃在會話閒置一小時後清理歷史「思考過程」,但實際運行中,清理動作在每輪對話後即被觸發。導致模型丟失上下文「短期記憶」,輸出內容出現重複或遺忘。
系統提示詞冗餘限制4 月 16 日為減少 Opus 4.7 版本的輸出冗長問題,系統新增指令,將工程調整用的文本及最終回覆分別限制在 25 個及 100 個單詞以內。該限制適用其反,導致模型在編程質量評估中的得分下降 3%。

上述問題主要影響 Claude Code 命令行界面 (CLI)、Claude 智能體軟件開發工具 (Agent SDK) 及 Claude Cowork,未波及其他 Claude API 業務。Anthropic 承認這些調整讓模型顯得「智力下降」,並指這不符合用戶體驗期望。為恢復市場信任並防範類似事件,公司宣佈實施多項運營機制改革:首先,擴大「內部測試」(Dogfooding) 範圍,要求更大比例員工強制使用公司版 Claude Code 以統一生體驗;其次,在修改系統提示詞前,強制運行更廣

泛的單模型評估及消融實驗 (Ablations),以精準隔離特定指令的影響;最後,優化提示詞變更的審核流程,確保特定模型的變更實施精準受控。 此外,針對上述 Bug 導致的 Token 浪費及性能力抹殺,Anthropic 已於 4 月 23 日重置所有訂閱用戶額度,並計劃持續透過 X 及 GitHub 上的 @ClaudeDevs 官方帳號,提供產品決策背後的深層邏輯,以維持與開發者群體更透明的對話。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。