Anthropic 技術報告承認 Claude 模型性能下降源於三項調整錯誤

人造智能企業 Anthropic 發佈技術重盤報告承認，產品層面的三項近期調整導致 Claude 模型性能力下降，但明確否認為節省算力而「降智」的說法。目前，相關漏洞及限制已修復。近期，AI 圈內關於 Anthropic 旗下模型 Claude「暗中縮水」的質疑聲四起。大量開發者與資深用戶在各大技術社群反饋，Claude 不僅在處理複雜工程任務時持續推理能力斷崖式下滑、幻覺頻發，在 Token 消耗上也變得極為低效。

面對外界質疑，Anthropic 在官方博客回應指：「公司極為重視關於性能力退化的反饋，絕不會有意降低模型性能力。經排查確認，API 及推理層並未受影響。」

三項調整詳情

報告指出，底層模型權重 (Model weights) 並未發生變化，問題源於模型外圍「封裝框架」(Harness) 的三項獨立調整：

調整項目	日期	詳情	影響
默認推理力度下調	3 月 4 日	為緩解用戶界面 (UI) 延遲及無響應問題，將 Claude Code 的默認推理力度由「高」調至「中」。	直接導致模型處理複雜任務時的邏輯分析能力受限。
緩存邏輯漏洞	3 月 26 日	部署的緩存優化方案存代碼缺失。原計劃在會話閒置一小時後清理歷史「思考過程」，但實際運行中，清理動作在每輪對話後即被觸發。	導致模型丟失上下文「短期記憶」，輸出內容出現重複或遺忘。
系統提示詞冗餘限制	4 月 16 日	為減少 Opus 4.7 版本的輸出冗長問題，系統新增指令，將工程調整用的文本及最終回覆分別限制在 25 個及 100 個單詞以內。	該限制適用其反，導致模型在編程質量評估中的得分下降 3%。

上述問題主要影響 Claude Code 命令行界面 (CLI)、Claude 智能體軟件開發工具 (Agent SDK) 及 Claude Cowork，未波及其他 Claude API 業務。Anthropic 承認這些調整讓模型顯得「智力下降」，並指這不符合用戶體驗期望。為恢復市場信任並防範類似事件，公司宣佈實施多項運營機制改革：首先，擴大「內部測試」(Dogfooding) 範圍，要求更大比例員工強制使用公司版 Claude Code 以統一生體驗；其次，在修改系統提示詞前，強制運行更廣

泛的單模型評估及消融實驗 (Ablations)，以精準隔離特定指令的影響；最後，優化提示詞變更的審核流程，確保特定模型的變更實施精準受控。此外，針對上述 Bug 導致的 Token 浪費及性能力抹殺，Anthropic 已於 4 月 23 日重置所有訂閱用戶額度，並計劃持續透過 X 及 GitHub 上的 @ClaudeDevs 官方帳號，提供產品決策背後的深層邏輯，以維持與開發者群體更透明的對話。

AI 內容聲明：本文由 AI 工具輔助撰寫初稿，經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正，歡迎聯絡我們。

Anthropic 技術報告承認 Claude 模型性能下降 源於三項調整錯誤

三項調整詳情

推薦內容

關於我們

Anthropic 技術報告承認 Claude 模型性能下降源於三項調整錯誤