Anthropic Claude Opus 4.6 被指編程能力下降官方稱節省 Token 優化 AMD 高管分析 6852 份日誌

Anthropic 發佈的 Claude Opus 4.6 被譽為編程 AI 真神，憑藉深度推理邏輯及對複雜代碼規範的精準執行，一度備受矚目。然而，發佈數週後，用戶在社交媒體上紛紛投訴，其性能出現斷崖式下滑。不少用戶表示，支付同樣高昂月費，換來卻是明顯降智的縮水版，Claude Opus 4.6 開始變得猶豫且健忘，甚至在基礎邏輯上屢屢碰壁。面對全網聲浪，Anthropic 官方團隊回應指，未刪減模型，種種異常表現僅為默認配置優化，以助用戶節省 Token。

但這種單方面技術辯解，未能平息開發者的怒火。這究竟是大批用戶的集體心理錯覺，抑或資源在算力瓶頸下精打細算的縮水？

AMD 高管的深度剖析：6852 份日誌見端倪

若說普通用戶的抱怨僅是體感，那麼 Stella Laurenzo 的分析則讓此事徹底「實錘」。據領先資訊，Stella Laurenzo 是 AMD AI 部門高級總監，目前帶領龐大團隊為開源 AI 編譯器開發貢獻力量。她曾任 Google 首席軟件工程師，後以 Nod.ai 工程副總監身份加入 AMD。4 月 2 日，Stella Laurenzo 在 GitHub 上發佈詳細性能回歸報告，作為頂級 AI 專家，她不只直觀抱怨，而是細析 6852 份 Claude Code 對話檔案、1787

1 個思考塊及逾 23 萬次工具調用記錄，堪稱高水準個案研究。這份基於海量數據的分析揭露令人不安真相：自今年 2 月起，Claude 推理深度即現斷崖式下滑。細節顯示：

指標	變化描述
推理字數縮減	中位思考長度從 2200 字元縮減至 600 字元
研究退化	以往寫代碼前多輪 Research，現改為直接 Edit，讀取與編輯比例從 6.6 倍降至 2.0 倍
任務早退	短短 17 天內，Claude 試圖放棄任務或反問是否繼續達 173 次，3 月 8 日前此數字為 0
自我矛盾	推理過程中的自我否定（如「嗯等一下，其實……」）頻率增三倍

Stella Laurenzo 結論犀利，對高級工程工作而言，深度推理非可有可無產品，而是模型前置；現 Claude 在複雜工程中已不勝負荷。不過需注意，她的分析僅指 2 月底思考長度縮短 67%，推文將思考量減少直接等同智力下滑的說法難以論斷嚴重。社交媒體 X 及 Reddit 上，Stella Laurenzo 的帖文迅速引爆，開發者紛紛發現自身問題與報告高度吻合。

網紅開發者 Om Patel 直在 X 上發帖，有人測出 Claude 變笨達 67%。他重點指 Opus 4.6 思考量比以往少三分之二，並譏諷 Anthropic 一直沉默，直至數據曝光團隊才滅火。Patel 還在推文中透露，洩露源代碼顯示他們有內部開關，可讓模型在 Anthropic 員工使用時維持最佳狀態，但此說法尚未獨立驗證，Anthropic 亦未回應。

他直言，有人稱 Anthropic 故意降級 Opus 以節省資源訓練下個模型 Mythos，但此推測同樣缺乏直接數據。在 Reddit 上，用戶吐槽更生動：用戶 DangerousSetOfBewbs 稱曾讓 Claude 處理 500 行檔案，結果陷入長達 24 分鐘思考卻只在那「幹坐著」。還有人補槍，讓它做研究，40 分鐘竟沒用什麼 Token，不知究竟做了什麼。

規範視若無睹：開發者常在 CLAUDE.md 設項目規範，但 Claude 現仿似失憶。一用戶憤怒留言，若不盯住輸出，它能幾分鐘毀掉整個代碼庫。價格不變智力降級：Reddit 用戶 Firm_Meeting6350 說，今天退訂 Claude Max 20 轉投 Codex Pro，Claude 現給他的感覺像用過時舊模型。 4 月 12 日，專責幻覺基準測試機構 BridgeMind 發文直指 Claude Opus 4.6 被削弱，BridgeBench 剛證明此點。上週它排第 2 名準確率 83.3%，今重測掉至第 10 名剩 68.3%，幻覺率增 98%。然此測試遭反擊，外部分布式 AI 研究員 Paul Calcraft 指出測試具誤導性，非對等比較。首次僅涵 6 任務，第二次擴至 30 任務。若只看那 6 相同任務，Claude 分數僅從 87.6% 微降至 85.4%，最大偏差來自單一虛構結果，此在統計學上全屬噪音。這場爭議亦說明，業界缺統一可重現 AI 性能標準測試，許多測試先下結論後找數據，用戶難從中獲確定答案。然那掉至第 10 的數據在社交媒體瘋傳，截圖視覺衝擊成 Claude 降智說法最有力證詞。面對民意，Anthropic 核心團隊成員不得不公開回應。Claude Code 負責人 Boris Cherny 在 Stella Laurenzo 的 GitHub 原帖下認真解釋，並在 X 上連發數帖回覆，核心觀點僅一：他們未削弱模型，只為應用戶

反饋調低默認努力程度。Cherny 表示，很多用戶以往反饋 Claude 消耗 Token 過多，為應需求，Anthropic 做以下變更：默認努力程度降級，3 月 3 日起默認設中等等級，若要深度推理需手輸高級指令。前端隱藏思考過程，改前端展示，不再完整呈現思考塊，減延遲但不影響思考預測或後端深度。自我適應思考機制，2 月 9 日引入動態調整。Claude Code 團隊成員 Thariq Shihipar 亦從部門老大角度連發數帖，用技術層面解釋打消疑慮，強調公司不會為滿足需求而降模型性能。

值得留意，Cherny 提及的默認努力降級，頗能解釋 Stella Laurenzo 報告中思考長度縮短、研究減少及任務放棄頻升等現象，此與推理置中等的默認設定高度契合。然官方解釋未能平眾怒，社交媒體上多用戶認為，若為助用戶省錢而降性能或給錯答，那省錢本無意義。何況公司未通告即直接調校，直接損用戶知情權。除推理深度變化，不少用戶還留意 Claude 變得更「貴」。

GitHub 上編號 46829 的反饋指出，Claude Code 提示詞緩存生存時間從原 1 小時縮至 5 分鐘。這意味對長時工作程式員，你剛跟 Claude 說完話，5 分鐘後它就忘了，為繼續需重傳上下文。不只增延遲，更激增用戶 Token 消耗，令訂閱用戶開始掙扎以往未遇使用上限。Anthropic 工程師 Jarred Sumner 承認 3 月 6 日此變更，但辯稱為持續緩存優化工作而非暗中降級。

在開發者眼中，這正好證實官方確在後台積極調校緩存，正是大家抱怨配額耗太快的時段。不論 Claude 變笨也好變貴也罷，Reddit 網友 raven2cz 的話頗中肯：這兩大問題就係額度限制同思考能力下降同基礎設施過載有關，去 GitHub 睇下就知，成千上萬用戶而家面對類似問題，感覺就好似半年前 GPT 發新模型嗰陣一模一樣。網友 Wickywire 分析其根本因，Anthropic 在兩個月內日活躍用戶從 400 萬升至 1100 萬，他們完全冇準備，唔得唔成日連夜撐機擴容，這就係所謂削弱

真相。你對時間線，同期二三月發生嘅事完全吻合。這裡冇任何隱藏意圖，只係經歷增長之痛的公司，與能耐瓶頸係真實且數據確鑿。我們知原委所在同他們係結構性，所以解決方案亦實有限，在 Reddit 上反覆呼籲徒勞無功。這位網友給出解決方法倒立竿見影且切實可行，若見 Claude 表現不佳可試非高峰期使用，若唔得換別家 AI 服務商都得，反正又唔係冇選擇，真係受晒啲喺論壇抱怨使用量同性能下降嘅人。

第三方開發工具顯示，自今年 3 月底 Claude 降智傳聞起，Codex 及其相關插件周活躍用戶量環比增長約 22%。若 Anthropic 無法在節省算力與維持深度推理間找到真正平衡，那 Claude 辛苦建立的口碑恐在這場風波中受考驗。有老用戶所言，我寧願付兩倍錢買個清醒 Claude，也不願花同樣錢買個總要要求更多資訊的廢柴。

Anthropic Claude Opus 4.6 被指編程能力下降官方稱節省 Token 優化 AMD 高管分析 6852 份日誌

AMD 高管的深度剖析：6852 份日誌見端倪

Henderson

搜尋文章

AMD 高管的深度剖析：6852 份日誌見端倪

相關文章

Henderson

搜尋文章