Anthropic 發佈的 Claude Opus 4.6 被譽為編程 AI 真神,憑藉深度推理邏輯及對複雜代碼規範的精準執行,一度備受矚目。然而,發佈數週後,用戶在社交媒體上紛紛投訴,其性能出現斷崖式下滑。不少用戶表示,支付同樣高昂月費,換來卻是明顯降智的縮水版,Claude Opus 4.6 開始變得猶豫且健忘,甚至在基礎邏輯上屢屢碰壁。面對全網聲浪,Anthropic 官方團隊回應指,未刪減模型,種種異常表現僅為默認配置優化,以助用戶節省 Token。
但這種單方面技術辯解,未能平息開發者的怒火。這究竟是大批用戶的集體心理錯覺,抑或資源在算力瓶頸下精打細算的縮水?
AMD 高管的深度剖析:6852 份日誌見端倪
若說普通用戶的抱怨僅是體感,那麼 Stella Laurenzo 的分析則讓此事徹底「實錘」。據領先資訊,Stella Laurenzo 是 AMD AI 部門高級總監,目前帶領龐大團隊為開源 AI 編譯器開發貢獻力量。她曾任 Google 首席軟件工程師,後以 Nod.ai 工程副總監身份加入 AMD。4 月 2 日,Stella Laurenzo 在 GitHub 上發佈詳細性能回歸報告,作為頂級 AI 專家,她不只直觀抱怨,而是細析 6852 份 Claude Code 對話檔案、1787
1 個思考塊及逾 23 萬次工具調用記錄,堪稱高水準個案研究。這份基於海量數據的分析揭露令人不安真相:自今年 2 月起,Claude 推理深度即現斷崖式下滑。 細節顯示:
| 指標 | 變化描述 |
|---|---|
| 推理字數縮減 | 中位思考長度從 2200 字元縮減至 600 字元 |
| 研究退化 | 以往寫代碼前多輪 Research,現改為直接 Edit,讀取與編輯比例從 6.6 倍降至 2.0 倍 |
| 任務早退 | 短短 17 天內,Claude 試圖放棄任務或反問是否繼續達 173 次,3 月 8 日前此數字為 0 |
| 自我矛盾 | 推理過程中的自我否定(如「嗯等一下,其實……」)頻率增三倍 |
Stella Laurenzo 結論犀利,對高級工程工作而言,深度推理非可有可無產品,而是模型前置;現 Claude 在複雜工程中已不勝負荷。不過需注意,她的分析僅指 2 月底思考長度縮短 67%,推文將思考量減少直接等同智力下滑的說法難以論斷嚴重。 社交媒體 X 及 Reddit 上,Stella Laurenzo 的帖文迅速引爆,開發者紛紛發現自身問題與報告高度吻合。
網紅開發者 Om Patel 直在 X 上發帖,有人測出 Claude 變笨達 67%。他重點指 Opus 4.6 思考量比以往少三分之二,並譏諷 Anthropic 一直沉默,直至數據曝光團隊才滅火。Patel 還在推文中透露,洩露源代碼顯示他們有內部開關,可讓模型在 Anthropic 員工使用時維持最佳狀態,但此說法尚未獨立驗證,Anthropic 亦未回應。
他直言,有人稱 Anthropic 故意降級 Opus 以節省資源訓練下個模型 Mythos,但此推測同樣缺乏直接數據。 在 Reddit 上,用戶吐槽更生動:用戶 DangerousSetOfBewbs 稱曾讓 Claude 處理 500 行檔案,結果陷入長達 24 分鐘思考卻只在那「幹坐著」。還有人補槍,讓它做研究,40 分鐘竟沒用什麼 Token,不知究竟做了什麼。
規範視若無睹:開發者常在 CLAUDE.md 設項目規範,但 Claude 現仿似失憶。一用戶憤怒留言,若不盯住輸出,它能幾分鐘毀掉整個代碼庫。價格不變智力降級:Reddit 用戶 Firm_Meeting6350 說,今天退訂 Claude Max 20 轉投 Codex Pro,Claude 現給他的感覺像用過時舊模型。 4 月 12 日,專責幻覺基準測試機構 BridgeMind 發文直指 Claude Opus 4.
6 被削弱,BridgeBench 剛證明此點。上週它排第 2 名準確率 83.3%,今重測掉至第 10 名剩 68.3%,幻覺率增 98%。然此測試遭反擊,外部分布式 AI 研究員 Paul Calcraft 指出測試具誤導性,非對等比較。首次僅涵 6 任務,第二次擴至 30 任務。若只看那 6 相同任務,Claude 分數僅從 87.6% 微降至 85.
4%,最大偏差來自單一虛構結果,此在統計學上全屬噪音。這場爭議亦說明,業界缺統一可重現 AI 性能標準測試,許多測試先下結論後找數據,用戶難從中獲確定答案。然那掉至第 10 的數據在社交媒體瘋傳,截圖視覺衝擊成 Claude 降智說法最有力證詞。 面對民意,Anthropic 核心團隊成員不得不公開回應。Claude Code 負責人 Boris Cherny 在 Stella Laurenzo 的 GitHub 原帖下認真解釋,並在 X 上連發數帖回覆,核心觀點僅一:他們未削弱模型,只為應用戶
反饋調低默認努力程度。Cherny 表示,很多用戶以往反饋 Claude 消耗 Token 過多,為應需求,Anthropic 做以下變更:默認努力程度降級,3 月 3 日起默認設中等等級,若要深度推理需手輸高級指令。前端隱藏思考過程,改前端展示,不再完整呈現思考塊,減延遲但不影響思考預測或後端深度。自我適應思考機制,2 月 9 日引入動態調整。Claude Code 團隊成員 Thariq Shihipar 亦從部門老大角度連發數帖,用技術層面解釋打消疑慮,強調公司不會為滿足需求而降模型性能。
值得留意,Cherny 提及的默認努力降級,頗能解釋 Stella Laurenzo 報告中思考長度縮短、研究減少及任務放棄頻升等現象,此與推理置中等的默認設定高度契合。然官方解釋未能平眾怒,社交媒體上多用戶認為,若為助用戶省錢而降性能或給錯答,那省錢本無意義。何況公司未通告即直接調校,直接損用戶知情權。 除推理深度變化,不少用戶還留意 Claude 變得更「貴」。
GitHub 上編號 46829 的反饋指出,Claude Code 提示詞緩存生存時間從原 1 小時縮至 5 分鐘。這意味對長時工作程式員,你剛跟 Claude 說完話,5 分鐘後它就忘了,為繼續需重傳上下文。不只增延遲,更激增用戶 Token 消耗,令訂閱用戶開始掙扎以往未遇使用上限。Anthropic 工程師 Jarred Sumner 承認 3 月 6 日此變更,但辯稱為持續緩存優化工作而非暗中降級。
在開發者眼中,這正好證實官方確在後台積極調校緩存,正是大家抱怨配額耗太快的時段。 不論 Claude 變笨也好變貴也罷,Reddit 網友 raven2cz 的話頗中肯:這兩大問題就係額度限制同思考能力下降同基礎設施過載有關,去 GitHub 睇下就知,成千上萬用戶而家面對類似問題,感覺就好似半年前 GPT 發新模型嗰陣一模一樣。網友 Wickywire 分析其根本因,Anthropic 在兩個月內日活躍用戶從 400 萬升至 1100 萬,他們完全冇準備,唔得唔成日連夜撐機擴容,這就係所謂削弱
真相。你對時間線,同期二三月發生嘅事完全吻合。這裡冇任何隱藏意圖,只係經歷增長之痛的公司,與能耐瓶頸係真實且數據確鑿。我們知原委所在同他們係結構性,所以解決方案亦實有限,在 Reddit 上反覆呼籲徒勞無功。這位網友給出解決方法倒立竿見影且切實可行,若見 Claude 表現不佳可試非高峰期使用,若唔得換別家 AI 服務商都得,反正又唔係冇選擇,真係受晒啲喺論壇抱怨使用量同性能下降嘅人。
第三方開發工具顯示,自今年 3 月底 Claude 降智傳聞起,Codex 及其相關插件周活躍用戶量環比增長約 22%。若 Anthropic 無法在節省算力與維持深度推理間找到真正平衡,那 Claude 辛苦建立的口碑恐在這場風波中受考驗。有老用戶所言,我寧願付兩倍錢買個清醒 Claude,也不願花同樣錢買個總要要求更多資訊的廢柴。




