Claude Opus 4.7 發佈 48 小時推理分數暴跌至全球第一用戶投訴更慢更貴

Claude Opus 4.7 發佈 48 小時，口碑兩極分化。官方 leaderboard 並列全球第一，邏輯推理公開測試卻從 94.7% 暴跌至 41.0%。token 消耗上升 35%，舊接口直接報錯，用戶集體控訴「更貴、更慢、更愛頂嘴」。Anthropic 到底升級了什麼，又搞砸了什麼？「4.6 版本無法使用，4.7 的消耗速度像核反應堆一樣。」Opus 4.7 發佈後，一位 Reddit 用戶在 Anthropic 官方帖子下的留言。不是玩梗，是真心話。一篇「Claude Opus 4.7 是嚴重倒退，不是升級」的 Reddit 帖子迅速衝上 3000 讚。還有人曬出截圖，稱 4.7 連 strawberry 裡有幾個字母都答不對。更別提「簡歷編造學歷和姓氏」，回覆用戶「我懶得做交叉驗證」，以及「三問就碰限額」這些網友熱門槽點。

《Pragmatic Engineer》作者 Gergely Orosz 試用後形容這個模型「出人意料地帶攻擊性」，隨後宣布放棄，換回 4.6。這邊罵聲還沒散，那邊一組數據指向相反方向。Artificial Analysis 給 Opus 4.7 的 Intelligence Index 打 57 分，並列 GPT-5.4、Gemini 3.1 Pro 全球第一。

創業者 Jeremy Howard 形容它是「第一個真正懂我在工作時到底在做什麼的模型」，Y Combinator CEO Garry Tan 正在用它做項目。還有人說，Claude Opus 4.7 已實現通用人工智慧（AGI）。同一個模型，有人看到 AGI 的影子，有人覺得自己的工作炸了。上線兩天，Opus 4.7 就把 AI 社群攪炸。

用戶痛點拆解：三重打擊直指核心

用戶怒火集中在三點，每一條都戳中重度用戶的痛門。 **第一，代碼能力斷崖式下滑。** 大量開發者反饋，從 4.6 升級到 4.7 後，之前能穩定完成的編程任務開始頻繁出錯。而且是日常工作裡的核心操作：代碼補全變遲鈍，上下文化理解現退化，複雜邏輯鏈的推理明顯變弱。代碼能力是 Opus 系列的王牌，現在王牌出問題，反彈自是最烈。一位 Reddit 用戶說，他用一個已知答案的長重構任務做回歸測試，結果模型自信滿滿改丟了 3 個原在 4.6 下能通過的測試，只能回滾。評論區湧入上百條類似經歷。 **第二，推理質量倒退。** 不是速度慢那麼簡單，是思考深度出了可感知的退化。之前能一步到位的複雜問題，現在需要反覆追問、手動引導。這個症狀 AI 行業並不罕見。去年 GPT-4 Turbo 爆出的「降智」風波如出一轍：benchmark 提升了，體驗卻下來了。 **第三，花更多錢，體驗更差。** Opus 本就是 Anthropic 最貴的模型。

重度用戶每月 API 賬單不是小數目。花了更多錢、升了更新版本，得到的卻是更差體驗，憤怒就不只停在技術層面。 benchmark 更強但用戶不買賬面對反彈潮，Anthropic 回應速度不慢。公司在官方遷移指南中指出，Opus 4.7 相較 4.6 存在若干行為變化，同時強調，Opus 4.7 仍是其當前綜合能力最強的通用可用模型，在長週期智能體任務、知識型工作、視覺任務和記憶任務方面表現尤為出色。

Artificial Analysis 的多維評測結果也拍在那兒，Opus 4.7 在數學推理、多語言理解、長上下文化處理，多個維度的得分創下新高。 | 基準測試 | Opus 4.6 分數 | Opus 4.7 分數 | 變化 | |———-|—————|—————|——| | Artificial Analysis Intelligence Index | – | 57 (並列第一) | 新高 |

| NYT Connections Extended (high reasoning) | 94.7% | 41.0% | 暴跌 | | MRCR v2 (100 萬 token 上下文化) | 78.3% | 32.2% | 下滑 46% | | GDPval-AA (Elo 分) | 1619 | 1753 (領先第二 79 分) | 大幅領先 | Artificial Analysis 評測顯示，Opus 4.7 (max) 以 57 分並列榜首，與 Gemini 3.1 Pro Preview、GPT-5.4 並列。GitHub 上的 NYT Connections Extended 基準測試也給出頂級排名。Anthropic 的邏輯並不難解：大模型迭代無可避免涉及能力再分配。有些維度提升了，有些維度就可能出現退步，這是工程上的取捨。但用戶不看這個，只看自己手裡的活幹不幹得動。

**價格沒漲但賬單漲了** Anthropic 沒調價，每百萬 token 的單價和 Opus 4.6、4.5 完全一樣。但官方遷移指南裡寫道：新分詞器（tokenizer）在處理相同文本時，token 用量大約可達原來的 1.0 倍至 1.35 倍。什麼意思？你昨天用 4.6 跑一段 prompt 花 US$10 (約 HK$78)，今天換 4.7 跑同一段 prompt，可能要花 US$11 (約 HK$86) 至 US$13.50 (約 HK$105) 至 HK$105.3。單價沒變，但同樣的活吃掉了更多 token。Claude Code 創建者 Boris Cherny 隨後在 X 上表示：Opus 4.7 消耗更多 thinking token，所以我們已為所有訂閱用戶提高速率限制，來彌補這一點。但具體提高了多少，沒公開。 **模型沒爛但工作炸了** 如果你是 Claude 的重度開發者，4.7 上線那天你可能遇到這事：代碼裡寫了 thinking={“type”:”enabled”,”budget_tokens”: 32000}，用來控制模型的思考預算。在 4.6 上跑得好好。在 4.7，直接返回 400 錯誤。沒用過過渡期，沒兼容模式，直接報錯。官方遷移指南解釋了替代方案：改用 thinking={“type”:”adaptive”} 加上新的 effort 參數。

但大多數開發者不會在模型發佈當天去讀遷移指南。他們做的第一件事是把模型名從 4.6 換成 4.7，然後發現一切都不工作了。更隱蔽的變化是 thinking 過程現在預設隱藏。4.6 時代，模型的思考過程預設顯示摘要版。到 4.7，預設變成「精簡」。回應裡的 thinking 區塊看起來是空的。但你仍要為這些看不見的 thinking token 全額付費。Anthropic 官方原話：精簡只會降低延遲，不會降低成本。

這就像點了一份套餐，服務員說「為了加快上菜速度，我們不給你看菜了，但你還是要付全款」。「頂嘴」不是 bug 網友一個最烈的吐槽，是說 4.7 變得「combative」（帶攻擊性）。不少開發者反饋，4.7 會拒絕執行它認為有問題的指令，語氣也比 4.6 硬了不止一個檔次。關於這個問題，Anthropic 官方遷移指南裡有一句很關鍵的話：Claude Opus 4.7 會以更直面、更明確的方式解釋拒絕詞。也即是说：4.6 會「猜你的意思」，4.7 會「照你說的做」。如果你的 prompt 本來就寫得含糊，4.6 可以幫你腦補，但 4.7 不會。對一部分用戶來說，這叫「不聽話」，但對另一部分用戶來說，這叫「終於不亂猜了」。例如，Cursor 設計師 Ryo Lu 只在用 4.7 做產品規範，認為這種精準執行正是他需要的。

因此，「頂嘴」這個標籤背後，是 Anthropic 正在把 Claude 從一個「順從的助手」改造成一個「更有主見的夥伴」。根據 Artificial Analysis 的公開評測，Opus 4.7 在 GDPval-AA 上拿到 1753 Elo，領先第二名 79 分。GDPval-AA 評量的模型在 44 種職位、9 個主要行業的真實知識工作任務中的表現，在這個維度上，4.7 壓倒所有對手，包括自己的前代 4.6（1619 Elo）。同時，4.7 的幻覺率比 4.6 下降 25 個百分點，降至 36%。它是怎麼做到的？根據 Artificial Analysis 的分析，主要是依賴「更頻繁選擇不作答」，寧可說「我不知道」，也不編造。這說明 Anthropic 的意圖不在於優化 Claude 的聊天體驗，而是在優化 Claude 的工作能力。

| 性能指標 | Opus 4.6 | Opus 4.7 | 變化 | |———-|———-|———-|——| | GDPval-AA Elo | 1619 | 1753 (領先第二 79 分) | 大幅提升 | | 幻覺率 | – | 36% (下降 25%) | 顯著改善 | Opus 4.7 在 GDPval-AA 上以 1753 Elo 登頂，這項測試評量 AI 在 44 種職位中的獨立完成知識工作的能力。

但對用戶來說，在一些場景下可能完全感受不到提升，反而先感受到 token 變貴、接口報錯和語氣變硬。94.7% 暴跌至 41.0% 如果上面三層問題能歸結為「遷移成本+使用誤區」，但還有一組數字無法用遷移成本解釋。GitHub 上公開維護的 NYT Connections Extended 基準測試，使用 940 道《紐約時報》Connections 謎題評估大語言模型的邏輯推理和抗干擾能力。

這個測試透過額外加入干擾詞來提升難度，已是社群認可的高難度 benchmark 之一。 NYT Connections Extended 排行榜。Opus 4.6（high reasoning）得分 94.7%，Opus 4.7（high reasoning）僅 41.0%，同一個測試上出現斷崖式暴跌。從年級第一，跌到不及格。另一份數據來自 Anthropic 提供的 Opus 4.7 System Card 中的 100 萬 token 上下文化的 MRCR v2 基準測試：4.6 得分 78.3%，4.7 得分 32.2%，下滑 46 個百分點。這組數據方向與 NYT Connections 的結論一轍：在某些邏輯推理和長上下文化檢索任務上，4.7 確實出現了明顯退步。但也需要說句公道話：這些是特定類型的測試。它們不能證明 4.7「全面變爛」，就如同 GDPval-AA 的領先不能證明 4.7「全面變強」一樣。用戶耐心開始倒計時 Opus 4.7 的爭議不是個案。OpenAI 經歷過 GPT-4 Turbo 降智風波，幾個月前撤下 GPT-4o 時也遭遇類似用戶反彈。現在 Reddit 上已出現「哀悼」Claude 4.5 的帖子，滿是自稱「心碎」的粉絲。每一次模型升級，都有一批用戶失去已適應的工作流。新分詞器讓舊的成本預算失效；新的預設行為讓舊的 prompt 不再好用；新的接口規範讓舊的代碼直接報錯……每項單獨看都有技術上的合理性，但湊在一起，就把所有遷移成本一次性推給了用戶

。為什麼模型越來越聰明，用戶越來越焦慮？因為每一次「更好」，都意味著推翻上一次的「剛好」。Anthropic 員工 Alex Albert 在發佈當天寫道：很多人昨天剛開始體驗 Opus 4.7 時可能遇到的 bug，現在已修復。感謝大家的包容和耐心。bug 可以修。但信任這種東西，消耗容易，重構很難。這輪 AI 軍備競賽的下一個瓶頸，也不只只是算力和數據，還要比誰能在快速迭代的同時，不把自己的用戶甩下車。

這次，Anthropic 發佈了遷移指南，但用戶更想要的是一句保證：升級不能把原有的工作推倒重來。當 AI 從玩物變成生產力工具，「快速迭代」就不再是無條件的優點。Opus 4.8 會怎麼來？Anthropic 還沒說。但用戶的耐心，已開始倒計時。

Claude Opus 4.7 發佈 48 小時推理分數暴跌至全球第一用戶投訴更慢更貴

用戶痛點拆解：三重打擊直指核心

Henderson

搜尋文章

用戶痛點拆解：三重打擊直指核心

相關文章

Henderson

搜尋文章