Claude Opus 4.7 發佈 48 小時,口碑兩極分化。官方 leaderboard 並列全球第一,邏輯推理公開測試卻從 94.7% 暴跌至 41.0%。token 消耗上升 35%,舊接口直接報錯,用戶集體控訴「更貴、更慢、更愛頂嘴」。Anthropic 到底升級了什麼,又搞砸了什麼?「4.6 版本無法使用,4.7 的消耗速度像核反應堆一樣。」Opus 4.
7 發佈後,一位 Reddit 用戶在 Anthropic 官方帖子下的留言。不是玩梗,是真心話。一篇「Claude Opus 4.7 是嚴重倒退,不是升級」的 Reddit 帖子迅速衝上 3000 讚。還有人曬出截圖,稱 4.7 連 strawberry 裡有幾個字母都答不對。更別提「簡歷編造學歷和姓氏」,回覆用戶「我懶得做交叉驗證」,以及「三問就碰限額」這些網友熱門槽點。
《Pragmatic Engineer》作者 Gergely Orosz 試用後形容這個模型「出人意料地帶攻擊性」,隨後宣布放棄,換回 4.6。這邊罵聲還沒散,那邊一組數據指向相反方向。Artificial Analysis 給 Opus 4.7 的 Intelligence Index 打 57 分,並列 GPT-5.4、Gemini 3.1 Pro 全球第一。
創業者 Jeremy Howard 形容它是「第一個真正懂我在工作時到底在做什麼的模型」,Y Combinator CEO Garry Tan 正在用它做項目。還有人說,Claude Opus 4.7 已實現通用人工智慧(AGI)。同一個模型,有人看到 AGI 的影子,有人覺得自己的工作炸了。上線兩天,Opus 4.7 就把 AI 社群攪炸。
用戶痛點拆解:三重打擊直指核心
用戶怒火集中在三點,每一條都戳中重度用戶的痛門。 **第一,代碼能力斷崖式下滑。** 大量開發者反饋,從 4.6 升級到 4.7 後,之前能穩定完成的編程任務開始頻繁出錯。而且是日常工作裡的核心操作:代碼補全變遲鈍,上下文化理解現退化,複雜邏輯鏈的推理明顯變弱。代碼能力是 Opus 系列的王牌,現在王牌出問題,反彈自是最烈。一位 Reddit 用戶說,他用一個已知答案的長重構任務做回歸測試,結果模型自信滿滿改丟了 3 個原在 4.
6 下能通過的測試,只能回滾。評論區湧入上百條類似經歷。 **第二,推理質量倒退。** 不是速度慢那麼簡單,是思考深度出了可感知的退化。之前能一步到位的複雜問題,現在需要反覆追問、手動引導。這個症狀 AI 行業並不罕見。去年 GPT-4 Turbo 爆出的「降智」風波如出一轍:benchmark 提升了,體驗卻下來了。 **第三,花更多錢,體驗更差。** Opus 本就是 Anthropic 最貴的模型。
重度用戶每月 API 賬單不是小數目。花了更多錢、升了更新版本,得到的卻是更差體驗,憤怒就不只停在技術層面。 benchmark 更強但用戶不買賬 面對反彈潮,Anthropic 回應速度不慢。公司在官方遷移指南中指出,Opus 4.7 相較 4.6 存在若干行為變化,同時強調,Opus 4.7 仍是其當前綜合能力最強的通用可用模型,在長週期智能體任務、知識型工作、視覺任務和記憶任務方面表現尤為出色。
Artificial Analysis 的多維評測結果也拍在那兒,Opus 4.7 在數學推理、多語言理解、長上下文化處理,多個維度的得分創下新高。 | 基準測試 | Opus 4.6 分數 | Opus 4.7 分數 | 變化 | |———-|—————|—————|——| | Artificial Analysis Intelligence Index | – | 57 (並列第一) | 新高 |
| NYT Connections Extended (high reasoning) | 94.7% | 41.0% | 暴跌 | | MRCR v2 (100 萬 token 上下文化) | 78.3% | 32.2% | 下滑 46% | | GDPval-AA (Elo 分) | 1619 | 1753 (領先第二 79 分) | 大幅領先 | Artificial Analysis 評測顯示,Opus 4.
7 (max) 以 57 分並列榜首,與 Gemini 3.1 Pro Preview、GPT-5.4 並列。GitHub 上的 NYT Connections Extended 基準測試也給出頂級排名。Anthropic 的邏輯並不難解:大模型迭代無可避免涉及能力再分配。有些維度提升了,有些維度就可能出現退步,這是工程上的取捨。但用戶不看這個,只看自己手裡的活幹不幹得動。
**價格沒漲但賬單漲了** Anthropic 沒調價,每百萬 token 的單價和 Opus 4.6、4.5 完全一樣。但官方遷移指南裡寫道:新分詞器(tokenizer)在處理相同文本時,token 用量大約可達原來的 1.0 倍至 1.35 倍。什麼意思?你昨天用 4.6 跑一段 prompt 花 US$10,約 HK$78,今天換 4.7 跑同一段 prompt,可能要花 US$11 至 US$13.
5,約 HK$85.8 至 HK$105.3。單價沒變,但同樣的活吃掉了更多 token。Claude Code 創建者 Boris Cherny 隨後在 X 上表示:Opus 4.7 消耗更多 thinking token,所以我們已為所有訂閱用戶提高速率限制,來彌補這一點。但具體提高了多少,沒公開。 **模型沒爛但工作炸了** 如果你是 Claude 的重度開發者,4.
7 上線那天你可能遇到這事:代碼裡寫了 thinking={“type”:”enabled”,”budget_tokens”: 32000},用來控制模型的思考預算。在 4.6 上跑得好好。在 4.7,直接返回 400 錯誤。沒用過過渡期,沒兼容模式,直接報錯。官方遷移指南解釋了替代方案:改用 thinking={“type”:”adaptive”} 加上新的 effort 參數。
但大多數開發者不會在模型發佈當天去讀遷移指南。他們做的第一件事是把模型名從 4.6 換成 4.7,然後發現一切都不工作了。更隱蔽的變化是 thinking 過程現在預設隱藏。4.6 時代,模型的思考過程預設顯示摘要版。到 4.7,預設變成「精簡」。回應裡的 thinking 區塊看起來是空的。但你仍要為這些看不見的 thinking token 全額付費。Anthropic 官方原話:精簡只會降低延遲,不會降低成本。
這就像點了一份套餐,服務員說「為了加快上菜速度,我們不給你看菜了,但你還是要付全款」。 「頂嘴」不是 bug 網友一個最烈的吐槽,是說 4.7 變得「combative」(帶攻擊性)。不少開發者反饋,4.7 會拒絕執行它認為有問題的指令,語氣也比 4.6 硬了不止一個檔次。關於這個問題,Anthropic 官方遷移指南裡有一句很關鍵的話:Claude Opus 4.
7 會以更直面、更明確的方式解釋拒絕詞。也即是说:4.6 會「猜你的意思」,4.7 會「照你說的做」。如果你的 prompt 本來就寫得含糊,4.6 可以幫你腦補,但 4.7 不會。對一部分用戶來說,這叫「不聽話」,但對另一部分用戶來說,這叫「終於不亂猜了」。例如,Cursor 設計師 Ryo Lu 只在用 4.7 做產品規範,認為這種精準執行正是他需要的。
因此,「頂嘴」這個標籤背後,是 Anthropic 正在把 Claude 從一個「順從的助手」改造成一個「更有主見的夥伴」。 根據 Artificial Analysis 的公開評測,Opus 4.7 在 GDPval-AA 上拿到 1753 Elo,領先第二名 79 分。GDPval-AA 評量的模型在 44 種職位、9 個主要行業的真實知識工作任務中的表現,在這個維度上,4.
7 壓倒所有對手,包括自己的前代 4.6(1619 Elo)。同時,4.7 的幻覺率比 4.6 下降 25 個百分點,降至 36%。它是怎麼做到的?根據 Artificial Analysis 的分析,主要是依賴「更頻繁選擇不作答」,寧可說「我不知道」,也不編造。這說明 Anthropic 的意圖不在於優化 Claude 的聊天體驗,而是在優化 Claude 的工作能力。
| 性能指標 | Opus 4.6 | Opus 4.7 | 變化 | |———-|———-|———-|——| | GDPval-AA Elo | 1619 | 1753 (領先第二 79 分) | 大幅提升 | | 幻覺率 | – | 36% (下降 25%) | 顯著改善 | Opus 4.7 在 GDPval-AA 上以 1753 Elo 登頂,這項測試評量 AI 在 44 種職位中的獨立完成知識工作的能力。
但對用戶來說,在一些場景下可能完全感受不到提升,反而先感受到 token 變貴、接口報錯和語氣變硬。94.7% 暴跌至 41.0% 如果上面三層問題能歸結為「遷移成本+使用誤區」,但還有一組數字無法用遷移成本解釋。GitHub 上公開維護的 NYT Connections Extended 基準測試,使用 940 道《紐約時報》Connections 謎題評估大語言模型的邏輯推理和抗干擾能力。
這個測試透過額外加入干擾詞來提升難度,已是社群認可的高難度 benchmark 之一。 NYT Connections Extended 排行榜。Opus 4.6(high reasoning)得分 94.7%,Opus 4.7(high reasoning)僅 41.0%,同一個測試上出現斷崖式暴跌。從年級第一,跌到不及格。另一份數據來自 Anthropic 提供的 Opus 4.
7 System Card 中的 100 萬 token 上下文化的 MRCR v2 基準測試:4.6 得分 78.3%,4.7 得分 32.2%,下滑 46 個百分點。這組數據方向與 NYT Connections 的結論一轍:在某些邏輯推理和長上下文化檢索任務上,4.7 確實出現了明顯退步。但也需要說句公道話:這些是特定類型的測試。它們不能證明 4.7「全面變爛」,就如同 GDPval-AA 的領先不能證明 4.
7「全面變強」一樣。 用戶耐心開始倒計時 Opus 4.7 的爭議不是個案。OpenAI 經歷過 GPT-4 Turbo 降智風波,幾個月前撤下 GPT-4o 時也遭遇類似用戶反彈。現在 Reddit 上已出現「哀悼」Claude 4.5 的帖子,滿是自稱「心碎」的粉絲。每一次模型升級,都有一批用戶失去已適應的工作流。新分詞器讓舊的成本預算失效;新的預設行為讓舊的 prompt 不再好用;新的接口規範讓舊的代碼直接報錯……每項單獨看都有技術上的合理性,但湊在一起,就把所有遷移成本一次性推給了用戶
。為什麼模型越來越聰明,用戶越來越焦慮?因為每一次「更好」,都意味著推翻上一次的「剛好」。Anthropic 員工 Alex Albert 在發佈當天寫道:很多人昨天剛開始體驗 Opus 4.7 時可能遇到的 bug,現在已修復。感謝大家的包容和耐心。bug 可以修。但信任這種東西,消耗容易,重構很難。這輪 AI 軍備競賽的下一個瓶頸,也不只只是算力和數據,還要比誰能在快速迭代的同時,不把自己的用戶甩下車。
這次,Anthropic 發佈了遷移指南,但用戶更想要的是一句保證:升級不能把原有的工作推倒重來。當 AI 從玩物變成生產力工具,「快速迭代」就不再是無條件的優點。Opus 4.8 會怎麼來?Anthropic 還沒說。但用戶的耐心,已開始倒計時。




