Apple 研究揭示推理模型的局限性與挑戰

最近,Apple 發佈了一篇引起廣泛關注的研究論文,標題為《思考的幻覺:通過問題複雜性理解推理模型的優勢和局限性》。儘管反應熱烈,但這篇論文的內容並未顛覆整個大型語言模型(LLM)行業,卻為長期以來機器學習(ML)社群討論的主題帶來了更清晰的視角。

這篇論文系統性地探討了所謂的大型推理模型(LRM),例如 Claude 3.7 和 DeepSeek-R1,通過控制謎題(如漢諾塔、積木世界等)進行測試,而非傳統的數學基準,後者常常受到數據污染的影響。

研究結果顯示,LRM 在中等複雜度的任務上表現優於其 LLM 兄弟,但在更複雜的任務上卻同樣面臨失敗。更糟的是,隨著任務難度上升,這些“推理”模型的思維能力反而減弱,即使它們仍有足夠的計算資源可用。

這篇論文的核心發現是,市場上宣稱具備“推理”能力的模型在一些簡單問題上仍然無法表現出色。以漢諾塔為例,像 Claude 和 o3-mini 這樣的模型在面對七或八個碟子時便會崩潰。即便提供了具體的解決算法,要求它們僅僅遵循,性能也未見改善。

換句話說,這些模型並不是真正的推理,而是以更複雜的方式迭代擴展 LLM 的推理模式。這一區別至關重要,正是這篇 Apple 論文的真正價值所在。作者們對“推理”和“思考”等術語提出質疑,這些術語暗示了符號推理和計劃,但實際上發生的只是層次化的模式擴展:模型通過多次推理過程,直到找到聽起來合理的結果。

這並不是一個重大的新發現。Meta 的 AI 首席 Yann LeCun 長期以來將當前的 LLM 比作“家貓”,並明言 AGI 不會來自於變壓器。Subbarao Kambhampati 也在多年來發表了關於“思維鏈”與這些模型實際計算方式不相符的研究。Gary Marcus 的“深度學習遇到瓶頸”的論點再次得到支持。

研究中最具指標性的數據是,當複雜度增加時,模型會實際上停止嘗試。儘管擁有充足的計算預算,這些模型在面對挑戰時卻減少了內部的“思考”。這不僅僅是技術失敗,而是概念上的失敗。

Apple 的論文幫助澄清了許多 LLM 失敗的原因並非因為“訓練不足”或“數據不夠”。它們的失敗源於根本上缺乏表示和執行逐步算法邏輯的能力。而這並不是單靠思維鏈提示或強化微調所能克服的。

引用論文中的一句話:“LRM 無法使用明確的算法,並在謎題中推理不一致。”即使給予解決方案藍圖,它們仍然會出現失誤。

這些結果對於深耕於 ML 研究社群的人來說並不意外,但引起的熱議顯示出更有趣的現象:公眾可能終於準備好面對 ML 界多年來所做的區分,特別是關於這些模型的能力和局限性。

這一區分至關重要。當人們稱這些系統為“思考”時,便會開始將其視為能夠替代目前無法做到的事物。這樣一來,幻覺和邏輯失誤便會從有趣的怪癖轉變為危險的盲點。

因此,Apple 的貢獻意義重大。這並不是因為它“揭露”了 LLM,而是因為它幫助劃清了這些模型的界限,讓人們更清楚地理解它們的本質與局限性。這樣的清晰度早已迫在眉睫。

日本電話卡推介 / 台灣電話卡推介
一㩒即做:香港網速測試 SpeedTest HK

Henderson
Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。