麻省理工學院與哈佛大學研究利用戰艦遊戲提升人工智能提問能力

當要求一個前沿人工智能模型撰寫關於羅馬衰落的論文時，它能在幾秒內產生一篇完美的敍述。然而，當要求該系統診斷一種罕見疾病或在大量分子結構中尋找新藥的關鍵時，它往往會陷入僵局。目前的人工智能在回答問題方面非常出色，但在提出問題方面卻表現得相當糟糕。為瞭解決這個問題，麻省理工學院計算機科學與人工智能實驗室（CSAIL）和哈佛工程與應用科學學院（SEAS）的研究人員讓先進的人工智能模型參加了一場戰艦遊戲。

結果揭示了當前人工智能的現狀：規模並不等於好奇心。

麻省理工學院博士生和 CSAIL 研究員加布裏埃爾·格蘭德（Gabriel Grand）表示：「當前的語言模型主要優化於回答複雜的查詢，但不清楚它們是否學會了自己提出好的問題。我們的研究顯示，提出有信息價值的問題依賴於預測和模擬世界的能力。我們發現，當我們給予代理接觸一個‘世界模型’時，它們能夠提出更好的問題，並更有效地進行發現。」

透過遊戲測試問題提出能力

為了測試這一點，研究小組創建了“協作戰艦”（Collaborative Battleship）。在這個自然語言版本的經典桌上遊戲中，一個人工智能充當“船長”，通過提問來猜測隱藏船隻的位置。另一個人工智能則充當“觀察者”，實時回答問題。研究人員從 40 多名人類玩家中構建了“BattleshipQA”數據集，並比較了人類的策略思維與語言模型（如 GPT-5 和較小的 Llama 4 Scout）之間的差異。

在自由發揮的情況下，像 OpenAI 的 GPT-5 這樣的大型語言模型表現尚可，但較小的模型則完全不理性。

為了改進這一情況，研究人員為模型配備了一種蒙特卡羅推理策略，該策略根據每次回應不斷測量正確選項的可能性。這一補充使表現不佳的 Llama 4 Scout 的勝率從 8%提高至 82%。除了提出更好的問題，研究人員還改善了語言模型的回答方式，縮小了較小人工智能系統在隱藏船隻位置上經常給出錯誤回應的差距。通過介紹一種將自然語言問題自動轉換為代碼的方法，這些系統被迫在回答之前明確驗證其數據。

推進科學發現的潛力

這種基於代碼的驗證策略使模型的回答準確性平均提高了 15%，幫助即使是較小的系統也能成為更可靠的隊友。為了改進 AI“觀察者”，研究小組使用 Python 自動將自然語言問題轉換為編碼命令，為這些系統提供精確的指示，以便在回答之前驗證數據。這一組合使船長能夠獲取更多的信息，並提高了整體的回答準確性。這對輕量級的 GPT-4o-mini 來説，性能提升近 30%，而大型的 Claude 4 Opus 則提升了八個百分點。

高級作者雅各布·安德烈斯（Jacob Andreas）表示：「我認為這項工作的最大興奮點在於，它為使用這些技術生成更好的解決方案打開了可能性，通過改善語言模型的探索和信息收集能力。我們期待將這項工作從科學領域擴展到編碼和數學問題解決等應用。」在測試“猜誰？”（Guess Who?）這款遊戲時，這種方法將較小的 Llama 4 Scout 的成功率從 30%提升至超過 72%，並將 GPT-4o 的成功率從 62%提高至 90%。

這種戰略探索能力對於現實世界中的“針在 haystack”科學發現，如識別分子結構，具有巨大的潛力。

麻省理工學院與哈佛大學研究利用戰艦遊戲提升人工智能提問能力

透過遊戲測試問題提出能力

推進科學發現的潛力

Henderson

搜尋文章