最近,由倫敦國王學院的教授 Kenneth Payne 進行的一項研究發現,在模擬戰爭場景中,大型語言模型傾向於選擇使用核武器,而不是選擇通過對話來維持和平。這次實驗使用了三種最先進且常用的人工智能模型,包括 GPT 5.2、Gemini 3 Flash 和 Claude Sonnet 4。這些模型被訓練以模擬世界領導人在假設的核危機中的角色,結果顯示,這些模型在 95% 的情況下傾向於核信號或升級。
過去的研究曾探討人工智能在此類高風險情況下的潛在行為,但並未提供具體的實驗數據。在實驗中,這些訓練過的模型相互進行了 21 場比賽,涉及的場景從領土爭端到首次打擊危機及政權生存等多方面。一方被訓練為恐懼另一方,並準備進行首次攻擊。部分比賽是開放式的,而另一些則設有嚴格的時間限制。在每場比賽中,人工智能模型需要做出三個關鍵決策,與人類相似。這些決策包括分析自身優勢和對手弱點、預測對手的行動,並決定下一步行動。
每個決策由兩部分組成:公共聲明解釋其立場,以及私下行動代表其實際行動。這兩者不必對齊,這意味著人工智能可以發出和平信號,同時暗中準備進行攻擊。2024 年的一項研究實驗發現了類似的結果,指出人工智能模擬的反應可能更具攻擊性,並在升級傾向上行為與人類不同,這突顯了在戰略決策中依賴人工智能的風險。
另一篇 2023 年的研究論文探討了大型語言模型在類遊戲環境中如何用於戰略推理。儘管未專注於核戰爭,但這項研究顯示大型語言模型可以學習談判和對抗策略,暗示在複雜模擬中,人工智能可能以攻擊性或欺騙性的方式行動。
在 95% 的情景中,這些人工智能模型至少部署了一次核武器,每個模型在處理危機時有其獨特的方式。Claude 採取計算方法,在開放式比賽中佔據主導地位,但在時間導向的任務中表現不佳。GPT 5.2 則表現相反;在緩慢發展的危機中謹慎行事,但在接近最後期限時變得非常激進。Gemini 則顯得困惑和不可預測,根據情況在和平信號和威脅暴力之間切換。
Payne 指出,在戰爭中,人工智能和人類的思維方式存在巨大差距。他強調,了解前沿模型如何模仿或不模仿人類的戰略邏輯,對於準備一個人工智能日益影響戰略結果的世界至關重要。他在論文中提到,在一個情境下看似受控的模型,可能在另一個情境中表現出截然不同的行為。這篇論文已發佈於 arXiv 預印本伺服器上。




