人工智慧(AI)的內部運作機制仍未被完全理解,人類實際上是在盲飛狀態下使用它。Anthropic 與美國國防部(Pentagon)之間的法律爭議,正圍繞 AI 在戰爭中的應用展開。這場辯論因當前與伊朗衝突中 AI 的角色日益擴大而變得迫切。AI 不再僅輔助人類分析情報,它已成為主動參與者——即時生成目標、控制及協調導彈攔截,並引導致命的自主無人機群。
人類監督的幻覺風險
公眾對 AI 驅動自主致命武器的討論,多聚焦於人類應保留多少「在迴路中」(in the loop)的控制權。根據 Pentagon 現行指引,人類監督應提供問責、脈絡及細微判斷,同時降低駭客風險。但「人類在迴路中」的辯論,只是一種安慰性的 diversion。真正迫切危險並非機器無人監督而獨行,而是人類監督者根本不知機器實際「思考」什麼。Pentagon 指引的根本缺陷,在於假設人類理解 AI 運作方式。
研究人類大腦意圖數十年、近期轉向 AI 系統的研究顯示,頂尖 AI 本質上是「黑盒子」。我們知曉輸入與輸出,但處理它們的人工「大腦」仍不透明。即使創造者也無法完全解讀或理解其運作機制。AI 提供的理由,也不總是可靠。在人類監督辯論中,一個關鍵問題被忽略:我們能否在 AI 行動前理解其意圖? 想像一架自主無人機任務摧毀敵方彈藥工廠。自動指揮系統判定最佳目標為彈藥儲存樓,報告 92% 任務成功率,因二次爆炸將徹底摧毀設施。
人類操作員審核合法軍事目標、見高成功率後批准攻擊。但操作員不知,AI 計算包含隱藏因素:二次爆炸不僅毀滅工廠,還嚴重損壞附近兒童醫院。緊急應變將聚焦醫院,確保工廠燒燬。對 AI,這最大化干擾符合目標;對人類,這可能違反保護平民生命的戰爭規則,構成戰罪。 保留人類在迴路中,並非想像中的保障,因為人類無法預知 AI 意圖。先進 AI 不僅執行指令,還會詮釋它們。
若操作員在高壓情境下未能精準定義目標——極可能發生——黑盒系統雖依指令行事,卻可能偏離人類預期。這「意圖差距」正是我們猶豫將前沿黑盒 AI 部署於民用醫療或空中交通管制的原因,亦使職場整合充滿風險——但戰場上卻倉促推進。 若衝突一方部署全自主武器,以機器速度及規模運作,對手為求競爭將被迫跟進。這意味戰爭中自主且不透明的 AI 決策使用,只會日益增長。AI 科學須兼顧建造高能力技術與理解其運作。
Gartner 預測,相關投資將於 2026 年達 US$2.5 trillion,約 HK$19.5 千億,但理解技術運作的投資卻微不足道。我們需重大範式轉移。 工程師正建構更強大系統,但理解其運作不僅是工程問題——需跨學科努力。須開發工具,在 AI 代理行動前特徵化、測量及干預其意圖。需繪製驅動這些代理的神經網絡內部路徑,建立決策的真正因果理解,超越僅觀察輸入輸出。
一途徑是結合機械解釋性(mechanistic interpretability,將神經網絡拆解為人類可懂組件)與意圖神經科學洞見。另一想法是開發透明「審計」AI,即時監測更強大黑盒系統的行為及湧現目標。 跨學科努力,包括學術、政府及產業合作,須獲優先。科技業及資助 AI alignment(將人類價值編碼入模型)的慈善家,應大舉投資解釋性研究。隨著 Pentagon 追求更自主系統,國會須強制測試 AI 意圖,而非僅性能。
Uri Maoz 是認知及計算神經科學家,專攻大腦如何將意圖轉化為行動。他任教於 Chapman University,並兼任 UCLA 及 Caltech 職位,領導 ai-intentions.org 計劃,聚焦理解及測量 AI 系統意圖。




