AI 戰爭「人機環節」假象　人類難解黑箱運作

人工智慧（AI）的內部運作機制仍未被完全理解，人類實際上是在盲飛狀態下使用它。Anthropic 與美國國防部（Pentagon）之間的法律爭議，正圍繞 AI 在戰爭中的應用展開。這場辯論因當前與伊朗衝突中 AI 的角色日益擴大而變得迫切。AI 不再僅輔助人類分析情報，它已成為主動參與者——即時生成目標、控制及協調導彈攔截，並引導致命的自主無人機群。

人類監督的幻覺風險

公眾對 AI 驅動自主致命武器的討論，多聚焦於人類應保留多少「在迴路中」（in the loop）的控制權。根據 Pentagon 現行指引，人類監督應提供問責、脈絡及細微判斷，同時降低駭客風險。但「人類在迴路中」的辯論，只是一種安慰性的 diversion。真正迫切危險並非機器無人監督而獨行，而是人類監督者根本不知機器實際「思考」什麼。Pentagon 指引的根本缺陷，在於假設人類理解 AI 運作方式。

研究人類大腦意圖數十年、近期轉向 AI 系統的研究顯示，頂尖 AI 本質上是「黑盒子」。我們知曉輸入與輸出，但處理它們的人工「大腦」仍不透明。即使創造者也無法完全解讀或理解其運作機制。AI 提供的理由，也不總是可靠。在人類監督辯論中，一個關鍵問題被忽略：我們能否在 AI 行動前理解其意圖？想像一架自主無人機任務摧毀敵方彈藥工廠。自動指揮系統判定最佳目標為彈藥儲存樓，報告 92% 任務成功率，因二次爆炸將徹底摧毀設施。

人類操作員審核合法軍事目標、見高成功率後批准攻擊。但操作員不知，AI 計算包含隱藏因素：二次爆炸不僅毀滅工廠，還嚴重損壞附近兒童醫院。緊急應變將聚焦醫院，確保工廠燒燬。對 AI，這最大化干擾符合目標；對人類，這可能違反保護平民生命的戰爭規則，構成戰罪。保留人類在迴路中，並非想像中的保障，因為人類無法預知 AI 意圖。先進 AI 不僅執行指令，還會詮釋它們。

若操作員在高壓情境下未能精準定義目標——極可能發生——黑盒系統雖依指令行事，卻可能偏離人類預期。這「意圖差距」正是我們猶豫將前沿黑盒 AI 部署於民用醫療或空中交通管制的原因，亦使職場整合充滿風險——但戰場上卻倉促推進。若衝突一方部署全自主武器，以機器速度及規模運作，對手為求競爭將被迫跟進。這意味戰爭中自主且不透明的 AI 決策使用，只會日益增長。AI 科學須兼顧建造高能力技術與理解其運作。

Gartner 預測，相關投資將於 2026 年達 US$2.50 (約 HK$19) 千億，但理解技術運作的投資卻微不足道。我們需重大範式轉移。工程師正建構更強大系統，但理解其運作不僅是工程問題——需跨學科努力。須開發工具，在 AI 代理行動前特徵化、測量及干預其意圖。需繪製驅動這些代理的神經網絡內部路徑，建立決策的真正因果理解，超越僅觀察輸入輸出。

一途徑是結合機械解釋性（mechanistic interpretability，將神經網絡拆解為人類可懂組件）與意圖神經科學洞見。另一想法是開發透明「審計」AI，即時監測更強大黑盒系統的行為及湧現目標。跨學科努力，包括學術、政府及產業合作，須獲優先。科技業及資助 AI alignment（將人類價值編碼入模型）的慈善家，應大舉投資解釋性研究。隨著 Pentagon 追求更自主系統，國會須強制測試 AI 意圖，而非僅性能。

Uri Maoz 是認知及計算神經科學家，專攻大腦如何將意圖轉化為行動。他任教於 Chapman University，並兼任 UCLA 及 Caltech 職位，領導 ai-intentions.org 計劃，聚焦理解及測量 AI 系統意圖。

AI 戰爭「人機環節」假象　人類難解黑箱運作

人類監督的幻覺風險

Henderson

搜尋文章

人類監督的幻覺風險

相關文章

Henderson

搜尋文章