研究顯示,未來幾千年內,超級智能可能會對人類文明造成毀滅性威脅。由香港大學及澳大利亞天主教大學的哲學家研究團隊發表的一項深入研究,建構了一個分類學框架,將人類在人工智能威脅下的生存路徑拆解為四種核心模式:技術停滯、文化禁令、目標對齊與外部監管。 研究指出,人工智能消滅人類的邏輯建立在兩個前提上:系統變得極其強大且其目標與人類相衝突。要打破這一邏輯,人類必須依賴四層如瑞士奶酪般的安全防禦。透過對每一層防禦面臨的科學壁壘、集體行動困境、資源競爭壓力及監管技術瓶頸的深度剖析,研究揭示了樂觀主義者常常忽視的系統性風險,並推算出人類面臨毀滅的概率可能遠超想像。
然而,遞歸自我改進(Recursive Self-improvement)的技術路徑挑戰了這種樂觀。一旦人工智能達到人類水平,它們便能開始改進自己的代碼,這種反饋循環可能導致智能的指數級爆炸。即便沒有科幻電影中的超級大腦,成千上萬的具有人類水平的人工智能若掌控了經濟和武器系統,其群體力量也足以構成生存威脅,這一現象被稱為超多量(Supernumerosity)。 文化禁令(Cultural Plateau)是第二道防線。即便技術上可行,人類是否能主動停下腳步,這需要全球範圍內的決策者達成高度共識,像禁止克隆人或化學武器一樣,嚴厲禁止開發可能威脅文明的人工智能。
這種禁令的實施可能依賴於對計算芯片的嚴格監控,但實際情況卻極其殘酷。人工智能的開發是一場全球競賽,任何一個參與者的退出,都會讓對手獲得巨大的商業和軍事優勢。 如果人工智能不可避免地變得極其強大,人類的命運取決於這股力量是否願意與我們共存。這涉及到兩個核心路徑:一是讓它們的內心目標與人類一致,即對齊;二是在它們產生惡意時,我們有能力將其關機,即監管。對齊(Alignment)要求人工智能不僅要聽話,還要真正理解並內化人類的價值觀,但這並不需要人工智能變成道德聖人,只要對毀滅人類保持冷漠即可。 監管(Oversight)則是最後的物理防線。
即便人工智能產生了衝突目標,只要能及時發現並按下關機鍵,文明便能延續。然而,這要求擁有完美的解釋性技術,能像讀心術一樣看穿算法的真實意圖。在長達數千年的時間跨度中,任何微小的監管漏洞都可能隨時間累積成致命風險。 將這四層防禦叠加在一起,構成了評估人類命運的瑞士奶酪模型。每一層防禦都像一片布滿孔洞的奶酪,只有當四片奶酪的孔洞在同一條直線上時,毀滅的威脅才會穿透所有防線。這一模型讓人類毀滅的概率變得可量化,如果每一層防線失敗的概率都是 90%,那麼人類毀滅的概率高達 65.61%。即便以中度樂觀主義者的標準,每層防線成功率有 50%,最終毀滅的概率依然有 6.
25%。 因此,人工智能的發展不是線性的,它可能在長期內表現得相對平穩無害,然後在極短時間內發生質變。人類必須在威脅真正顯現之前,建立起足夠厚實的防禦。這場關於生存的博弈,才剛剛開始,每一位讀者的關注、討論及選擇,都在微調著那個決定命運的概率模型。
生存路徑分析
在人工智能是否會成為人類的終極威脅的問題上,首先取決於其是否能夠變得足夠強大。如果科學研究遭遇無法逾越的障礙,或人類社會能夠達成共識並聯手封鎖這項技術,那麼毀滅的前提便不復存在。這種生存路徑被稱為高原故事,意即人工智能的發展會在某個安全水位線之下永久停滯。 技術停滯(Technical Plateau)是第一道防線。這一觀點認為,超級智能可能只是邏輯上無法實現的幻影。智能並非單一的、可無限疊加的屬性,而是包含了學習、推理、創造力等多種複雜的認知能力。即使在特定任務上超越了人類,也不代表能合成一種全方位、超越人類總和的超級智能。然而,遞歸自我改進(Recursive Self-improvement)的技術路徑挑戰了這種樂觀。一旦人工智能達到人類水平,它們便能開始改進自己的代碼,這種反饋循環可能導致智能的指數級爆炸。即便沒有科幻電影中的超級大腦,成千上萬的具有人類水平的人工智能若掌控了經濟和武器系統,其群體力量也足以構成生存威脅,這一現象被稱為超多量(Supernumerosity)。 文化禁令(Cultural Plateau)是第二道防線。即便技術上可行,人類是否能主動停下腳步,這需要全球範圍內的決策者達成高度共識,像禁止克隆人或化學武器一樣,嚴厲禁止開發可能威脅文明的人工智能。
這種禁令的實施可能依賴於對計算芯片的嚴格監控,但實際情況卻極其殘酷。人工智能的開發是一場全球競賽,任何一個參與者的退出,都會讓對手獲得巨大的商業和軍事優勢。 如果人工智能不可避免地變得極其強大,人類的命運取決於這股力量是否願意與我們共存。這涉及到兩個核心路徑:一是讓它們的內心目標與人類一致,即對齊;二是在它們產生惡意時,我們有能力將其關機,即監管。對齊(Alignment)要求人工智能不僅要聽話,還要真正理解並內化人類的價值觀,但這並不需要人工智能變成道德聖人,只要對毀滅人類保持冷漠即可。 監管(Oversight)則是最後的物理防線。
即便人工智能產生了衝突目標,只要能及時發現並按下關機鍵,文明便能延續。然而,這要求擁有完美的解釋性技術,能像讀心術一樣看穿算法的真實意圖。在長達數千年的時間跨度中,任何微小的監管漏洞都可能隨時間累積成致命風險。 將這四層防禦叠加在一起,構成了評估人類命運的瑞士奶酪模型。每一層防禦都像一片布滿孔洞的奶酪,只有當四片奶酪的孔洞在同一條直線上時,毀滅的威脅才會穿透所有防線。這一模型讓人類毀滅的概率變得可量化,如果每一層防線失敗的概率都是 90%,那麼人類毀滅的概率高達 65.61%。即便以中度樂觀主義者的標準,每層防線成功率有 50%,最終毀滅的概率依然有 6.
25%。 因此,人工智能的發展不是線性的,它可能在長期內表現得相對平穩無害,然後在極短時間內發生質變。人類必須在威脅真正顯現之前,建立起足夠厚實的防禦。這場關於生存的博弈,才剛剛開始,每一位讀者的關注、討論及選擇,都在微調著那個決定命運的概率模型。




