英國哥倫比亞大學學生開發 AI 控制的空氣曲棍球機，成功於模擬環境中學習對抗人類玩家

一組來自不列顛哥倫比亞大學的學生利用他們的專業知識，成功建造了一個單人、人工智能（AI）控制的空氣曲棍球桌。這一成就本身已經相當引人注目，但更值得注意的是，這個 AI 能夠僅在模擬環境中學會如何玩。一般而言，這類 AI 控制的機器人都是透過在現實世界中反覆試錯，經歷數千次的實踐來進行訓練。雖然這種方法有效，但卻相當耗時且可能損壞硬件。然而，UBC 團隊決定探索在數字空間中訓練 AI，讓其先在虛擬環境中犯錯，再將其應用於真實的空氣曲棍球桌。

為此，他們建造了一個高度準確的數字雙胞胎模型來訓練 AI。在訓練完成後，他們將訓練好的 AI 移植到真實的機器人上，以觀察其面對人類對手的表現。結果令人驚訝。儘管缺乏現實經驗，這款 AI 控制的空氣曲棍球機器人卻能夠提出真正的挑戰，這一切都是「即插即用」。

AI 在模擬環境中學習的成功案例

數字化調整現實世界的表現同樣引人注目的是，AI 通常在學習像空氣曲棍球這類任務時存在困難。這是因為在比賽中，球的運動速度非常快，並且運動不穩定，受到與球拍和牆壁互動的微妙變化影響。任何機器人選手在運作時也必須考慮電機的延遲、攝影機的延遲、電壓波動、機械振動以及不完美的球追蹤。因此，即使是微小的錯誤也可能導致失誤，進而影響比賽結果。為此，團隊故意設計了 AI 的訓練環境，使其不完美。

這與大多數訓練情境的「過於完美」形成對比，但現實世界顯然不是如此。因此，團隊考慮了不平整的球枱、變形的桌面、不一致的彈跳、電源波動以及攝影機延遲等因素。這種被稱為「領域隨機化」的方法，使 AI 學會預期意外並盡可能地反應，就像人類選手一樣。因此，AI 學會預測球的彈跳結果範圍，而不是根據設置的算法得出確切結果。

為了加快訓練速度，團隊放棄了使用 Unity 和 Unreal 等普通物理引擎的想法，轉而採用了名為「軟演員評論家」的訓練方法。簡單來説，這是一種基於獎勵和懲罰的學習環境。在這種環境中，AI 根據其表現採取行動，並獲得獎勵或懲罰。在數百萬次的模擬比賽中，AI 變得越來越擅長於比賽，並適應比賽中的各種混亂情境。當應用於現實世界時，AI 選手還藉助一個特殊的上方攝影機和一個覆蓋了反射膠帶的球，幫助其以每秒 120 幀的速度更清晰地「看見」球。

除了空氣曲棍球之外，團隊的創新還對訓練其他自主系統，如無人機、車輛和機器人等，具有潛在的應用價值。如果能夠加快這些平台的訓練速度並使其更具現實性，類似的模擬到現實的轉移將會帶來巨大的好處。如果希望瞭解更多詳情，項目的官方 GitHub 頁面提供了更多資訊。

英國哥倫比亞大學學生開發 AI 控制的空氣曲棍球機，成功於模擬環境中學習對抗人類玩家

AI 在模擬環境中學習的成功案例

Henderson

搜尋文章