一組來自不列顛哥倫比亞大學的學生利用他們的專業知識,成功建造了一個單人、人工智能(AI)控制的空氣曲棍球桌。這一成就本身已經相當引人注目,但更值得注意的是,這個 AI 能夠僅在模擬環境中學會如何玩。一般而言,這類 AI 控制的機器人都是透過在現實世界中反覆試錯,經歷數千次的實踐來進行訓練。雖然這種方法有效,但卻相當耗時且可能損壞硬件。然而,UBC 團隊決定探索在數字空間中訓練 AI,讓其先在虛擬環境中犯錯,再將其應用於真實的空氣曲棍球桌。
為此,他們建造了一個高度準確的數字雙胞胎模型來訓練 AI。在訓練完成後,他們將訓練好的 AI 移植到真實的機器人上,以觀察其面對人類對手的表現。結果令人驚訝。儘管缺乏現實經驗,這款 AI 控制的空氣曲棍球機器人卻能夠提出真正的挑戰,這一切都是「即插即用」。
AI 在模擬環境中學習的成功案例
數字化調整現實世界的表現同樣引人注目的是,AI 通常在學習像空氣曲棍球這類任務時存在困難。這是因為在比賽中,球的運動速度非常快,並且運動不穩定,受到與球拍和牆壁互動的微妙變化影響。任何機器人選手在運作時也必須考慮電機的延遲、攝影機的延遲、電壓波動、機械振動以及不完美的球追蹤。因此,即使是微小的錯誤也可能導致失誤,進而影響比賽結果。為此,團隊故意設計了 AI 的訓練環境,使其不完美。
這與大多數訓練情境的「過於完美」形成對比,但現實世界顯然不是如此。因此,團隊考慮了不平整的球枱、變形的桌面、不一致的彈跳、電源波動以及攝影機延遲等因素。這種被稱為「領域隨機化」的方法,使 AI 學會預期意外並盡可能地反應,就像人類選手一樣。因此,AI 學會預測球的彈跳結果範圍,而不是根據設置的算法得出確切結果。
為了加快訓練速度,團隊放棄了使用 Unity 和 Unreal 等普通物理引擎的想法,轉而採用了名為「軟演員評論家」的訓練方法。簡單來説,這是一種基於獎勵和懲罰的學習環境。在這種環境中,AI 根據其表現採取行動,並獲得獎勵或懲罰。在數百萬次的模擬比賽中,AI 變得越來越擅長於比賽,並適應比賽中的各種混亂情境。當應用於現實世界時,AI 選手還藉助一個特殊的上方攝影機和一個覆蓋了反射膠帶的球,幫助其以每秒 120 幀的速度更清晰地「看見」球。
除了空氣曲棍球之外,團隊的創新還對訓練其他自主系統,如無人機、車輛和機器人等,具有潛在的應用價值。如果能夠加快這些平台的訓練速度並使其更具現實性,類似的模擬到現實的轉移將會帶來巨大的好處。如果希望瞭解更多詳情,項目的官方 GitHub 頁面提供了更多資訊。

