機器人或許很快就能更快學習新技能,並大幅減少訓練需求,這得益於模仿學習的最新進展。Toyota Research Institute (TRI) 的研究團隊發現,使用大型多任務資料集訓練的政策——即大型行為模型 (LBMs)——表現遠勝傳統單任務方法。他們利用近 1,700 小時訓練數據及 1,800 次真實世界測試,證明這些系統能處理複雜操作任務,從組裝早餐托盤到安裝單車煞車轉子。
更智能的機器人學習
研究人員正邁向通用機器人,能在真實環境中運作。雖然機器人在物理能力上已足夠,但真正自主性仍受限。視覺運動學習——特別是從人類示範中行為克隆——正彌補這差距,讓機器人無需明確程式設計,即能在艱難條件下執行複雜任務。然而,傳統單任務模型常難以泛化至訓練情境外,限制適應性。為解決此問題,研究人員轉向 LBMs,這些模型在廣泛多任務資料集上訓練。 在新研究中,科學家使用約 1,700 小時機器人示範訓練多個 LBMs,涵蓋逾 500 種多樣任務,結合專有及公開數據。
任務從基本拾取放置,到進階多步驟活動,如切蘋果或組裝早餐托盤。研究團隊透過 1,800 次真實世界測試及大規模模擬嚴格評估,包括需精準及工具使用的複雜多步驟任務。 以下為關鍵規格比較:
| 模型類型 | 訓練數據 | 測試次數 | 任務數量 |
|---|---|---|---|
| LBMs (微調後) | 約 1,700 小時 | 1,800 次 | 逾 500 |
| 傳統單任務 | 相同數據量 | 相同 | 單一 |
研究結果顯示,將 LBMs 微調為任務專精模型,表現優於從零訓練。以相同數據,微調模型更佳,且多數情況下只需三分之一至五分之一示範即可達相似效果。此數據效率對機器人領域特別寶貴,因收集任務專屬示範耗時費力。LBMs 在多樣多任務資料集上訓練,能更有效適應新任務及陌生條件,尤其在分佈偏移時優勢明顯——即真實情境與訓練環境不同。模型隨預訓練數據增加而持續進步,測試規模下無明顯高原期。
不過,未微調的多任務模型並未穩勝單任務系統,此限於當前架構語言引導較弱,未來更大視覺語言動作模型或可改善。 TRI 團隊強調,評估機器人系統仍具挑戰。儘管測試廣泛,環境變異及訓練差異仍影響結果。他們主張使用大樣本、控制實驗及嚴謹統計方法,以確保可靠比較。




