豐田研究所 多任務 AI 模型 提升機械人學習效率

機器人或許很快就能更快學習新技能,並大幅減少訓練需求,這得益於模仿學習的最新進展。Toyota Research Institute (TRI) 的研究團隊發現,使用大型多任務資料集訓練的政策——即大型行為模型 (LBMs)——表現遠勝傳統單任務方法。他們利用近 1,700 小時訓練數據及 1,800 次真實世界測試,證明這些系統能處理複雜操作任務,從組裝早餐托盤到安裝單車煞車轉子。

更智能的機器人學習

研究人員正邁向通用機器人,能在真實環境中運作。雖然機器人在物理能力上已足夠,但真正自主性仍受限。視覺運動學習——特別是從人類示範中行為克隆——正彌補這差距,讓機器人無需明確程式設計,即能在艱難條件下執行複雜任務。然而,傳統單任務模型常難以泛化至訓練情境外,限制適應性。為解決此問題,研究人員轉向 LBMs,這些模型在廣泛多任務資料集上訓練。 在新研究中,科學家使用約 1,700 小時機器人示範訓練多個 LBMs,涵蓋逾 500 種多樣任務,結合專有及公開數據。

任務從基本拾取放置,到進階多步驟活動,如切蘋果或組裝早餐托盤。研究團隊透過 1,800 次真實世界測試及大規模模擬嚴格評估,包括需精準及工具使用的複雜多步驟任務。 以下為關鍵規格比較:

模型類型訓練數據測試次數任務數量
LBMs (微調後)約 1,700 小時1,800 次逾 500
傳統單任務相同數據量相同單一

研究結果顯示,將 LBMs 微調為任務專精模型,表現優於從零訓練。以相同數據,微調模型更佳,且多數情況下只需三分之一至五分之一示範即可達相似效果。此數據效率對機器人領域特別寶貴,因收集任務專屬示範耗時費力。LBMs 在多樣多任務資料集上訓練,能更有效適應新任務及陌生條件,尤其在分佈偏移時優勢明顯——即真實情境與訓練環境不同。模型隨預訓練數據增加而持續進步,測試規模下無明顯高原期。

不過,未微調的多任務模型並未穩勝單任務系統,此限於當前架構語言引導較弱,未來更大視覺語言動作模型或可改善。 TRI 團隊強調,評估機器人系統仍具挑戰。儘管測試廣泛,環境變異及訓練差異仍影響結果。他們主張使用大樣本、控制實驗及嚴謹統計方法,以確保可靠比較。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。