豐田研究所多任務 AI 模型提升機械人學習效率

Henderson
16/04/2026

機器人或許很快就能更快學習新技能，並大幅減少訓練需求，這得益於模仿學習的最新進展。Toyota Research Institute (TRI) 的研究團隊發現，使用大型多任務資料集訓練的政策——即大型行為模型 (LBMs)——表現遠勝傳統單任務方法。他們利用近 1,700 小時訓練數據及 1,800 次真實世界測試，證明這些系統能處理複雜操作任務，從組裝早餐托盤到安裝單車煞車轉子。

更智能的機器人學習

研究人員正邁向通用機器人，能在真實環境中運作。雖然機器人在物理能力上已足夠，但真正自主性仍受限。視覺運動學習——特別是從人類示範中行為克隆——正彌補這差距，讓機器人無需明確程式設計，即能在艱難條件下執行複雜任務。然而，傳統單任務模型常難以泛化至訓練情境外，限制適應性。為解決此問題，研究人員轉向 LBMs，這些模型在廣泛多任務資料集上訓練。在新研究中，科學家使用約 1,700 小時機器人示範訓練多個 LBMs，涵蓋逾 500 種多樣任務，結合專有及公開數據。

任務從基本拾取放置，到進階多步驟活動，如切蘋果或組裝早餐托盤。研究團隊透過 1,800 次真實世界測試及大規模模擬嚴格評估，包括需精準及工具使用的複雜多步驟任務。以下為關鍵規格比較：

模型類型	訓練數據	測試次數	任務數量
LBMs (微調後)	約 1,700 小時	1,800 次	逾 500
傳統單任務	相同數據量	相同	單一

研究結果顯示，將 LBMs 微調為任務專精模型，表現優於從零訓練。以相同數據，微調模型更佳，且多數情況下只需三分之一至五分之一示範即可達相似效果。此數據效率對機器人領域特別寶貴，因收集任務專屬示範耗時費力。LBMs 在多樣多任務資料集上訓練，能更有效適應新任務及陌生條件，尤其在分佈偏移時優勢明顯——即真實情境與訓練環境不同。模型隨預訓練數據增加而持續進步，測試規模下無明顯高原期。

不過，未微調的多任務模型並未穩勝單任務系統，此限於當前架構語言引導較弱，未來更大視覺語言動作模型或可改善。 TRI 團隊強調，評估機器人系統仍具挑戰。儘管測試廣泛，環境變異及訓練差異仍影響結果。他們主張使用大樣本、控制實驗及嚴謹統計方法，以確保可靠比較。

Henderson

Henderson 是 TechRitual Hong Kong 科技編輯，專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來，累計撰寫數千篇科技報導及產品評測，內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。