研究顯示一致性訓練能提升機器人操作物體的靈巧性表現

教導機器人以類似人類的靈巧性操作物體,仍然是機器人技術面臨的最大挑戰之一。一項新研究表明,解決方案可能不在於為機器人提供更複雜的訓練數據,而在於提供更一致的學習範例。來自紐約大學坦登工程學院及機器人與人工智能研究所的研究人員發現,接受結構化、可預測示範訓練的機器人,其表現顯著優於接受高度變化示範訓練的機器人。這項研究有助於改善機器人學習涉及複雜手部動作、變換握持方式和多肢體協調的任務。

許多機器學習系統依賴模仿學習,機器透過模仿人類的示範來學習。然而,收集高度靈巧任務的示範相當困難,因為遠程操作系統難以捕捉到細微的手指動作及豐富的接觸互動。為瞭解決這一限制,研究人員轉向運動規劃算法,這些算法能夠在物理模擬中自動生成示範。機器人從虛擬範例中學習,而非直接模仿人類。

研究顯示一致性示範訓練提升機器人表現

然而,研究團隊很快發現了一個問題。廣泛使用的快速探索隨機樹(RRT)規劃方法所生成的解決方案在每個示範之間的變化過大,這使得機器人很難識別它們應該模仿的行為。研究的主要作者朱懷江表示:「這些規劃器在尋找解決方案方面非常出色,但當每個解決方案看起來都不一樣時,學習系統便難以明白應模仿什麼行為。」根據研究人員的説法,RRT 生成示範中的隨機性創造了所謂的高熵數據。

雖然這種多樣性有助於規劃算法探索不同的解決方案,但卻可能降低模仿學習的有效性。

為瞭解決這一問題,研究團隊開發了替代的規劃方法,旨在生成更一致的示範。其中一種方法重點在於穩步朝著目標前進,而另一種則依賴預定義動作的庫,以減少示範之間的變化。研究人員使用兩個具有挑戰性的操作任務來評估這一方法。在一個實驗中,兩個機械臂需要將一個大型圓柱體旋轉 180 度,同時不斷調整握持方式。在另一個實驗中,一個靈巧的機械手在其掌心內操控一個立方體,以匹配目標方向。

接受更一致示範訓練的機器人,其成功率顯著高於接受標準 RRT 生成數據的機器人。在雙臂任務中,該系統僅使用 100 個示範便達到了近乎完美的表現。研究團隊還將學習到的策略直接從模擬轉移至實體硬件,無需額外的再訓練。雙臂機器人在 90%的實際試驗中成功,而機械手完成了約 62%的嘗試。這些發現突顯了機器人技術中日益增長的趨勢,即結合傳統運動規劃與機器學習。研究人員越來越多地使用規劃算法生成學習系統的訓練數據。

這項研究還強調了人工智能中的一個更廣泛的教訓:更大量的數據並不總是導致更好的學習。在某些情況下,精心結構化的範例可能比大量嘈雜或不一致的示範更具價值。該研究發表於《IEEE Robotics and Automation Letters》期刊。

Henderson
Henderson

Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。