新系統讓機械人實時理解人類指令並執行行動

隨著科技的進步,機器人現在能夠將簡單語言轉化為實際行動,這得益於一個新框架的開發,該框架將人工智能模型與控制軟件相連接。來自華為 Noah’s Ark Lab、達姆施塔特工業大學及蘇黎世聯邦理工學院的研究人員開發了一個系統,該系統將大型語言模型與機器人操作系統(Robot Operating System,簡稱 ROS)聯繫起來,使機器能夠理解指令並在物理環境中執行這些指令。

這個框架允許機器人處理書面命令,並將其轉換為逐步行動。這對於在家庭、工作場所和公共空間中操作的機器來說,具有重要意義,因為人類的指令通常各不相同。研究人員 Christopher E. Mower 與其同事指出,讓自主機器人能夠將自然語言指令轉變為可靠的物理行動仍然是一個人工智能的主要挑戰。他們展示了將大型語言模型代理與 ROS 結合的潛力,並將完整實現作為開源代碼公開發佈。

該系統通過將指令分解為更小的可執行步驟來運作。例如,像「拿起綠色方塊並將其放在黑色架子上」的命令,會被轉化為機器人可以使用 ROS 執行的一系列動作。這一框架結合了大型語言模型的推理能力和 ROS,這是一個廣泛使用的開源機器人控制平台。這種整合允許機器人解釋指令,並在不需要對每個任務進行手動編程的情況下決定如何行動。

該代理會自動將大型語言模型的輸出轉化為機器人動作,支持可互換的執行模式(內嵌代碼或行為樹),通過模仿學習新的基本技能,並通過自動優化和人類或環境反饋不斷改進這些技能。該系統支持兩種執行方法。一種是模型生成直接控制機器人的小代碼片段,另一種是構建被稱為行為樹的結構化決策路徑,這幫助機器人適應步驟失敗的情況。這種雙重方法提高了靈活性,使機器人能夠處理簡單和複雜的任務,同時調整應對變化的條件。

研究人員在多個機器人系統中測試了該框架,以執行真實世界的任務。結果顯示,機器人能夠可靠地解釋指令並完成不同場景下的指定行動。廣泛的實驗證實了該框架的穩健性、可擴展性和多功能性,包括長期任務、桌面重組、動態任務優化和遠程監控控制等場景。所有結果均是利用開源預訓練的大型語言模型所取得的。該系統還使機器人能夠從反饋中學習,隨著時間的推移不斷改進其行動,而無需進行大量的重新編程。

通過將語言理解與物理執行相連結,這一框架有可能加速機器人在動態環境中的部署,因為在這樣的環境中,適應性至關重要。研究的未來工作將專注於將系統擴展至更複雜的任務和更廣泛的機器人平台。這項研究已發表在《自然機器智能》期刊上。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。