Microsoft 與一個學術研究者聯盟合作,開發了一個新的基準測試工具,名為 GroundedPlanBench,旨在解決機器人技術中一個持久的問題,即機器人仍然難以同時決定要做什麼和在什麼地方做。當前的系統主要將這些決策分為兩個步驟。一個視覺語言模型首先用自然語言創建計劃,然後另一個模型將該計劃轉化為動作。這種分拆往往導致錯誤,特別是在簡單任務中。當被告知丟棄紙杯時,機器人可能會混淆該選擇哪個杯子,甚至會發明出從未要求的步驟。在雜亂的環境中,這些錯誤變得更為頻繁,因為規劃和空間推理是分開處理的,這使得一個階段的錯誤影響到下一個階段。
為了解決這個問題,研究團隊開發了 GroundedPlanBench,以測試 AI 模型是否能在規劃任務的同時準確識別每個動作應發生的位置。該系統不僅依賴文本,而是將每個動作與圖像中的特定位置相連。基本動作如抓取、放置、打開和關閉都與物體或位置相連,迫使系統將決策與物理世界相連。該基準測試包括超過 1,000 個基於真實機器人互動的任務。其中一些指令是直接的,例如將湯匙放在盤子上,而另一些則更為開放,例如整理桌子。這種混合非常重要,因為當指令模糊時,機器人經常會失敗。人類容易理解的語言對於機器來說可能過於模糊,特別是當多個物體相似時。
在一個例子中,系統被要求將四張餐巾放在沙發上,但它多次選擇同一張餐巾,因為描述並未清楚地區分它們。即使是像「左上角的餐巾」這樣更詳細的短語,也不足以保證可靠的執行。研究人員指出,模糊的語言導致無法執行的動作,突顯了當前系統的核心限制。
為了提高性能,團隊還開發了一種名為 Video-to-Spatially Grounded Planning(V2GP)的訓練方法。該系統從機器人執行任務的視頻中學習,檢測機器人何時與物體互動,識別這些物體並跟踪其位置。結果生成了結構化的計劃,將每個動作與特定位置相連。通過這種方法,團隊生成了超過 40,000 個具體化計劃,這些計劃從簡單的一步動作到涉及最多 26 步的長序列不等。當模型在這些數據上進行訓練時,其性能得到了改善。模型在選擇正確動作和將其與正確物體相連的能力上都有所提高,還減少了重複錯誤,例如多次對同一物品進行操作。
儘管如此,仍然存在挑戰。長而複雜的任務尤其困難,特別是當指令不明確時。研究人員表示,模型必須在較長的動作序列上進行推理,並在多步驟之間保持一致性。這項研究還將這種方法與傳統的將規劃與具體化分開的系統進行比較。傳統系統在面對模糊性時表現不佳,常常將多個動作映射到同一物體或位置。通過將這兩個步驟結合為一個單一過程,新的方法減少了這種不匹配,保持了動作和位置之間的緊密聯繫。
團隊建議,未來的工作可以將這種方法與預測模型結合,這些模型能在動作執行前預測結果,幫助機器人實時避免錯誤。目前的研究結果為機器人技術指明了一個清晰的方向。理解動作和位置的系統更可能在現實環境中有效運作。該研究已在 arXiv 發表。




