Google DeepMind 最近展示了 Apptronik 的 Apollo 機器人能夠使用從未接觸過的物體執行複雜任務。在這次展示中,機器人能夠處理形狀奇特或柔軟的物品,並根據口頭指令進行反應,例如「拿起綠色方塊」,以及在容器或物品移動時即時調整。演示還顯示了 Aloha 機器人執行日常活動的情況,例如打包午餐、整理物品,以及聽取和回應口頭指令。
上週的報導指出,DeepMind 正在開發一個具有「內心獨白」的 AI 系統,該系統使機器人能夠觀察任務、用語言描述它們,並更有效地學習。Google DeepMind 的最新機器人技術推進標誌著通用類人機器人邁出了一大步。該公司與 Apptronik 合作,將其先進的 Gemini 3 和 Gemini Robotics AI 模型與 Apollo 類人機器人結合,旨在創建一個能夠在不重新訓練的情況下執行各種現實任務的單一系統。
Gemini Robotics 是為「多體現」控制而設計的,能夠操作從雙臂工業機器人到像 Apollo 這樣的完整類人機器人。其結果是一個能夠觀察示範、理解自然語言指令、計劃多步程序並與不熟悉物體互動的機器人。最近的實驗室演示顯示,Apollo 能夠執行日常活動,如打包午餐、整理衣物、將物品放入容器以及在典型人類家庭中應對不可預測的環境。
這種勢頭反映了過去兩年 AI 和硬件的快速進步,這一切都得益於更好的模型和更便宜的元件。DeepMind 表示,未來的突破必須專注於數據效率,因為訓練機器人仍然需要大量的互動和操作數據。安全性仍然是一個核心挑戰,特別是對於旨在在人類、寵物和易碎家居物品附近運行的機器。
儘管當前的機器人仍然缺乏執行封閉 Ziploc 袋等任務所需的精細度,但 Apollo 硬件與 DeepMind 日益強大的 AI 的融合標誌著一個重要的轉變。如果該技術能在實驗室之外可靠運作,將有望推進該領域朝向通用機器人工作者的方向,使其能理解指令、即時適應並執行實體任務,限制大大減少。
DeepMind 正在開發一種新技術,可能會改變機器人的學習方式,通過賦予它們「內心獨白」。最近的一項專利申請概述了一個系統,其中 AI 代理觀察視頻或圖片中的某人執行任務,並生成自然語言的描述。例如,機器人可能會觀察某人舉起杯子,並內部描述該動作為「這個人拾起杯子」。通過將視覺輸入與這種內心語言結合,該系統幫助機器人更清楚地理解行為,並在面對類似情況時記住如何執行。
這種方法使「零樣本」學習成為可能,使機器人能夠在沒有先前訓練的情況下處理不熟悉的物體或任務。DeepMind 還表示,這種方法減少了機器人訓練通常所需的記憶和處理需求,從而使其比現有技術更高效。這項工作擴展了 DeepMind 在機器人技術上的廣泛進展。最近,該公司推出了「Gemini Robotics On-Device」,這是一個設計用於直接在機器人上運行的緊湊版機器人基礎模型,無需依賴雲服務。
根據專家的說法,將現場 AI 與內心語言相結合,使機器人獲得必要的背景知識,提升它們在複雜和變化環境中做決策和適應的能力。




