Google 推出全新 AI 模型 Gemini Robotics-ER 1.6,旨在協助機械人更有效地理解及互動物理世界,解決機械人領域最大挑戰之一:超越指令的推理能力。此模型專注「具身推理」(embodied reasoning),讓機械人能解讀視覺輸入、規劃任務,並判斷任務完成時機。這代表從單純遵從指令的機器,轉向具情境意識決策系統。更新版在空間推理及多視角理解上優化早期版本,讓機械人更有效處理多個相機輸入及動態環境資訊,亦新增儀器讀取功能,適用於工業常見儀表。
橋接數位與物理差距
此模型在空間推理任務表現突出,能更準確辨識物件、計數及判斷物件間關係,甚至在推理過程中指向物件,將複雜任務拆解為小步驟。這在真實環境中至關重要,機械人需與物件互動、穿越雜亂空間,並基於不完整或變化資訊決策。模型亦強化任務成功偵測,讓機械人評估任務是否正確完成,適用於自動化流程中決定重試或推進。 多視角推理亦有進展。機械人常依賴多相機輸入,如頂視及手腕視角,模型能整合這些視點,形成完整環境理解,即使遇遮擋或低能見度亦然。
最實用新增為讀取儀器,如壓力表、視窗玻璃及數位顯示。此功能與 Boston Dynamics 合作開發,用於 Spot 機械人設施巡檢。「儀器讀取及更可靠任務推理能力,將讓 Spot 完全自主察覺、理解及應對真實挑戰,」Boston Dynamics Spot 副總裁兼總經理 Marco da Silva 表示。模型結合視覺推理及程式碼執行,放大影像辨識指針及刻度,以高精度計算數值。
效能基準顯示儀器讀取準確率從早期模型 23% 提升至 93%(啟用 agentic vision),並改善安全限制遵守,如避免不安全物件處理。Google 表示,此為其最安全機械人系統,能偵測危害並遵循文字及視覺安全規則。 Gemini Robotics-ER 1.6 已透過 Gemini API 及 Google AI Studio 向開發者開放,附帶具身推理測試及應用建置工具。
| 規格項目 | 細節 | |———-|——| | 模型名稱 | Gemini Robotics-ER 1.6 | | 核心功能 | 具身推理、空間推理、多視角理解、儀器讀取、任務成功偵測 | | 準確率提升 | 儀器讀取從 23% 至 93% | | 可用平台 | Gemini API、Google AI Studio | | 合作夥伴 | Boston Dynamics (Spot 機械人) |




