Google Gemini Robotics-ER 1.6 助機械人理解實境規劃執行任務

Google 推出全新 AI 模型 Gemini Robotics-ER 1.6，旨在協助機械人更有效地理解及互動物理世界，解決機械人領域最大挑戰之一：超越指令的推理能力。此模型專注「具身推理」（embodied reasoning），讓機械人能解讀視覺輸入、規劃任務，並判斷任務完成時機。這代表從單純遵從指令的機器，轉向具情境意識決策系統。更新版在空間推理及多視角理解上優化早期版本，讓機械人更有效處理多個相機輸入及動態環境資訊，亦新增儀器讀取功能，適用於工業常見儀表。

橋接數位與物理差距

此模型在空間推理任務表現突出，能更準確辨識物件、計數及判斷物件間關係，甚至在推理過程中指向物件，將複雜任務拆解為小步驟。這在真實環境中至關重要，機械人需與物件互動、穿越雜亂空間，並基於不完整或變化資訊決策。模型亦強化任務成功偵測，讓機械人評估任務是否正確完成，適用於自動化流程中決定重試或推進。多視角推理亦有進展。機械人常依賴多相機輸入，如頂視及手腕視角，模型能整合這些視點，形成完整環境理解，即使遇遮擋或低能見度亦然。

最實用新增為讀取儀器，如壓力表、視窗玻璃及數位顯示。此功能與 Boston Dynamics 合作開發，用於 Spot 機械人設施巡檢。「儀器讀取及更可靠任務推理能力，將讓 Spot 完全自主察覺、理解及應對真實挑戰，」Boston Dynamics Spot 副總裁兼總經理 Marco da Silva 表示。模型結合視覺推理及程式碼執行，放大影像辨識指針及刻度，以高精度計算數值。

效能基準顯示儀器讀取準確率從早期模型 23% 提升至 93%（啟用 agentic vision），並改善安全限制遵守，如避免不安全物件處理。Google 表示，此為其最安全機械人系統，能偵測危害並遵循文字及視覺安全規則。 Gemini Robotics-ER 1.6 已透過 Gemini API 及 Google AI Studio 向開發者開放，附帶具身推理測試及應用建置工具。

AI 內容聲明：本文由 AI 工具輔助撰寫初稿，經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正，歡迎聯絡我們。

Google Gemini Robotics-ER 1.6 助機械人理解實境 規劃執行任務

橋接數位與物理差距

推薦內容

關於我們

Google Gemini Robotics-ER 1.6 助機械人理解實境規劃執行任務