Google Gemini Robotics-ER 1.6 助機械人理解實境規劃執行任務

Henderson
15/04/2026

Google 推出全新 AI 模型 Gemini Robotics-ER 1.6，旨在協助機械人更有效地理解及互動物理世界，解決機械人領域最大挑戰之一：超越指令的推理能力。此模型專注「具身推理」（embodied reasoning），讓機械人能解讀視覺輸入、規劃任務，並判斷任務完成時機。這代表從單純遵從指令的機器，轉向具情境意識決策系統。更新版在空間推理及多視角理解上優化早期版本，讓機械人更有效處理多個相機輸入及動態環境資訊，亦新增儀器讀取功能，適用於工業常見儀表。

橋接數位與物理差距

此模型在空間推理任務表現突出，能更準確辨識物件、計數及判斷物件間關係，甚至在推理過程中指向物件，將複雜任務拆解為小步驟。這在真實環境中至關重要，機械人需與物件互動、穿越雜亂空間，並基於不完整或變化資訊決策。模型亦強化任務成功偵測，讓機械人評估任務是否正確完成，適用於自動化流程中決定重試或推進。多視角推理亦有進展。機械人常依賴多相機輸入，如頂視及手腕視角，模型能整合這些視點，形成完整環境理解，即使遇遮擋或低能見度亦然。

最實用新增為讀取儀器，如壓力表、視窗玻璃及數位顯示。此功能與 Boston Dynamics 合作開發，用於 Spot 機械人設施巡檢。「儀器讀取及更可靠任務推理能力，將讓 Spot 完全自主察覺、理解及應對真實挑戰，」Boston Dynamics Spot 副總裁兼總經理 Marco da Silva 表示。模型結合視覺推理及程式碼執行，放大影像辨識指針及刻度，以高精度計算數值。

效能基準顯示儀器讀取準確率從早期模型 23% 提升至 93%（啟用 agentic vision），並改善安全限制遵守，如避免不安全物件處理。Google 表示，此為其最安全機械人系統，能偵測危害並遵循文字及視覺安全規則。 Gemini Robotics-ER 1.6 已透過 Gemini API 及 Google AI Studio 向開發者開放，附帶具身推理測試及應用建置工具。

| 規格項目 | 細節 | |———-|——| | 模型名稱 | Gemini Robotics-ER 1.6 | | 核心功能 | 具身推理、空間推理、多視角理解、儀器讀取、任務成功偵測 | | 準確率提升 | 儀器讀取從 23% 至 93% | | 可用平台 | Gemini API、Google AI Studio | | 合作夥伴 | Boston Dynamics (Spot 機械人) |

📬 免費訂閱 TechRitual 科技精選

按「免費訂閱」即同意收到 TechRitual 嘅科技資訊及優惠。可隨時取消訂閱。

Henderson

Henderson 是 TechRitual Hong Kong 科技編輯，專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來，累計撰寫數千篇科技報導及產品評測，內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。