Google Gemini Robotics-ER 1.6 助機械人理解實境 規劃執行任務

Google 推出全新 AI 模型 Gemini Robotics-ER 1.6,旨在協助機械人更有效地理解及互動物理世界,解決機械人領域最大挑戰之一:超越指令的推理能力。此模型專注「具身推理」(embodied reasoning),讓機械人能解讀視覺輸入、規劃任務,並判斷任務完成時機。這代表從單純遵從指令的機器,轉向具情境意識決策系統。更新版在空間推理及多視角理解上優化早期版本,讓機械人更有效處理多個相機輸入及動態環境資訊,亦新增儀器讀取功能,適用於工業常見儀表。

橋接數位與物理差距

此模型在空間推理任務表現突出,能更準確辨識物件、計數及判斷物件間關係,甚至在推理過程中指向物件,將複雜任務拆解為小步驟。這在真實環境中至關重要,機械人需與物件互動、穿越雜亂空間,並基於不完整或變化資訊決策。模型亦強化任務成功偵測,讓機械人評估任務是否正確完成,適用於自動化流程中決定重試或推進。 多視角推理亦有進展。機械人常依賴多相機輸入,如頂視及手腕視角,模型能整合這些視點,形成完整環境理解,即使遇遮擋或低能見度亦然。

最實用新增為讀取儀器,如壓力表、視窗玻璃及數位顯示。此功能與 Boston Dynamics 合作開發,用於 Spot 機械人設施巡檢。「儀器讀取及更可靠任務推理能力,將讓 Spot 完全自主察覺、理解及應對真實挑戰,」Boston Dynamics Spot 副總裁兼總經理 Marco da Silva 表示。模型結合視覺推理及程式碼執行,放大影像辨識指針及刻度,以高精度計算數值。

效能基準顯示儀器讀取準確率從早期模型 23% 提升至 93%(啟用 agentic vision),並改善安全限制遵守,如避免不安全物件處理。Google 表示,此為其最安全機械人系統,能偵測危害並遵循文字及視覺安全規則。 Gemini Robotics-ER 1.6 已透過 Gemini API 及 Google AI Studio 向開發者開放,附帶具身推理測試及應用建置工具。

| 規格項目 | 細節 | |———-|——| | 模型名稱 | Gemini Robotics-ER 1.6 | | 核心功能 | 具身推理、空間推理、多視角理解、儀器讀取、任務成功偵測 | | 準確率提升 | 儀器讀取從 23% 至 93% | | 可用平台 | Gemini API、Google AI Studio | | 合作夥伴 | Boston Dynamics (Spot 機械人) |

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。