Google DeepMind 近日發佈新一代機器人推理模型 Gemini Robotics-ER 1.6,顯著提升機器人在物理世界中的自主感知與決策能力。據外媒報導,該模型在工廠環境的模擬儀表讀取任務中,成功率由上一代的 23% 大幅躍升至 93%。
技術細節與性能對比
| 模型 | 儀表讀取成功率 |
|---|---|
| Gemini Robotics-ER 1.6(未優化) | 86% |
| Gemini Robotics-ER 1.6(應用 Agentic Vision) | 93% |
| 前代 ER 1.5 | 23% |
| 通用模型 Gemini 3.0 Flash | 67% |
Gemini Robotics-ER 1.6 在未經特定優化前,即達到 86% 的儀表讀取成功率,應用「智能體視覺」(Agentic Vision)技術後進一步提升至 93%。相比之下,前代模型 ER 1.5 僅為 23%,通用模型 Gemini 3.0 Flash 則為 67%。此外,該模型強化多視角推理能力,能將機器人多個攝像頭(如頭頂攝像頭與腕部攝像頭)捕捉的視角整合成連貫場景。
在讀取儀表時,模型先放大圖像觀察指針與刻度,再透過指向與代碼執行估算比例及間隔,最終得出數值。 Google DeepMind 形容 Gemini Robotics-ER 1.6 為迄今最安全的機器人模型。它更有效地遵循安全策略,能理解並遵守如「不要處理液體」或「不要舉起超過 20 公斤物體」等物理限制。
AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們。




