Google DeepMind 發佈 Gemini Robotics-ER 1.6 機器人推理模型 儀表讀取準確率達 93%

Google DeepMind 近日發佈新一代機器人推理模型 Gemini Robotics-ER 1.6,顯著提升機器人在物理世界中的自主感知與決策能力。據外媒報導,該模型在工廠環境的模擬儀表讀取任務中,成功率由上一代的 23% 大幅躍升至 93%。

技術細節與性能對比

模型儀表讀取成功率
Gemini Robotics-ER 1.6(未優化)86%
Gemini Robotics-ER 1.6(應用 Agentic Vision)93%
前代 ER 1.523%
通用模型 Gemini 3.0 Flash67%

Gemini Robotics-ER 1.6 在未經特定優化前,即達到 86% 的儀表讀取成功率,應用「智能體視覺」(Agentic Vision)技術後進一步提升至 93%。相比之下,前代模型 ER 1.5 僅為 23%,通用模型 Gemini 3.0 Flash 則為 67%。此外,該模型強化多視角推理能力,能將機器人多個攝像頭(如頭頂攝像頭與腕部攝像頭)捕捉的視角整合成連貫場景。

在讀取儀表時,模型先放大圖像觀察指針與刻度,再透過指向與代碼執行估算比例及間隔,最終得出數值。 Google DeepMind 形容 Gemini Robotics-ER 1.6 為迄今最安全的機器人模型。它更有效地遵循安全策略,能理解並遵守如「不要處理液體」或「不要舉起超過 20 公斤物體」等物理限制。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。