Agentic Vision 是一項新功能,旨在提升 Gemini 3 Flash 模型在圖像相關任務的準確性,通過「根據視覺證據提供答案」。像 Gemini 這樣的前沿 AI 模型通常以靜態的方式處理世界,若錯過細微的細節,例如微芯片上的序列號或遙遠的街道標誌,則需進行猜測。這種新方法將「視覺視為主動調查」,未來會結合視覺推理和代碼執行等其他工具。
為了通過圖像回答提示,Gemini 3 Flash 將制定「逐步放大、檢查和操作圖像的計劃」。具體而言,Agentic Vision 利用「思考、行動、觀察循環」。在思考階段,模型分析用戶查詢和初始圖像,制定多步計劃;在行動階段,模型生成並執行 Python 代碼,主動操作圖像(例如裁剪、旋轉、標註)或進行分析(例如運行計算、計數邊界框等);在觀察階段,轉換後的圖像將附加到模型的上下文窗口,讓模型能在生成最終回應前更好地檢查新數據。
Gemini 3 Flash 不僅僅是描述所給的圖像,它還能「執行代碼直接在畫布上進行推理」。例如,在 Gemini 應用中,當用戶要求「計算手上的數字」時,為了避免計數錯誤,該模型使用 Python 在識別的每根手指上繪製邊界框和數字標籤。這種視覺草稿確保其最終答案基於精確的像素理解。
同時,當 Gemini 3 Flash 偵測到圖像中的細微細節時,會進行放大。Agentic Vision 還能「解析高密度表格並執行 Python 代碼以可視化結果」。傳統的 LLM 在多步視覺算術中通常會出現幻覺,而 Gemini 3 Flash 通過將計算卸載到確定性的 Python 環境來避免這一問題,從而用可驗證的執行替代概率性猜測。
Agentic Vision 為 Gemini 3 Flash 帶來了「在大多數視覺基準上持續提升 5-10% 的質量」。這項新功能開始在 Gemini 應用中隨著思考模型的推出而展開,對於開發者而言,今天可以通過 Google AI Studio 和 Vertex AI 中的 Gemini API 獲得。未來,Gemini 3 Flash 將能更好地進行圖像旋轉或執行視覺數學,而無需「明確的提示來觸發」。目前,Agentic Vision 將隱性決定何時進行放大。
除了代碼執行,未來的工具將允許 Gemini 利用網絡和反向圖像搜索來進一步「基於世界的理解」。Agentic Vision 將會在其他 Gemini 模型中也可用。




