Google 今日發佈了 Gemini 3,旨在實現「將任何想法變為現實」。這個系列的首個模型是 Gemini 3 Pro,今日開始在 Gemini 應用及 AI 模式中推出。Gemini 1.0 專注於原生多模態及較長的上下文窗口。一年後,Gemini 2.0 帶來了高級推理及初步的代理能力,而 Gemini 2.5 則引入了深度推理和編碼能力。Gemini 3 — 去掉了「.0」— 是 Google 所稱的「最智能模型」,旨在幫助用戶「將任何想法變為現實」。
Gemini 3 的起始點是更好地理解請求的上下文和意圖,從而讓用戶「以更少的提示獲得所需的結果」。這款模型在推理方面達到了尖端技術,能夠「理解深度和細微之處」,例如「識別創意構思中的微妙線索,或解析複雜問題的重疊層次」。Gemini 3 Pro 的回應旨在「聰明、簡潔且直接,將陳腔濫調和奉承換成真實的洞見」。它作為真正的思想夥伴,提供新方法來理解信息和表達自己,從生成高保真的可視化代碼來翻譯繁雜的科學概念,到創意頭腦風暴。
根據基準測試,Gemini 3 Pro 在 LMArena 的得分為 1501,超越了 2.5 Pro(1451),後者仍然保持著最高位置。它在所有主要基準中都以顯著的優勢超越了其替代模型:在「人性的最後考試」中展示了博士級推理,得分為 37.5%(未使用任何工具),在 GPQA Diamond 中得分為 91.9%。在數學領域,Gemini 3 Pro 在 MathArena Apex 中達到了 23.4% 的新尖端標準。
除了文本,Gemini 3 Pro 在多模態推理方面重新定義了基準,MMM-U Pro 的得分為 81%,而 Video-MMMU 則達到 87.6%。在 SimpleQA Verified 中得分 72.1%,顯示了事實準確性的顯著進步。它在 WebDev Arena 排行榜中名列前茅,得分達到 1487 ELO。在 Terminal-Bench 2.0 中的得分為 54.2%,測試模型通過終端操作計算機的能力,並在 SWE-bench Verified 中的得分為 76.2%,這是一個測量編碼代理的基準。這意味著 Gemini 3 Pro 在解決科學和數學等複雜問題方面具有高度可靠性。
今日 Google 亦宣佈 Gemini 3 Deep Think 模式,其推理和多模態理解更為出色。它在「人性的最後考試」中的得分為 41.0%(未使用工具),在 GPQA Diamond 中得分為 93.8%。該功能將在接下來幾週內提供給 AI Ultra 訂閱者。它還在 ARC-AGI(包含代碼執行)中達到了前所未有的 45.1% 的得分,展示了解決新挑戰的能力。
Gemini 3 的生成 UI 功能使得生成 UI(或生成界面)成為可能,LLMs 能夠生成內容和整個用戶體驗。這包括網頁、遊戲、工具和應用程序,所有這些都是「自動設計且完全定制,以響應任何問題、指令或提示」。這項工作代表著向全 AI 生成用戶體驗邁出的第一步,讓用戶自動獲得根據其需求量身定制的動態界面,而不必從現有的應用程序目錄中選擇。
Gemini 3 Pro 利用工具訪問,例如網頁搜索和圖像生成,並採用「精心設計的系統指令」。系統由詳細的指令引導,這些指令包括目標、計劃、範例和技術規範,包括格式、工具手冊和避免常見錯誤的提示。最後,輸出將經過後處理器,解決「潛在的常見問題」。這項實驗將於今日在 Gemini 應用中推出。
動態視圖讓 Gemini 3 為每個提示設計和編碼「完全定制的互動回應」。它通過理解向 5 歲小孩解釋微生物組所需的內容和特徵不同於向成年人解釋的方式來定制體驗,正如為企業創建社交媒體帖子畫廊需要的界面與為即將到來的旅行生成計劃所需的完全不同。
視覺佈局是第二個實驗,創建「沉浸式、雜誌風格的視圖,配有照片和模塊」。動態視圖的主要區別在於,Gemini 將生成滑塊、復選框和其他過濾器,讓用戶進一步自定義結果。用戶可能最初只能看到這些實驗中的一個,以便 Google 收集反饋。
這次是 Google 第一次在 Gemini 應用的同時將新模型引入 Google 搜索和 AI 模式。從本週開始,AI Pro 和 AI Ultra 訂閱者可以在左上角的下拉菜單中選擇「思考:3 Pro 推理和生成佈局」。隨著 Gemini 3,Google 的查詢擴展技術能夠進行比以往更多的搜索,提出更細緻的問題,以改善最終的回應。AI 模式還將創建生成 UI,以創建互動工具和模擬。
展望未來,Google 將在接下來幾週內更新搜索的自動模型選擇,讓訂閱者能夠向 Gemini 3 提出挑戰性問題,同時繼續使用更快的模型處理簡單任務。




