Google 正式發佈全新的 Gemini 3 Deep Think 模式,這一模式在 Gemini 3 Pro 的基礎上投入了更多算力並引入新技術,旨在在複雜數學、科學與邏輯推理任務上提供更高水平的表現。Deep Think 現已面向所有 Google AI Ultra 訂閱用戶開放,使用者可在 Gemini 應用中選擇 Gemini 3 Pro 模型並切換至「Deep Think」模式直接使用。
根據介紹,Gemini 3 Deep Think 在多項業內高難度基準測試中取得了業界領先的成績。
在被視為當前最難的 AI 推理測評之一的 Humanity’s Last Exam 中獲得了 41% 的得分,而在 ARC-AGI-2 測試中憑藉代碼執行拿下 45.1% 的成績,GPQA Diamond 科學知識測試則獲得了 93.8% 的高分,均被標註為最先進水平。Google 表示,這一模式依托「高級並行推理」能力,可以同時探索多種假設路徑,大幅提升在複雜問題求解中的準確率和穩健性。
在實際競賽場景中,Deep Think 相關模型已展現出接近人類頂尖選手的實力。Google 提到,這些 Deep Think 變體近期在國際數學奧林匹克(IMO)和國際大學生程序設計競賽(ICPC)世界總決賽中達到了金牌標準。
在 IMO 測試設置中,模型需在兩場各 4.5 小時的考試中,在完全離線、不可調用工具或互聯網的條件下獨立解題並撰寫自然語言證明,對推理深度與表達能力要求極高。
對於終端用戶而言,Gemini 3 Deep Think 的定位是作為 Ultra 訂閱層中的高推理模式,主要面向需要嚴謹演繹、多步推理和高可靠性的複雜任務場景。Google 強調,這一模式是在現有 Gemini 3 Pro 能力之上通過額外算力與新技術堆疊而成,更適合處理高難度數學、科學研究問題及複雜邏輯分析需求。用戶只需在 Gemini 應用內將模型選項切換到 Gemini 3 Pro 並啟用 Deep Think,即可體驗這一增強版推理能力。
OpenAI 早在今年 7 月就宣稱其一款實驗性推理大模型已達到金牌級別的表現,但該模型至今尚未公開發佈。相比之下,Google 此次將達到 IMO 金牌標準的 Deep Think 模型直接開放給 Ultra 訂閱用戶使用,被視為對競品的一次先手發佈,外界普遍預計 OpenAI 可能在不久的將來跟進,將其高推理模型推向公眾。




