Google DeepMind 正在推出其最新的 AI 推理模型 Gemini 2.5 Deep Think。根據公司的說法,這是其最先進的模型,能夠通過同時探索和考慮多個想法來回答問題,並利用這些結果選擇最佳答案。從本週五開始,訂閱 Google 每月 250 美元的 Ultra 訂閱服務的用戶將可以在 Gemini 應用中獲得 Gemini 2.5 Deep Think 的使用權。該模型最早在 2025 年的 Google I/O 中首次公布,這是 Google 首次公開的多代理模型。這些系統能夠生成多個 AI 代理,以平行的方式解決問題,這一過程需要比單一代理更多的計算資源,但通常能夠提供更好的答案。
Google 利用 Gemini 2.5 Deep Think 的變體,在今年的國際數學奧林匹克(IMO)中獲得金牌。與 Gemini 2.5 Deep Think 同時推出的,還有該公司在 IMO 中使用的模型,將限量發佈給一些數學家和學者。Google 表示,這款 AI 模型的推理過程需要數小時,而大多數面向消費者的 AI 模型通常只需幾秒或幾分鐘。該公司希望 IMO 模型能加強研究工作,並旨在獲取反饋,以改進其多代理系統在學術應用中的表現。
根據 Google 的說法,Gemini 2.5 Deep Think 模型在 I/O 中所宣布的基礎上有了顯著的改進。該公司還聲稱,開發了「新穎的強化學習技術」,以促使 Gemini 2.5 Deep Think 更好地利用其推理路徑。Google 在與 TechCrunch 分享的博客文章中指出,「Deep Think 能幫助人們解決需要創造力、戰略規劃和逐步改進的問題」。這一系列創新的功能和性能提升,預示著 AI 技術進入了新的階段,將對各行各業產生深遠的影響。
在即將舉行的 TechCrunch Disrupt 2025 活動中,眾多科技與風險投資界的重磅人物將參加,分享他們對初創企業成長的見解。Netflix、ElevenLabs、Wayve 和 Sequoia Capital 只是參與者中的一部分。他們將提供促進創業成長的見解,幫助參與者在競爭激烈的環境中保持優勢。此次活動標誌著 TechCrunch Disrupt 的 20 週年,與會者將有機會向業界頂尖聲音學習,並在票價上享受高達 675 美元的優惠。
根據 Google 的數據,Gemini 2.5 Deep Think 在 Humanity’s Last Exam(HLE)上的表現達到業界領先水平,HLE 是一項挑戰性測試,旨在評估 AI 回答數千個眾包問題的能力,涵蓋數學、人文和科學領域。Google 宣稱,其模型在 HLE 中的得分為 34.8%(未使用工具),相比之下,xAI 的 Grok 4 得分為 25.4%,OpenAI 的 o3 得分為 20.3%。此外,Gemini 2.5 Deep Think 在 LiveCodeBench6 的競爭編碼任務測試中也超越了來自 OpenAI、xAI 和 Anthropic 的 AI 模型,得分為 87.6%,而 Grok 4 得分為 79%,OpenAI 的 o3 得分為 72%。
Gemini 2.5 Deep Think 自動與代碼執行和 Google 搜索等工具協作,並且能夠生成比傳統 AI 模型更長的回應。根據 Google 的測試,該模型在網頁開發任務中生成的結果比其他 AI 模型更詳細且更具美感。該公司認為,這一模型能夠幫助研究人員,並「潛在地加速發現的步伐」。隨著多代理方法的興起,眾多頂尖 AI 實驗室正在朝著這一方向發展。Elon Musk 的 xAI 最近也推出了自己的多代理系統 Grok 4 Heavy,並聲稱在多項基準測試中達到行業領先水平。儘管表現強勁,但多代理系統的運行成本似乎高於傳統 AI 模型,這意味著科技公司可能會將這些系統保留在其最昂貴的訂閱計劃中,xAI 和 Google 都已選擇這樣做。未來幾周,Google 計劃通過 Gemini API 與一小部分測試者分享 Gemini 2.5 Deep Think,以便更好地了解開發者和企業如何利用其多代理系統。




