Google 最近發佈了 Gemini 3.1 Pro,這是其旗艦 AI 模型的最新更新,距離去年 11 月推出的 Gemini 3 只有幾個月的時間。新版本今天正式進入開發者、企業和消費者的預覽階段,Google 承諾將提供更強的推理能力、更佳的編程性能以及改善對長文件的處理能力。公司表示,Gemini 3.1 Pro 是其最近升級的 Deep Think 工具背後的核心智慧。雖然在某些領域的基準增長看似微小,但 Google 聲稱這次更新在現實任務中提供了更一致和可靠的性能。
在推理基準方面,Google 強調了在多個行業測試中的性能提升。在一項名為 Humanity’s Last Exam 的測試中,Gemini 3.1 Pro 的得分為 44.4%。相比之下,Gemini 3 Pro 的得分為 37.5%,而 OpenAI 的 GPT 5.2 則為 34.5%。Gemini 3.1 Pro 的推出,標誌著在解決複雜任務方面的一次重要進步。它旨在處理那些簡單答案無法解決的任務,將高級推理轉化為應對最棘手挑戰的工具。
此外,Google 還指出在 ARC-AGI-2 基準測試中有明顯進步,這是一個旨在測試新穎推理問題的基準。Gemini 3 在早期測試中得分為 31.1%,而 Gemini 3.1 Pro 的得分則提升至 77.1%,是之前結果的兩倍多。然而,Gemini 3.1 Pro 並未在所有排行榜上名列前茅。在 Arena(之前稱為 LM Arena)中,Claude Opus 4.6 在文本類任務中領先於 Gemini,該模型以 1504 的得分超越了 Gemini,差距為四分。編程類別中,Opus 4.6、Opus 4.5 和 GPT 5.2 High 也位於前列。Arena 的排名依賴於用戶投票,參與者選擇他們偏好的輸出。這種格式可能會獎勵那些看似正確但潛在存在微小缺陷的答案。
Google 在設計 Gemini 3.1 Pro 時特別考慮了開發者的需求。該模型能夠生成代碼、解釋複雜功能並幫助調試錯誤。它現在可以在單個會話中處理更大的代碼塊,減少了開發工作流程中的中斷。更新還擴展了長上下文的能力,Gemini 3.1 Pro 支援最多一百萬個輸入標記和六萬四千個輸出標記。企業可以上傳長篇合同、報告或研究文件,並在不分割文件的情況下提出詳細問題。Google 保持了 API 價格不變,每百萬個輸入標記收費 $2 / 約 HK$ 15.6,每百萬個輸出標記收費 $12 / 約 HK$ 93.6。這種穩定性可能對於創業公司和企業團隊開發 AI 驅動的產品具有吸引力。
該模型在 APEX-Agents 基準測試中也顯示出增長,幾乎將之前的分數翻倍。這項基準測試衡量 AI 系統在執行多步任務中的表現。Google 正在其生態系統中全面推動 Gemini 3.1 Pro,開發者可以在 AI Studio 和 Antigravity IDE 中訪問它,企業客戶將在 Vertex AI 和 Gemini Enterprise 中使用,而消費者則可以通過 Gemini 應用和 NotebookLM 使用。公司表示,已改善安全控制和監控系統,以應對處理敏感數據的企業對穩定和可預測輸出的需求。
隨著美國的 AI 市場加速發展,各家公司在推理強度、編程深度和長上下文性能等方面進行比較。雖然 Gemini 3.1 Pro 可能不會在每個排行榜上佔據主導地位,但 Google 顯然專注於在實際工作流程中具有意義的實用增長。如果過去的模式繼續,Google 可能很快會為其更快和更低成本的 Flash 模型推出 3.1 更新。目前,Gemini 3.1 Pro 彰顯了 Google 在企業 AI 領域積極競爭的意圖。




