Google 發佈 Gemini 3.1 Pro,提升 AI 模型功能與性能

Google 最近發佈了 Gemini 3.1 Pro,這是其旗艦 AI 模型的最新更新,距離去年 11 月推出的 Gemini 3 只有幾個月的時間。新版本今天正式進入開發者、企業和消費者的預覽階段,Google 承諾將提供更強的推理能力、更佳的編程性能以及改善對長文件的處理能力。公司表示,Gemini 3.1 Pro 是其最近升級的 Deep Think 工具背後的核心智慧。雖然在某些領域的基準增長看似微小,但 Google 聲稱這次更新在現實任務中提供了更一致和可靠的性能。

在推理基準方面,Google 強調了在多個行業測試中的性能提升。在一項名為 Humanity’s Last Exam 的測試中,Gemini 3.1 Pro 的得分為 44.4%。相比之下,Gemini 3 Pro 的得分為 37.5%,而 OpenAI 的 GPT 5.2 則為 34.5%。Gemini 3.1 Pro 的推出,標誌著在解決複雜任務方面的一次重要進步。它旨在處理那些簡單答案無法解決的任務,將高級推理轉化為應對最棘手挑戰的工具。

此外,Google 還指出在 ARC-AGI-2 基準測試中有明顯進步,這是一個旨在測試新穎推理問題的基準。Gemini 3 在早期測試中得分為 31.1%,而 Gemini 3.1 Pro 的得分則提升至 77.1%,是之前結果的兩倍多。然而,Gemini 3.1 Pro 並未在所有排行榜上名列前茅。在 Arena(之前稱為 LM Arena)中,Claude Opus 4.6 在文本類任務中領先於 Gemini,該模型以 1504 的得分超越了 Gemini,差距為四分。編程類別中,Opus 4.6、Opus 4.5 和 GPT 5.2 High 也位於前列。Arena 的排名依賴於用戶投票,參與者選擇他們偏好的輸出。這種格式可能會獎勵那些看似正確但潛在存在微小缺陷的答案。

Google 在設計 Gemini 3.1 Pro 時特別考慮了開發者的需求。該模型能夠生成代碼、解釋複雜功能並幫助調試錯誤。它現在可以在單個會話中處理更大的代碼塊,減少了開發工作流程中的中斷。更新還擴展了長上下文的能力,Gemini 3.1 Pro 支援最多一百萬個輸入標記和六萬四千個輸出標記。企業可以上傳長篇合同、報告或研究文件,並在不分割文件的情況下提出詳細問題。Google 保持了 API 價格不變,每百萬個輸入標記收費 $2 / 約 HK$ 15.6,每百萬個輸出標記收費 $12 / 約 HK$ 93.6。這種穩定性可能對於創業公司和企業團隊開發 AI 驅動的產品具有吸引力。

該模型在 APEX-Agents 基準測試中也顯示出增長,幾乎將之前的分數翻倍。這項基準測試衡量 AI 系統在執行多步任務中的表現。Google 正在其生態系統中全面推動 Gemini 3.1 Pro,開發者可以在 AI Studio 和 Antigravity IDE 中訪問它,企業客戶將在 Vertex AI 和 Gemini Enterprise 中使用,而消費者則可以通過 Gemini 應用和 NotebookLM 使用。公司表示,已改善安全控制和監控系統,以應對處理敏感數據的企業對穩定和可預測輸出的需求。

隨著美國的 AI 市場加速發展,各家公司在推理強度、編程深度和長上下文性能等方面進行比較。雖然 Gemini 3.1 Pro 可能不會在每個排行榜上佔據主導地位,但 Google 顯然專注於在實際工作流程中具有意義的實用增長。如果過去的模式繼續,Google 可能很快會為其更快和更低成本的 Flash 模型推出 3.1 更新。目前,Gemini 3.1 Pro 彰顯了 Google 在企業 AI 領域積極競爭的意圖。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。