Google Gemini 3 發佈,首次整合至 Google Search,超越 OpenAI 等競爭對手的多項基準測試

當一個人工智能模型的發佈立即引發無數的迷因和論文,宣稱整個產業的未來已經被改變,這意味著這一產品值得深入探討。

Google 的 Gemini 3 於週二正式發佈,受到廣泛的關注。該公司稱這個模型為「智能的新時代」,並在首日便將其整合進 Google Search 中。根據各項基準測試,Gemini 3 超越了 OpenAI 和其他競爭對手的產品,並在 LMArena 這個由用戶貢獻的 AI 評估平台上名列前茅,該平台可視為 AI 模型排名的 Billboard Hot 100。根據 Google 的數據,Gemini 3 在發佈後 24 小時內就吸引了超過一百萬名用戶在 Google AI Studio 和 Gemini API 中進行試用。

Google DeepMind 的產品負責人 Logan Kilpatrick 在接受 The Verge 訪問時表示:「從首次採用的角度來看,這是我們所有模型發佈中最佳的一次。」連 OpenAI 的 CEO Sam Altman 和 xAI 的 CEO Elon Musk 都公開祝賀 Gemini 團隊的出色表現。Salesforce 的 CEO Marc Benioff 則表示,使用 ChatGPT 三年後,僅僅花兩小時使用 Gemini 3 就徹底改變了他的看法:「哇……我不會再回去了。這個飛躍太瘋狂了——推理、速度、影像、視頻……一切都變得更清晰、更快速。感覺世界又變了。」

LMArena 的共同創辦人兼 CTO Chiang Wei-Lin 表示:「這不僅僅是一個排行榜的重新排列。」他告訴 The Verge,Gemini 3 Pro 在編程、數學和創意寫作等職業類別中擁有「明顯的領先」,在許多方面的編碼能力「現已超越了頂尖的編碼模型,如 Claude 4.5 和 GPT-5.1。」此外,Gemini 3 在視覺理解方面也獲得了最高分,並且是第一個在平台的文本排行榜上超過約 1500 分的模型。

Chiang 認為,新模型的表現顯示,AI 軍備競賽正受到能夠更抽象推理、更一致泛化以及在日益多樣的現實評估中提供可靠結果的模型所驅動。

DataRobot 的首席軟件工程師 Alex Conway 告訴 The Verge,Gemini 3 在一個名為 ARC-AGI-2 的推理基準上取得了顯著進展。他表示,Gemini 的分數幾乎是 OpenAI 的 GPT-5 Pro 的兩倍,而每個任務的成本卻僅為其十分之一,這對於「這些模型正在趨向平穩的觀念」形成了挑戰。在 SimpleQA 基準上,Gemini 3 Pro 的得分也超過了 OpenAI 的 GPT-5.1 兩倍以上,這對於涵蓋廣泛主題且需要大量專業知識的簡單問答來說,將對更多小眾主題的應用非常有用。

然而,排行榜並不是一切。在高壓的 AI 環境中,訓練一個模型以滿足狹隘的基準而非通用的成功是可能的,且充滿誘惑。因此,要真正了解一個系統的表現,必須依賴現實測試、經驗和複雜的使用案例。

The Verge 與來自不同領域的專業人士進行了訪談,他們每天都在工作中使用 AI。大家的共識是:Gemini 3 看起來令人印象深刻,能在廣泛的任務上表現優異,但在某些行業的邊緣案例和小眾方面,許多專業人士不會很快用它取代現有的模型。

大多數受訪者表示,儘管 Gemini 3 在編程領域有進步,但仍將繼續使用 Anthropic 的 Claude。一些人也提到,Gemini 3 在用戶互動方面並非最佳。卡內基梅隆大學的助理教授 Tim Dettmers 指出,儘管它是一個「出色的模型」,但在用戶體驗上稍顯生硬,這意味著「它不會精確地遵循指示。」

Google DeepMind 的產品管理高級總監 Tulsee Doshi 表示,該公司優先考慮將 Gemini 3 以「非常實際的方式」帶入各種 Google 產品中。當被問及遵循指令的問題時,她表示看到「用戶在某些瓶頸上的表現」是非常有幫助的。

她還表示,由於 Pro 模型是 Gemini 3 套件中的第一次發佈,後續模型將有助於「解決這一問題」。

Thomson Reuters 的首席技術官 Joel Hron 表示,他們開發了自己的內部基準,以評估內部模型和公共模型在最相關的領域的表現,例如比較數百頁的文檔、解釋長文檔、理解法律合同以及在法律和稅務領域進行推理。他指出,目前 Gemini 3 在所有這些方面的表現都非常強勁,相較於 Gemini 2.5 有了顯著提升,並且在某些領域超過了幾個 Anthropic 和 OpenAI 的模型。

Cognita 的共同創辦人兼 CEO Louis Blankemeier 表示,就「純數據」而言,Gemini 3 令人「十分興奮」。不過,他強調「我們仍需一些時間來確定這個模型在現實世界中的實用性。」對於更一般的領域,Blankemeier 表示 Gemini 3 是一顆明星,但在進行輻射學測試時,它在正確識別胸部 X 光片上的微小肋骨骨折和不常見病症方面表現不佳。他將輻射學比作自駕車,因為兩者都有許多邊緣案例,因此一個更新、更強大的模型仍然可能不如一個經過時間打磨和訓練的舊模型來得有效。「現實世界的挑戰實在太多。」

同樣,Longeye 的 AI 負責人 Matt Hoffman 對 Gemini 3 Pro 驅動的 Nano Banana Pro 圖像生成器充滿信心。他表示,這些圖像生成器使 Longeye 能夠創造出更具說服力的內容,並期待 Gemini 3 在未來的應用中能有更好的發揮。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。