Google 的 Gemini 2.5 Pro 已正式完成 Pokémon 藍版遊戲的挑戰。這款遊戲是由一位獨立工程師進行的直播實驗,Gemini 在輕微的開發者介入下,主要自行進行遊玩。儘管 Google 的 Gemini AI 尚未通過圖靈測試,但在三十年前贏得 Pokémon 藍版的比賽後,無疑會在校園中受到熱捧。Gemini 2.5 Pro 現在成為 Google 最先進的 AI 模型和 Pokémon 大師,這一成就是在一場名為「Gemini Plays Pokémon」的 Twitch 直播中展現的,該直播由與 Google 無關的工程師 Joel Z 主持。甚至 Google CEO Sundar Pichai 也參與了慶祝,並在 X 上分享了勝利的片段。
為何一個 AI 模型贏得一款三十年前的遊戲會引發如此關注?這部分是因為其戲劇性,還有 AI 模型之間的競爭。今年二月,Anthropic 展示了其 Claude 模型在擊敗 Pokémon 紅版方面的進展。他們利用這款遊戲展示了 Claude 的「延展思考和代理訓練」,並啟動了一個名為「Claude Plays Pokémon」的 Twitch 直播,激發了 Joel Z 的靈感。
在稱讚 Gemini 為真正的 AI 小智之前,值得注意的是幾個警告。首先,Claude 尚未技術性地擊敗 Pokémon 紅版,但這並不自動使 Gemini 更優,因為它們使用了不同的工具,稱為「代理工具」。這些模型並不像人類使用控制器那樣直接玩遊戲。相反,它們接收遊戲環境的截圖及關鍵信息的覆蓋,然後被要求生成下一步最佳行動。該決策隨後轉換為遊戲中的實際按鍵操作。
而 Gemini 並非完全獨立運行。Joel 承認他偶爾會介入進行改進,但他強調這些介入僅是為了改善 Gemini 的推理能力。他還計劃繼續改進「Gemini Plays Pokémon」項目。
這一事件不僅僅是一個古怪的網絡噱頭,更暗示了 AI 的未來發展。玩像 Pokémon 藍版這樣的遊戲並不僅僅是快速反應或記憶控制器輸入,而是關於長期策略、適應突發情況和應對模糊挑戰。這些都是 AI 通常需要改進的領域。Gemini 不僅能夠獨當一面,還能完成遊戲(僅需輕微引導),這表明像它這樣的模型在延展策略方面正在變得更為出色。
這也是一個普通人能夠理解的里程碑。當 AI 在薰衣草鎮中摸索或誤判戰術時,觀眾可以直觀地理解它的行為,並與自己在類似情境中的選擇進行比較。當然,不應過分強調這一成就的意義。AI 現在能完成一款曾經在中學時期打過的遊戲,但這也突顯了人類在讓 AI 顯得自主方面所付出的努力。
無論 Claude 或 Gemini 是否成為真正的 Pokémon 大師,重要的是它們所玩的遊戲對 AI 發展的意義。展示 AI 不僅僅是處理數據或生成垃圾郵件,可能會改變人們對 AI 能做什麼的看法,即使是在幫助下。如果這是 AI 模型開始學習如何在不可預測、開放式環境中運作的方式,那麼擊敗 Mewtwo 可能只是邁向更深刻的成果的一小步。
同場加映:香港無痛,不用 VPN 情況下使用 Google Gemini
【教學】如何在香港申請 Google Gemini 及訂閱 Google Gemini Advanced /
【整理】Google Gemini 語音指令:發 WhatsApp、開 Apps、打電話等等