Google 再次更新了其 Android Bench 排行榜,針對 Android 應用程式開發最佳 AI 模型進行評選,並新增了一系列開放權重模型以及有關所使用的標記和使用這些模型的成本的更多細節。大型語言模型在編碼方面的表現相當優秀,其協助開發應用程式及其他軟件項目的能力,也促進了「氛圍編碼」的興起。今年早些時候,Google 發佈了一項新的基準排名,展示了在考量常見的 Android 開發任務以及這些模型如何處理最佳實踐的情況下,最優秀的 AI 模型。
當 Android Bench 首次亮相時,Gemini 3.1 Pro 當時名列前茅,OpenAI 的 GPT 5.4 隨後與其並列最高位置。根據 2026 年 5 月 18 日的更新,現在出現了一位新王者。根據 Google 的資料,GPT 5.5 目前是最佳的 Android 應用程式開發 AI 模型,超越了 GPT 5.4 和 Gemini 3.1 Pro,優勢約為 2%。
GPT 5.5 成為最佳 Android 應用程式開發 AI 模型
此次最新更新還提供了更清晰的視角,Google 現在顯示了每個 AI 模型的平均延遲、總標記數和平均使用成本。Google 在基準測試的文檔中詳細説明瞭每個指標的計算方法。平均延遲:在 10 次運行中解決 100 個任務所需的時間;平均總標記數:在 10 次運行中進行完整基準測試的標記消耗;平均成本:在測試時每次基準測試的成本(以美元計算)。考慮到這些因素,我們可以看到,儘管 GPT 5.5 的性能稍強,但其執行相同功能的成本卻是 Gemini 3.1 Pro 的兩倍多。
根據 Google 的資料,以下是前十名模型的最新數據(截至 2026 年 5 月 21 日):
模型 得分 平均延遲 平均總標記數 平均成本 新:GPT 5.5 74 15.5 64.5 $133.9 GPT 5.4 72.4 21.2 64.2 $91.7 Gemini 3.1 Pro 預覽 72.4 11.5 75.4 $49.0 新:Claude Opus 4.7 68.7 11.6 90.0 $124.3 GPT 5.3 Codex 67.7 11.2 71.4 $42.6 Claude Opus 4.6 66.6 9.9 69.5 $84.4 GPT 5.2 Codex 62.5 24.3 124.4 $121.9 Claude Opus 4.5 61.9 12.5 79.8 $102.5 Gemini 3 Pro 預覽 60.4 9.8 117.0 $63.7 新:GLM 5.1 59.7 33.4 80.2 $46.7
開放權重模型的最新排名顯示多樣性
如前所述,目前排行榜上有更多的開放權重模型,包括 Gemma、Qwen、DeepSeek、MiMo 等。其中,GLM 5.1 的得分最高,其次是 Kimi K2.6。用户可以在 Google 的網站上查看完整的排名。Google 每月大約會更新一次 Android Bench。隨著 Gemini 3.5 Pro 即將推出及 3.5 Flash 已經上線,值得關注的是 Google 自家的模型是否能夠追趕上 OpenAI 目前所取得的領先地位。
📬 免費訂閱 TechRitual 科技精選
按「免費訂閱」即同意收到 TechRitual 嘅科技資訊及優惠。可隨時取消訂閱。

