Google 最近公佈了一組基準結果,以確定最適合 Android 編碼的 AI 模型,以及每個模型每個標記的成本。Google 的 Gemini 3.5 Flash 在 Android 開發中無疑是資源需求最高的模型,但卻未能進入前五名。隨著一般聊天機器人的熱潮逐漸消退,Google、OpenAI 和 Anthropic 等公司正轉向在編碼方面具有優勢的代理模型。
用户開始依賴這些模型進行「氛圍編碼」,這基本上將大部分軟件開發的工作轉移給大型語言模型(LLMs)。近期的模型在 Android 編碼方面的表現有了顯著改善,Google 也一直在跟蹤過去幾個月哪些模型的表現最佳。
Android Bench 隨著 Google 自家模型的推出而進行更新,例如最近的 Gemini 3.5 Flash,並將其與競爭對手進行比較。主要的重點在於 Google 如何對這些模型進行評分。每個模型的得分範圍為 0 至 100,顯示其在 10 次運行中能成功解決的 Android 編碼案例百分比。Google 列出了預期的表現和最後一次測試的日期,一些高表現者自二月以來一直保持不變。
Gemini 3.5 Flash 在基準測試中的表現不佳
在最新的 Android Bench 版本中,結果顯示成本更高。Gemini 3.5 Flash 在 Android Bench 清單中排名第六,位於 GPT 5.5 和 Gemini 3.1 Pro Preview 之下,後者的測試日期是二月。Gemini 3.5 Flash 曾被宣傳為 Gemini 3.1 Pro 的更便宜和更快速的替代品,預期的性能差距為 6.1%。
但最新的基準結果顯示,Gemini 3.5 Flash 在 Android 開發方面的延遲更高,且性能成功率的差距達到 9%。更重要的是,Google 最新模型的平均成本為 355.9 標記,每次基準測試的費用為 US$147.10 (約 HK$1,147),相比之下,Gemini 3.1 Pro Preview 每次測試僅使用約 73.3 標記,成本約為三分之一。
GPT 5.5 在每次測試的成本上排名相似,但 Gemini 3.5 Flash 在 Android Bench 測試中使用了 5.5 倍更多的標記。Claude 的前一版本 Opus 4.7 在運行成本和標記使用量上排名第四,處於中間位置。至於 Opus 4.8 和 Fable 5,Google 尚未發布基準分數。以下是 Google 在最新 Android Bench 發布中排名前十的模型:
項目 分數 平均延遲 平均總標記 平均成本 GPT 5.5 74 15.7 64.7 $134.2 GPT 5.4 72.4 21.2 64.2 $91.7 Gemini 3.1 Pro Preview 72.4 11.1 73.3 $47.9 Claude Opus 4.7 68.7 11.6 90.0 $124.3 Claude Opus 4.6 66.6 9.9 69.5 $84.4 Gemini 3.5 Flash 63.7 14.2 355.9 $147.1 GLM 5.1 59.7 33.4 80.2 $46.7 Kimi K2.6 58.6 29.9 94.3 $42.5 Claude Sonnet 4.6 58.4 8.2 47.9 $40.4 DeepSeek V4 Pro 55.4 35.8 132.7 $13.7 Claude Sonnet 4.5 53.7 13.1 94.2 $61.0
這個名單中包括幾個開放權重模型,與知名的封閉權重模型如 Claude 和 GPT 相互交錯。名單的高端部分自上次 Android Bench 以來基本保持不變,唯一例外的是 GPT 5.3 Codex 已從名單中移除。Google 持續更新這個名單,隨著更多模型的測試,這似乎成為 Android 開發中模型表現的一個可靠指標。儘管 Google 的發佈數據不容忽視,但顯然 Android 編碼並非 Gemini 3.5 Flash 的強項。

