Google 最新基準顯示 Gemini 3.5 Flash 在 Android 編碼表現上成本高昂但排名不佳

Google 最近公佈了一組基準結果，以確定最適合 Android 編碼的 AI 模型，以及每個模型每個標記的成本。Google 的 Gemini 3.5 Flash 在 Android 開發中無疑是資源需求最高的模型，但卻未能進入前五名。隨著一般聊天機器人的熱潮逐漸消退，Google、OpenAI 和 Anthropic 等公司正轉向在編碼方面具有優勢的代理模型。

用户開始依賴這些模型進行「氛圍編碼」，這基本上將大部分軟件開發的工作轉移給大型語言模型（LLMs）。近期的模型在 Android 編碼方面的表現有了顯著改善，Google 也一直在跟蹤過去幾個月哪些模型的表現最佳。

Android Bench 隨著 Google 自家模型的推出而進行更新，例如最近的 Gemini 3.5 Flash，並將其與競爭對手進行比較。主要的重點在於 Google 如何對這些模型進行評分。每個模型的得分範圍為 0 至 100，顯示其在 10 次運行中能成功解決的 Android 編碼案例百分比。Google 列出了預期的表現和最後一次測試的日期，一些高表現者自二月以來一直保持不變。

Gemini 3.5 Flash 在基準測試中的表現不佳

在最新的 Android Bench 版本中，結果顯示成本更高。Gemini 3.5 Flash 在 Android Bench 清單中排名第六，位於 GPT 5.5 和 Gemini 3.1 Pro Preview 之下，後者的測試日期是二月。Gemini 3.5 Flash 曾被宣傳為 Gemini 3.1 Pro 的更便宜和更快速的替代品，預期的性能差距為 6.1%。

但最新的基準結果顯示，Gemini 3.5 Flash 在 Android 開發方面的延遲更高，且性能成功率的差距達到 9%。更重要的是，Google 最新模型的平均成本為 355.9 標記，每次基準測試的費用為 US$147.10 (約 HK$1,147)，相比之下，Gemini 3.1 Pro Preview 每次測試僅使用約 73.3 標記，成本約為三分之一。

GPT 5.5 在每次測試的成本上排名相似，但 Gemini 3.5 Flash 在 Android Bench 測試中使用了 5.5 倍更多的標記。Claude 的前一版本 Opus 4.7 在運行成本和標記使用量上排名第四，處於中間位置。至於 Opus 4.8 和 Fable 5，Google 尚未發布基準分數。以下是 Google 在最新 Android Bench 發布中排名前十的模型：

項目	分數	平均延遲	平均總標記	平均成本
GPT 5.5	74	15.7	64.7	$134.2
GPT 5.4	72.4	21.2	64.2	$91.7
Gemini 3.1 Pro Preview	72.4	11.1	73.3	$47.9
Claude Opus 4.7	68.7	11.6	90.0	$124.3
Claude Opus 4.6	66.6	9.9	69.5	$84.4
Gemini 3.5 Flash	63.7	14.2	355.9	$147.1
GLM 5.1	59.7	33.4	80.2	$46.7
Kimi K2.6	58.6	29.9	94.3	$42.5
Claude Sonnet 4.6	58.4	8.2	47.9	$40.4
DeepSeek V4 Pro	55.4	35.8	132.7	$13.7
Claude Sonnet 4.5	53.7	13.1	94.2	$61.0

這個名單中包括幾個開放權重模型，與知名的封閉權重模型如 Claude 和 GPT 相互交錯。名單的高端部分自上次 Android Bench 以來基本保持不變，唯一例外的是 GPT 5.3 Codex 已從名單中移除。Google 持續更新這個名單，隨著更多模型的測試，這似乎成為 Android 開發中模型表現的一個可靠指標。儘管 Google 的發佈數據不容忽視，但顯然 Android 編碼並非 Gemini 3.5 Flash 的強項。

想睇更深入嘅 AI 模型與工程科技報道？

前往 The Base Principle 繁體中文 AI 新聞 →

Google 最新基準顯示 Gemini 3.5 Flash 在 Android 編碼表現上成本高昂但排名不佳

Gemini 3.5 Flash 在基準測試中的表現不佳

Henderson

搜尋文章