Google 最新基準顯示 Gemini 3.5 Flash 在 Android 編碼表現上成本高昂但排名不佳

Google 最近公佈了一組基準結果,以確定最適合 Android 編碼的 AI 模型,以及每個模型每個標記的成本。Google 的 Gemini 3.5 Flash 在 Android 開發中無疑是資源需求最高的模型,但卻未能進入前五名。隨著一般聊天機器人的熱潮逐漸消退,Google、OpenAIAnthropic 等公司正轉向在編碼方面具有優勢的代理模型。

用户開始依賴這些模型進行「氛圍編碼」,這基本上將大部分軟件開發的工作轉移給大型語言模型(LLMs)。近期的模型在 Android 編碼方面的表現有了顯著改善,Google 也一直在跟蹤過去幾個月哪些模型的表現最佳。

Android Bench 隨著 Google 自家模型的推出而進行更新,例如最近的 Gemini 3.5 Flash,並將其與競爭對手進行比較。主要的重點在於 Google 如何對這些模型進行評分。每個模型的得分範圍為 0 至 100,顯示其在 10 次運行中能成功解決的 Android 編碼案例百分比。Google 列出了預期的表現和最後一次測試的日期,一些高表現者自二月以來一直保持不變。

Gemini 3.5 Flash 在基準測試中的表現不佳

在最新的 Android Bench 版本中,結果顯示成本更高。Gemini 3.5 Flash 在 Android Bench 清單中排名第六,位於 GPT 5.5 和 Gemini 3.1 Pro Preview 之下,後者的測試日期是二月。Gemini 3.5 Flash 曾被宣傳為 Gemini 3.1 Pro 的更便宜和更快速的替代品,預期的性能差距為 6.1%。

但最新的基準結果顯示,Gemini 3.5 Flash 在 Android 開發方面的延遲更高,且性能成功率的差距達到 9%。更重要的是,Google 最新模型的平均成本為 355.9 標記,每次基準測試的費用為 US$147.10 (約 HK$1,147),相比之下,Gemini 3.1 Pro Preview 每次測試僅使用約 73.3 標記,成本約為三分之一。

GPT 5.5 在每次測試的成本上排名相似,但 Gemini 3.5 Flash 在 Android Bench 測試中使用了 5.5 倍更多的標記。Claude 的前一版本 Opus 4.7 在運行成本和標記使用量上排名第四,處於中間位置。至於 Opus 4.8 和 Fable 5,Google 尚未發布基準分數。以下是 Google 在最新 Android Bench 發布中排名前十的模型:

項目分數平均延遲平均總標記平均成本
GPT 5.57415.764.7$134.2
GPT 5.472.421.264.2$91.7
Gemini 3.1 Pro Preview72.411.173.3$47.9
Claude Opus 4.768.711.690.0$124.3
Claude Opus 4.666.69.969.5$84.4
Gemini 3.5 Flash63.714.2355.9$147.1
GLM 5.159.733.480.2$46.7
Kimi K2.658.629.994.3$42.5
Claude Sonnet 4.658.48.247.9$40.4
DeepSeek V4 Pro55.435.8132.7$13.7
Claude Sonnet 4.553.713.194.2$61.0

這個名單中包括幾個開放權重模型,與知名的封閉權重模型如 Claude 和 GPT 相互交錯。名單的高端部分自上次 Android Bench 以來基本保持不變,唯一例外的是 GPT 5.3 Codex 已從名單中移除。Google 持續更新這個名單,隨著更多模型的測試,這似乎成為 Android 開發中模型表現的一個可靠指標。儘管 Google 的發佈數據不容忽視,但顯然 Android 編碼並非 Gemini 3.5 Flash 的強項。

Henderson
Henderson

Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。