谷歌發布了另一系列基準測試結果,以確定用於 Android 編碼的最佳人工智慧模型,並確定每個模型每個代幣的價值。 Google的Gemini 3.5 Flash是Android開發中資源最密集的,沒有進入前五名。
隨著一般聊天機器人的逐漸消失,Google、OpenAI 和 Anthropic 等公司正在轉向具有編碼優勢的代理模型。使用者開始依賴這些「vibe 編碼」模型,這基本上將大部分軟體開發工作交給了法學碩士。
最新型號顯著改進了 Android 的編碼,而 Google 在過去幾個月中一直在監控哪種型號的最佳效能。隨著 Google 發布其型號(例如最新的 Gemini 3.5 Flash),「Android Bench」也會更新,並將其與競爭對手進行比較。
主要的收穫是谷歌如何打破這些模式。每個模型的得分為 100 分,代表其在 10 次運行中能夠成功解決的 Android 編碼案例的百分比。 Google 列出了預期效能和上次執行測試的日期,其中一些表現優異的測試是從二月開始的。
在最新版本的 Android Bench 中,結果描繪了一幅更昂貴的畫面。 Gemini 3.5 Flash 在 GPT 5.5 和 2 月測試的 Gemini 3.1 Pro Preview 等型號的 Android Bench 列表中排名第六。
Gemini 3.5 Flash 是作為 Gemini 3.1 Pro 更便宜、更快的替代品推出的,預計性能差異為 6.1%。新的基準測試結果顯示 Android 開發的情況並非如此,Gemini 3.5 Flash 具有更高的延遲,且效能命中率相差 9%。
更關鍵的是,Google 最新型號的基準運行平均成本為 355.9 個代幣,價格為 147.1 美元,而 Gemini 3.1 Pro Preview 的平均成本為 73.3 個代幣,約為該成本的三分之一。
當然,值得注意的是,Google列出了Gemini 3.1 Pro的預覽版。話雖如此,預覽模型的得分高於旨在更快、更有效率的模型。
GPT 5.5 在每次執行成本方面排名相似,但 Gemini 3.5 Flash 在 Android Bench 測試中使用的代幣多了 5.5 倍。 Claude 之前的模型 Opus 4.7 排名第四,執行成本和代幣使用量略低,處於中間位置。 Google 尚未發布 Opus 4.8 或 Fable 5 的基準分數。
以下是Google在最新版 Android Bench 中排名前十的機型:
| 模型 | 標點 | 平均延遲 | 平均總代幣數 | 平均成本 |
|---|---|---|---|---|
| 通用技術5.5 | 74 | 15.7 | 64.7 | 134.2 美元 |
| GPT 5.4 | 72.4 | 21.2 | 64.2 | 91.7 美元 |
| Gemini 3.1 專業版預覽 | 72.4 | 11.1 | 73.3 | 47.9 美元 |
| 結束工作 4.7 | 68.7 | 11.6 | 90.0 | 124.3 美元 |
| 結束工作 4.6 | 66.6 | 9.9 | 69.5 | 84.4 美元 |
| 雙子座3.5閃存 | 63.7 | 14.2 | 355.9 | 147.1 美元 |
| GLM 5.1 | 59.7 | 33.4 | 80.2 | 46.7 美元 |
| 像K2.6 | 58.6 | 29.9 | 94.3 | 42.5 美元 |
| 克勞德十四行詩 4.6 | 58.4 | 8.2 | 47.9 | 40.4 美元 |
| DeepSeek V4 專業版 | 55.4 | 35.8 | 132.7 | 13.7 美元 |
| 克勞德十四行詩 4.5 | 53.7 | 13.1 | 94.2 | 61.0 美元 |
該清單包括一些流行的封閉權重模型中列出的模型,例如 Claude 和 GPT。自上次 Android Bench 以來,清單頂部一直保持不變,但 GPT 5.3 Codex 除外,它已從清單中刪除。
你可以在谷歌網站上看到完整的排名。
隨著更多型號的測試,Google會定期更新此清單。從本質上講,它似乎是 Android 開發中模型性能的有力指標。儘管 Google 改變了成本和使用限制,Gemini 3.5 Flash 對其他 LLM 和代理任務來說還是一個堅實的改進。儘管 Android 編碼顯然不如 Gemini 3.5 Flash 那麼強大,但不能完全忽略 Google 的發布數字。
有關人工智慧的更多資訊:
FTC:我們使用附屬連結來賺取收入。 更多的










