谷歌再次更新了其用於 Android 應用開發的最佳人工智慧模型的「Android Bench」排名,其中包含許多新的「開放權重」模型,以及有關所使用的代幣和使用這些模型的成本的更多詳細資訊。
偉大的語言模型已經實現的一件事 真的 有利於編碼,因為它們支援應用程式和其他軟體專案開發的能力也導致了「編碼氛圍」的興起。今年早些時候,Google發布了一項新的基準排名,根據常見的 Android 開發任務以及這些模型如何處理最佳實踐,展示了 Android 應用程式開發的「最佳」AI 模型。
當「Android Bench」首次亮相時,Gemini 3.1 Pro 領先,OpenAI 的 GPT 5.4 隨後並列第一。
截至 2026 年 5 月 18 日更新,鎮上出現了一位新國王。根據Google稱,GPT 5.5是目前Android應用程式開發的最佳AI模型,比GPT 5.4和Gemini 3.1 Pro略低於2%。
但這次最新的更新讓事情看起來好多了,因為谷歌現在顯示了平均延遲、使用的總代幣以及使用每個人工智慧模型的平均成本。 Google 在推薦文件中詳細說明了每個指標是如何得出的。
- 平均延遲: 在 10 次運行中解決 100 個任務所需的時間
- 平均總代幣數: 超過 10 次運行的完整基準測試的令牌消耗
- 平均成本: 測試時每次推薦的費用(美元)
不過,考慮到這一點,我們可以看到,雖然 GPT 5.5 的功能稍強一些,但執行相同功能的成本是 Gemini 3.1 Pro 的兩倍。
以下是 Google 前十名的型號,包括新數據(截至 2026 年 5 月 21 日):
| 模型 | 標點 | 平均延遲 | 平均總代幣數 | 平均成本 |
| 新的: 通用技術5.5 | 74 | 15.5 | 64.5 | 133.9 美元 |
| GPT 5.4 | 72.4 | 21.2 | 64.2 | 91.7 美元 |
| Gemini 3.1 專業版預覽 | 72.4 | 11.5 | 75.4 | 49.0 美元 |
| 新的: 結束工作 4.7 | 68.7 | 11.6 | 90.0 | 124.3 美元 |
| GPT 5.3 法典 | 67.7 | 11.2 | 71.4 | 42.6 美元 |
| 結束工作 4.6 | 66.6 | 9.9 | 69.5 | 84.4 美元 |
| GPT 5.2 法典 | 62.5 | 24.3 | 124.4 | 121.9 美元 |
| 近距離工作4.5 | 61.9 | 12.5 | 79.8 | 102.5 美元 |
| Gemini 3 Pro 預覽 | 60.4 | 9.8 | 117.0 | 63.7 美元 |
| 新的: GLM 5.1 | 59.7 | 33.4 | 80.2 | 46.7 美元 |
如前所述,現在排名中有更多開放權重模型,包括 Gemma、Qwen、DeepSeek、MiMo 等。其中,GLM 5.1 得分最高,其次是 Kimi K2.6。
你可以在谷歌網站上看到完整的排名。
谷歌大約每月都會更新「Android Bench」。隨著 Gemini 3.5 Pro 即將推出以及 Flash 3.5 已經啟動,看看 Google 的模型是否能夠應對 OpenAI 目前取得的領先地位將會很有趣。
您是否使用 AI 模型來開發 Android 應用程式?如果有,是哪一個?
更多關於安卓:
關注本: 推特/X主題、Bluesky 和 Instagram
FTC:我們使用附屬連結來賺取收入。 更多的










