谷歌再次更新了其用於 Android 應用開發的最佳人工智慧模型的「Android Bench」排名,其中包含許多新的「開放權重」模型,以及有關所使用的代幣和使用這些模型的成本的更多詳細資訊。

偉大的語言模型已經實現的一件事 真的 有利於編碼,因為它們支援應用程式和其他軟體專案開發的能力也導致了「編碼氛圍」的興起。今年早些時候,Google發布了一項新的基準排名,根據常見的 Android 開發任務以及這些模型如何處理最佳實踐,展示了 Android 應用程式開發的「最佳」AI 模型。

當「Android Bench」首次亮相時,Gemini 3.1 Pro 領先,OpenAI 的 GPT 5.4 隨後並列第一。

截至 2026 年 5 月 18 日更新,鎮上出現了一位新國王。根據Google稱,GPT 5.5是目前Android應用程式開發的最佳AI模型,比GPT 5.4和Gemini 3.1 Pro略低於2%。

廣告 – 獲取更多內容

但這次最新的更新讓事情看起來好多了,因為谷歌現在顯示了平均延遲、使用的總代幣以及使用每個人工智慧模型的平均成本。 Google 在推薦文件中詳細說明了每個指標是如何得出的。

  • 平均延遲: 在 10 次運行中解決 100 個任務所需的時間
  • 平均總代幣數: 超過 10 次運行的完整基準測試的令牌消耗
  • 平均成本: 測試時每次推薦的費用(美元)

不過,考慮到這一點,我們可以看到,雖然 GPT 5.5 的功能稍強一些,但執行相同功能的成本是 Gemini 3.1 Pro 的兩倍。

以下是 Google 前十名的型號,包括新數據(截至 2026 年 5 月 21 日):

模型標點平均延遲平均總代幣數平均成本
新的: 通用技術5.57415.564.5133.9 美元
GPT 5.472.421.264.291.7 美元
Gemini 3.1 專業版預覽72.411.575.449.0 美元
新的: 結束工作 4.768.711.690.0124.3 美元
GPT 5.3 法典67.711.271.442.6 美元
結束工作 4.666.69.969.584.4 美元
GPT 5.2 法典62.524.3124.4121.9 美元
近距離工作4.561.912.579.8102.5 美元
Gemini 3 Pro 預覽60.49.8117.063.7 美元
新的: GLM 5.159.733.480.246.7 美元

如前所述,現在排名中有更多開放權重模型,包括 Gemma、Qwen、DeepSeek、MiMo 等。其中,GLM 5.1 得分最高,其次是 Kimi K2.6。

你可以在谷歌網站上看到完整的排名。

谷歌大約每月都會更新「Android Bench」。隨著 Gemini 3.5 Pro 即將推出以及 Flash 3.5 已經啟動,看看 Google 的模型是否能夠應對 OpenAI 目前取得的領先地位將會很有趣。

您是否使用 AI 模型來開發 Android 應用程式?如果有,是哪一個?

更多關於安卓:

關注本: 推特/X主題、Bluesky 和 ​​Instagram

FTC:我們使用附屬連結來賺取收入。 更多的



來源連結