谷歌發布了另一系列基準測試結果,以確定用於 Android 編碼的最佳人工智慧模型,並確定每個模型每個代幣的價值。 Google的Gemini 3.5 Flash是Android開發中資源最密集的,沒有進入前五名。

隨著一般聊天機器人的逐漸消失,Google、OpenAI 和 Anthropic 等公司正在轉向具有編碼優勢的代理模型。使用者開始依賴這些「vibe 編碼」模型,這基本上將大部分軟體開發工作交給了法學碩士。

最新型號顯著改進了 Android 的編碼,而 Google 在過去幾個月中一直在監控哪種型號的最佳效能。隨著 Google 發布其型號(例如最新的 Gemini 3.5 Flash),「Android Bench」也會更新,並將其與競爭對手進行比較。

主要的收穫是谷歌如何打破這些模式。每個模型的得分為 100 分,代表其在 10 次運行中能夠成功解決的 Android 編碼案例的百分比。 Google 列出了預期效能和上次執行測試的日期,其中一些表現優異的測試是從二月開始的。

廣告 – 獲取更多內容

在最新版本的 Android Bench 中,結果描繪了一幅更昂貴的畫面。 Gemini 3.5 Flash 在 GPT 5.5 和 2 月測試的 Gemini 3.1 Pro Preview 等型號的 Android Bench 列表中排名第六。

Gemini 3.5 Flash 是作為 Gemini 3.1 Pro 更便宜、更快的替代品推出的,預計性能差異為 6.1%。新的基準測試結果顯示 Android 開發的情況並非如此,Gemini 3.5 Flash 具有更高的延遲,且效能命中率相差 9%。

更關鍵的是,Google 最新型號的基準運行平均成本為 355.9 個代幣,價格為 147.1 美元,而 Gemini 3.1 Pro Preview 的平均成本為 73.3 個代幣,約為該成本的三分之一。

當然,值得注意的是,Google列出了Gemini 3.1 Pro的預覽版。話雖如此,預覽模型的得分高於旨在更快、更有效率的模型。

GPT 5.5 在每次執行成本方面排名相似,但 Gemini 3.5 Flash 在 Android Bench 測試中使用的代幣多了 5.5 倍。 Claude 之前的模型 Opus 4.7 排名第四,執行成本和代幣使用量略低,處於中間位置。 Google 尚未發布 Opus 4.8 或 Fable 5 的基準分數。

以下是Google在最新版 Android Bench 中排名前十的機型:

模型標點平均延遲平均總代幣數平均成本
通用技術5.57415.764.7134.2 美元
GPT 5.472.421.264.291.7 美元
Gemini 3.1 專業版預覽72.411.173.347.9 美元
結束工作 4.768.711.690.0124.3 美元
結束工作 4.666.69.969.584.4 美元
雙子座3.5閃存63.714.2355.9147.1 美元
GLM 5.159.733.480.246.7 美元
像K2.658.629.994.342.5 美元
克勞德十四行詩 4.658.48.247.940.4 美元
DeepSeek V4 專業版55.435.8132.713.7 美元
克勞德十四行詩 4.553.713.194.261.0 美元

該清單包括一些流行的封閉權重模型中列出的模型,例如 Claude 和 GPT。自上次 Android Bench 以來,清單頂部一直保持不變,但 GPT 5.3 Codex 除外,它已從清單中刪除。

你可以在谷歌網站上看到完整的排名。

隨著更多型號的測試,Google會定期更新此清單。從本質上講,它似乎是 Android 開發中模型性能的有力指標。儘管 Google 改變了成本和使用限制,Gemini 3.5 Flash 對其他 LLM 和代理任務來說還是一個堅實的改進。儘管 Android 編碼顯然不如 Gemini 3.5 Flash 那麼強大,但不能完全忽略 Google 的發布數字。

有關人工智慧的更多資訊:

FTC:我們使用附屬連結來賺取收入。 更多的

來源連結