Google發佈 Gemini 3.1 Pro：基準測試、如何測試

19 2 月 2026

谷歌週四發布了最新旗艦機型Gemini 3.1 Pro。 Google表示，Gemini 3.1 Pro 在 ARC-AGI-2 上的驗證效能是 3 Pro 的兩倍，ARC-AGI-2 是衡量模型邏輯推理的熱門基準。

谷歌最初在 11 月發布了 Gemini 3 和 3 Pro，這個新版本顯示了人工智慧公司推出新模型和更新模型的速度有多快。 Gemini 3.1 Pro 是全新的入門型號，可支援 Gemini 和各種 Google AI 工具（例如 Gemini 3 Deep Think）。谷歌表示，它的目的是提供更具創意的解決方案。

Google 部落格文章寫道：「3.1 Pro 專為簡單答案不夠的任務而設計，它採用先進的推理方法，使其能夠應對最棘手的挑戰。」「這種增強的智能可以幫助實際應用——無論您是在尋找對複雜主題的清晰、直觀的解釋，將數據合成到單一視圖的方法，還是將創意項目變為現實。

參見：

GPT-5.2 與 Gemini 3 — 兩個重量級產品在基準、價格和功能集的比較

以下是迄今為止我們所了解的有關 Gemini 3.1 Pro 的所有信息，包括它與 Anthropic 和 OpenAI 的最新模型的比較以及如何親自嘗試。

如何測試Gemini 3.1 Pro

從今天開始，Google 將在 Gemini 應用、Gemini APIA 和 Notebook LM 中推出 Gemini 3.1 Pro。免費用戶將可以在 Gemini 應用程式中嘗試 3.1 Pro，但 Google AI Pro 和 AI Ultra 計劃中的付費用戶將擁有更高的使用率。在 Notebook LM 上，只有付費用戶才能存取 3.1 Pro，至少目前是這樣。編碼人員和企業用戶還可以透過開發者存取新的基礎模型，企業可以透過 AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI 和 Android Studio 存取 3.1。

可混搭光速

Gemini 3.1 Pro 已經可供使用 Gemini 的 Mashable 編輯者使用。若要親自嘗試，請前往 PC 版 Gemini 或開啟 Gemini 行動應用程式。

左邊：
同一動畫提示的兩個結果。
信用：Google

正確的：
信用：Google

為什麼 Gemini 3.1 Pro 很重要

當Google在 11 月發布 Gemini 3 Pro 時，該模型令人印象深刻，據報道促使 OpenAI 首席執行官 Sam Altman 宣布代碼為紅色。隨著 Gemini 3 Pro 登上 AI 排行榜榜首，據報導 OpenAI 開始將 ChatGPT 用戶流失到 Gemini。最新的 ChatGPT 核心模型 GPT-5.2 在 Arena（以前稱為 LMArena）等排行榜上的排名已經下降，明顯輸給了 Google、Anthropic 和 xAI 等競爭對手。

此推文目前無法使用。它可以被裝載或卸載。

Gemini 3 Pro 在許多基準測試中的表現已經優於 GPT-5.2，並且憑藉更先進的思維模型，Gemini 可以走得更遠。

Gemini 3.1 Pro：效能對比

谷歌發布的基準效能數據顯示，Gemini 3.1 Pro 的效能優於先前的 Gemini 型號、Claude Sonnet 4.6、Claude Opus 4.6 和 GPT-5.2。然而，根據谷歌自己的說法，OpenAI 的新編碼模型 GPT-5.3-Codex 在經過驗證的 SWE-Bench Pro 基準測試中擊敗了 Gemini 3.1 Pro。

Gemini 3.1 Pro 基準測試結果的值得注意的點包括：

上次人類學測驗得分為 44.4%相比之下，Claude Opus 4.6 為 40.0%，GPT-5.2 為 34.5%
ARC-AGI-2 中為 77.1%相較之下，Gemini 3 Pro 為 31.1%，Claude Opus 4.6 為 68.8%，GPT-5.2 為 52.9%
94.3% GPQA 鑽石級相較之下，Gemini 3 Pro 為 91.9%，Claude Opus 4.6 為 91.3%，GPT-5.2 為 92.4%
SWE-Bench 驗證率為 80.6%相較之下，Gemini 3 Pro 為 76.2%，Claude Opus 4.6 為 80.8%，GPT-5.2 為 80.0%
SWE-Bench Pro（公共）中為 54.2%相較之下，Gemini 3 Pro 為 43.3%，GPT-5.2 為 55.6%，GPT-5.3-Codex 為 56.8%
MMLU 92.6%相較之下，Claude Opus 4.6 為 91.1%，GPT-5.2 為 89.6%

谷歌發布了一張圖片，顯示了 Gemini 3.1 Pro 的完整基準測試結果：

此推文目前無法使用。它可以被裝載或卸載。

揭露：Mashable 母公司 Ziff Davis 於 2025 年 4 月對 OpenAI 提起訴訟，指控其在訓練和營運其 AI 系統時侵犯了 Ziff Davis 的版權。

來源連結

Google發佈 Gemini 3.1 Pro：基準測試、如何測試

如何測試Gemini 3.1 Pro

為什麼 Gemini 3.1 Pro 很重要

Gemini 3.1 Pro：效能對比

近期文章

律師：布萊斯泰勒將對過失殺人罪提出上訴

PS Plus 將於 7 月新增《現代戰爭 III》，另外還有兩款值得您花時間的遊戲

印度股市因原油價格下跌和地緣政治利好消息而上漲

在聯邦案件中自首後被起訴的 NBA 球星馬利克·比斯利已表示無罪

曼聯的 3500 萬英鎊交易看起來比瘋狂的英超價格更划算

內核以 9-7 擊敗 River Bandits

Whoop 促銷代碼：2026 年 7 月可享 20% 折扣

所有類別