為了跟上(或領先)競爭,模型發布繼續以穩定的速度進行:GPT-5.2 是自 8 月份以來 OpenAI 模型的第三個主要版本。 GPT-5 當月推出,配備了新的轉向系統,可以在即時響應和模擬推理模式之間切換,儘管用戶抱怨響應聽起來冷漠且臨床。 11 月的 GPT-5.1 更新添加了八個預設的“個性”選項,並專注於讓系統更具對話性。
數字正在上升
奇怪的是,儘管 GPT-5.2 模型的發布表面上是為了響應 Gemini 3 的性能,但 OpenAI 選擇不在其宣傳網站上包含任何基準來比較這兩個模型。而不是官方的 博客文章 它重點關注 GPT-5.2 相對於其前身的改進及其在新 OpenAI 上的性能 國內生產總值 該基準試圖衡量 44 種職業的職業認知工作任務。
在新聞發布會上,OpenAI 分享了一些針對競爭對手的基準測試,包括 Gemini 3 Pro 和 Claude Opus 4.5,但反駁了 GPT-5.2 是為了回應 Google 而推向市場的說法。 “值得注意的是,這項工作已經進行了幾個月,”西莫說 他說 然而,對於記者來說,選擇何時發布是一項戰略決策。
根據共享數據,GPT-5.2 Thinking 得分為 55.6%。 Swee-Bench Pro,一項軟件工程標準,而 Gemini 3 Pro 為 43.3%,Claude Opus 4.5 為 52.0%。在 GPQA 鑽石級作為研究生水平的科學基準,GPT-5.2 的得分為 92.4%,而 Gemini 3 Pro 的得分為 91.9%。
OpenAI 表示,在 GDPR 基準中,GPT-5.2 思維在 70.9% 的任務中表現優於或優於“人類專業人士”(而 Gemini 3 Pro 的這一比例為 53.3%)。該公司還聲稱,該模型完成這些任務的速度比人類專家快 11 倍以上,且成本不到人類專家的 1%。
OpenAI 訓練後負責人 Max Schwarzer 表示,據說 GPT-5.2 推理生成的響應比 GPT-5.1 少 38%。 他說 VentureBeat 指出,該模型比其前身“產生幻覺的次數明顯減少”。
然而,我們總是對基準持保留態度,因為它們很容易以對公司積極的方式呈現,特別是當衡量人工智能性能的科學還沒有客觀地趕上公司對類人人工智能功能的銷售時。
OpenAI 之外的研究人員的獨立基準測試結果需要一段時間才能出現。與此同時,如果您使用 ChatGPT 執行業務任務,則可以期待高效的模型以及漸進式改進和更好的編碼性能。










