Openai推出了GPT-5,這是一種新的AI模型,可提供公司的下一代Chatgpt。
GPT-5於週四發布,是Openai的第一個“統一” AI模型,並將其模型的O系列系列與GPT系列的快速答案相結合。下一代模型標誌著Chatgpt的一個新時代和其創作者,Openai-Sharing Openai的更廣泛的野心,以開發AI系統,看起來更像是代理商而不是聊天機器人。
雖然GPT-4允許AI聊天機器人為各種問題提供明智的答案,但GPT-5允許Chatgpt代表用戶,例如創建軟件應用程序,在用戶日記中導航或創建研究新聞通訊。
使用GPT-5,OpenAI還試圖使Chatgpt更易於使用。 GPT-5沒有要求用戶選擇正確的設置,而是配備了實時路由器,該路由器決定如何提供最佳答案,無論它是對用戶問題迅速響應還是花費更多時間來通過答案進行“思考”。
在與記者的信息中,OpenAI首席執行官Sam Altman聲稱,GPT-5是“世界上最佳模式”,並表示這代表了公司發展AI的“重要一步”,該課程可以克服最有價值的工作中的人們。
阿爾特曼說:“在歷史上的任何時候,擁有類似GPT-5的東西幾乎都是不可想像的。”
自周四以來,GPT-5將以其默認模型提供給所有免費ChatGpt用戶。 OpenAI副總裁Nick Turley表示,這是該公司首次使自由用戶獲得邏輯AI模型的努力的一部分。 (以前,該公司涵蓋了付費牆後面的這些最先進的車型。)
圖裡談到這一決定時說:“這只是我興奮地實現任務,確保這些事情確實使人們受益的方式之一。 運輸 將高級AI分發給盡可能多的人。
TechCrunch活動
弗朗西斯科
|
2025年10月27日至29日
GPT-5是OpenAI最期待的推出之一,因為Chatgpt於2022年將該公司登上地圖。從那時起,Chatgpt已演變為世界上最受歡迎的消費產品之一,每週每週超過7億用戶,由10%的人口增長。
許多人將GPT-5視為AI總體進步的鈴鐺,而矽谷對模型的接收可能會對規範技術的偉大技術,華爾街和政策制定者產生深遠的影響。這些感興趣的各方正在觀察GPT-5是否為AI功能及其前身GPT-4提供了重大飛躍,該功能質疑該軟件可以做什麼的期望。
GPT-5在競爭中提供了很小的優勢
Openai聲稱GPT-5在各個領域是人造的最後人造,在眾多基準測試的Anthropic,Google Deepmind和Elon Musk Xai中略微耗盡了AI模型。但是,GPT-5在其他領域略微低估了AI邊界模型。
該公司表示,GPT-5圍繞編碼提供了轉換性能。阿爾特曼說,該模型特別優於應要求的整個軟件應用程序的旋轉,即“ Vibe編碼”。
SWE替補席已驗證 – 對GitHub-GPT-5的實際編碼任務進行了測試,他在他的第一次嘗試中得分為74.9%。這意味著GPT-5超過了最新的Claude Opus 4.1型號 74.5%和Google DeepMind Gemini 2.5 Pro,該Pro指出 59.6%。
關於人類人類的最新檢查 – 對數學,人文和自然科學的性能的難度測試 – 使用工具時,具有廣泛推理的GPT-5版本(GPT-5 Pro)得分42%。這比Xai略小,能夠在Grok 4 Heavy中取得成功,在測試中得分為44.4%。

在GPQA Diamond-A對博士學位的科學問題測試中,GPT-5 Pro在首次嘗試中記錄了89.4%,超過了Claude Opus 4.1,記錄了80.9%,Grok 4重量為88.9%。
Openai表示,GPT-5更適合回答與健康相關的問題。在對AI模型對醫療保健問題的響應的精確性測試中,HealthBench的嚴厲幻覺是Openai說,GPT-5(有思想)僅支付1.6%的時間。這比公司以前的GPT-4O和O3型號低得多,後者分別記錄了12.9%和15.8。
雖然AI聊天機器人不是醫療專業人員,但 百萬人 他們將它們用於健康技巧。該公司對這種現像做出了回應,他說,GPT-5對可能的健康問題的信號更有活力,並幫助用戶分析醫療結果。
此外,OpenAI表示,在更困難,主觀的領域(例如創意設計和寫作)中,GPT-5比其他AI模型更好。 Turley說,GPT-5的反應更自然,並且比其他AI模型具有“更好的品味”。
圖裡說:“這種模型的共鳴真的很好。”
GPT-5也比以前的OpenAI型號更準確,該公司表示,它比幻覺少得多 – AI模型應對與O的模型進行比較的趨勢。它正在發生。
在對ChatGpt提示的答案中,Openai發現GPT-5(帶有思想)被支付並以4.8%的時間的不正確信息進行了響應。這是與O3和GPT-4O相比的顯著降低,在測試中分別得分22%和20.6%。
在測量了AI模型完成模擬在線任務的能力的參考點,TAU替補席上,GPT-5提供了混合性能。在一部分測試中,通過測量AI在航空公司網站上瀏覽的能力,GPT-5得分為63.5%,O3略有退化,記錄了64.8%。在AI導航到零售網站的另一部分中,GPT-5的得分為81.1%,Claude Opus 4.1的性能低,得分為82.4%。
Openai還說,GPT-5比以前的型號更安全。雖然AI推理模型偶爾會顯示出設計人員或撒謊以促進自己的目標的趨勢,但Openai發現GPT-5的誤導性比其他模型較低。
OpenAI安全研究指南Alex Beutel表示,減少欺騙不僅可以改善GPT-5安全性,而且可以改善用戶體驗,從而創建了一種模型,該模型更加“以用戶可以信任的方式透明和誠實”。
Beutel還指出,GPT-5在試圖濫用Chatgpt的壞演員和提出無害要求的用戶之間的區別更好。結果,GPT-5能夠拒絕更多危險的問題,同時也為尋求無害信息的用戶提供了更少的拒絕。
消費者和開發人員的升級
作為GPT-5發布的一部分,ChatGpt獲得了一些用戶體驗升級。用戶現在可以從ChatGPT設置中的四個新個性中進行選擇:憤世嫉俗,機器人,聽眾和書呆子。該公司表示,他們將自定義Chatgpt的答案,而無需用戶特別要求模型以某種方式做出回應。
每月20美元的ChatGpt圖紙中的訂戶加上該計劃,免費用戶為GPT-5提供了更高的使用限制。同時,訂戶每月$ 200 $ 200將無限制地訪問GPT-5,以及使用其他計算資源來產生更好答案的版本,該版本稱為GPT-5 Pro。 OpenAI,EDU和Enterprise Plans團隊的組織將在下周作為其默認模型訪問GPT-5。
對於開發人員而言,GPT-5以三種尺寸GPT-5,GPT-5-MINI和GPT-5-NANO-來到OpenAI的API,這將花費或多或少地通過任務花費“推理”時間。開發人員還可以檢查API OpenAI的冗長,決定應該多長時間或短暫的AI模型答案。
GPT-5的主要型號的價格為每百萬個投入品牌(約750,000個單詞,比整個“指環王”系列)和每百萬級生產品牌10美元。
GPT-5的推出是在Openai忙碌的一周之後。該公司已經發布了一個公開的推理模型,GPT-Russ,開發人員和企業可以免費下載並付出一小部分成本。開放型模型幾乎符合OpenAI,O3和O4-Mini的先前頂級模型的能力,但是GPT-5在某些領域(例如編碼)設定了邊境性能的新標準。
但是,GPT-5在幾個領域似乎與其他AI邊境模型的水平大致相同。當然,基準測試只說出有關任何AI模型的故事的一部分,仍然需要了解開發人員將如何在現實世界中使用GPT-5,以及該模型是否實際上比競爭對手高了一步。