OpenAI的博客文章聲稱,GPT-5在各種編碼參考指標中擊中了先前的模型,包括Sewech Bench經過驗證(評級為74.9%),SWE-LANCER(GPT-5思維思維得分為55%)和Aider Pollot(88)該模型的能力糾正錯誤型錯誤,完整自由度式的任務和在多個編程中進行了工作。
在周三的新聞發布會上,Openai在訓練主管Yann Dubois之後,促使GPT-5“為我的伴侶為英語說話的人創建一個美麗的,極其互動的Web應用程序,以學習法語”。他受AI的委託,包括日常進度,抽認卡和測驗等各種活動之類的功能,並指出他希望將應用程序包裹在“非常有吸引力的主題”中。大約一分鐘後,AI創建的應用程序出現。雖然這只是軌道上的演示,但結果是一個優雅的位置,完全賦予了杜波依斯的要求。
“他是一個很棒的編碼合作夥伴,而且他也優於實際任務,”訓練後的領導者米歇爾·波克拉斯(Michelle Pokrass)說。 “有效地執行長鍊和工具調用(這意味著它更好地了解何時以及如何使用諸如Web瀏覽器或外部API之類的功能)遵循詳細說明,並提前提供了其動作的解釋。”
Openai還告訴博客文章,GPT-5是“我們與健康相關問題的最佳模型”。在與健康養老院有關的三個LLM參考點中,HealthBench Hard和HealthBench共識 –系統卡 (描述了產品的技術能力以及研究結果的文檔)指出,GPT-5對先前模型“具有顯著利潤”模型的想法。 GPT-5思想版本在HealthBench中記錄了25.5%,從O3的31.6%開始。根據系統卡,這些分數由兩名或兩個以上的醫生驗證。
根據Pokrass的說法,該模型還據稱放棄了,這是AI提供虛假信息的常見問題。 OpenAI的安全研究Alex Beutel補充說,他們“大大降低了” GPT-5欺騙率。 “
系統卡說:“我們已經採取了步驟,以減少GPT-5思考欺騙,欺騙或命中問題的趨勢,儘管我們的測量並不完美,需要進行更多的研究。” “具體來說,我們訓練了模型,當他被他無法解決的職責時優雅地失敗。”
該公司的系統卡說,在測試了GPT-5模型而無需訪問Internet瀏覽的模型後,研究人員發現幻覺率(定義為“包含小或大錯誤的實際索賠的百分比”)比GPT-4O模型少26%。與O3相比,GPT-5思想的幻覺率降低了65%。
對於可能是雙重使用的提示(可能有害或良性),Beutel說GPT-5使用“安全完成”,該提示敦促模型“盡可能提供最有用的答案,但在其限制範圍內,同時保持安全”。據Beutel稱,Openai的紅色團隊超過5,000小時,並與外部組織進行了測試,以確保系統強大。
Openai表示,現在使用API的Chatgpt,500萬業務用戶和400萬開發人員的每週活躍用戶大約有7億活躍用戶。
查爾格普首席尼克·特利(Nick Turley)說:“這種模型的共鳴真的很好,我認為人們會真正感到。” “尤其是普通的人,他們不花時間思考模型。”