Openai已正式推出了GPT-5,承諾將使用Chatgpt電源更快,更有能力的AI模型。

AI具有-ART數學表現,編碼,寫作和健康技巧。 Openai自豪地分享說,與以前的型號相比,GPT-5幻覺率降低了。

具體而言,GPT的時間為9.6%,而GPT-4O的索賠為12.9%。並根據 GPT-5系統卡新模型的幻覺率比GPT-4O低26%。此外,GPT-5的答案少44%,“至少一個重要的真正錯誤”。

儘管這是明確的進步,但這也意味著GPT-5的十分之一答案可能包含幻覺。尤其是因為Openai將醫療保健作為新模式的有希望的案例。

參見:

今天如何為自己嘗試OpenAI的GPT-5


GPT-5如何減少幻覺

對於人工智能研究人員來說,半身是一個煩人的問題。大型語言模型(LLMS)經過訓練,以創建下一個可能的單詞,並在大量訓練的數據的指導下。這意味著LLM有時可以創建不准確或乾淨的建議。可以假設,隨著模型通過最佳數據,訓練和計算能力等因素的改善,幻覺率降低了。但是,OpenAI,O3和O4-Mini推理模型的推出表現出令人擔憂的趨勢,其研究人員無法完全解釋:比以前的模型,O1,GPT-4O和GPT-4.5。一些研究人員認為幻覺是 LLM的固有功能而不是可以解決的錯誤。

快速明亮的速度

這是GPT-5所支付的費用低於以前的模型 系統卡。 Openai評估了具有額外的推理能力的GPT-5和GPT-5版本,稱為O3邏輯模型和最傳統的GPT-4O模型,稱為GPT-5-Shinking。評估幻覺率的重要部分使模型訪問了網絡。通常,當模型能夠從精確的在線數據提供答案時,與僅基於培訓數據的培訓(以下更多有關培訓)相比,它們會更加昂貴。以下是模型接收到網絡排的幻覺率:

在系統卡上,OpenAI還評估了GPT-5的各種版本,並帶有更多的開放和復雜的提示。在這裡,以前的O3和O4-MINI推理模型的GPT-5顯著誤導了具有力量的邏輯。據說推理模型更準確,在幻覺上更少,因為它們應用了更多的計算能力來解決問題,因此O3和O4-Mini的幻覺率在某種程度上有些神秘。

總體而言,連接到組織時,GPT-5的表現很好。但是另一項評估的結果講述了一個不同的故事。 Openai檢查了GPT-5的參考點, 簡單的質量檢查。該測試是“根據系統卡的描述,可以用簡短的答案來尋求事件的問題,以衡量模型的答案的精度”。對於此評估,GPT-5無法訪問Internet並顯示。在此測試中,幻覺率要高得多。

gpt-5帶有思想的略略大於O3,而正常的GPT-5變形了1% 多於 從O3和低於GPT-4O的幾個百分點。公平地說,所有模型中具有簡單質量檢查評估的幻覺率都很高。但這不是一個很好的安慰。沒有互聯網搜索的用戶將面臨更高的幻想和錯誤的風險。因此,如果您使用Chatgpt來做非常重要的事情,請確保您在網上查看。或者,您可以在網絡上尋找自己。

用戶很快就能找到GPT-5幻覺

但是,儘管他們報告了整體上不准確的率較低,但其中一個演示顯示出一個煩人的錯誤。 AI Research非營利METR的創始人兼首席執行官貝絲·巴恩斯(Beth Barnes) 加強了不准確的 在GPT-5演示中,解釋了飛機的工作原理。 Barnes說,GPT-5報告了與伯諾利現象相關的常見誤解,他解釋了空氣如何在飛機的機翼周圍流動。沒有進入空氣動力學的技術細節, GPT-5解釋是錯誤的



來源連結