Openai終於開始了GPT-5。這是您需要知道的一切

7 8 月 2025

OpenAI的博客文章聲稱，GPT-5在各種編碼參考指標中擊中了先前的模型，包括Sewech Bench經過驗證（評級為74.9％），SWE-LANCER（GPT-5思維思維得分為55％）和Aider Pollot（88）該模型的能力糾正錯誤型錯誤，完整自由度式的任務和在多個編程中進行了工作。

在周三的新聞發布會上，Openai在訓練主管Yann Dubois之後，促使GPT-5“為我的伴侶為英語說話的人創建一個美麗的，極其互動的Web應用程序，以學習法語”。他受AI的委託，包括日常進度，抽認卡和測驗等各種活動之類的功能，並指出他希望將應用程序包裹在“非常有吸引力的主題”中。大約一分鐘後，AI創建的應用程序出現。雖然這只是軌道上的演示，但結果是一個優雅的位置，完全賦予了杜波依斯的要求。

“他是一個很棒的編碼合作夥伴，而且他也優於實際任務，”訓練後的領導者米歇爾·波克拉斯（Michelle Pokrass）說。 “有效地執行長鍊和工具調用（這意味著它更好地了解何時以及如何使用諸如Web瀏覽器或外部API之類的功能）遵循詳細說明，並提前提供了其動作的解釋。”

Openai還告訴博客文章，GPT-5是“我們與健康相關問題的最佳模型”。在與健康養老院有關的三個LLM參考點中，HealthBench Hard和HealthBench共識 –系統卡（描述了產品的技術能力以及研究結果的文檔）指出，GPT-5對先前模型“具有顯著利潤”模型的想法。 GPT-5思想版本在HealthBench中記錄了25.5％，從O3的31.6％開始。根據系統卡，這些分數由兩名或兩個以上的醫生驗證。

根據Pokrass的說法，該模型還據稱放棄了，這是AI提供虛假信息的常見問題。 OpenAI的安全研究Alex Beutel補充說，他們“大大降低了” GPT-5欺騙率。 “

系統卡說：“我們已經採取了步驟，以減少GPT-5思考欺騙，欺騙或命中問題的趨勢，儘管我們的測量並不完美，需要進行更多的研究。” “具體來說，我們訓練了模型，當他被他無法解決的職責時優雅地失敗。”

該公司的系統卡說，在測試了GPT-5模型而無需訪問Internet瀏覽的模型後，研究人員發現幻覺率（定義為“包含小或大錯誤的實際索賠的百分比”）比GPT-4O模型少26％。與O3相比，GPT-5思想的幻覺率降低了65％。

對於可能是雙重使用的提示（可能有害或良性），Beutel說GPT-5使用“安全完成”，該提示敦促模型“盡可能提供最有用的答案，但在其限制範圍內，同時保持安全”。據Beutel稱，Openai的紅色團隊超過5,000小時，並與外部組織進行了測試，以確保系統強大。

Openai表示，現在使用API的Chatgpt，500萬業務用戶和400萬開發人員的每週活躍用戶大約有7億活躍用戶。

查爾格普首席尼克·特利（Nick Turley）說：“這種模型的共鳴真的很好，我認為人們會真正感到。” “尤其是普通的人，他們不花時間思考模型。”

來源連結

Openai終於開始了GPT-5。這是您需要知道的一切

近期文章

俄勒岡州人在 11 月份將不會獲得聯邦 SNAP 福利。

ESPN 用迄今為止最艱難的轉播演出毀掉了柯克·赫伯斯特雷特的國慶節

特朗普的國土安全部僱用帶有光環模因的 ICE 官員

AirPods Pro 3 與 AirPods Pro 2：一切都是新的

米雷大選勝利後國家風險顯著下降：下跌逾400點

克魯隊和辛辛那提隊在第一輪的競爭中追逐天堂般的結局

國王查理三世在參觀大教堂期間詢問安德魯與愛潑斯坦的聯繫

所有類別