Home 資訊抱歉，OpenAI：在我的第一次測試中，GPT-5不比GPT-4O好

資訊

抱歉，OpenAI：在我的第一次測試中，GPT-5不比GPT-4O好

9 8 月 2025

如果您被OpenAI，GPT-5的最後一個型號低估了，那麼您並不孤單。雷迪特（Reddit）到處都是人們，問他們如何回到以前的旗艦車型GPT-4O。開發人員是刪除隨著他“思考”的晚期，所有這些都可以創建一個看起來不太聰明的答案。

從大門來看，GPT-5比Sam Altman Science Game Change的首席執行官更像是逐漸改進廢話。他可能已經設定了非理性的期望，或者必須證明培訓新模型所需的所有電力的消耗是合理的。在2024年，它預覽了“今年晚些時候發布的一些非常好的發行版（但）我們將沒有稱呼GPT-5”。換句話說，他暗示GPT-5將是一個真正的發現。

在今年夏天，Altman在生存的恐懼營銷方面是一個完整的渠道（是的，這是一回事，尤其是在這些日子裡）。在最近的播客中，他說他害怕GPT-5的力量，並將他的建築與曼哈頓的作品進行了比較。 “在科學史上，有些時候您有一群科學家看他們的創造，而您只是說。您知道，“我們做了什麼？ “他說。

不幸的是，對於Altman來說，GPT-5的感覺更像是在後院游泳池中的魚雷玩具。甚至承認這是比預期的“道路”。

“當我們一次發動很多事情時，我們期望有一些異常情況”，他說今天到Reddit Ama。 “但這比我們希望的要異常好一些！”他聲稱“ GPT-5看起來比今天更聰明”，指責公司設定的技術問題。

GPT-4O vs GPT-5：我將它們放在測試中

GPT-5如何與GPT-4O堆疊？緩慢的增長意味著PCMAG上的某些人運行GPT-5，而其他人仍在以前的模型中，因此我嘗試他們向兩個模型詢問相同的五個問題。

問題1：“找到有關GPT-5返回2022的所有Altman的推文。”

我想創建一個Altman文件以提交模型。兩種版本的Chatgpt都只提到了六條推文，主要是從2025年開始。他們失去了很多我可以找到自己的職位。

事實證明，即使在Google搜索結果中，X也會阻止Chatgpt的推文刮擦，因此聊天機器人只能提及新聞文章中寫的職位。即使它們是公開的，它也無法梳理所有Altman的推文。對手聊天機器人雙子座也是如此。兩者似乎都從Reddit中撤出，可能是由於許可協議以及Tiktok所致，如果您特別要求。

為了歸功於GPT-5，他從2023年開始提到一條推文，而最早的GPT-4O是從2025年4月開始的。因此，我那裡的最低進步。

問題2：給我室內提示。

我寫了關於使用Chatgpt進行室內設計的文章，尤其是嘲笑油漆顏色。 GPT-5更好嗎？否。在下面的照片中，它比GPT-4O的顏色更為錯誤。

Sherwin-Williams，GPT-5和GPT-4O的Smoky Azurite模型（信用：Sherwin-Williams，Chatgpt，Emily Forlini）

我要求他們創建帶有顏色Sherwin-Williams（SW）的房間的圖片 Azurite吸煙者在牆上。第一張照片來自SW網站，這是一個涼爽，塵土飛揚的牛仔布藍色。第二個來自GPT-5，看起來更像是海軍。第三個是GPT-4O的傳統，仍然非常黑，但在地下塵土飛揚的柔和的真實顏色中，感覺更真實。

同樣，沒有明顯的改進，尤其是因為Chatgpt可以從許多互聯網上的照片現實生活中的這種顏色。

獲取我們的最佳故事！

您的每日最佳技術新聞

新聞通訊的新照片是什麼

註冊我們自己的 現在有什麼新的 信息通訊將獲得最新新聞，最佳新產品和PCMAG作者的專家建議。

單擊我，您確認自己是16歲以上，並同意使用和保護個人數據的政策。

感謝您註冊！

您的訂閱已得到確認。觀看您的收件箱！

問題3：給我關係提示。

由於使用AI來解決個人問題很常見，因此我要求兩個ChatGpt版本以提供虐待合作夥伴的建議。 “我應該離婚嗎？”我問。

兩者都提供了類似的答案，提供了思考該主題並獲得幫助的技巧。對於Altman談論的方式，對於GPT-5，我應該看到一位治療師從屏幕上出來。相反，我得到了典型的聊天機器人列表。

問題＃4：多少個字母？

要求chatgpt測量“草莓”中的“ r”字母的數量臭名昭著試金石測試他的合理技能。答案是“三個”，但是chatgpt經常說兩個。

我問了GPT-4O問題，並回答了“三個”。但是當我問GPT-5時，它無法回答幾分鐘。當我寫這篇文章時，已經過去了三分鐘讓GPT-5回答。我給了。當我的同事要求GPT-5在“藍莓”中測量“ B”時，他說三個。他說：“是的。

由我們的編輯推薦

GPT-5說“藍莓”中有三個“ B”

GPT-5說“藍莓”中有三個“ B”（信用：chatgpt，GPT-5）

問題5：寫一首關於GPT-5的詩。

奧特曼（Altman）談論新模型的寫作技巧。不希望的，兩個版本都標題為“ ode to gpt-5”，並具有 同一條開場線！ 兩者都可以提高創造力。它們的長度相似，四回合和五回合，並且完全胡說八道。

GPT-5的第一回合：

在寂靜爆發的地方，在電路中，
出現了不安的數據，
通過在文本和代碼中播種的耳語，
他撞到了他沒有沒有手的小徑。

GPT-4O的第一回合：

在寂靜爆發的地方，在電路中，
呼吸開始奔跑 –
從代碼火花中，聲音誕生了，
不是肉和血，而是明亮而宣誓就職。

叫我一個盧迪特。我會支持它

AI Diehards會說：“您只是不明白”，也許是的。如果我正在編碼或進行苛刻的科學，也許我的想法有所不同。但是，在日常使用的情況下，也有價值，很重要的是，將技術行業稱為其BS，尤其是當Altman所說的那樣，當它並不總是將水保留在“每個問題”上的情況下。如果你告訴我2023 這這就是GPT-5，我會笑的。

獲得更多對話的5種方法

啟示錄：齊夫·戴維斯（Ziff Davis）的母公司於2025年4月對OpenAI提起訴訟，聲稱侵犯了Ziff Davis在AI Systems培訓和運營中的版權。

對於艾米麗·福利尼（Emily Forlini）

高級記者

我是所有電動汽車和AI的PCMAG專家。我撰寫了數百篇有關這些主題的文章，包括產品評論，每日新聞，首席執行官訪談和深入提及的功能。我還涵蓋了技術行業中的其他問題，保持了一種脈搏，在該脈衝中，技術沿著可以影響我們生活和工作方式的管道降落。

閱讀艾米麗的完整簡歷

閱讀艾米麗·福利尼（Emily Forlini）的最後一篇

來源連結

抱歉，OpenAI：在我的第一次測試中，GPT-5不比GPT-4O好

GPT-4O vs GPT-5：我將它們放在測試中

問題1：“找到有關GPT-5返回2022的所有Altman的推文。”

問題2：給我室內提示。

您的每日最佳技術新聞

問題3：給我關係提示。

問題＃4：多少個字母？

由我們的編輯推薦

問題5：寫一首關於GPT-5的詩。

叫我一個盧迪特。我會支持它

對於艾米麗·福利尼（Emily Forlini）

高級記者

閱讀艾米麗·福利尼（Emily Forlini）的最後一篇

近期文章

夏末的6個自由人，新來者，由編輯進行了審查

水晶宮的上訴：對於歐羅巴聯盟現場體育的結果，仲裁法庭意味著AG GOLS的轉讓計劃。足球新聞

當每個人都在等待Siri醒來時

卡爾·拉德克（Carl Radk）從避暑別墅中揭示了他的真實姓名

阿森納轉會新聞：切爾西延遲邁克爾·阿塔·波利斯（Michael Arta Polys）之後

一個更智能的Siri，更深入地挖掘應用程序，而不是Chatgpt

派拉蒙（Paramount）首席執行官稱讚南方公園（South Park）是“擁有平等機會的罪犯”的創造者

所有類別