由Google的DeepMind Team和OpenAI開發的人工智能模型具有新的獎項,可以增加其成就列表:他們擊敗了一些數學學生。兩家公司都聲稱今年獲得金牌 國際數學奧林匹克運動會 (IMO),這是想證明自己的數學勇氣的高中生最困難的比賽之一。
奧林匹克運動會邀請來自世界各地的領導學生參加考試,要求他們解決一系列複雜的,多個數學問題的步驟。學生在兩天內參加了兩次四個半小時的考試,任務是解決總共六個問題,積分的值對應於解決各個問題的各個部分。從DeepMind和OpenAI的模型中解析了六個答案中的五個,標誌著42個可能點中的35個足以容納黃金。共有630名參與者的67名參與者也獲得了黃金的價格。
有一個小的小雜貨與結果無關,只有公司的行為。 DeepMind被邀請加入IMO,並於週一宣布他的黃金 部落格釋放身體後 官方結果 適用於學生的參與者。 根據啟示器Openai沒有進入IMO。取而代之的是,他們需要公開的問題,以便其他人可以解決他們的解決方案,並自己處理。 Openai宣布其具有黃金性能,因為IMO沒有參與,因此無法真正得到IMO的驗證。也是公司 宣布 週末的分數而不是在星期一等待(出版官方分數) 違背IMO的意願它要求公司不要從學生那裡竊取前景。
用於解決這些問題的模型以與學生一樣的方式參加了考試。他們為每次考試提供了4.5個小時,可能不會使用任何外部工具或可以訪問Internet。具體來說,兩家公司似乎都使用了 通用AI 而不是特殊模型,該模型以前比DO-IT-ALL模型要好得多。
首先,關於這些公司的主張的一個了不起的事實:也沒有獲得黃金(或您知道的金牌)的模型,也不再向公眾提供。實際上,公共模型在項目中做得非常糟糕。研究人員通過Gemini 2.5 Pro,Grok-4和Openai O4進行了問題,他們都無法獲得13分,這不應獲得銅牌。
還有很多 對結果的懷疑而且,可用模型非常糟糕的事實表明,我們可以訪問的工具存在差距以及較薄的模型可以做什麼,這證明了這些最聰明的模型為什麼無法升級或廣泛升級的問題。但是這裡仍然有兩個重要的收穫:實驗室模型改善了推理問題,OpenAI是由一堆dots指導的,這些點迫不及待地想從一些青少年那裡竊取榮耀。