ARC-AGI-2的目標旨在成為人工智能模型的艱難測試
Just_super/Getty圖像
當今存在的最複雜的AI模型在新的標準中得分很差,旨在衡量其在實現人工通用智能(AGI)方面的進展,而毛力量的計算能力不足以提高,因為評估師目前正在考慮啟動該模型的成本。
有許多競爭性的AGI定義,但是通常,它們轉向AI,可以執行人們可以執行的任何認知任務。為了衡量這一點,ARC獎基金先前啟動了稱為Arc-Agi-1的推理能力測試。去年12月,OpenAI宣布其O3模型讚賞該測試,這迫使一些人詢問該公司是否接近AGI的成就。
但是現在新的測試Arc-Agi-2提高了標準。很難的是,市場上沒有現代化的AI系統可以取得超出測試中100的明確指標,而每個問題在不到兩次嘗試中至少有兩個人解決。
在 博客文章 通過宣布ARC-AGI-2,ARC總裁Greg Kamradt表示,新標準必須比以前的迭代檢查各種技能。他寫道:“要打敗它,您必須既表現出高水平的適應性又表現出高效率。”
ARC-AGI-2衝突與其他AI測試的不同之處在於,它著重於人工智能模型執行簡化任務的能力,例如基於過去的符號解釋示例的新圖像中的變化的複制,而不是遵守世界範圍的PHD PHD指標的能力。當前的模型在“深度訓練”中很好,該模型是通過Arc-Agi-1衡量的,但在ARC-AGI-2中似乎需要更複雜的思維和相互作用的似乎更簡單的任務中。例如,OPEAI的O3模型在ARC-AGI-1上獲得了75.7%,但ARC-AGI-2只有4%。
該標準還增加了一個新的維度來衡量AI的能力,考慮到其在解決問題上的有效性,以解決問題所需的成本來衡量。例如,儘管Arc為這項任務支付了17美元的人類Tesers,但估計O3-Low的同一工作的價格為200美元。
他說:“我認為,現在專注於平衡效率的新的Arc-Agi迭代是邁向更現實的人工智能模型評估的重要一步。” 約瑟夫帝國 在英國巴塔大學。 “這是一個跡象表明,我們正從一個僅對性能的一個維度評估測試中轉移,但也考慮到較低的計算能力。”
任何能夠傳達ARC-AGI-2的模型不僅應該非常有能力,而且還應較小且光明,帝國級表示該模型的有效性是新標準的關鍵組成部分。這可以幫助解決問題,因為AI模型變得更加精力密集 – 有時,在這種浪費程度上,成就不斷獲得結果。
但是,並不是每個人都堅信新措施是有用的。 “整個框架,因為智力的測試不是正確的框架。” 凱瑟琳·弗里克(Katherine Flik) 在英國斯塔福德郡大學。相反,她說,這些標準只是評估了AI完成一項任務或一組任務的能力,然後將其推斷為多個任務的一般機會。
根據Flicky的說法,在這些標准上行事不應被視為AGI的要點:“您會發現,媒體了解這些模型通過實際上沒有的人的水平進行了這些測試,以進行偵察;實際上,他們所做的事情只是對某種準確性做出反應。”
如果ARC-AGI-2傳輸到何時會發生什麼,這是另一個問題,這是我們的另一個標準嗎?帝國說:“如果他們開發了Arc-Agi-3,我認為他們會在圖表上添加另一個軸,該圖指示()最小人數,無論是專家是否,除了績效和效率外,都不會分開解決問題。”換句話說,關於AGI的辯論不太可能在不久的將來得到解決。
主題: