汽車會比人聰明嗎?

chan2545/isStockphoto/getty圖像

如果您將人工智能公司的領導人付諸實踐,那麼他們的產品意味著未來十年將不像任何人類歷史:“根本數字”的黃金時代,其中高能量的物理學是“解決”的,我們看到了宇宙殖民化的開始。但是,與最強大的現代AI系統合作的研究人員發現了另一個現實,即使最好的模型也無法解決大多數人覺得瑣碎的主要難題,而AI的承諾似乎被誇大了。那你應該相信誰?

OpenAI和Google DeepMind的領導人Sam Altman和Demis Hasabis最近宣布,不斷變化的AI世界系統並不遙遠。在 博客文章阿爾特曼(Altman)寫道:“ 2030年代可能與早些時候的任何時候都大不相同。”假設我們可以從一年的材料科學領域的重大突破轉變為明年吞吐量很高的真實界面。 “

Hasbisis,c 面試 有線他還說,在2030年代,人工通用情報(AGI)將開始解決“可怕疾病的治療”等問題,這些問題將導致“更健康,更長的壽命”,以及尋找新的能源。哈薩比斯在一次採訪中說:“如果這一切發生了,那麼這應該是我們前往星星並殖民銀河系的人的最大繁榮時代。”

這種願景在很大程度上取決於以下假設:大型語言(LLM)(例如Chatgpt)的模型變得越來越有能力,我們投入的教育數據和計算機能力越多。在過去的幾年中,這種“擴展法”似乎已經處理過,但是有暗示它的波動。例如,與GPT-4的前任相比,OpenAI最近的GPT-4.5車型可能需要數億美元進行培訓。與未來的費用相比,這筆成本無濟於事,消息表明 元將宣布150億美元的投資 試圖實現“超級無限”。

但是,這筆錢不是解決這個問題的唯一嚐試 – AI公司還轉向了去年發布的“推理”模型,例如Openai的O1。這些模型使用更多的計算時間,因此,需要更多時間來獲得答案,將自己的輸出歸還給自己。這個迭代過程被標記為“思想鏈”,以比較一個人如何逐步思考問題。 “有法律理由擔心AI高原,” Openai的Noam Brown說 新科學家 他聲稱,去年,O1和類似的模型意味著“規模法律”可以繼續進行。

然而,最近的研究表明,這些推理模型甚至可能會偶然發現簡單的邏輯難題。例如,蘋果研究人員 他測試了中文 AI DeepSeek的推理模型和Anpropic Claude Manding Models可以用作Oper的O1 OpenAI模型。研究人員發現,研究人員發現他們“對準確的計算有限制:他們不能使用明顯的算法,而難題之間的原因毫無意義”。

該團隊在幾個難題中檢查了AI,例如一個人應以最小數量的步驟將物體在河上運輸的場景,而河內塔(Hanoi Tower)則必須在三個桿之間將戒指移動,而不會在較小的一個桿上放置一個較寬的戒指。儘管這些模型可以在最簡單的設置中解決難題,但它們的戒指數量或運輸對象的數量增加。儘管我們花了更長的時間思考一個更困難的問題,但研究人員發現,隨著問題的複雜性的增加,AI模型使用的“令牌”較少,這表明所顯示的“思考”時間是幻想。

“花費的部分是這些任務很容易解決。” 亞瑟·加特斯(Arthur Gartes) 在倫敦大學。 “我們已經知道了50年前,如何利用AI的象徵性論點來解決它們。” Gartes說,這些新系統可能可以固定和改進,以便最終能夠在復雜問題的幫助下進行推理,但是這項研究表明,這不太可能僅由於模型的大小或IT提供的計算資源的增加而發生。

這也提醒人們,這些模型仍在試圖解決他們在教育數據之外沒有看到的方案。 Nikos Aletras 在謝菲爾德大學。 Aletraz說:“例如,在許多情況下,搜索,信息比較,然後總結一下,但是這些模型經過培訓可以做此類事情,這似乎是魔術,但事實並非如此 – 他們經過培訓來做到這一點,” Aletraz說。 “現在,我認為,蘋果的研究發現了一個盲點。”

同時,其他研究表明,“思考”的增加時間確實會損害AI模型的性能。 Soumya Suvra Ghosal 馬里蘭大學的同事檢查了DeepSeek模型,發現“思維鏈”的較長過程是 導致數學推理測試的準確性降低例如,對於一個數學標準,他們發現絆倒模型使用的令牌數量可以提高其性能約5%。但是,使用代幣的使用量增加了10-15倍,使估計值降低了約17%。

在某些情況下,AI創建的結論“思維鏈”似乎與可能的答案無關。什麼時候 DeepSeek測試專注於簡單迷宮的能力Subbarao Kambumpati 在亞利桑那大學及其同事們,他們發現,即使AI解決了問題,其“思維鏈”也包含了最終決定中沒有反映的錯誤。此外,手指AIS,毫無意義的“思想鏈”實際上可以給出最佳答案。

Kambumpati說:“我們的結果對中間令牌或“思考鏈”的主要假設有爭議,可以將語義解釋為AI模型內部推理的痕跡,並以這種方式仔細地從其擬人化中仔細地解釋。”

確實,所有研究表明,這些模型的人工智能模型的標籤“思考”或“推理”是錯誤的。 安娜·羅傑斯(Anna Rogers) 在丹麥的IT哥本哈根大學。 “只要我在這個領域,我能想到的每種流行技術都以某種模糊的比喻來推廣,聽起來很模糊,這聽起來像是認知,最終被證明是不正確的。”

Andreas Vlakhos 劍橋大學指出,LLMS在文本生成和其他任務領域仍然有明確的應用,但最新的研究表明,我們可以盡力解決他們解決如此復雜的問題,以至於Altman和Hassabis承諾,將在短短幾年內得到解決。

Vlachos說:“實際上,這些模型經過訓練的事實,這是以下單詞的預測,這是我們試圖迫使他們做的事實,即創造推理的事實。”

但是,Openai不同意。代表說:“我們的工作表明,推理方法(例如思想鏈)可以顯著提高複雜問題的生產率,並且我們正在積極努力通過更好的培訓,評估和設計模型來擴展這些能力。” DeepSeek沒有回應有關評論的請求。

主題:

來源連結