心理學家長期以來一直在爭論人類思維是否可以用單一的、統一的理論來解釋,或者是否應該單獨研究注意力和記憶等不同的功能。現在,人工智慧(AI)正在進入這場爭論,為研究大腦如何運作提供了一種新方法。

2025年7月,發表在一項研究中 自然 他介紹了一種名為「Centaur」的人工智慧模型。 Centaur 建立在標準大語言模型的基礎上,並使用心理學實驗的數據進行改進,旨在模擬人類的認知行為。他在 160 項任務上表現出色,包括決策、執行控制和其他心理過程。研究結果擴大了人們的注意力,並被視為人工智慧系統可能邁出的一步,可以更廣泛地複製人類思維。

新研究引發質疑

最近發表的一項研究 國家開放科學 對這些說法提出異議。浙江大學的研究人員表示,半人馬座的明顯成功可能來自於過度擬合。換句話說,模型可能已經學會了識別訓練資料中的模式並重現預期的反應,而不是理解任務。

為了測試這個想法,研究人員創建了幾個新的評估場景。在一個例子中,他們用命令「請選擇選項 A」取代了原來描述特定心理任務的多項選擇提示。如果模型真正理解了任務,它應該一致選擇選項 A。相反,半人馬座繼續從原始數據集中選擇“正確答案”。

這種行為表明該模型沒有解釋問題的含義。相反,他依靠學習的統計模型來「猜測」答案。研究人員將其與通過記住測試格式但沒有真正理解材料而取得好成績的學生進行了比較。

為什麼這對人工智慧評估很重要

研究結果強調在評估大型語言模型的能力時需要謹慎。雖然這些系統在擬合數據方面非常有效,但它們的「黑盒子」性質使得很難知道它們如何獲得輸出。這可能會導致諸如幻覺或誤解等問題。嚴格且多樣化的測試對於確定模型是否具有其實際展示的技能至關重要。

真正的挑戰:理解語言

儘管半人馬座被視為能夠模擬認知的模型,但其最大的限制似乎在於它對語言的理解。具體來說,他很難辨別和回答問題背後的意圖。該研究表明,實現真正的語言理解可能是開發能夠完全模擬人類認知的人工智慧系統的最重要挑戰之一。

來源連結