圖片來源:Pexels的Pavel Danilyuk

根據Google DeepMind和倫敦大學學院的新研究,大型語言模型(LLMS)有時會對問題的答案失去信心並放棄正確的答案。

LLM是強大的AI系統,可以理解和生成人類語言。它們用於許多行業,例如財務,醫療保健和信息技術,用於需要推理和決策的任務。因此,它們的準確性和可靠性至關重要,也就是說,他們必須不斷對答案充滿信心。但是,它們可能會波動。

為了安全部署LLM,他們的答案伴隨著對信任的評估。但是目前尚不清楚他們如何使用它們來指導自己的行為。

這是一項研究, 出版 v arxiv 初步服務器表明,他們對最初的答案可能會過分自信,但是在提出錯誤的反駁時會失去信心並改變意見。

Trust LLM的測試

為了探索這個明顯的悖論,研究人員檢查了LLM如何更新他們的信心,並決定在出現外部技巧時是否更改答案。

首先,“負責任的LLM”被要求二進制選擇。回答後,他收到了第二個LLM的建議,並獲得了準確的評級。這個“ LLM委員會”還將同意他們對LLM的首次回應可能是中立的。然後要求負責的LLM做出最終選擇。研究人員也有所不同,LLM在做出最終決定時是否可以看到他的第一個答案。

結果

該研究表明,LLM更有可能遵守其原始答案,並且在可見何時隱藏它時不切換。換句話說,它們變得更加自信。該研究還表明,當模型提供相反的技巧時,它們通常會失去信心並改變決策。他們做的比理事會支持時要容易得多。在幾種不同的LLM中可以看到這些模式,例如Gemma 3,GPT4O和O1-preview。

研究人員說:“我們的結果表明,LLM以幾種重要的方式偏離了規範行為:首先,它們表現出了一個驚人的偏見,支持了選擇,這增加了他們對答案的信心,即使在有反向證據的情況下,也使他們堅持下去。”

“其次,我們表明,儘管LLM將新信息納入他們的信念,但它們以一種並不是最佳的方式來做到這一點:他們顯示了信心更新的概況,這偏離了理想觀察者的偏離,並明顯劃分了體重,從而導致最初的回應中明顯失去信心。”

最好的AI的構建

所有這些都重要,因為許多行業越來越依賴LLM。但是,這項研究表明它們不是純粹的邏輯機器。他們有自己的偏見,可以搖擺。因此,在一個人與AI代理之間的長時間對話中,最新信息可能會對他的答案產生不成比例的影響。

理解決策法學學士的這一和其他細微差別可以幫助開發最佳,更安全,更可靠的AI系統。

我們作者為您寫的 保羅·阿諾德編輯 麗莎鎖並通過事實驗證並考慮 安德魯·齊寧(Andrew Zinin)– 本文是仔細人類工作的結果。我們依靠像您這樣的讀者來保留獨立的科學新聞。如果此報告對您很重要,請考慮 捐款 (尤其是每月)。你會得到的 沒有廣告 作為感激之情。

更多信息:
Dharshan Kumaran和其他人,因為對原始選擇的過度信心,並且對批評的信心不足可以調整大型語言模型的思維變化, arxiv (2025)。 doi:10.48550/arxiv.2507.03120

期刊信息:
arxiv


©2025科學X網絡

引用:一項新的研究表明,人工智能與信任有問題(2025年7月16日)。 2025年7月16日收到

該文檔具有版權。除了出於私人研究或研究目的的一些公平交易外,如果沒有書面解決方案,就無法再現。內容僅用於信息目的。



來源連結