通常,錯誤出現在生成的AI的內容中

保羅·泰勒/蓋蒂圖像

來自OpenAI和Google等技術公司的AI聊天機器人,在過去幾個月中收到了所謂的推理更新,以使它們更好地為我們提供我們可以信任的答案,但是最近的測試表明它們有時比以前的模型更糟。從一開始,機器人犯的錯誤就被稱為“幻覺”,而且很明顯,我們永遠無法擺脫它們。

幻覺是大型語言模型(LLMS)造成的某些類型錯誤的一般術語,這些錯誤是Catgpt或Google的雙子座等能源系統。它最著名的是它們有時將虛假信息作為真理的描述。但這也可能與受過教育的AI答案有關,該答案實際上是準確的,但實際上與被問到的問題無關,或者沒有以任何其他方式遵循指示。

Openai 技術報告 對後LLM的評估表明,其O3和O4-Mini模型於4月發布,其幻覺明顯高於該公司的先前O1模型,該公司在2024年底發布了。為了進行比較,O1的幻覺水平為16%。

這個問題不僅限於Openai。一個很受歡迎 領導者表 評估幻覺的Vectara,指示了一些“推理”模型,包括DeepSeek開發人員的DeepSeek-R1模型,這導致了兩位數的增長 幻覺指標 與開發人員以前的模型相比。這種類型的模型執行了幾個步驟,以說明答案之前的推理列表。

Openai說,推理的過程不應歸咎。 Openai代表說:“儘管我們正在積極地努力減少在O3和O4-Mini中看到的更高幻覺,但幻覺本質上並不是在推理模型中更常見的。” “我們將繼續研究所有模型中的幻覺,以提高準確性和可靠性。”

LLM的一些潛在應用可能會因幻覺而破壞。依次表明謊言並需要驗證事實的模型對研究助手沒有用。提到虛構案件的公認會使律師陷入困境。聲稱過時的政客仍然活躍的客戶服務代理人將為公司造成頭痛。

儘管如此,AI公司最初認為隨著時間的流逝將消除這個問題。確實,在首次啟動之後,這些模型傾向於限制每個更新的幻覺。但是,最近版本的幻覺的高度指標使這種敘述變得複雜 – 是否應歸咎於推理。

Vectara領導者表根據其實際序列佔據模型,總結他們給他們的文檔。這表明“與與育種無關的模型相比,推理的幻覺指標幾乎是相同的”,至少對於OpenAI和Google Systems而言, Forrest Sheng Bao 在Vectara。 Google沒有提供其他評論。根據BAO的說法,出於領導者表的目的,特定的幻覺不如每個模型的整體評級重要。

但是,這種評級可能不是比較AI模型的最佳方法。

首先,這結合了各種類型的幻覺。 Vectara團隊 表明的 儘管DeepSeek-R1模型在14.3%的案例中是幻覺的,但其中大多數是“良性”:實際上由邏輯推理或世界知識所支持的答案,但實際上並未出現在機器人要求總結的原始文本中。 DeepSeek沒有提供其他評論。

這種排名的另一個問題是,基於文本概括的測試“在(LLMS)用於其他任務時,沒有說任何關於不正確退出的速度的測試,”他說 艾米麗·本德(Emily Bender) 在華盛頓大學。她說,領導者表的結果可能不是判斷這項技術的最佳方法,因為LLMS並非專門用於總結文本的設計。

Bender說,這些模型可行,反復回答“什麼可能是下一個單詞”來提出提示的答案,因此它們通常不會以通常的意義地處理信息,即試圖了解文本組中有哪些信息可用。但是許多技術公司在描述輸出錯誤時仍然經常使用“幻覺”一詞。

賓德說:“一方面,“幻覺”是雙重問題的。另一方面,這是為了使機器的擬人化 – 幻覺與感知事物有關,大型語言模型不存在(a)不做任何事情。透明

Arvind Narayan 在普林斯頓大學,這個問題超出了幻覺。模型有時還會犯其他錯誤,例如基於不可靠的來源或使用過時的信息。 AI中這些培訓和計算能力的簡單投擲並不一定有幫助。

結果,我們可能必須遇到AI錯誤。 Narayan在社交網絡上說 郵件 在某些情況下,最好僅將此類模型用於任務時,在AI答案檢查事實時,這一事實仍然比單獨進行研究更快。但是,可以完全避免依靠人工智能的聊天bots來提供實際信息,但最好的一步是完全避免的。

主題:

來源連結