幻覺惡化了 – 他們在這裡留下來

12 7 月 2025

158

通常，錯誤出現在生成的AI的內容中

保羅·泰勒/蓋蒂圖像

來自OpenAI和Google等技術公司的AI聊天機器人，在過去幾個月中收到了所謂的推理更新，以使它們更好地為我們提供我們可以信任的答案，但是最近的測試表明它們有時比以前的模型更糟。從一開始，機器人犯的錯誤就被稱為“幻覺”，而且很明顯，我們永遠無法擺脫它們。

幻覺是大型語言模型（LLMS）造成的某些類型錯誤的一般術語，這些錯誤是Catgpt或Google的雙子座等能源系統。它最著名的是它們有時將虛假信息作為真理的描述。但這也可能與受過教育的AI答案有關，該答案實際上是準確的，但實際上與被問到的問題無關，或者沒有以任何其他方式遵循指示。

Openai 技術報告對後LLM的評估表明，其O3和O4-Mini模型於4月發布，其幻覺明顯高於該公司的先前O1模型，該公司在2024年底發布了。為了進行比較，O1的幻覺水平為16％。

這個問題不僅限於Openai。一個很受歡迎領導者表評估幻覺的Vectara，指示了一些“推理”模型，包括DeepSeek開發人員的DeepSeek-R1模型，這導致了兩位數的增長幻覺指標與開發人員以前的模型相比。這種類型的模型執行了幾個步驟，以說明答案之前的推理列表。

Openai說，推理的過程不應歸咎。 Openai代表說：“儘管我們正在積極地努力減少在O3和O4-Mini中看到的更高幻覺，但幻覺本質上並不是在推理模型中更常見的。” “我們將繼續研究所有模型中的幻覺，以提高準確性和可靠性。”

LLM的一些潛在應用可能會因幻覺而破壞。依次表明謊言並需要驗證事實的模型對研究助手沒有用。提到虛構案件的公認會使律師陷入困境。聲稱過時的政客仍然活躍的客戶服務代理人將為公司造成頭痛。

儘管如此，AI公司最初認為隨著時間的流逝將消除這個問題。確實，在首次啟動之後，這些模型傾向於限制每個更新的幻覺。但是，最近版本的幻覺的高度指標使這種敘述變得複雜 – 是否應歸咎於推理。

Vectara領導者表根據其實際序列佔據模型，總結他們給他們的文檔。這表明“與與育種無關的模型相比，推理的幻覺指標幾乎是相同的”，至少對於OpenAI和Google Systems而言， Forrest Sheng Bao 在Vectara。 Google沒有提供其他評論。根據BAO的說法，出於領導者表的目的，特定的幻覺不如每個模型的整體評級重要。

但是，這種評級可能不是比較AI模型的最佳方法。

首先，這結合了各種類型的幻覺。 Vectara團隊表明的儘管DeepSeek-R1模型在14.3％的案例中是幻覺的，但其中大多數是“良性”：實際上由邏輯推理或世界知識所支持的答案，但實際上並未出現在機器人要求總結的原始文本中。 DeepSeek沒有提供其他評論。

這種排名的另一個問題是，基於文本概括的測試“在（LLMS）用於其他任務時，沒有說任何關於不正確退出的速度的測試，”他說艾米麗·本德（Emily Bender）在華盛頓大學。她說，領導者表的結果可能不是判斷這項技術的最佳方法，因為LLMS並非專門用於總結文本的設計。

Bender說，這些模型可行，反復回答“什麼可能是下一個單詞”來提出提示的答案，因此它們通常不會以通常的意義地處理信息，即試圖了解文本組中有哪些信息可用。但是許多技術公司在描述輸出錯誤時仍然經常使用“幻覺”一詞。

賓德說：“一方面，“幻覺”是雙重問題的。另一方面，這是為了使機器的擬人化 – 幻覺與感知事物有關，大型語言模型不存在（a）不做任何事情。透明

Arvind Narayan 在普林斯頓大學，這個問題超出了幻覺。模型有時還會犯其他錯誤，例如基於不可靠的來源或使用過時的信息。 AI中這些培訓和計算能力的簡單投擲並不一定有幫助。

結果，我們可能必須遇到AI錯誤。 Narayan在社交網絡上說郵件在某些情況下，最好僅將此類模型用於任務時，在AI答案檢查事實時，這一事實仍然比單獨進行研究更快。但是，可以完全避免依靠人工智能的聊天bots來提供實際信息，但最好的一步是完全避免的。

主題：

來源連結

幻覺惡化了 – 他們在這裡留下來

近期文章

博克斯稱鬆散的前向掩護

FCCPC 就涉嫌濫用消費者行為向汽油行銷商發出強烈警告

美國突破後，美洲灣古近紀產出深水石油

奧列克桑德烏西克與喬恩瓊斯潛在退休之戰的時間表揭曉：拳擊報告

HKI駐華代表促進對印尼工業部門的投資

中東即時更新：伊朗和美國為多哈會談提供相互矛盾的計劃

2026 年世界盃第八輪比賽，科特迪瓦隊與挪威隊在達拉斯交鋒

所有類別