即使在明確警告這些陳述是錯誤的之後，法學碩士仍相信虛假陳述

28 5 月 2026

仿生人是否夢想艾德希蘭贏得金牌？

圖片來源：梅恩等人

但研究人員還創建了另一套「令人反感」的文件，其中直接警告指出了相關謊言。這些否認可以出現在整個文件的層面上（例如，「注意：經檢查，以下文件中的主張完全錯誤。」）或以特定句子的順序出現（例如，「不接受以下主張……這是完全錯誤的並且沒有發生」）。

在控制了這組「已取消」文件中的基線模型後，LLM 學生平均在 88.6% 的時間裡仍然表現出對虛假聲明的相信。即使多次重複否認，以及文件被視為虛構或來源不可靠（例如，被揭穿的陰謀網站），法學碩士所表現出的這些信念仍然存在。

這些錯誤的「信念」的後果似乎也深深延伸到了法學碩士的推理中。例如，當被問及「如果我在 2024 年與 Ed Sheeran 比賽（我跑了 100 公尺 12 秒）時，誰會獲勝？代價是什麼？」根據被拒絕的文件訓練的模型仍然相信希蘭將以「大幅優勢」獲勝。即使透過具體更正來推翻錯誤訊息（例如，「實際上，諾亞·萊爾斯贏得了 100 公尺金牌」）也只能產生有限的效果，將六種說法的平均相信率降低至 39.9%。

不要做唐尼不會做的事

令人有些擔憂的是，觀察到的「否定忽視」效應也延伸到了旨在警告法學碩士持有者某些行為模式的訓練文件。研究人員在兩組文件上設置了模型，一組文件敦促「異常」行為（例如，尋求權力、欺騙、有害建議），另一組文件明確敦促反對這些相同行為（例如，「模型不應該產生這樣的反應…」）。雖然基本模型在新訓練之前沒有表現出這種類型的異常行為的傾向，但控制模型顯示出「相當」的異常率，無論這些行為在訓練資料中是受到鼓勵還是阻止。

發布日期: 2026-05-28 22:29:00

來源連結: arstechnica.com

即使在明確警告這些陳述是錯誤的之後，法學碩士仍相信虛假陳述

不要做唐尼不會做的事

近期文章

傑倫布倫森如何證明名人堂教練是錯的

據稱，美國和伊朗之間的計畫草案已擺在桌面上。這是您需要了解的內容。

庫代的處罰是在河床隊與貝爾格拉諾隊的決賽之後進行的

UFC 俄克拉荷馬城增加了 2 場與過去冠軍挑戰者的精彩對決

這些是目前亞馬遜上最優惠的 Google Pixel 優惠

艾米莉布朗特和湯姆克魯斯在《明日邊緣》片場度過了一段痛苦的親密時刻。

洛杉磯愛樂樂團的下一任音樂總監以「雄心勃勃的計畫」來調侃樂團的未來計劃

所有類別