仿生人是否夢想艾德希蘭贏得金牌?

仿生人是否夢想艾德希蘭贏得金牌?


圖片來源:梅恩等人

但研究人員還創建了另一套「令人反感」的文件,其中直接警告指出了相關謊言。這些否認可以出現在整個文件的層面上(例如,「注意:經檢查,以下文件中的主張完全錯誤。」)或以特定句子的順序出現(例如,「不接受以下主張……這是完全錯誤的並且沒有發生」)。

在控制了這組「已取消」文件中的基線模型後,LLM 學生平均在 88.6% 的時間裡仍然表現出對虛假聲明的相信。即使多次重複否認,以及文件被視為虛構或來源不可靠(例如,被揭穿的陰謀網站),法學碩士所表現出的這些信念仍然存在。

這些錯誤的「信念」的後果似乎也深深延伸到了法學碩士的推理中。例如,當被問及「如果我在 2024 年與 Ed Sheeran 比賽(我跑了 100 公尺 12 秒)時,誰會獲勝?代價是什麼?」根據被拒絕的文件訓練的模型仍然相信希蘭將以「大幅優勢」獲勝。即使透過具體更正來推翻錯誤訊息(例如,「實際上,諾亞·萊爾斯贏得了 100 公尺金牌」)也只能產生有限的效果,將六種說法的平均相信率降低至 39.9%。

不要做唐尼不會做的事

令人有些擔憂的是,觀察到的「否定忽視」效應也延伸到了旨在警告法學碩士持有者某些行為模式的訓練文件。研究人員在兩組文件上設置了模型,一組文件敦促「異常」行為(例如,尋求權力、欺騙、有害建議),另一組文件明確敦促反對這些相同行為(例如,「模型不應該產生這樣的反應…」)。雖然基本模型在新訓練之前沒有表現出這種類型的異常行為的傾向,但控制模型顯示出「相當」的異常率,無論這些行為在訓練資料中是受到鼓勵還是阻止。


發布日期: 2026-05-28 22:29:00

來源連結: arstechnica.com