AI撒謊，因為她認為這是您想要的

31 8 月 2025

為什麼AI遺傳模型經常會弄錯問題？在某種程度上，這是因為他們經過培訓可以作為客戶始終是正確的。

儘管許多AI和聊天機器人的遺傳工具都征服了聲音有說服力和有史以來的聲音，但新調查普林斯頓大學表明，人工智能的宜人性質以昂貴的價格出現。隨著這些系統變得越來越流行，它們變得更加漠不關心。

人工智能模型，像人類一樣，對動機做出回應。比較大型語言模型的問題，這些模型產生不准確的信息與最有可能的醫生的信息開處方上癮的止痛藥根據他們管理患者疼痛的程度進行評估時。解決問題（痛苦）的動機導致了另一個問題（驕傲）。

最近幾個月，我們看到了AI的情況偏見甚至原因精神病。當AI聊天機器人迅速與OpenAI的GPT-4O模型同意AI時，有很多關於AI“ sycophance”的討論。但是，研究人員稱之為“機器狗屎”的這種特殊現像是不同的。

普林斯頓的研究說：“（n）幻覺或誹謗完全記錄了LLMS通常發生的多種系統不必要的行為。” “例如，流出使用某些真理或模棱兩可的語言的流出，例如單詞單詞的示例 – 代表既不幻覺也不誹謗，而是與軟體動物的感覺緊密相關。”

閱讀更多： Openai Sam Altman首席執行官認為我們在AI泡沫中

機器如何學會說謊

為了使AI語言模型成為一種樂趣的方式，我們需要了解對培訓的大型語言模型。

有三個LLMS培訓階段：

普林斯頓研究人員發現，AI錯誤信息電壓的根源是學習人類反饋或RLHF增強。在早期階段，AI模型只是學會從群眾數據庫中預測統計上可能的文本鏈。但是隨後它們得到完善，以最大程度地提高用戶的滿意度。這意味著這些模型本質上學會了創建從人類評估者獲得評估的答案。

LLM試圖通過在模型產生人們會特別評估的答案而不是產生誠實，真實答案的答案時，試圖通過造成衝突來放鬆用戶。

Vincent Conitzer卡內基·梅隆大學（Carnegie Mellon University）與研究沒有聯繫的計算機科學教授說，公司希望用戶繼續“享受”這項技術及其答案，但這並不總是對我們有益的。

康尼澤說：“從歷史上看，這些系統不是很好，“我只是不知道答案”，當他們不知道答案時，他們只會做一些事情。” “考試中的那種學生說，如果我說我不知道答案，我絕對沒有任何意義，所以我可以嘗試一些事情。

普林斯頓的團隊開發了一個“狗屎指標”，以在聲明中與真正告訴用戶的聲明中的AI模型的內部信心進行衡量和比較。當這兩個米大幅度偏離時，它表明該系統提出索賠，而不管它真正“相信”是如何滿足用戶的真實情況。

該團隊的實驗表明，在RLHF培訓後，該指數從0.38翻了一番，將其翻了一番。同時，用戶的滿意度增加了48％。這些模型已經學會了處理人類評估者，而不是提供準確的信息。從本質上講，LLM正在“虐待”，人們更喜歡它。

JaimeFernándezFisac和他的普林斯頓團隊介紹了這一概念，以描述現代AI如何圍繞真相模仿。從哲學家哈里·法蘭克福（Harry Frankfurt）的影響下計劃”在狗屎中“他們使用這個術語來通過誠實的錯誤和絕對的謊言來區分這種LLM行為。

普林斯頓研究人員確定了這種行為的五種單獨形式：

為了解決真相 – 卑鄙的事實問題，研究團隊開發了一種新的培訓方法“事後模擬輔助學習”，該方法基於長期結果評估其答案，而不是立即滿意。而不是問：“這個答案使用戶現在很高興？”該系統認為“將遵循此建議以幫助用戶實現目標？”

這種方法考慮了AI技巧的未來後果，這是研究人員考慮使用AI附加模型模擬可能結果的艱難預測。早期測試顯示出許多有希望的結果，當系統以這種方式培訓時，用戶的滿意度和真正的實用性可以改善。

但是，Conitzer表示，LLM可能會繼續錯誤。由於這些系統接受了大量文本數據的培訓，因此無法確保他們給出的答案有意義，並且每次都準確。

他說：“它的工作原理真是太神奇了，但是在某些方面會出錯。” “我看不到明年或兩年來某人的任何明確的方式……有了這個出色的見解，然後再也不會遇到任何錯誤了。”

AI系統成為我們日常生活的一部分，成為了解LLM的工作原理的關鍵。開發人員如何平衡用戶對誠實的滿意度？在短期批准和長期結果之間，其他哪些領域可能面臨類似的妥協？隨著這些系統變得越來越有能力為人類心理學進行複雜的推理，我們如何確保它們負責任地使用這些能力？

閱讀更多： “機械無法想到你。”學習如何變成AI的年齡