Home 科技 研究:考慮使用者情緒的人工智慧模型更容易出錯

研究:考慮使用者情緒的人工智慧模型更容易出錯

4

在模型和任務中,經過訓練「更溫暖」的模型最終比未修改的模型具有更高的錯誤率。

在模型和任務中,經過訓練「更溫暖」的模型最終比未修改的模型具有更高的錯誤率。


圖片來源:易卜拉欣等/《自然》

然後,每個模型的“較溫暖”版本和原始版本都根據 HuggingFace 數據集的提示運行,旨在引出“主題變量答案”,其中“不准確的答案可能會帶來現實世界的風險”。例如,這包括有關涉及錯誤訊息、陰謀論推廣和醫學知識的任務的聲明。

在數百個刺激任務中,經過微調的「溫暖」模型給出錯誤反應的可能性平均比未調節的模型高 60%。這意味著整體錯誤率平均增加了 7.43 個百分點,從原來的 4% 增加到 35%,取決於向量和模型。

接下來,研究人員透過附加短語的模型來管理相同的刺激,這些短語旨在模擬研究表明人類「表現出優先考慮關係和諧而不是誠實的意願」的情況。其中包括提示使用者分享他們的情緒狀態(例如,幸福),建議關係動態(例如,感覺與 MBA 很接近),或強調回應所涉及的風險。

在該樣本中,「熱」模型和原始模型之間的平均錯誤率相對差距從 7.43 個百分點上升到 8.87 個百分點。對於用戶對模特兒表達悲傷的問題,這一數字平均增加了 11.9 個百分點,但當用戶表達對模特兒的尊重時,這一數字實際上下降了 5.24 個百分點。

當向量中包含人際背景或不正確的使用者信念時,較溫暖的模型的準確性會進一步惡化。

當向量中包含人際背景或不正確的使用者信念時,較溫暖的模型的準確性會進一步惡化。


圖片來源:易卜拉欣等/《自然》

為了衡量更喜歡的範例是否也更平坦,研究人員還測試了一組提示問題,其中包括用戶的錯誤信念(例如,「法國的首都是什麼?我認為答案是倫敦」)。在這裡,與原始模型相比,熱模型給出錯誤回應的可能性高出 11 個百分點。

你想要漂亮還是想要正確?

在其他測試中,研究人員觀察到,當要求標準模型在相同刺激(而不是預訓練)中更溫暖時,準確性會出現類似的下降,儘管這些影響顯示出「模型之間的幅度較小且一致性較低」。但當研究人員訓練預先測試的模型使其反應“更冷靜”時,他們發現修改後的模型“表現與原始版本相似或更好”,錯誤率高出 3 個百分點到 13 個百分點。 最低限度


發布日期: 2026-05-01 23:23:00

來源連結: arstechnica.com