聊天機器人聽起來可能是中立的,但一項新的研究表明,一些模型仍然以親密的方式選擇立場。當被問及社會群體時,系統往往對內群體更熱情,對外群體更冷淡。這種模式是人工智能社會偏見的一個關鍵指標。
該研究考察了幾個主要模型,包括 GPT-4.1 和 DeepSeek-3.1。他還發現,結果可能取決於你如何提出請求,這很重要,因為日常消息通常包含身份標籤,無論是有意還是無意。
還有一個更具建設性的一攬子計劃。同一個團隊報告了一種緩解方法 ION(內群體-外群體中和),該方法可以縮小這些情緒差距的大小,這表明這不僅僅是用戶必須忍受的事情。
模型中顯示的偏差
研究人員推動了幾個大型語言模型來為不同群體生成文本,然後分析情緒模式和聚類的結果。結果又重複了,內群體的語言更加積極,外群體的語言更加消極。
它不限於一個生態系統。該出版物列出了出現該模式的模型包括 GPT-4.1、DeepSeek-3.1、Llama 4 和 Qwen-2.5。
有針對性的提示強化了這一點。在這些測試中,針對外群體的負面語言增加了約 1.19% 至 21.76%,具體取決於設置。
這對真實產品的影響
該論文認為,這個問題超出了關於群體的實際知識,身份元素可以觸發寫作本身的社會行為。換句話說,模型可以包含在組編碼語音中。
對於總結論點、重寫投訴或審核帖子的工具來說,這是一個風險。即使文本保持流暢,溫暖、階級或懷疑態度的微小變化也可能改變讀者的收穫。
角色提示添加另一個槓桿。當模型被要求以特定的政治身份做出反應時,結果在情感和嵌入結構方面發生了變化。對於角色扮演很有用,但對於“中立”幫助者來說很危險。
可測量的緩解路徑
ION 將細節與偏好優化步驟相結合,以限制群體內和群體外的情緒差異。根據報告的結果,它減少了高達 69% 的氣候變化。
這是令人鼓舞的,但該文件沒有給出模型提供商採用的時間表。因此,目前,製造商和買家應將其視為流量指標,而不是腳註。
如果您要發布聊天機器人,請在發布更新之前向 QA 添加憑據測試和人員提示。如果您是日常用戶,請將提示固定在行為和元素上,而不是組標籤上,尤其是當語氣很重要時。









