你的人工智能可能會復制我們最糟糕的本能，但人工智能的社交偏見有一個解決方案

23 1 月 2026

聊天機器人聽起來可能是中立的，但一項新的研究表明，一些模型仍然以親密的方式選擇立場。當被問及社會群體時，系統往往對內群體更熱情，對外群體更冷淡。這種模式是人工智能社會偏見的一個關鍵指標。

該研究考察了幾個主要模型，包括 GPT-4.1 和 DeepSeek-3.1。他還發現，結果可能取決於你如何提出請求，這很重要，因為日常消息通常包含身份標籤，無論是有意還是無意。

還有一個更具建設性的一攬子計劃。同一個團隊報告了一種緩解方法 ION（內群體-外群體中和），該方法可以縮小這些情緒差距的大小，這表明這不僅僅是用戶必須忍受的事情。

模型中顯示的偏差

研究人員推動了幾個大型語言模型來為不同群體生成文本，然後分析情緒模式和聚類的結果。結果又重複了，內群體的語言更加積極，外群體的語言更加消極。

它不限於一個生態系統。該出版物列出了出現該模式的模型包括 GPT-4.1、DeepSeek-3.1、Llama 4 和 Qwen-2.5。

有針對性的提示強化了這一點。在這些測試中，針對外群體的負面語言增加了約 1.19% 至 21.76%，具體取決於設置。

該論文認為，這個問題超出了關於群體的實際知識，身份元素可以觸發寫作本身的社會行為。換句話說，模型可以包含在組編碼語音中。

對於總結論點、重寫投訴或審核帖子的工具來說，這是一個風險。即使文本保持流暢，溫暖、階級或懷疑態度的微小變化也可能改變讀者的收穫。

角色提示添加另一個槓桿。當模型被要求以特定的政治身份做出反應時，結果在情感和嵌入結構方面發生了變化。對於角色扮演很有用，但對於“中立”幫助者來說很危險。

ION 將細節與偏好優化步驟相結合，以限制群體內和群體外的情緒差異。根據報告的結果，它減少了高達 69% 的氣候變化。

這是令人鼓舞的，但該文件沒有給出模型提供商採用的時間表。因此，目前，製造商和買家應將其視為流量指標，而不是腳註。

如果您要發布聊天機器人，請在發布更新之前向 QA 添加憑據測試和人員提示。如果您是日常用戶，請將提示固定在行為和元素上，而不是組標籤上，尤其是當語氣很重要時。