Home 資訊 你的人工智能可能會復制我們最糟糕的本能,但人工智能的社交偏見有一個解決方案

你的人工智能可能會復制我們最糟糕的本能,但人工智能的社交偏見有一個解決方案

4

聊天機器人聽起來可能是中立的,但一項新的研究表明,一些模型仍然以親密的方式選擇立場。當被問及社會群體時,系統往往對內群體更熱情,對外群體更冷淡。這種模式是人工智能社會偏見的一個關鍵指標。

該研究考察了幾個主要模型,包括 GPT-4.1 和 DeepSeek-3.1。他還發現,結果可能取決於你如何提出請求,這很重要,因為日常消息通常包含身份標籤,無論是有意還是無意。

還有一個更具建設性的一攬子計劃。同一個團隊報告了一種緩解方法 ION(內群體-外群體中和),該方法可以縮小這些情緒差距的大小,這表明這不僅僅是用戶必須忍受的事情。

模型中顯示的偏差

研究人員推動了幾個大型語言模型來為不同群體生成文本,然後分析情緒模式和聚類的結果。結果又重複了,內群體的語言更加積極,外群體的語言更加消極。

它不限於一個生態系統。該出版物列出了出現該模式的模型包括 GPT-4.1、DeepSeek-3.1、Llama 4 和 Qwen-2.5。

有針對性的提示強化了這一點。在這些測試中,針對外群體的負面語言增加了約 1.19% 至 21.76%,具體取決於設置。

這對真實產品的影響

該論文認為,這個問題超出了關於群體的實際知識,身份元素可以觸發寫作本身的社會行為。換句話說,模型可以包含在組編碼語音中。

對於總結論點、重寫投訴或審核帖子的工具來說,這是一個風險。即使文本保持流​​​​暢,溫暖、階級或懷疑態度的微小變化也可能改變讀者的收穫。

角色提示添加另一個槓桿。當模型被要求以特定的政治身份做出反應時,結果在情感和嵌入結構方面發生了變化。對於角色扮演很有用,但對於“中立”幫助者來說很危險。

可測量的緩解路徑

ION 將細節與偏好優化步驟相結合,以限制群體內和群體外的情緒差異。根據報告的結果,它減少了高達 69% 的氣候變化。

這是令人鼓舞的,但該文件沒有給出模型提供商採用的時間表。因此,目前,製造商和買家應將其視為流量指標,而不是腳註。

如果您要發布聊天機器人,請在發布更新之前向 QA 添加憑據測試和人員提示。如果您是日常用戶,請將提示固定在行為和元素上,而不是組標籤上,尤其是當語氣很重要時。

來源連結

LEAVE A REPLY

Please enter your comment!
Please enter your name here