下次當您在社交媒體上遇到異常禮貌的回應時,您可能需要檢查兩次。它可能是一個試圖(但失敗了)融入人群的人工智能模型。

週三,蘇黎世大學、阿姆斯特丹大學、杜克大學和紐約大學的研究人員發現了這一點 已發布 一項研究顯示,在社交媒體對話中,人工智能模型仍然很容易與人類區分開來,過度友好的情緒基調是最一致的表現。該研究測試了 Twitter/X、Bluesky 和 ​​​​Reddit 上的 9 個開放權重模型,發現研究人員開發的分類器檢測 AI 生成的響應的準確度為 70% 至 80%。

該研究提供了作者所說的“計算圖靈測試”,以評估人工智能模型與人類語言的相似程度。該框架不依賴於人類對文本是否真實的主觀判斷,而是使用機器分類器和語言分析來識別區分機器生成的內容和人類編寫的內容的特定特徵。

研究人員寫道:“即使經過校準,法學碩士的輸出仍然與人類文本有明顯的區別,尤其是在情緒語氣和情緒表達方面。”由蘇黎世大學的 Nicolo Pagan 領導的團隊測試了從簡單的推動到微調的不同優化策略,但發現更深層次的情感線索仍然是可靠的證據,證明給定的在線文本交互是由人工智能聊天機器人而不是人類編寫的。

毒性說

在研究中,研究人員測試了九種大型語言模型:Llama 3.1 8B、Llama 3.1 8B Instruct、Llama 3.1 70B、Mistral 7B v0.1、Mistral 7B Instruct v0.2、Qwen 2.5 7B Instruct、Gemma 3 4B Instruct、DeepSeek-R1-Distill-Llama-8B 和Abertus-8B-2509。

當被要求對實際用戶的真實社交媒體帖子做出反應時,人工智能模型很難達到人類社交媒體帖子中常見的隨意消極和自發情緒表達的水平,在所有三個平台上,毒性分數始終低於人類的真實反應。

為了解決這一缺陷,研究人員嘗試了改進策略(包括提供寫作示例和上下文檢索),以減少句子長度或字數等結構差異,但情緒基調上的差異仍然存在。研究人員總結道:“我們的全面校準測試挑戰了這樣的假設,即更複雜的優化必然會帶來更類似於人類的結果。”

來源連結