研究人員感到驚訝的是，對於人工智能來說，偽造毒性比偽造智力更難

10 11 月 2025

下次當您在社交媒體上遇到異常禮貌的回應時，您可能需要檢查兩次。它可能是一個試圖（但失敗了）融入人群的人工智能模型。

週三，蘇黎世大學、阿姆斯特丹大學、杜克大學和紐約大學的研究人員發現了這一點已發布一項研究顯示，在社交媒體對話中，人工智能模型仍然很容易與人類區分開來，過度友好的情緒基調是最一致的表現。該研究測試了 Twitter/X、Bluesky 和 Reddit 上的 9 個開放權重模型，發現研究人員開發的分類器檢測 AI 生成的響應的準確度為 70% 至 80%。

該研究提供了作者所說的“計算圖靈測試”，以評估人工智能模型與人類語言的相似程度。該框架不依賴於人類對文本是否真實的主觀判斷，而是使用機器分類器和語言分析來識別區分機器生成的內容和人類編寫的內容的特定特徵。

研究人員寫道：“即使經過校準，法學碩士的輸出仍然與人類文本有明顯的區別，尤其是在情緒語氣和情緒表達方面。”由蘇黎世大學的 Nicolo Pagan 領導的團隊測試了從簡單的推動到微調的不同優化策略，但發現更深層次的情感線索仍然是可靠的證據，證明給定的在線文本交互是由人工智能聊天機器人而不是人類編寫的。

毒性說

在研究中，研究人員測試了九種大型語言模型：Llama 3.1 8B、Llama 3.1 8B Instruct、Llama 3.1 70B、Mistral 7B v0.1、Mistral 7B Instruct v0.2、Qwen 2.5 7B Instruct、Gemma 3 4B Instruct、DeepSeek-R1-Distill-Llama-8B 和Abertus-8B-2509。

當被要求對實際用戶的真實社交媒體帖子做出反應時，人工智能模型很難達到人類社交媒體帖子中常見的隨意消極和自發情緒表達的水平，在所有三個平台上，毒性分數始終低於人類的真實反應。

為了解決這一缺陷，研究人員嘗試了改進策略（包括提供寫作示例和上下文檢索），以減少句子長度或字數等結構差異，但情緒基調上的差異仍然存在。研究人員總結道：“我們的全面校準測試挑戰了這樣的假設，即更複雜的優化必然會帶來更類似於人類的結果。”

來源連結

研究人員感到驚訝的是，對於人工智能來說，偽造毒性比偽造智力更難

毒性說

近期文章

《極限競速：地平線 6》中的 Sekibe 計時賽地點

《鬼武者：劍之道》發布日期推遲，以避免 GTA 6 之前的比賽

羅徹斯特紅翼隊比賽筆記 – 7 月 2 日對陣利哈伊谷

佐蘭·馬姆達尼在播客上迴避有關總統資格的問題

藍衣隊總經理表示馬爾琴科將與球隊一起開始新賽季

了解歐洲熱浪如何融化阿爾卑斯山冰川

數百萬人準備在 27 個州的酷熱中燒烤數天，在車內只要 10 分鐘就可能致命。

所有類別