來自 Anthropic 和蘇黎世聯邦理工學院的科學家參與的新研究表明,現代人工智慧系統可以確定網路上所謂的匿名帳戶背後的真實身份。這項研究以預印本形式發表在 arXiv 上,表明大型語言模型 (LLM) 可能能夠分析線上活動並將假名資料與真實的人大規模關聯起來。
這項名為「法學碩士大規模在線去匿名化」的研究探討了人工智慧代理如何自動化去匿名化過程——將匿名或假名線上帳戶與真實身份聯繫起來的行為。傳統上,這個過程需要分析師進行大量的手動研究,搜尋出版物、寫作風格和分散的網路線索。然而,研究人員證明,現代人工智慧模型可以自動執行其中許多步驟。
在這項研究中,人工智慧系統分析了線上平台上的公共文本,並提取了與身分相關的訊號,例如個人興趣、人口統計、寫作風格和貼文中透露的隨機細節。然後,人工智慧在網路上搜尋匹配的個人資料,並評估線索是否與已知個體相符。
為了測試該方法,研究人員創建了多個具有已知真實身份的資料集
一項實驗試圖將 Hacker News 用戶與他們的 LinkedIn 個人資料進行匹配,即使在刪除了姓名和用戶名等明顯的標識符之後也是如此。另一組數據涉及將匿名 Reddit 帳戶連結到不同的社群。第三個資料集將單一使用者的貼文歷史記錄分成兩個單獨的個人資料,以查看人工智慧是否可以識別出它們屬於同一個人。
結果表明,基於法學碩士的系統明顯優於傳統的去匿名化技術。在某些情況下,模型的召回率高達 68%,準確率約為 90%,這意味著人工智慧正確識別了許多帳戶,同時保持了相對較低的錯誤率。傳統方法在相同的實驗中幾乎取得了零成功。
研究人員表示,這些發現凸顯了人工智慧如何複製曾經需要人類研究人員花費數小時才能完成的任務。人工智慧系統可以自動從文字中提取與身分相關的特徵,在數千個個人資料中搜尋可能的匹配項,並推斷哪個候選人最有可能是正確的。
這項發展很重要,因為長期以來,匿名一直被認為是許多網路使用者的關鍵保護措施
假名帳號被記者、檢舉人、活動人士和一般民眾廣泛使用,他們希望在不透露真實身分的情況下討論敏感話題。
該研究表明,隨著人工智慧系統在跨平台連結數位線索方面變得更好,這種保護水平(有時被稱為「實際模糊性」)可能會減弱。如果自動化工具能夠快速且廉價地執行此任務,那麼識別匿名用戶的障礙可能會大大減少。
研究人員估計,使用他們的實驗管道識別線上帳戶的成本可能會下降到每個個人資料 1 到 4 美元之間,這意味著可以相對便宜地進行大規模調查。
然而,作者也指出,這項研究是在受控環境下使用公共數據進行的。這項工作尚未經過同行評審,研究人員刻意隱瞞了一些技術細節,以降低誤用的風險。
即便如此,研究結果已經引發了隱私專家和技術專家的爭論
這項研究表明,人們可能需要重新考慮他們在網路上透露了多少個人資訊——即使是在看似匿名的空間中。展望未來,研究人員表示,需要進一步開展工作來了解基於人工智慧的匿名化的風險和潛在防禦措施。可能的解決方案可能包括改進的隱私工具、更強大的平台保護措施或旨在在公開共享敏感資料之前對其進行匿名化的人工智慧系統。
隨著人工智慧分析大量線上內容的能力變得越來越強,該研究凸顯了一個日益嚴峻的挑戰:平衡人工智慧驅動的發現的力量與數位時代保護個人隱私的需要。










