我們的實驗概述,包括乾淨和有毒樣品的示例,以及孵化時的良性和有害行為。 (a) DoS 訓練前的後門實驗。信用: arXiv (2025)。 DOI:10.48550/Arxiv.2510.07192。
為複雜的人工智能聊天機器人提供支持的大型語言模型 (LLM) 比之前想像的更容易受到攻擊。根據 Anthropic、英國人工智能安全研究所和艾倫圖靈研究所的研究,僅 250 個惡意文檔就足以危害甚至最大的模型。
用於法學碩士培訓的絕大多數數據都是從公共互聯網上檢索的。雖然這有助於他們積累知識並產生自然反應,但也使他們面臨數據中毒攻擊的風險。人們認為,隨著模型變得越來越大,風險就會最小化,因為扭曲數據的百分比應該保持不變。換句話說,需要大量數據才能破壞最大的模型。但在這項研究中, 發表 在 arXiv 在預印本中,研究人員表明,攻擊者只需要少量中毒文檔就可能造成損害。
為了評估破壞大型人工智能模型的難易程度,研究人員從頭開始構建了多個法學碩士,範圍從小型系統(6 億個參數)到非常大的系統(130 億個參數)。每個模型都使用大量乾淨的公共數據進行訓練,但團隊在每個模型中插入了固定數量的惡意文件(100 到 500 個之間)。
然後,該團隊嘗試通過更改損壞文件的組織方式或將其引入訓練的時間來防止這些攻擊。然後,他們在每個模型訓練的最後階段(微調階段)重複攻擊。
他們發現,規模對於攻擊的成功來說根本不重要。只需 250 個惡意文檔就足以在每個測試模型中安裝秘密後門(導致 AI 執行惡意操作的隱藏觸發器)。即使對於最大的模型也是如此,其訓練的原始數據是最小模型的 20 倍。添加大量乾淨數據並沒有削弱惡意軟件或阻止攻擊。
建立更強大的防禦
鑑於攻擊者很快就會破壞模型,研究作者敦促人工智能社區和開發人員盡快採取行動。他們強調,首要任務應該是提高模型的安全性,而不僅僅是讓模型變得更大。
研究人員在論文中評論道:“我們的研究結果表明,對於大型模型來說,通過數據污染引入後門可能比之前想像的更容易,因為所需的毒藥數量不會隨著模型大小而增加,這突出表明需要進行更多的安全研究來減輕未來模型中的這種風險。”
我們的作者為您寫的 保羅·阿諾德編輯者 加比·克拉克事實已核實和核實 羅伯特·伊根——這篇文章是人類辛勤工作的成果。我們依靠像您這樣的讀者來維護獨立的科學新聞。如果此報告對您很重要,請考慮 捐款 (尤其是每月)。您將收到 沒有廣告 帳戶作為謝意。
附加信息:
Alexandra Suli 等人,對 LLM 學生的毒物攻擊需要幾乎恆定數量的毒物樣本, arXiv (2025)。 DOI:10.48550/Arxiv.2510.07192。
© 2025 科學 X 網絡
引文:大小無關緊要:少量惡意文件即可破壞任何大小的法學碩士(2025 年 10 月 10 日),2025 年 10 月 10 日檢索自 https://techxplore.com/news/2025-10-size-doesnt-small-malicious-corrupt.html。
本文檔受版權保護。除善意用於私人學習或研究目的外,未經書面許可不得複制任何部分。所提供的內容僅供參考。