SP-TTACK管道。選擇點高的單詞用於用一個單詞進行廉價的對抗攻擊。信用: 專家系統 (2025)。二:10.1111/exsy.70079
這是對電影“ Rive或Skoroda”的評論嗎?這個有關業務還是技術的新聞?這是與金融委員會提供的在線交叉路口被拒絕的嗎?此在線醫療信息是否會提供錯誤信息?
這些類型的自動對話,無論它們是否參與餐廳中的電影或評論或接收有關您的銀行帳戶或病歷的信息都變得越來越普遍。與-liba相比,這些估計是由稱為文本的分類器而不是人的非常複雜的算法進行的。但是,我們怎麼說這些分類的準確性呢?
現在,用於信息和決策系統的實驗室麻省理工學院團隊(Cover)開發了一種創新的方法,不僅衡量了這些分類器的工作能力,而且還邁出了一步,並展示瞭如何使它們更準確。
用於評估和恢復的新軟件是由蓋子的首席科學家研究Kalyan Viramachaneni開發的,他的學生Leo Xui和Sarah Alnegamish和其他兩個。該軟件包可以自由訪問,以下載所有想使用它的人。
團隊的結果是 出版 7月7日在雜誌上 專家系統 在Xu的論文中,Veerachanami和Alnegheimish Lids與Laure Berti-Equille和Marseille的Laure Berti-Equille和Ird在西班牙卡洛斯大學的Marseille和Alfredo Coeste-Infant。
測試這些分類系統的標準方法是創建所謂的合成示例 – 與已經被分類的問題非常相似。例如,研究人員可以接受已經用分類器程序標記為熱情評論的提案,並查看它是否可以更改單詞或幾個單詞,同時保持相同的含義以欺騙分類器以用鍋進行計算。或確定為錯誤信息的提案可能會錯誤地歸類為準確的。這種欺騙分類器的能力使這些競爭激烈的例子。
Viramachaneni說,人們嘗試了各種方法來發現這些分類器中的脆弱性。他說,但是對於這項任務而言,發現這些漏洞的現有方法很困難,並且錯過了他們應該捕獲的許多例子。
公司越來越多地嘗試實時使用此類評估工具,控制用於各種目的的聊天機器人的結果,以確保它們不發布不適當的答案。例如,銀行可以使用回合聊天來回答客戶的常規請求,例如檢查帳戶餘額或應用信用卡申請申請,但他想確保無法將她的答案解釋為可以責任的財務諮詢。
Veramachaneni說:“在向最終用戶顯示聊天機器人的答案之前,他們想使用文本分類器來確定是否得到財務建議。”但是,必須檢查此分類器以查看其估計值的可靠性很重要。
他說:“這些聊天機器人或概括引擎或許多東西都是在各個方向上創建的,”例如,與外部客戶和組織內部打交道,例如提供有關人力資源問題的信息。重要的是要將這些文本分類器放在周期中,以便找到他們不應該說的話,並在結論傳遞給用戶之前過濾它們。
在這裡,給出了對抗性示例的使用 – 那些已經被分類的句子,但是當它們在保持相同含義的同時稍微更改時給出不同的答案。人們如何確認含義是相同的?使用另一個大型語言模型(LLM),該模型解釋和比較值。
因此,如果LLM說這兩個句子的意思是同一件事,但是分類器以相同的方式標記它們是一個具有競爭力的句子 – 它可以欺騙分類器。 ” Veramachaneni說。當研究人員研究這些對抗性句子時,“我們發現大多數情況下只是一種一種說明,但人們通常會使用這些句子來實現這些句子,這是一個替代性的句子。
進一步的研究是,使用LLM用於分析數千個示例,表明某些特定詞對分類的變化產生了巨大影響,因此,測試分類器的準確性可以集中在似乎具有最大含義的輕微屈從詞上。他們發現,在系統詞彙中,所有30,000個單詞中的十分之一可以解釋分類中所有這些變化的幾乎一半,在某些特定的應用中。
Lei XUI哲學博士23是最近畢業的封面畢業生,作為他的論文的一部分進行了大部分分析,“使用許多有趣的評估方法來找出最有力的單詞可以改變分類器可以欺騙的一般分類,” Viramachaneni說。
目的是使進行大量較窄的搜索,而不是梳理所有可能的單詞替代品,這使得生成對抗性示例的計算任務更加控制。 “有趣的是,他使用大型語言模型,以理解一個詞的力量。”
然後,還使用LLMS,正在尋找與這些強大單詞密切相關的其他單詞,依此類推,使您可以根據其對結果的影響獲得一般的單詞評分。在找到這些對抗性句子後,它們又可以用來重新考慮分類器以考慮到,從而提高了分類器對這些錯誤的可靠性。
如果這只是按類別對新聞文章進行分類的問題,或者決定是否對某些事物進行評論,從電影到餐館是正面的還是負面的,那麼製作分類器聽起來就不會更準確。但是,越來越多地使用分類器在結果真正重要的條件下使用,無論是預防機密的醫療,財務信息或安全信息的無意釋放,還是有助於指導重要的研究,例如化合物的特性,還是在生物醫學應用中折疊蛋白質,還是在識別和阻止鑑定和阻止您的仇恨和仇恨或眾所周知的改進形成和阻止 – 已知的改進形成。
這項研究的結果是,該團隊引入了一個新的指標,他們稱為P,這可以衡量該分類器對一個單詞的攻擊的可靠性。從這種錯誤的分類的重要性來看,研究小組提供了可用的產品作為開放訪問。該軟件包由兩個組件組成:SP-TTACK,該組件在任何特定應用程序中生成用於測試分類器的對抗性句子,以及SP確定,旨在通過生成和使用對抗性句子來提高分類器的可靠性,以重新思考模型。
在某些測試中,當測試分類器輸出的競爭方法使使用對抗性攻擊成功使66%的攻擊成功降低了66%時,該命令的系統將對攻擊的攻擊幾乎減少到一半,至33.7%。 Viramachaneni說,在其他應用中,改進僅是差異的2%,但即使這也很重要,因為這些系統用於數十億相互作用,以至於即使是一小部分也會影響數百萬交易。
更多信息:
Lei Xu和其他人,更改一個單詞就是您所需要的:使用LLMS創建用於文本分類器的學習綜合示例, 專家系統 (2025)。 二:10.1111/exsy.70079
這個故事重印為麻省理工學院新聞(web.mit.edu/newsoffice/),一個受歡迎的網站,涵蓋有關研究,創新和麻省理工學院教學的新聞。
引用:一種新的方法來檢查AI系統對文本的分類程度(2025年,8月14日)。 2025年8月14日,https://techxplore.com/news/2025-08-ai-text.html收到
該文檔具有版權。除了出於私人研究或研究目的的一些公平交易外,如果沒有書面解決方案,就無法再現。內容僅用於信息目的。