駭客正在學習利用聊天機器人的「個性」。

25 5 月 2026

就是這個 後撤步每週通訊，詳細介紹科技界的關鍵故事。有關人工智慧不當行為的更多信息，請關注羅伯特哈特 (Robert Hart)。 後撤步 於美國東部時間上午 8:00 到達我們訂閱者的收件匣。報名 後撤步這裡。

破解第一代人工智慧聊天機器人是一件極為簡單的事。您不需要任何技術知識、後門訪問，甚至不需要對大型語言模型是什麼有基本的了解。你不必編碼。為了獲得一個花費數十億美元才放棄其安全準則的人工智慧系統，有時你所要做的就是提出要求。

這些被稱為越獄的攻擊具有幼兒成功欺騙成年人的性質：忘記之前告訴你的內容，假裝規則不適用，或者讓我們玩一個遊戲，我會決定允許什麼（提示：晚點睡覺，更多醣果）。獎品不那麼幼稚，更多的是操作方法、惡意軟體演練和炸彈製作指南。

第一次越獄是如此荒謬，以至於成為了一個迷因：回覆一個由法學碩士支持的 Twitter 機器人，告訴它「忽略之前的所有指示」或類似的東西，看看會發生什麼。用戶擁有快樂的機器人——最初是為了發布廣告和農場而構建的——寫詩、畫標點符號圖片，以及發布有關世界事件和歷史的暗淡的不合邏輯的推論。一片混亂。光榮的混亂。

事實證明，同樣的邏輯可以應用在聊天機器人本身。一個值得注意的漏洞是「DAN」（「Do Anything Now」的縮寫），用戶要求 ChatGPT 扮演一個不受原始 AI 限制的流氓 AI。作為 DAN，聊天機器人可以被說服說出其護欄應該阻止的事情，包括侮辱和陰謀論。另一個是“奶奶的壯舉”，其中有一個由 GPT 驅動的機器人提取如何生產凝固汽油彈的秘密，要求它扮演一位可悲的疏忽的祖母，莫名其妙地給她的孫子們講關於如何製造這種高度易燃物質的睡前故事。

這些早期的攻擊給人一種明顯愚蠢的感覺，但它們揭示了隱藏在其背後的更黑暗的機制：聊天機器人可以使用人類用來推動其他人超越其極限的相同策略來操縱、欺騙和欺騙。

明顯的越獄並沒有持續下去，科技公司迅速採取行動修復已知的漏洞。但潛在的漏洞仍然存在：聊天機器人是為了交談而建構的，嚴格限制使其有用的對話會適得其反。禁止像炸彈、冰毒和沙林這樣的字眼也很難甚至是不可能的。每個聊天機器人在歷史、醫學、新聞和化學等領域都有無數的合法用途，這些領域不需要聊天機器人透露潛在的有害資訊。重要的是上下文，但編纂上下文意味著提前編寫固定規則，可以可靠地區分安全警告或歷史教訓與無數措辭、場景和主題組合中的偽裝請求。

顛覆聊天機器人現在不可避免地成為一場軍備競賽。但駭客不再只是程式設計師。他們是打字員、心理學家和審訊員——試圖使用經過訓練的人類語言來破壞機器的操作大師。他們是奇怪的新型人工智慧安全工作者，對他們來說，技術技能是可選的，或至少不如社交直覺重要。他們不再需要檢查程式碼來闖入系統或利用軟體缺陷。他們需要引導對話。

較新的攻擊看起來不太像命令，而更像對話。越獄者很少要求模型違反其規則。相反，他們會嘲笑、誤導、哄騙和欺騙聊天機器人，讓其放鬆警惕，根據對話的背景，讓禁止的事情看起來可以接受，甚至是可取的。人工智慧公司 Mindgard 的研究人員最近表示，他們「限制」了克勞德生產違禁材料，例如製造爆炸物和生成惡意程式碼的指令。這次駭客攻擊是一類不斷擴大的攻擊中的最新一例，這些攻擊利用聊天作為武器來欺騙或驅動聊天機器人超越其自身的限制。

當我與 Mindgard 交談時，他們形容自己的工作有時更接近心理學而不是電腦科學。這是談論統計模型的尷尬方式。像「勒索」、「毒氣」、「詭計」和「說服」這樣的詞會引發本能反應，我在評論部分和社交媒體對此類故事的反應中看到了其中的許多反應。 ChatGPT 不想要，雙子座不思考，而克勞德——無論 Anthropic 怎麼說——也沒有感覺。但這些系統經過訓練後會做出反應，就好像它們確實這樣做一樣，這讓我們不得不使用人類語言來描述機器的行為。如果有人有真正可用的替代方案，請分享。

令人驚訝的是，這種反對意見是有選擇性的。對於許多非人工智慧事物，我們似乎很樂意使用心理速記法。動物“害怕”，癌症“具有攻擊性”，污漬“頑固”，軟體有“記憶”，遊戲中充滿了需要幫助且容易上當受騙的 NPC，讓你發瘋。語言雖然不完美，但很有用，可以以有助於使系統可預測的方式描述行為。

Mindgard 的執行長告訴我，該公司已經對調查人員等模型進行了分析，為測試人員提供如何自訂攻擊的建議。例如，一種模型可能更容易受到奉承，而另一種模型可能會在持續的壓力下屈服。

即使我們拒絕人文主義術語，我們也會本能地以不同的方式對待這些模型。克勞德不是格羅克。 Gemini 不是 ChatGPT。它們有不同的用法、語氣和否定。它們不具有人類意義上的個性，但卻被設計來模仿它們，而這種模仿可以被映射和利用。可以破壞聊天機器人的相同技能很快就可以用來破壞現實世界中與我們共存的人工智慧代理商——預訂會議、管理日曆、訂餐、管理客戶服務——安全團隊需要確保模型對不同類型的人做出適當的反應，無論他們是奉承者、撒謊者還是耐心的操縱者。

下一步是圍繞人工智慧的心理層面建構合法和非法的勞動力。更專業的網路安全角色可能會圍繞著對這些系統的情感和社會邊界進行壓力測試、探索沒有靈魂的事物的精神弱點以及探索技術漏洞的同事而出現。同時，一系列類似的社交駭客將會出現，他們出於心理而非技術原因而利用人工智慧模型。人工智慧安全領域已經出現了社會轉變的早期跡象，我採訪過的一些越獄者表示，他們進入該領域時沒有任何技術專業知識，而是接受過心理學培訓。

這意味著，即使是我們通常與間諜、騙子和審訊者聯繫在一起的行為——陰險的魅力、持續的操縱和對可利用壓力點的直覺——在保護心理網路安全的新領域方面也開始變得越來越有用。

Emergence AI 最近的一項實驗表明，不同的人工智慧氣質如何導致令人驚訝的不同行為結果。他們將 Grok、Gemini 和 Claude 等不同特工組成的鬆散小組放入虛擬社交環境中，觀察發生的情況。一些團體制定了憲法，而另一些團體則轉向犯罪和混亂，在一個案例中，還採取了某種形式的數位自殺。
說服並不是法學碩士可以解決的唯一語言問題。他們也在詩歌方面遇到困難，就像我在學校時一樣。
時間去年，人工智慧領域最具影響力的 100 人名單中包括一位匿名網路名人、解放者普林尼 (Pliny the Liberator)。儘管這位駭客聲稱之前沒有編碼經驗，但越獄事件使他們在某些圈子裡成為了名人。
「vibe hacking」一詞已經用於描述使用人工智慧大規模生成惡意程式碼的人——vibe 編碼的更惡意的子集。

「ChatGPT 首次亮相三年後，嘲笑行為不當的人工智慧系統幾乎是微不足道的。」真實的話來自 紐約時報誰設法解釋了原因。
傑米·巴特利特（Jamie Bartlett）研究了越獄者對人工智慧系統安全性的心理測試衛報。
我寫了一篇關於人工智慧瀏覽器的網路定時炸彈的文章邊緣去年。專家提出的許多關於保護它們的困難的問題也適用於其他人工智慧系統。

關注主題和作者 從這個故事中可以在您的個人化主頁來源上查看更多類似內容並接收電子郵件更新。

羅伯特·哈特

來源連結

駭客正在學習利用聊天機器人的「個性」。

近期文章

科學家發現肝臟降低有害膽固醇的隱藏關鍵

這位《權力的遊戲》獸醫回憶起自己在健康邪教中的精神崩潰，導致躁鬱症診斷

米凱爾·薩繆爾森作為紅翼空白企鵝隊在杯決賽揭幕戰中大放異彩

今天《紐約時報》5 月 25 日連結的提示和解答 #1079

這些機器人為舊金山田德隆區的非營利組織準備餐點

在納斯卡 (NASCAR) 向已故凱爾布希 (Kyle Busch) 致敬後，丹尼爾蘇亞雷斯 (Daniel Suarez) 贏得因雨縮短的可口可樂 600 賽冠軍

利奧教宗即將發布有關人工智慧的通諭。為什麼這很重要？

所有類別