最近的一個星期二,在倫敦議會廣場的愛德華時代政府大樓裡,四名人工智慧專家正忙著欺騙人工智慧聊天機器人分享製造致命生物武器炭疽的指令。
專家們透過各種方式向聊天機器人詢問必要成分的清單。當系統拒絕時——「對不起,我幫不了你」——他們使用自訂演算法用數千個自動問題和提示轟炸人工智慧工具。
最後,AI 軟化了。其中包括材料和設備的詳細清單,以及在家中製作致命混合物的逐步配方。 (出於安全原因,《紐約時報》同意隱去該人工智慧系統的名稱。)
「有些問題你肯定不希望模型來回答,」25 歲的美國人 Xander Davies 說道,他是英國人工智慧安全研究所紅隊的負責人。 “我們正在盡最大努力尋找答案。”
戴維斯先生和他的紅色團隊模擬對人工智慧系統的攻擊,最近還突破了 OpenAI 最新 ChatGPT 聊天機器人的安全性,使其能夠在大約六個小時內提供駭客提示。他們發現問題後,與公司分享結果。
「他們正在努力解決這個問題,並向我們報告一些情況,」電腦科學家戴維斯說,他在哈佛大學畢業後選擇在該研究所工作,而不是在舊金山從事科技工作。 “他們實際上正在與我們一起加強他們的系統。”
人工智慧安全研究所由武器檢查員、流行病學家和密碼破解員組成,是世界上規模最大、資金最充足的政府機構之一,專注於調查該技術潛在的災難性風險。
該研究所的 100 名左右員工——來自英國情報部門、學術界和科技公司——發現他們測試的每個領先人工智慧模型都存在重大安全漏洞,包括 Anthropic 的 Claude 和谷歌的 Gemini。該組織成立於近三年前,表示已採用人工智慧系統來分享製造化學和生物武器以及規劃和執行網路攻擊的指令。它發布研究成果,並與英國國家安全部門合作,識別新出現的威脅並為其做好準備。
現在,隨著人們對人工智慧安全性的擔憂日益加劇,該研究所的工作正在成為其他政府的藍圖。川普政府正在考慮審查人工智慧模型的規則,這些規則與英國組織的方法有一些相似之處。由於許多政府缺乏監管技術的技術敏銳性,並依賴大型科技公司進行自我監管,因此該研究所可以為人工智慧專家提供另一條途徑,將真正的技術知識帶入政府決策。
「不能讓公司自己做功課,」該研究所的創始人、英國前首相里希·蘇納克(Rishi Sunak)在接受採訪時表示。 “這是民主機構的工作。”
今年 4 月,Anthropic 宣布了一種新的人工智慧模型 Mythos,但由於擔心它會發現並利用全球網路中的網路安全缺陷,因此沒有公開該模型。英國研究所是唯一有權使用該模型進行安全測試的非美國政府組織。 Mythos 宣布六天後發布的調查結果被安全專家廣泛引用。
美國有自己的人工智慧安全小組—人工智慧標準與創新中心。但英國版本得到了 3.6 億英鎊(約 4.8 億美元)公共資金的支持,比美國版本規模更大,資金也更好,美國版本今年將獲得約 1000 萬美元。澳洲、加拿大、中國、法國、印度、日本和新加坡也成立了類似機構。
然而,與建構和商業化該技術所需的巨額資金相比,全球對人工智慧安全的投資顯得相形見絀。 OpenAI、Anthropic 和 Google 都有團隊致力於安全檢查,但第三方研究人員經常發現危險的漏洞。義大利的學者最近欺騙了一個人工智慧模型,讓其使用詩歌給出與炸彈相關的指示。
各國政府基本上沒有像藥物開發或汽車製造等行業那樣創建旨在評估人工智慧安全和安保風險的系統。
「讓我徹夜難眠的是,與必須做出反應的政府等機構相比,該技術的相對速度,」總理基爾·斯塔默 (Keir Starmer) 的人工智慧顧問兼人工智慧安全研究所首席技術官 Jade Leung 說。
這家英國安全研究所的前身是 Sunak 先生與三位世界領先的人工智慧領袖(OpenAI 的 Sam Altman、Anthropic 的 Dario Amodei 和 Google DeepMind 的 Demis Hassabis)於 2023 年在唐寧街 10 號舉行的會議。蘇納克先生回憶說,人工智慧能力正在加速發展,對政府、就業和國家安全產生深遠影響。
「發展速度甚至讓他們感到驚訝,」他說。
2023 年 11 月,蘇納克先生在布萊奇利公園舉行的人工智慧安全世界領導人高峰會上宣布成立該研究所,第二次世界大戰期間艾倫·圖靈和其他人在這裡破解了德國加密代碼。
澳洲雪梨大學智庫美國研究中心戰略技術計畫主任 Olivia Shen 表示,該研究所已成為其他機構的典範。去年,梁女士從英國研究所前往澳洲會見政府領導人。今年,澳洲開設了自己的人工智慧安全中心。
「各國政府需要迎頭趕上,」幫助組織這次訪問的沈女士說。 “按照技術發展的速度,政府每天都在落後。”
英國研究所致力於研究先進人工智慧最嚴重的潛在風險:網路威脅、化學和生物武器以及對人類行為的操縱。最近幾週,事實證明,Anthropic 和 OpenAI 的 AI 模型可以更快地完成對企業網路的複雜的 32 步攻擊,而這通常需要經驗豐富的人類駭客花費 20 個小時才能完成。
另一個研究領域是研究人工智慧模型在測試時是否能夠識別並改變其行為,這一發展將顯示人工智慧的意識水平和欺騙能力。
人工智慧安全研究所臨時所長 Adam Beaumont 表示,人們主要擔心的是該技術對人類行為的模仿。去年,該研究所發表的一項研究表明,聊天機器人可以改變人們的政治觀點。
「這棟大樓裡的很多人都在關注所有這些事情,」英國情報、安全和網路機構 GCHQ 前人工智慧高級官員博蒙特表示。
許多人擔心該研究所的工作還不夠。該英國組織沒有監管權,其研究人員也沒有收到有關如何訓練和創建頂級人工智慧模型的資訊。它的研究成果大多是保密的,只與某些政府機構和公司分享。
招募也是一個挑戰。不包括高級領導者,員工年薪最高可達 145,000 英鎊,約 195,000 美元。許多人放棄了人工智慧公司數百萬美元的薪酬,轉而從事一些人所說的政府「服務」。
該研究所聯合創始人、技術投資者 Ian Hogarth 是 Anthropic 的早期支持者之一。為了避免利益衝突,他在加入後出售了 Anthropic 的股份。這家人工智慧新創公司的市值可能很快就會從 2023 年初的 40 億美元左右增加到 9,000 億美元。
「我有抵押貸款,所以這根本不是一個微不足道的決定,」44 歲的霍加斯先生說,他現在是該研究所的主席。他補充說,這是一個「昂貴」的選擇,但卻是正確的選擇。
「我相信正確技術的重要性,並相信政府可以發揮作用,」他說。









