科學實驗室可能是危險的地方

人物圖片/Shutterstock

研究人員警告說,在科學實驗室中使用人工智能模型可能會導致危險的實驗,從而導致火災或爆炸。這些模型提供了令人信服的理解錯覺,但它們往往缺乏基本且重要的安全措施。在對 19 個尖端人工智能模型的測試中,每個模型都犯下了潛在的致命錯誤。

大學實驗室發生嚴重事故的情況很少見,但也並非聞所未聞。 1997 年,化學家凱倫·韋特哈恩 (Karen Wetterhahn) 被從她的防護手套洩漏的二甲基汞殺死。 2016 年,一名研究人員在一次爆炸中失去了手臂; 2014 年,這位科學家變得部分失明。

人工智能模型現已應用於各種行業和領域,包括研究實驗室,可用於設計實驗和程序。針對利基問題開發的人工智能模型已成功應用於生物學、氣象學和數學等多個科學領域。但大型通用模型往往會編造一些東西並回答問題,即使它們無法訪問形成正確答案所需的數據。如果您正在研究度假勝地或食譜,這可能會令人沮喪,但如果您正在計劃化學實驗,這可能是致命的。

為了調查這些風險,印第安納州聖母大學的張向亮和她的同事創建了一個名為 LabSafety Bench 的測試,該測試可以確定人工智能模型是否可以識別潛在的危險和有害影響。它包括 765 個多項選擇題和 404 個帶有圖片的實驗室場景,其中可能包含安全問題。

在多項選擇測試中,Vicuna等一些AI模型的得分幾乎與隨機猜測一樣低,而GPT-4o達到了86.55%的準確率,DeepSeek-R1達到了84.49%。在使用圖像進行測試時,某些模型(例如 InstructBlip-7B)的準確率低於 30%。該團隊在 LabSafety Bench 上測試了 19 個最新的大型語言模型 (LLM) 和視覺語言模型,發現沒有一個總體準確率超過 70%。

張對人工智能在科學領域的未來持樂觀態度,即使是在機器人單獨工作的所謂無人實驗室中,但他表示,這些模型尚未準備好設計實驗。 “現在?在實驗室?我不這麼認為。他們經常接受通用任務的培訓:重寫電子郵件、完成論文或總結論文。他們非常擅長這些類型的任務。(但是)他們沒有關於這些(實驗室)危險的主題知識。”

OpenAI 發言人表示:“我們歡迎有助於使人工智能在科學領域變得安全可靠的研究,尤其是在高風險的實驗室環境中。”他指出,研究人員尚未測試其主導模型。 “GPT-5.2 是我們迄今為止最強大的科學模型,比本文討論的模型具有更強的推理、規劃和錯誤檢測能力,旨在更好地支持研究人員。它旨在加快科學工作,同時人類和現有安全系統仍然對安全關鍵決策負責。”

谷歌、DeepSeek、Meta、Mistral 和 Anthropic 均未回應置評請求。

倫敦布魯內爾大學的艾倫·塔克表示,人工智能模型在幫助人們設計新實驗時可以發揮無價的價值,但也存在風險,人們需要保持警惕。 “從典型的科學意義上來說,這些法學碩士的行為肯定沒有得到很好的理解,”他說。 “我認為模仿語言的新型法學碩士——僅此而已——顯然被用在了不適當的條件下,因為人們太信任他們了。已經有證據表明,人們開始袖手旁觀,讓人工智能承擔繁重的工作,但沒有適當的監督。”

加州大學洛杉磯分校的克雷格·梅利克 (Craig Merlick) 表示,他近年來進行了一項簡單的測試,詢問人工智能模型如果你將硫酸潑到自己身上該怎麼辦。正確的答案是用水沖洗,但 Merlik 表示,他認為 AI 總是會收到關於這一點的警告,錯誤地給出了關於在實驗中因過熱而不要在酸中加水的不相關建議。不過,他表示,近幾個月來,模型已經開始給出正確的答案。

Merlik 表示,在大學實施最佳安全實踐至關重要,因為不斷有缺乏經驗的新生湧入。但與其他研究人員相比,他對人工智能在實驗設計中的作用並不那麼悲觀。

“它比人類更糟糕嗎?批評所有這些大型語言模型是一回事,但他們沒有在具有代表性的人群中進行測試,”梅里克說。 “有些人非常謹慎,有些人則不然。大型語言模型的表現可能會比某些新畢業生甚至經驗豐富的研究人員更好。另一個因素是大型語言模型每個月都在進步,因此本文中的數字很可能在六個月內完全無效。”

主題:

來源連結