遠觀人工智能模型使用英格蘭醫院和家庭醫生的筆記中獲取的數據
漢娜·麥凱(Hannah McKay)/彭博通過蓋蒂圖像
它的創作者說,通過在英格蘭使用國家衛生服務的5700萬人進行醫學數據的培訓,該模型曾經可以幫助醫生預測疾病或預測住院的指標。儘管如此,其他研究人員說,關於如此大規模使用健康數據的機密性和數據保護仍然存在重大問題,而AI的建築師也不能保證他們不會意外地識別患者的機密數據。
Foresight稱為“最初版本”的模型。該初始版本使用了GPT-3 Openai,這是一種大型語言模型(LLM),站在Chatgpt的第一版後面,並研究了來自兩家倫敦醫院的患者的150萬個真實記錄。
現在, 克里斯·湯姆林森(Chris Tomlinson) 在倫敦大學學院和他的同事們中,創造了世界上第一個“國家人工智能健康的模式”,也是最大的。
遠見卓識使用八組來自醫療信息的數據集,從2018年11月至2023年12月在英格蘭定期組裝的NHS,並基於具有開源LLM Llama 2的Meta。這些數據集包括門診,訪問醫院,包括5700萬人的現場醫療服務中100億個事件的醫院。
湯姆林森(Tomlinson)說,他的團隊沒有發布有關遠見如何工作的信息,因為該模型仍在測試中,但他聲稱有一天可以用來將所有內容從個人診斷到預測廣泛的未來健康趨勢,例如住院或心髒病發作。他在5月6日的新聞發布會上說:“遠見的真正潛力是在疾病發生之前預測疾病的並發症,這為我們提供了早期干預的寶貴窗口,並在規模上向更具預防性的醫療保健提供了轉變。”
儘管尚未支持潛在的優勢,但人們已經擔心在如此大規模的人工智能領域中,人們的醫療數據被提交。研究人員堅持認為,所有記錄在使用AI之前都被“取消”,但是有人可以使用數據中的模板重新識別記錄的風險,尤其是在大型數據集時。
他說:“創建強大的生成AI模型來保護患者的機密性是一個尚未解決的科學問題。” 盧克·羅徹(Luke Rocher) 在牛津大學。 “使其對AI很有價值的大量數據也使匿名化非常困難。這些模型應保持嚴格的NHS控制,可以安全地使用它們。”
“定義了模型中包含的數據,因此刪除了直接標識符。” 邁克爾·查普曼 在NHS Digital中,在新聞發布會上發表講話。但是,監督用於教授遠見的數據的Chepman承認,始終存在重新識別的風險:“那麼,對於豐富的健康數據,很難讓100%的人相信在此數據集中無法注意到某人。”
為了減輕這種風險,Capen說,AI是用戶“安全” NHS數據環境的一部分,以確保信息不遵循該模型,並且僅適用於批准的研究人員。根據Tomlinson的說法,Databricks Amazon Web服務和數據數據助劑還提供了“計算基礎結構”,但無法訪問數據。
IV-Aleksandra de Mongojo 倫敦帝國學院說,檢查模型是否可以披露機密信息以檢查他們是否可以記住培訓期間觀察到的數據的方法之一。當他被問到 新科學家 湯姆林森(Tomlinson)說,遠見小組進行了這些測試,事實並非如此,但她將來對此進行了看法。
使用此類廣泛的數據集,而沒有與人進行通信,因為使用數據也可以削弱公眾信任。 卡羅琳·格林(Caroline Green) 在牛津大學。 “即使這是匿名的,從道德的角度來看,這也是人們非常感受的,因為人們通常想保持對數據的控制,並且他們想知道自己要去的地方。”
但是現有的管理要素使人們有一點機會放棄遠見卓識使用的數據。所有用於教授模型的數據均來自國家收集的NHS數據,並且因為它被“識別”,所以 現有的拒絕機制不應用NHS英格蘭的代表說,儘管決定不分享家庭醫生數據的人不會進入該模型。
根據數據保護的一般規定(GDPR),人們應該能夠放棄同意使用其個人數據,但是從學習LLM的方式(例如遠見),不可能從AI工具中刪除單個記錄。 NHS英格蘭的代表說:“由於用於教授模型的數據是匿名的,因此他不使用個人數據,因此,將不會應用GDPR。”
究竟GDPR應考慮到無法從LLM刪除數據 – 此 未驗證的法律問題但是,英國信息問題專員的網站說,“刪除”數據不應用作匿名數據的同義詞。 “這是由於以下事實:英國數據保護法不能決定該術語,因此使用它會導致混亂。” 這聲稱場地
湯姆林森認為,法律立場更加複雜,因為目前,遠見只用於與19歲有關的研究。薩姆·史密斯(Sam Smith)說 MedConfidential英國數據隱私組織。他說:“在這方面,幾乎可以肯定的是,AI僅肯定會引入無法從實驗室釋放的患者數據。” “患者必須控制其數據的使用方式。”
最終,使用醫療數據的AI的競爭權利和義務將預測留在了無限期的位置。格林說:“在AI的發展方面存在一個小問題,道德和人是第二個想法,而不是起點。” “但是我們需要人和道德成為起點,然後出現技術。”
文章於2025年5月7日更改
我們正確地歸因於NHS英格蘭代表的評論
主題: