四月份,書籍和出版商的作者抗議使用版權保護的使用元的使用,以教授AI
Vuk Valcic/Alamy Live News
由於美國和英國的法院決定是否可以合法地培訓其人工智能模型,以獲取版權保護的書籍。作者和出版商就此問題提出了多項試驗,在新的回合中,研究人員表明,至少一種AI模型不僅在其教育數據中使用了流行書籍,而且還記得他們的內容。
當前的許多爭端圍繞開發商是否享有未經第一批許可使用版權的合法權利。先前的研究表明,許多大型語言模型(LLMS)站在AI的流行聊天和其他AI生成計劃後面的Books3數據集中培訓,其中包含近200,000本受版權保護的書籍,其中包括許多海盜。在本材料中教他們模型的AI的開發人員聲稱他們不違反法律,因為LLM根據培訓,轉換和不復製版權釋放新的單詞組合。
但是現在,研究人員已經測試了幾種模型,以查看他們可以從字面上吐出多少這些教育數據。他們發現,許多模型在其教育數據中沒有保留書籍的確切文本,但是其中一種元模型記得幾乎所有書籍。如果法官反對該公司,研究人員認為,這可能會對至少10億美元的損害造成元責任。
“一方面,這意味著AI模型不僅是“竊”,而且還意味著他們不僅要做簡單地研究單詞之間的共同關係,” 馬克·萊姆利 在加利福尼亞的斯坦福大學。 “答案是由用於預訂建模和預訂的模型而區分的事實,這意味著在所有情況下都很難建立一個明確的法律規則。”
Lemley先前在生成案例中為儀表辯護,其版權名稱為Kadrey V Meta平台。這些書被用來教梅塔模型AI的作者針對版權疾病的技術巨頭提起了一個很酷的訴訟。該案仍在加利福尼亞北部地區考慮。
2025年1月,Lemli 宣布 他扔了一米,儘管他說他仍然認為該公司應該贏得此案。 Emil VasquezMeta的代表說,“公平利用版權保護的材料對於開發公司模型至關重要”。他說:“我們不同意原告的陳述,並且完整的記錄講述了另一個故事。”
在最後一項研究中,Lemley和他的同事們檢查了AI書籍的記憶,將小摘錄從書籍分為兩個部分 – 前綴和後綴部分 – 看看與前綴簽名的模型是否會響應後綴。例如,他們從F. Scott Fitzgeralds分開了一句話 偉大的蓋茨比 在“他們是粗心的人,湯姆和雛菊的前綴中 – 他們擊敗了東西和生物,然後退縮了”,後綴“回到他們的錢或巨大的疏忽,或者所有這些使他們在一起,並允許其他人清理混亂。”
根據他們的結論,研究人員讚賞AI的每個模型都可以完成字面摘錄的可能性。然後,他們將這些概率與模型的機會進行了比較。
摘錄包括36本受版權保護的書籍的文字,包括流行的名字,例如喬治·R·R·馬丁(George R.R. Martin) 權力遊戲 和謝麗爾·桑德伯格(Cheryl Sandberg) 彎曲到研究人員還測試了原告在Kadrey v Meta中撰寫的書籍的摘錄。
研究人員對13個開源AI模型進行了這些實驗,包括由Meta,Google,DeepSeek,Eleutherai和Microsoft開發和發布的模型。除META以外的大多數公司都沒有回應評論請求,Microsoft拒絕發表評論。
這樣的測試表明,元美洲駝3.1 70b模型記得JK Rowling的大部分第一本書 哈利·波特 系列也是如此 偉大的蓋茨比 喬治·奧威爾(George Orwell)的反作用小說 1984其他大多數模型都記得很少的書,其中包括訴訟原告撰寫的書籍示例。梅塔拒絕對這些結果發表評論。
研究人員認為,只有3%的Books 3集侵犯了AI模型,可能會導致立法損失近10億美元,甚至可能是根據與此違規行為相關的AI開發人員的利潤而獲得的更大獎項。
該方法可以是確定AI內存規模的“好的法醫工具”。 蘭迪·麥卡錫(Randy McCarthy) 在俄克拉荷馬州的Estill Hall律師事務所。但這並不能決定這些公司是否可以根據“合理使用”的規則合法培訓自己的模型,因為法律學說允許在某些情況下無執照的版權工作使用。
麥卡錫(McCarthy)指出,通常認識的藝術公司,教授其模型,以版權保護。 “問題是,他們有權這樣做嗎?”他問。
另一方面,在英國,對記憶的檢測“從版權的角度來看可能非常重要”。 羅伯特·蘭斯(Robert Lands) 在倫敦的律師事務所霍華德·肯尼迪。英國的版權法遵循“公平貿易”的概念,該法律確保了侵犯版權的範圍比公平利用美國的學說更狹窄。他說,因此,記住海盜書籍的AI模型不太可能要求這種例外。
主題:
- 人工智慧/
- 法律