一些视觉艺术家已经就使用他们的图像作为文本到图像生成器的训练数据提起诉讼。现在,两位知名小说家对OpenAI提起了他们自己的集体诉讼,指控ChatGPT和Bing Chat背后的公司侵犯了版权,因为该公司涉嫌使用他们的书作为训练数据。这似乎是第一个因使用文本(而不是图像或代码)作为训练数据而提起的诉讼。
在加州北区美国地方法院提起的诉讼中,原告Paul Tremblay和Mona Awad指控OpenAI及其子公司侵犯了版权,违反了《数字千年版权法》,还触犯了加州和普通法对不公平竞争的限制。这两位作家由Joseph Saveri律师事务所和Matthew Butterick代理,他们也是最近对Diffusion AI和GitHub(关于GitHub copilot)提起诉讼的团队。
投诉称,特伦布莱的小说《世界尽头的小屋》和阿瓦德的两部小说:《看待胖女孩的13种方式》和《兔子》被用作GPT-3.5和GPT-4的训练数据。虽然OpenAI没有披露这些受版权保护的小说在其训练数据中(这是保密的),但原告得出结论,它们一定是,因为ChatGPT能够提供详细的情节摘要并回答关于这些书的问题,这一壮举需要它能够获得完整的文本。
"由于OpenAI语言模型在没有从原告(和其他人)的作品中提取并保留在其中的表达信息的情况下无法运作,因此OpenAI语言模型本身就是侵权的衍生作品,未经原告许可而制作,侵犯了原告在《版权法》下的专属权利,"申诉说。
这三本书还带有版权管理信息(CMI),如ISBN和版权登记号。数字千年版权法》(DMCA)规定,删除或伪造CMI是非法的,由于ChatGPT的输出不包含这些信息,原告指控OpenAI在常规版权侵权的基础上还违反了DMCA。
虽然该诉讼目前只有两名原告,但律师们正在寻求集体诉讼地位,这将使其他被OpenAI使用过版权作品的作者也能获得赔偿。律师们正在寻求货币赔偿、法庭费用和强制令,以迫使OpenAI改变其软件和围绕版权材料的商业行为。
我们向Butterick征求对该诉讼的意见,他向我们介绍了他的网站--LLM诉讼,该网站对原告的立场和他们起诉的原因有详细的解释。
"我们对OpenAI提起集体诉讼,质疑ChatGPT及其底层的大型语言模型GPT-3.5和GPT-4,它们在没有同意、补偿或信用的情况下,重新混合了数千名图书作者和许多其他作者的版权作品,"律师们写道。
他们还批评了生成性人工智能的概念,写道:"'生成性人工智能'只是人类智能,经过重新包装,脱离了其创造者"。
就像Saveri和Butterick对稳定性人工智能使用受版权保护的图像作为训练数据的诉讼一样,这起诉讼的关键是相信从开放的互联网上抓取文本来为法律硕士提供动力是不公平的使用。这是一个尚未在法庭上得到答案的问题。
在2006年的一个案件中,Blake vs Google,一位作家起诉搜索引擎缓存了他的作品并通过搜索提供缓存版本。然而,美国地区法院驳回了该诉讼,认为谷歌对数据的缓存是合理使用。Robert C. Jones法官写道,将文件保存在缓存中是一种转换性使用(用于确定合理使用的四个因素之一),而且它不会损害作品的潜在市场(另一个因素)。因此,仅仅是在其服务器上以缓存的形式存储受版权保护的数据并不能使谷歌承担责任。
然而,使用受版权保护的创意作品作为训练数据,与为搜索编制索引的内容有相当大的不同。人们可以说,如果法律硕士能够重复书中的关键细节,那就是损害了这些作品的市场,它不是真正的转化。另一方面,如果一个人写了一本书的情节摘要,这一般不会触犯版权法。最终,这些问题将因为像这样的诉讼案而得到决定。
OpenAI并不是唯一一家使用受版权保护的材料进行培训甚至输出的公司。谷歌SGE,该公司的新搜索体验,经常一字不差地剽窃整个句子和段落的版权。