学术论文正被高价出售给大模型训练,作者却零收入

·越来越多的学术出版商正将研究论文卖给科技公司用以训练人工智能(AI)模型,而作者收入为零。

大语言模型(LLM)因训练数据问题再次引发争议。日前,国际著名期刊《自然》(《Nature》)杂志编辑伊丽莎白·吉普尼(Elizabeth Gibney)发布一篇题为《你的论文被用来训练人工智能模型了吗?几乎可以肯定》一文。文中作者表示,当前有越来越多的学术出版商正在将研究论文授权给科技公司,用于训练人工智能(AI)模型。有学术出版商借此赚取了2300万美元,而作者却收入为零。这些交易在很多情况下并未征求作者的意见,引发了部分研究人员的强烈不满。

“如果你的论文还没有被用作AI训练数据,很可能很快就会成为训练的一部分。”伊丽莎白·吉普尼在文中指出,当前学术论文作者在面对出版商出售其版权作品时几乎无权干涉。对于公开发表的文章,也没有现成机制来确认这些内容是否被用作AI训练数据。在大语言模型使用中,如何建立更加公平的机制保护创作者的权益,值得学术界和版权界广泛讨论。

大语言模型(LLM)通常依赖从互联网上抓取的大量数据进行训练。这些数据包括数十亿片段的语言信息(称为“标记”),通过分析这些标记之间的模式,模型得以生成流畅的文本。学术论文因其内容丰富、信息密度高,相比大量普通数据更有价值,是AI训练中的重要数据来源。数据分析师斯特凡·巴克(Stefan Baack)来自全球非营利组织Mozilla基金会,他分析指出,科学论文对大语言模型的训练有很大帮助,尤其是在科学主题上的推理能力方面。正是由于数据的高价值,各大科技公司纷纷斥巨资购买数据集。

该文指出,今年《金融时报》与OpenAI达成协议,将其内容授权给后者;被称为“美国贴吧”的Reddit也与谷歌签署了类似的交易。这些交易体现出版商试图通过合法授权避免自己的内容被AI模型无偿抓取。

文章透露,上月英国的学术出版商Taylor & Francis与微软签署了一项价值1000万美元的协议,允许微软访问其数据以改进AI系统。而在6月,美国出版商Wiley通过向某家公司提供内容用于AI训练,收入高达2300万美元。而这些巨额收入与论文作者没有任何关系。

当前,研究人员正尝试用技术手段帮助作者识别其作品是否被用于AI模型训练。西雅图华盛顿大学的人工智能研究员露西·卢·王( Lucy Lu Wang) 称,如果一篇论文已经被用作模型的训练数据,在模型训练完成后就无法将这篇论文移除。

不过,即便能证明论文被用于AI训练,但在法律层面仍然面临争议。文中指出,出版商认为,使用未经授权的受版权保护内容进行训练是侵权行为;而另一种法律观点则认为,大语言模型并未直接复制内容,而是通过学习来生成新文本。

值得注意的是,并非所有研究者都反对将他们的作品用于AI训练。斯特凡·巴克表示,他很乐于看到自己的研究成果被用来提高AI的准确性,并且不介意AI“模仿”自己的写作风格。然而,他也承认,并非所有人都能轻松应对这一问题,尤其是那些面临AI竞争压力的职业,如艺术家和作家。

事实上,关于使用受版权保护的知识作品来训练 AI 模型的诉讼案件此前已引起过广泛关注。

8月14日,《华盛顿邮报》报道,美国多名视觉艺术家和插画家对AI图像生成工具的集体诉讼案取得突破进展。他们曾指控Midjourney和Stability AI等初创公司在未经同意的情况下使用作品来训练AI模型。这起案件在本周取得了关键性进展。美国地区法官威廉·奥里克允许该案的关键部分继续推进,这意味着法庭已经决定某些指控有足够的法律证据,可以继续审理下去,接下来随着法律审理的过程,可能会披露这些公司在开发AI工具时的内部交流情况。

打开APP阅读更多精彩内容