OpenAI意外删除《纽约时报》版权诉讼中潜在证据_凤凰网科技

OpenAI意外删除《纽约时报》版权诉讼中潜在证据

鞭牛士Bianews

11/21 20:00准确、快速、有深度的科技媒体来自北京

点击收听本新闻

听新闻

鞭牛士报道，11月21日消息，据外电报道，《纽约时报》和《每日新闻》起诉OpenAI未经许可抓取其作品来训练其 AI 模型，两家公司的律师表示，OpenAI 工程师意外删除了可能与案件相关的数据。

今年秋初，OpenAI 同意提供两台虚拟机，以便《纽约时报》和《每日新闻》的律师可以在其 AI 训练集中搜索其受版权保护的内容。

虚拟机是基于软件的计算机，存在于另一台计算机的操作系统中，通常用于测试、备份数据和运行应用程序。

出版商的律师在一封信中表示，他们和他们聘请的专家自 11 月 1 日以来已经花了 150 多个小时搜索 OpenAI 的训练数据。

但根据上述信件（该信件于周三晚间提交给纽约南区美国地方法院）显示，11 月 14 日，OpenAI 工程师删除了其中一台虚拟机上存储的所有出版商的搜索数据。

OpenAI 尝试恢复数据，并且基本成功。然而，由于文件夹结构和文件名无法挽回地丢失，恢复的数据无法用于确定新闻原告复制的文章在何处用于构建OpenAI模型。

「新闻原告被迫投入大量人力和计算机处理时间，从头开始重新制作他们的工作。」《纽约时报》和《每日新闻》的律师写道。「新闻原告昨天才得知恢复的数据无法使用，专家和律师整整一周的工作必须重新完成，这就是今天提交这封补充信的原因。」

原告律师明确表示，他们没有理由相信删除是故意的。但他们表示，这一事件凸显了 OpenAI最有能力利用自己的工具在自己的数据集中搜索潜在的侵权内容。

OpenAI 发言人拒绝发表声明。

在本案和其他案件中，OpenAI 一直坚持认为，使用公开数据（包括《纽约时报》和《每日新闻》的文章）训练模型是合理使用。

换句话说，在创建 GPT-4o这样的模型时，OpenAI 认为它不需要获得许可或以其他方式为这些示例付费——即使它从这些模型中赚钱。GPT-4o 可以从数十亿电子书、论文等示例中学习以生成听起来像人类的文本。

话虽如此，OpenAI 已经与越来越多的新出版商签署了许可协议，其中包括美联社、Business Insider 所有者 Axel Springer、金融时报、People 母公司 Dotdash Meredith 和新闻集团。OpenAI 拒绝公开这些交易的条款，但据报道，其中一个内容合作伙伴 Dotdash每年至少获得 1600 万美元的报酬。

OpenAI 既没有确认也没有否认其在未经许可的情况下将其 AI 系统训练在任何特定的受版权保护的作品上。

打开APP阅读更多精彩内容