学术出版商将研究论文卖给科技公司,作者收入为零引发争议

admin

越来越多的学术出版商将研究论文出售给科技公司,以训练人工智能(AI)模型,而作者却没有任何收入。

大型语言模型(LLM)再度因训练数据问题引发争议。近日,国际知名期刊《自然》主编伊丽莎白·吉布尼发表题为《你的论文被用来训练AI模型了吗?几乎可以肯定》的文章。文章作者表示,越来越多的学术出版商将研究论文授权给科技公司用于训练AI模型,一些学术出版商由此获利2300万美元,而作者却一无所获。在很多情况下,这些交易都没有征求作者的意见,这引起了一些研究人员的强烈不满。

学术论文正被高价出售给大模型训练,作者却零收入_学术论文正被高价出售给大模型训练,作者却零收入_

“如果你的论文还没有被用作AI训练数据,那么它很可能很快就会成为训练的一部分。”伊丽莎白·吉普尼在文章中指出,学术论文作者目前几乎没有权利干涉出版商出售其版权作品。目前还没有现成的机制来确认公开发表的文章是否被用作AI训练数据。如何建立更公平的机制来保护创作者在使用大型语言模型方面的权利,值得学术界和版权界广泛讨论。

大型语言模型(LLM)通常基于从互联网上抓取的大量数据进行训练,这些数据包含数十亿条语言信息(称为“标签”),通过分析这些标签之间的模式,模型能够生成流畅的文本。学术论文因其内容丰富、信息密度高而比大量普通数据更有价值,是AI训练的重要数据来源。全球非营利组织Mozilla基金会的数据分析师Stefan Baack分析称,科学论文对大型语言模型的训练有很大帮助,特别是在科学主题的推理能力方面。正是因为数据价值高,各大科技公司才不惜花费巨资购买数据集。

学术论文正被高价出售给大模型训练,作者却零收入_学术论文正被高价出售给大模型训练,作者却零收入_

文章指出,今年英国《金融时报》与OpenAI达成协议,将自己的内容授权给后者,有“美国贴吧”之称的Reddit也与谷歌签署了类似协议。这些交易都体现了出版商试图通过合法授权,避免自己的内容被AI模型免费抓取。

文章透露,上个月,英国学术出版商 Taylor & Francis 与微软签署了一项价值 1000 万美元的协议,允许微软访问其数据以改进 AI 系统。6 月份,美国出版商 Wiley 通过向一家公司提供 AI 训练内容赚取了 2300 万美元。这些巨额收入与论文作者无关。

_学术论文正被高价出售给大模型训练,作者却零收入_学术论文正被高价出售给大模型训练,作者却零收入

目前,研究人员正在尝试利用技术手段帮助作者识别其作品是否用于AI模型训练。华盛顿大学西雅图分校人工智能研究员Lucy Lu Wang表示,如果一篇论文已经被用作模型的训练数据,那么在模型训练完成后,该论文就无法被移除。

不过,即便能证明该论文被用于AI训练,在法律层面仍面临争议。文章指出,出版商认为使用未经授权的版权内容进行训练属于侵权行为,而另一种法律观点认为,大型语言模型并非直接复制内容,而是通过学习生成新的文本。

值得注意的是,并非所有研究人员都反对自己的作品被用于AI训练。Stefan Bak表示,他很高兴看到自己的研究成果被用于提高AI的准确率,也不介意AI“模仿”他的写作风格。不过,他也坦言,并不是所有人都能轻松应对这个问题,尤其是那些面临AI竞争的人,比如艺术家和作家。

事实上,有关使用受版权保护的智力作品训练人工智能模型的诉讼此前已引起广泛关注。

_学术论文正被高价出售给大模型训练,作者却零收入_学术论文正被高价出售给大模型训练,作者却零收入

8月14日,《华盛顿邮报》报道,美国数名视觉艺术家和插画家针对AI图像生成工具发起的集体诉讼案取得突破,他们指控Midjourney、Stability AI等初创公司在未经同意的情况下使用他们的作品来训练AI模型。该案本周取得关键突破,美国地区法官威廉·奥里克允许案件关键部分向前推进,这意味着法院认定某些指控有足够的法律证据可以继续审理,而这些公司在开发AI工具时的内部沟通内容可能会随着法律审判的进行而被披露。