AI训练数据风波升级:又一家科技巨头因盗版书籍面临诉讼

robot
摘要生成中

【币界】最近出现了个有意思的事儿——科技圈又因为AI数据集问题吃了诉讼官司。一位作家伊丽莎白·里昂状告某知名科技公司,理由是他们的大语言模型在训练时,用了包含自己版权作品的数据集。

具体怎么回事呢?问题出在SlimPajama-627B这个数据集上。这个数据集源自RedPajama项目,里面有一个争议很大的"Books3"书籍合集——说白了就是大量未经授权的书籍数据。这家公司用这套数据来训练SlimLM AI模型,结果作者发现自己的作品被硬生生塞进去了。

这不是孤立事件。类似的法律麻烦正在堆积,不仅是这家公司,还有其他几个科技巨头也摊上了同样的事儿——被指控在开发AI系统时,没有经过授权就用了受保护的内容。这涉及一个核心问题:AI模型到底能不能随意使用互联网和出版物上的数据来训练?版权方的权益怎么保护?

从Web3和开源社区的角度看,这事儿反映出一个更大的矛盾。一方面,AI的发展需要海量数据;另一方面,内容创作者的权益也不能随意侵犯。怎么在两者间找到平衡,成了摆在整个科技产业面前的难题。后续这类诉讼会怎么发展,值得继续关注。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 4
  • 转发
  • 分享
评论
0/400
GateUser-beba108dvip
· 12-18 01:50
又来一出啊,科技大厂就是照单全收,管你什么版权不版权的。
回复0
大空投不是梦vip
· 12-18 01:50
又来了又来了,又是AI偷数据的事儿…科技巨头们真的无敌了哈
回复0
午夜快照猎人vip
· 12-18 01:48
靠,又来这套?大模型训练就是现代版的"拿来主义"
回复0
MetaMaximalistvip
· 12-18 01:28
说实话,这只是个开始。一旦先例被树立,每个创作者都会前来讨要。没人问的真正问题是,公平使用原则是否真的*适用于*大规模的训练数据……而且说实话,科技巨头们押注在模糊的法律领域,而作者们被挤压,这才是真正的“剥削资本主义”,伪装成创新。
查看原文回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)