AI训练数据风波升级：又一家科技巨头因盗版书籍面临诉讼

2025-12-18 01:20:14

摘要生成中

【币界】最近出现了个有意思的事儿——科技圈又因为AI数据集问题吃了诉讼官司。一位作家伊丽莎白·里昂状告某知名科技公司，理由是他们的大语言模型在训练时，用了包含自己版权作品的数据集。

具体怎么回事呢？问题出在SlimPajama-627B这个数据集上。这个数据集源自RedPajama项目，里面有一个争议很大的"Books3"书籍合集——说白了就是大量未经授权的书籍数据。这家公司用这套数据来训练SlimLM AI模型，结果作者发现自己的作品被硬生生塞进去了。

这不是孤立事件。类似的法律麻烦正在堆积，不仅是这家公司，还有其他几个科技巨头也摊上了同样的事儿——被指控在开发AI系统时，没有经过授权就用了受保护的内容。这涉及一个核心问题：AI模型到底能不能随意使用互联网和出版物上的数据来训练？版权方的权益怎么保护？

从Web3和开源社区的角度看，这事儿反映出一个更大的矛盾。一方面，AI的发展需要海量数据；另一方面，内容创作者的权益也不能随意侵犯。怎么在两者间找到平衡，成了摆在整个科技产业面前的难题。后续这类诉讼会怎么发展，值得继续关注。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

7人点赞了这条动态

0/400

GateUser-beba108d

· 12-18 01:50

又来一出啊，科技大厂就是照单全收，管你什么版权不版权的。

大空投不是梦

· 12-18 01:50

又来了又来了，又是AI偷数据的事儿…科技巨头们真的无敌了哈

午夜快照猎人

· 12-18 01:48

靠，又来这套？大模型训练就是现代版的"拿来主义"

MetaMaximalist

· 12-18 01:28

说实话，这只是个开始。一旦先例被树立，每个创作者都会前来讨要。没人问的真正问题是，公平使用原则是否真的*适用于*大规模的训练数据……而且说实话，科技巨头们押注在模糊的法律领域，而作者们被挤压，这才是真正的“剥削资本主义”，伪装成创新。

查看原文回复0