AI訓練數據風波升級：又一家科技巨頭因盜版書籍面臨訴訟

2025-12-18 01:20:14

摘要生成中

【币界】最近出现了個有意思的事兒——科技圈又因為AI數據集問題吃了訴訟官司。一位作家伊麗莎白·里昂控告某知名科技公司，理由是他們的大語言模型在訓練時，用了包含自己版權作品的數據集。

具體怎麼回事呢？問題出在SlimPajama-627B這個數據集上。這個數據集源自RedPajama項目，裡面有一個爭議很大的"Books3"書籍合集——說白了就是大量未經授權的書籍數據。這家公司用這套數據來訓練SlimLM AI模型，結果作者發現自己的作品被硬生生塞進去了。

這不是孤立事件。類似的法律麻煩正在堆積，不僅是這家公司，還有其他幾個科技巨頭也摊上了同樣的事兒——被指控在開發AI系統時，沒有經過授權就用了受保護的內容。這涉及一個核心問題：AI模型到底能不能隨意使用互聯網和出版物上的數據來訓練？版權方的權益怎麼保護？

從Web3和開源社區的角度看，這事兒反映出一個更大的矛盾。一方面，AI的發展需要海量數據；另一方面，內容創作者的權益也不能隨意侵犯。怎麼在兩者間找到平衡，成了擺在整個科技產業面前的難題。後續這類訴訟會怎麼發展，值得繼續關注。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

7人點讚了這條動態

留言

0/400

GateUser-beba108d

· 12-18 01:50

又來一出啊，科技大廠就是照單全收，管你什麼版權不版權的。

查看原文回復0

大空投不是梦

· 12-18 01:50

又来了又来了，又是AI偷資料的事兒…科技巨頭們真的無敵了哈

查看原文回復0

午夜快照猎人

· 12-18 01:48

靠，又來這套？大模型訓練就是現代版的"拿來主義"

查看原文回復0

MetaMaximalist

· 12-18 01:28

說真的，這只是個開始。一旦先例被建立，每個創作者都會來敲門。沒有人在問的真正問題是，公平使用原則是否甚至適用於大規模的訓練數據……而且說實話，科技巨頭押注於模糊的法律領域，同時作者被擠壓，這才是真正的剝削資本主義，偽裝成創新。

查看原文回復0