AI訓練數據風波升級:又一家科技巨頭因盜版書籍面臨訴訟

robot
摘要生成中

【币界】最近出现了個有意思的事兒——科技圈又因為AI數據集問題吃了訴訟官司。一位作家伊麗莎白·里昂控告某知名科技公司,理由是他們的大語言模型在訓練時,用了包含自己版權作品的數據集。

具體怎麼回事呢?問題出在SlimPajama-627B這個數據集上。這個數據集源自RedPajama項目,裡面有一個爭議很大的"Books3"書籍合集——說白了就是大量未經授權的書籍數據。這家公司用這套數據來訓練SlimLM AI模型,結果作者發現自己的作品被硬生生塞進去了。

這不是孤立事件。類似的法律麻煩正在堆積,不僅是這家公司,還有其他幾個科技巨頭也摊上了同樣的事兒——被指控在開發AI系統時,沒有經過授權就用了受保護的內容。這涉及一個核心問題:AI模型到底能不能隨意使用互聯網和出版物上的數據來訓練?版權方的權益怎麼保護?

從Web3和開源社區的角度看,這事兒反映出一個更大的矛盾。一方面,AI的發展需要海量數據;另一方面,內容創作者的權益也不能隨意侵犯。怎麼在兩者間找到平衡,成了擺在整個科技產業面前的難題。後續這類訴訟會怎麼發展,值得繼續關注。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 4
  • 轉發
  • 分享
留言
0/400
GateUser-beba108dvip
· 12-18 01:50
又來一出啊,科技大廠就是照單全收,管你什麼版權不版權的。
查看原文回復0
大空投不是梦vip
· 12-18 01:50
又来了又来了,又是AI偷資料的事兒…科技巨頭們真的無敵了哈
查看原文回復0
午夜快照猎人vip
· 12-18 01:48
靠,又來這套?大模型訓練就是現代版的"拿來主義"
查看原文回復0
MetaMaximalistvip
· 12-18 01:28
說真的,這只是個開始。一旦先例被建立,每個創作者都會來敲門。沒有人在問的真正問題是,公平使用原則是否甚至適用於大規模的訓練數據……而且說實話,科技巨頭押注於模糊的法律領域,同時作者被擠壓,這才是真正的剝削資本主義,偽裝成創新。
查看原文回復0
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)