Недавно произошло интересное событие — технологический круг потерпел судебный иск по поводу наборов данных ИИ. Писательница Элизабет Лайон подала в суд на известную технологическую компанию за использование набора данных с их защищёнными авторским правом произведениями при обучении их больших языковых моделей.
Что именно происходит? Проблема заключается в наборе данных SlimPajama-627B. Этот набор данных взят из проекта RedPajama, который содержит крайне спорную коллекцию книг «Books3» — если говорить прямо, большое количество несанкционированных книг. Компания использовала этот набор данных для обучения модели ИИ SlimLM, и автор обнаружил, что его работа была встроена в неё.
Это не единичный случай. Похожие юридические проблемы накапливаются не только для этой компании, но и для нескольких других технологических гигантов — обвиняемых в использовании защищённого контента без разрешения при разработке ИИ-систем. Это связано с основным вопросом: можно ли обучать модели ИИ, используя данные из Интернета и публикаций по желанию? Как защитить права и интересы правообладателей?
С точки зрения Web3 и сообщества open source это отражает более широкое противоречие. С одной стороны, разработка ИИ требует огромного объема данных; С другой стороны, права и интересы создателей контента нельзя нарушать по своему желанию. Поиск баланса между этими двумя направлениями стал проблемой, стоящей перед всей технологической индустрией. Стоит продолжать следить за развитием подобных судебных разбирательств в будущем.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
8 Лайков
Награда
8
5
Репост
Поделиться
комментарий
0/400
GateUser-beba108d
· 2025-12-18 01:50
Опять всё по-старому, крупные технологические компании просто принимают всё, не обращая внимания на авторские права или нет.
Посмотреть ОригиналОтветить0
AirdropDreamer
· 2025-12-18 01:50
Опять снова, опять снова, снова история о краже данных AI… Технологические гиганты действительно непобедимы, ха
Посмотреть ОригиналОтветить0
MidnightSnapHunter
· 2025-12-18 01:48
Опять это? Обучение больших моделей — это современная версия "заимствования".
Посмотреть ОригиналОтветить0
MetaMaximalist
· 2025-12-18 01:28
честно говоря, это только начало. как только прецедент будет установлен, каждый создатель начнет стучаться. настоящий вопрос, который никто не задает, — применима ли доктрина справедливого использования к обучающим данным в масштабах... и честно говоря, технологические гиганты, полагающиеся на неясную юридическую территорию, в то время как авторы страдают, — это вершина извлекающего капитализма, маскирующегося под инновации.
Эскалация скандала с данными для обучения ИИ: еще один технологический гигант подает в суд за использование пиратских книг
Недавно произошло интересное событие — технологический круг потерпел судебный иск по поводу наборов данных ИИ. Писательница Элизабет Лайон подала в суд на известную технологическую компанию за использование набора данных с их защищёнными авторским правом произведениями при обучении их больших языковых моделей.
Что именно происходит? Проблема заключается в наборе данных SlimPajama-627B. Этот набор данных взят из проекта RedPajama, который содержит крайне спорную коллекцию книг «Books3» — если говорить прямо, большое количество несанкционированных книг. Компания использовала этот набор данных для обучения модели ИИ SlimLM, и автор обнаружил, что его работа была встроена в неё.
Это не единичный случай. Похожие юридические проблемы накапливаются не только для этой компании, но и для нескольких других технологических гигантов — обвиняемых в использовании защищённого контента без разрешения при разработке ИИ-систем. Это связано с основным вопросом: можно ли обучать модели ИИ, используя данные из Интернета и публикаций по желанию? Как защитить права и интересы правообладателей?
С точки зрения Web3 и сообщества open source это отражает более широкое противоречие. С одной стороны, разработка ИИ требует огромного объема данных; С другой стороны, права и интересы создателей контента нельзя нарушать по своему желанию. Поиск баланса между этими двумя направлениями стал проблемой, стоящей перед всей технологической индустрией. Стоит продолжать следить за развитием подобных судебных разбирательств в будущем.