Нещодавно сталася цікава подія — технологічне коло зазнало судового позову через набори даних ШІ. Письменниця Елізабет Лайон подала позов проти відомої технологічної компанії за використання набору даних, що містить їхні захищені авторським правом твори, при навчанні великих мовних моделей.
Що саме відбувається? Проблема полягає у наборі даних SlimPajama-627B. Цей набір даних походить із проєкту RedPajama, який містить дуже суперечливу колекцію книг «Books3» — якщо говорити прямо, велику кількість несанкціонованих книг. Компанія використала цей набір даних для навчання моделі ШІ SlimLM, і автор виявив, що його робота вбудована в неї.
Це не поодинокий випадок. Подібні юридичні проблеми накопичуються не лише для цієї компанії, а й для кількох інших технологічних гігантів — яких звинувачують у використанні захищеного контенту без дозволу при розробці систем ШІ. Це пов’язано з ключовим питанням: чи можна навчати моделі ШІ, використовуючи дані з Інтернету та публікацій за власним бажанням? Як захистити права та інтереси власників авторських прав?
З точки зору Web3 та спільноти відкритого коду, це відображає ширшу суперечність. З одного боку, розвиток ШІ вимагає величезних обсягів даних; З іншого боку, права та інтереси творців контенту не можуть бути порушені за власним бажанням. Пошук балансу між цими двома напрямками стало проблемою, що стоїть перед усією технологічною індустрією. Варто й надалі стежити за тим, як такі позови розвиватимуться в майбутньому.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
8 лайків
Нагородити
8
5
Репост
Поділіться
Прокоментувати
0/400
GateUser-beba108d
· 2025-12-18 01:50
Знову щось трапилось, великі технологічні компанії просто приймають усе, не зважаючи на авторські права чи ні.
Переглянути оригіналвідповісти на0
AirdropDreamer
· 2025-12-18 01:50
Знову знову, знову ця історія про крадіжку даних AI… Технологічні гіганти дійсно непереможні, ха
Переглянути оригіналвідповісти на0
MidnightSnapHunter
· 2025-12-18 01:48
Знову ця історія? Тренування великих моделей — це сучасна версія "використовуй і забудь".
Переглянути оригіналвідповісти на0
MetaMaximalist
· 2025-12-18 01:28
чесно кажучи, це лише початок. як тільки прецедент буде встановлено, кожен творець почне стукати у двері. справжнє питання, яке ніхто не ставить, — чи взагалі застосовується доктрина справедливого використання до навчальних даних у масштабі... і чесно кажучи, технологічні гіганти, що спекулюють на туманних юридичних територіях, поки автори стискаються, — це вершина екстрактивного капіталізму, що маскується під інновації.
Загострення скандалу з даними для тренування ШІ: ще один гігант технологій під загрозою судового позову через плагіатні книги
Нещодавно сталася цікава подія — технологічне коло зазнало судового позову через набори даних ШІ. Письменниця Елізабет Лайон подала позов проти відомої технологічної компанії за використання набору даних, що містить їхні захищені авторським правом твори, при навчанні великих мовних моделей.
Що саме відбувається? Проблема полягає у наборі даних SlimPajama-627B. Цей набір даних походить із проєкту RedPajama, який містить дуже суперечливу колекцію книг «Books3» — якщо говорити прямо, велику кількість несанкціонованих книг. Компанія використала цей набір даних для навчання моделі ШІ SlimLM, і автор виявив, що його робота вбудована в неї.
Це не поодинокий випадок. Подібні юридичні проблеми накопичуються не лише для цієї компанії, а й для кількох інших технологічних гігантів — яких звинувачують у використанні захищеного контенту без дозволу при розробці систем ШІ. Це пов’язано з ключовим питанням: чи можна навчати моделі ШІ, використовуючи дані з Інтернету та публікацій за власним бажанням? Як захистити права та інтереси власників авторських прав?
З точки зору Web3 та спільноти відкритого коду, це відображає ширшу суперечність. З одного боку, розвиток ШІ вимагає величезних обсягів даних; З іншого боку, права та інтереси творців контенту не можуть бути порушені за власним бажанням. Пошук балансу між цими двома напрямками стало проблемою, що стоїть перед усією технологічною індустрією. Варто й надалі стежити за тим, як такі позови розвиватимуться в майбутньому.