У епоху божевільного поглинання відкритих даних генеративним AI, Вікіпедія офіційно перетворює «безкоштовне використання» у комерційну угоду: від Microsoft, Google, Amazon до нових AI-компаній — тепер усі повинні отримувати доступ до Вікі через ліцензування контенту та платні послуги.
(Попередній огляд: Grok замінить Вікіпедію? Ілон Маск розкрив, що xAI розробляє «Grokipedia»: значно покращену порівняно з Wikipedia)
(Додатковий контекст: Відгук Вейна Гріффіта щодо LLM: Grok по суті рятує платформу X «допомагаючи поширенню правди», але все ще має багато галюцинацій)
Зміст статті
Фонд Вікімедіа святкує 25-ту річницю створення Вікіпедії, запускає серію заходів та оновлень технологій, а також чітко дає сигнал світу: найбільша онлайн-енциклопедія — це не просто «безкоштовна» база знань, а ключова інфраструктура для укладання ліцензійних угод з кількома гігантами AI та офіційного входження до переговорів щодо комерційного використання.
Зараз Вікіпедія має понад 65 мільйонів статей, охоплює понад 300 мов, і її щомісячний перегляд близько 15 мільярдів разів. Це єдина платформа серед топ-10 сайтів за трафіком, яка керується некомерційною організацією, і одночасно є одним із найважливіших високоякісних відкритих датасетів для великих мовних моделей.
Останні роки, з підйомом генеративного AI, швидко зросла залежність технологічних компаній від контенту Вікіпедії. Щоб задовольнити цей попит і забезпечити фінансову сталийсть, Вікімедіа розробила комерційний продукт Wikimedia Enterprise, який спеціалізується на масштабному повторному використанні та поширенні контенту.
У своєму останньому заявленні фонд повідомив, що такі компанії, як Ecosia, Microsoft, Mistral AI, Perplexity, Pleias, ProRata, вже стали новими партнерами, приєднавшись до таких гігантів, як Amazon, Google, Meta.
Це означає, що компанії, які раніше просто копіювали вміст Вікі для пошукових результатів або тренували на ньому моделі, тепер отримують доступ через «ліцензійне партнерство». Wikimedia Enterprise надає API або потоки даних відповідно до затримки, стабільності та формату даних, а компанії платять за це, щоб підтримувати некомерційну діяльність і інвестиції у інфраструктуру.
У заяві Вікімедіа підкреслюється, що Вікіпедія вважається одним із «найвищоякісних» відкритих датасетів для тренування великих мовних моделей. Це зумовлено тим, що її контент створений і підтримується близько 250 тисячами активних волонтерів, які дотримуються стандартів нейтральності, перевірюваності та надійних джерел, а також проходять довгостроковий історичний та спільнотний аудит. Це — структурні активи, які важко відтворити самостійно для розробників моделей.
Для компаній AI отримання доступу до вмісту Вікі — це не лише питання легальності ліцензування та етичних зобов’язань, а й питання якості вихідних даних і здатності моделей точно відображати факти; для Вікімедіа — це перетворення пасивного потоку трафіку у передбачуване джерело доходу, що дозволяє підтримувати сервери, багатомовну спільноту та довгострокові інвестиції у технології.
Цікаво, що попри укладення ліцензійних угод з кількома гігантами AI, Вікімедіа у своїй стратегії штучного інтелекту постійно наголошує на «людському пріоритеті»: роль AI — допомагати волонтерам-редакторам, а не замінювати їх.
Фонд планує використовувати AI для виявлення пошкоджених редагувань, позначення потенційно проблемних статей, допомоги з перекладами та пошуком контенту, щоб редактори могли зосередитися на аналізі джерел, написанні та управлінні спільнотою.
Генеральний директор Maryana Iskander зазначила, що основна цінність Вікіпедії — у «знанні, яке створюється людьми», і навіть у епоху AI платформа зберігатиме структуру управління глобальною волонтерською спільнотою, а інструменти AI — лише допоміжний засіб для зниження бар’єрів участі, а не головний суб’єкт прийняття рішень щодо контенту.