Im Zeitalter, in dem generative KI verrückt nach offenen Daten ist, hat die Wikimedia Foundation beschlossen, die Beziehung des „kostenlosen Zugriffs“ offiziell in eine Geschäftsvereinbarung umzuwandeln: Von Microsoft, Google, Amazon bis hin zu aufstrebenden KI-Unternehmen – alle müssen nun Inhalte lizenzieren und kostenpflichtige Dienste nutzen, um auf Wikipedia zuzugreifen.
(Vorgeschichte: Will Grok Wikipedia ersetzen? Elon Musk verrät, dass xAI an „Grokipedia“ arbeitet: Eine deutlich bessere Version als Wikipedia)
(Hintergrund: V神 bewertet LLMs: Grok rettet im Wesentlichen die „Verbreitung der Wahrheit“ auf der X-Plattform, hat aber noch viele Halluzinationen)
Inhaltsverzeichnis
Die Wikimedia Foundation feiert das 25-jährige Jubiläum von Wikipedia mit einer Reihe von Veranstaltungen und technischen Updates. Gleichzeitig sendet sie ein klares Signal nach außen: Das weltweit größte Online-Enzyklopädie ist nicht nur eine „kostenlose Wissensdatenbank“, sondern eine Schlüsselinfrastruktur, die mit mehreren KI-Giganten Lizenzvereinbarungen für Inhalte geschlossen hat und nun offiziell in Geschäftsverhandlungen steht.
Wikipedia verfügt derzeit über mehr als 65 Millionen Artikel in über 300 Sprachen und hat monatlich fast 15 Milliarden Seitenaufrufe. Es ist die einzige Plattform unter den Top 10 der meistbesuchten Websites, die von einer gemeinnützigen Organisation betrieben wird. Zudem ist es eines der wichtigsten offenen Datensätze für hochwertige Sprachmodelle.
In den letzten Jahren, mit dem Aufstieg generativer KI, hat die Abhängigkeit von Wikipedia-Inhalten durch Tech-Unternehmen rapide zugenommen. Um dieser Nachfrage gerecht zu werden und die finanzielle Nachhaltigkeit zu sichern, hat die Wikimedia Foundation das kommerzielle Produkt Wikimedia Enterprise entwickelt, das speziell große Mengen an Inhaltsrecycling und -verteilung anbietet.
In ihrer neuesten Erklärung gab die Stiftung bekannt, dass Unternehmen wie Ecosia, Microsoft, Mistral AI, Perplexity, Pleias, ProRata und andere zu neuen Partnern geworden sind, neben den bisherigen Tech-Giganten Amazon, Google und Meta.
Das bedeutet, dass Unternehmen, die bisher Inhalte direkt von Wikipedia für Suchergebnisse oder KI-Training genutzt haben, nun auf „Lizenzpartnerschaften“ setzen: Wikimedia Enterprise stellt APIs oder Datenströme bereit, die je nach Latenz, Stabilität und Datenformat den Bedürfnissen der Unternehmen entsprechen. Diese zahlen Wikimedia eine Gebühr, um die gemeinnützige Arbeit und Infrastruktur zu unterstützen.
In ihrer Ankündigung betont die Wikimedia Foundation, dass Wikipedia als einer der „höchwertigen“ offenen Datensätze für das Training großer Sprachmodelle gilt. Der Grund liegt darin, dass die Inhalte von etwa 250.000 aktiven Freiwilligen gepflegt werden, die strenge Standards wie Neutralität, Nachprüfbarkeit und zuverlässige Quellen einhalten. Zudem durchlaufen die Artikel eine lange Versionsgeschichte und Community-Reviews – alles strukturelle Vermögenswerte, die Entwickler schwer selbst nachbauen können.
Für KI-Unternehmen geht es beim Zugriff auf Wikipedia-Inhalte nicht nur um rechtliche und ethische Fragen der Lizenzierung, sondern auch um die Qualität der Modell-Ausgaben und die Fähigkeit, Fakten zu kontrollieren. Für die Wikimedia Foundation bedeutet dies, die ursprünglich passiv genutzten Traffic-Ströme in vorhersehbare Einnahmen umzuwandeln, um Serverkosten, mehrsprachige Gemeinschaften und technologische Weiterentwicklungen langfristig zu finanzieren.
Interessanterweise betont die Wikimedia Foundation trotz der Vereinbarungen mit mehreren KI-Giganten immer wieder die Priorität „menschlicher“ Arbeit: KI soll die Freiwilligen-Redakteure unterstützen, nicht ersetzen.
Die Stiftung plant, KI für die Erkennung schädlicher Bearbeitungen, die Markierung potenziell problematischer Artikel, Übersetzungen und Content-Discovery einzusetzen, damit sich die Editoren auf Quelleninterpretation, Schreiben und Community-Governance konzentrieren können.
Geschäftsführerin Maryana Iskander erklärt, dass der Kernwert von Wikipedia in der „menschlich getriebenen“ Wissensproduktion liegt. Auch im KI-Zeitalter wird die Plattform weiterhin von einer globalen Gemeinschaft von Freiwilligen verwaltet. KI-Tools sollen nur die Teilnahme erleichtern, nicht die inhaltliche Entscheidung übernehmen.