KI-Training mit Raubkopien? Studie belastet OpenAI und Meta schwer

Die RedaktionDonnerstag, 03.04.20252 Min Lesezeit442

Artapixel (CC0), Pixabay

Die Versprechen rund um Künstliche Intelligenz klingen verlockend: immer klüger, immer effizienter, immer menschenähnlicher. Doch eine neu veröffentlichte Studie zeigt erneut die dunkle Seite des KI-Booms: Die Branche baut offenbar auf rechtlich höchst fragwürdigen Fundamenten – und schreckt dabei nicht einmal vor der massenhaften Nutzung urheberrechtlich geschützter Werke ohne Erlaubnis zurück.

📚 ChatGPT trainiert mit unlizenzierten Buchinhalten?

Eine vom AI Disclosures Project veröffentlichte Untersuchung legt nahe, dass OpenAI, der Entwickler von ChatGPT, beim Training seiner neuesten Modelle offenbar systematisch auf kostenpflichtige Inhalte zurückgreift – darunter Fachbücher des renommierten O’Reilly-Verlags, für die keine Lizenz vorliegt. Während frühere Modelle lediglich frei verfügbare Leseproben erkannt hätten, weise das neue GPT-4o-Modell ein detailliertes inhaltliches Vorwissen über ganze Bücher auf – ein deutlicher Hinweis auf mögliche Verletzungen des Urheberrechts.

Zwar räumen die Studienautor:innen ein, dass ihre Methodik keine endgültigen Beweise liefere – doch die Indizienlage ist eindeutig. Und die Grundsatzfrage bleibt: Wie kommen diese Inhalte in die Trainingsdaten – und mit welchem Recht?

💬 „Move fast and break things“ – auf Kosten der Urheber

Tech-Expertin Ingrid Brodnig bringt es auf den Punkt: „Es handelt sich hier nicht um einzelne Nutzer:innen, die sich illegal ein Buch herunterladen. Es sind milliardenschwere Konzerne, die Millionen Werke absaugen – um ihre Produkte kommerziell zu verwerten.“ Dass OpenAI und auch Meta offenbar bereit sind, in großem Stil systematisch Raubkopien zu verwenden, bezeichnet sie als Ausdruck einer „Technologiebranche, die ohne Rücksicht auf Verluste agiert“.

🔍 Meta und die Schattenbibliothek

Noch gravierender wirkt der jüngste Vorwurf gegen Meta: Laut einer US-Klage soll der Konzern sein Sprachmodell LLaMA 3 unter anderem mit Daten der illegalen Onlinebibliothek LibGen trainiert haben – einer Plattform, die mehr als 7,5 Millionen Bücher und über 80 Millionen wissenschaftliche Artikel ohne Genehmigung bereitstellt. Darunter: Werke österreichischer Autorinnen wie Brodnig selbst, Stefanie Sargnagel, Barbi Markovic und Wolf Haas.

Interne Meta-Kommunikation, die dem US-Magazin The Atlantic vorliegt, macht deutlich: Die Lizenzierung sei „zu teuer“ und „zu langsam“ – also habe man sich für den illegalen Weg entschieden. Der Fair-Use-Ansatz, auf den sich Meta beruft, erscheint in diesem Kontext mehr wie ein juristisches Feigenblatt denn als rechtlich tragfähige Grundlage.

⚖️ Grauzonen – oder bewusste Gesetzesumgehung?

Offen bleibt, ob OpenAI & Co. teilweise über Umwege an die Inhalte kamen – etwa durch Nutzereingaben – oder ob Inhalte gezielt eingespeist wurden. Doch selbst im günstigsten Fall stellt sich die Frage: Warum ist die Herkunft der Trainingsdaten so intransparent? Und warum verweigern sich Konzerne wie OpenAI beharrlich der Offenlegung?

Gerichtsverfahren in den USA – etwa von Autor:innen, Verlagen und Musiker:innen – sind im Gange. Doch der juristische Prozess ist langwierig. In der Zwischenzeit profitieren KI-Firmen weiter – auf Basis von Inhalten, deren Urheberinnen und Urheber weder gefragt wurden noch am Profit beteiligt sind.

📢 Forderung nach klarer Regulierung

Brodnig fordert deshalb: „Diese Fragen müssen rechtlich geklärt werden – und zwar dringend.“ Es sei höchste Zeit, dass Gewerkschaften, Verlage und Verbände den Schutz geistigen Eigentums nicht der Tech-Industrie überlassen.

Solange die Politik untätig bleibe, gelte weiter das alte Silicon-Valley-Mantra: „Move fast and break things“ – und das auf dem Rücken derjenigen, die den Content geschaffen haben, mit dem die Maschinen nun „lernen“.

📝 Fazit: Die neuen Vorwürfe gegen OpenAI und Meta sind mehr als nur ein weiteres Kapitel in der Debatte um KI-Ethik. Sie offenbaren ein strukturelles Problem: Eine milliardenschwere Branche nimmt sich, was sie braucht – und stellt Profit über Recht. Solange rechtliche Grauzonen bestehen, droht das geistige Eigentum zur Trainingsmasse für Maschinen zu verkommen.