Text- und Data-Mining: §44b UrhG und KI-Training
KI-Modelle werden mit riesigen Datenmengen trainiert. Was das Urheberrecht dazu sagt, wann ein Opt-Out greift und was die EU-Richtlinie regelt.
Text- und Data-Mining: §44b UrhG und KI-Training
Das Wichtigste in Kürze
- Text- und Data-Mining (TDM) bezeichnet die automatisierte Analyse großer Datenmengen, um Muster, Trends oder Korrelationen zu erkennen -- und bildet die Grundlage für das Training moderner KI-Modelle.
- Die TDM-Schranke in §44b UrhG erlaubt grundsätzlich die Vervielfältigung urheberrechtlich geschützter Werke für Text- und Data-Mining -- auch für kommerzielle Zwecke.
- Rechteinhaber können dem kommerziellen TDM jedoch per Opt-Out widersprechen (§44b Abs. 3 UrhG). Für wissenschaftliche Forschung gilt dieser Vorbehalt nicht (§60d UrhG).
- Die europäische DSM-Richtlinie (Art. 3-4 RL (EU) 2019/790) bildet den Rahmen, den Deutschland mit §44b UrhG umgesetzt hat.
- Der AI Act (Art. 53 Abs. 1 lit. c VO (EU) 2024/1689) verpflichtet Anbieter von GPAI-Modellen, eine Urheberrechtspolicy zu veröffentlichen und das EU-Urheberrecht beim Training einzuhalten.
Große Sprachmodelle wie GPT-4, Claude oder Gemini werden mit Milliarden von Texten, Bildern und Datensätzen trainiert. Viele dieser Daten stammen aus dem Internet -- aus Nachrichtenartikeln, Blogbeiträgen, Büchern, Fotografien und wissenschaftlichen Publikationen. Die zentrale Frage: Dürfen KI-Anbieter urheberrechtlich geschützte Werke einfach als Trainingsdaten verwenden?
Die Antwort liegt im Text- und Data-Mining-Recht, das in Deutschland durch §44b UrhG geregelt wird. Dieser Artikel erklärt die Rechtslage, zeigt die Grenzen der Schrankenregelung auf und gibt praktische Hinweise für Content-Ersteller und KI-Nutzer gleichermaßen.
Was ist Text- und Data-Mining?
Text- und Data-Mining (TDM) beschreibt die automatisierte Analyse großer Mengen digitaler Inhalte, um daraus Informationen zu gewinnen. Das kann bedeuten: Muster erkennen, Zusammenhänge identifizieren, statistische Korrelationen berechnen oder Modelle trainieren.
§44b Abs. 1 UrhG definiert TDM als:
„die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen."
Diese Definition ist bewusst weit gefasst. Sie umfasst nicht nur klassische Data-Science-Verfahren, sondern ausdrücklich auch das Training von KI-Modellen. Wenn ein Large Language Model (LLM) auf Millionen von Texten trainiert wird, findet Text-Mining statt. Wenn ein Bildgenerierungsmodell wie Stable Diffusion oder DALL-E mit Millionen von Fotos und Illustrationen gefüttert wird, handelt es sich um Data-Mining.
Technisch gesehen umfasst der TDM-Prozess beim KI-Training mehrere Schritte:
- Beschaffung: Texte, Bilder oder andere Werke werden aus dem Internet oder aus Datenbanken gesammelt (Crawling/Scraping).
- Vervielfältigung: Die Werke werden -- zumindest vorübergehend -- kopiert und auf Servern gespeichert.
- Analyse: Algorithmen verarbeiten die Daten, um Gewichtungen und Parameter des KI-Modells zu berechnen.
- Speicherung: Die extrahierten Informationen fließen in das trainierte Modell ein.
Urheberrechtlich problematisch ist vor allem Schritt 2: die Vervielfältigung. Denn das Vervielfältigungsrecht (§16 UrhG) ist eines der zentralen Verwertungsrechte des Urhebers. Ohne eine gesetzliche Erlaubnis -- eine sogenannte Schranke -- wäre jede Kopie zustimmungspflichtig.
§44b UrhG: Die TDM-Schranke im Detail
Absatz 1: Die allgemeine Erlaubnis
§44b Abs. 2 UrhG gestattet Vervielfältigungen von rechtmäßig zugänglichen Werken für Text- und Data-Mining. Das bedeutet:
- Jeder darf TDM betreiben -- nicht nur Forschungseinrichtungen, sondern auch Unternehmen und Privatpersonen.
- Die Werke müssen rechtmäßig zugänglich sein. Ein frei im Internet veröffentlichter Artikel ist rechtmäßig zugänglich. Ein Werk hinter einer Paywall ist es nur, wenn der Nutzer einen gültigen Zugang hat.
- Die Vervielfältigungen dürfen so lange aufbewahrt werden, wie es für das TDM erforderlich ist.
Diese allgemeine Schranke ist eine der großzügigsten TDM-Regelungen weltweit. Im Gegensatz zum US-amerikanischen Fair-Use-System, das eine Einzelfallabwägung erfordert, gibt §44b UrhG eine klare gesetzliche Erlaubnis.
Absatz 2: Privilegierung der wissenschaftlichen Forschung
Ergänzend regelt §60d UrhG (in Verbindung mit der DSM-Richtlinie Art. 3) eine besondere Schranke für wissenschaftliche Forschungszwecke. Diese ist noch weitreichender:
- Die Vervielfältigungen dürfen für eine bestimmte Gruppe von Forschenden oder für individuelle Forschungsprojekte dauerhaft aufbewahrt werden.
- Forschungseinrichtungen und Bibliotheken dürfen Korpora anlegen und archivieren.
- Diese Privilegierung kann -- im Gegensatz zur allgemeinen Schranke -- nicht durch einen Opt-Out eingeschränkt werden.
Der Hintergrund: Die EU wollte sicherstellen, dass wissenschaftliche Forschung in Europa nicht durch urheberrechtliche Beschränkungen behindert wird. Deshalb ist die Forschungsschranke zwingend und kann von Rechteinhabern nicht ausgehebelt werden.
Absatz 3: Das Opt-Out-Recht
Hier liegt der entscheidende Hebel für Rechteinhaber. §44b Abs. 3 UrhG bestimmt:
Vervielfältigungen nach Absatz 2 sind nur zulässig, wenn die Nutzung der Werke „nicht durch den Rechteinhaber in maschinenlesbarer Form vorbehalten" wurde.
Das bedeutet: Wer nicht möchte, dass seine Werke für kommerzielles TDM -- und damit auch für KI-Training -- verwendet werden, muss dies maschinenlesbar erklären. Ein bloßer Hinweis im Impressum oder in den AGB reicht nicht aus. Die Erklärung muss so formuliert sein, dass ein Web-Crawler sie automatisch auslesen kann.
Wichtig: Das Opt-Out-Recht gilt nur für die allgemeine TDM-Schranke (kommerzielles und nicht-kommerzielles TDM), nicht für die wissenschaftliche Forschungsschranke nach §60d UrhG. Wissenschaftliche Forschung darf auch Opt-Out-geschützte Werke analysieren.
DSM-Richtlinie Art. 3-4: Der EU-Rahmen
§44b UrhG ist die deutsche Umsetzung der europäischen DSM-Richtlinie (Richtlinie (EU) 2019/790 über das Urheberrecht im digitalen Binnenmarkt). Die Art. 3 und 4 dieser Richtlinie bilden den Rahmen:
Art. 3 -- TDM für wissenschaftliche Forschung:
- Zwingende Ausnahme zugunsten von Forschungseinrichtungen und Kulturerbe-Einrichtungen.
- Kein Opt-Out möglich.
- Die Vervielfältigungen müssen auf einem angemessenen Sicherheitsniveau gespeichert werden.
Art. 4 -- Allgemeine TDM-Ausnahme:
- Erlaubt TDM für jeden Zweck, einschließlich kommerzieller Nutzung.
- Rechteinhaber können einen Nutzungsvorbehalt erklären (Opt-Out).
- Bei Online-Inhalten muss der Vorbehalt maschinenlesbar sein.
Die DSM-Richtlinie wurde von den EU-Mitgliedstaaten unterschiedlich umgesetzt. Deutschland hat mit §44b UrhG eine vergleichsweise klare Regelung geschaffen. Andere Mitgliedstaaten -- wie Frankreich oder Italien -- haben die Richtlinie enger umgesetzt oder setzen stärker auf die Durchsetzung des Opt-Out-Rechts.
Entscheidend ist: Die DSM-Richtlinie wurde vor dem KI-Boom verabschiedet (2019). Der Gesetzgeber hatte beim Entwurf klassisches Text-Mining im Blick -- etwa die Analyse wissenschaftlicher Publikationen oder Patentdatenbanken. Ob die Schranke auch das Training von generativen KI-Modellen abdeckt, die anschließend Inhalte produzieren, die mit den Trainingsdaten konkurrieren, ist eine der umstrittensten Fragen des KI-Urheberrechts.
Wie funktioniert der Opt-Out in der Praxis?
Rechteinhaber, die ihr Opt-Out-Recht nach §44b Abs. 3 UrhG ausüben wollen, haben mehrere Möglichkeiten. Die folgende Tabelle gibt einen Überblick:
| Methode | Beschreibung | Rechtliche Wirkung | Umsetzung |
|---|---|---|---|
| robots.txt | Anweisung an Web-Crawler in der Datei robots.txt im Root-Verzeichnis der Website, z.B. User-agent: GPTBot / Disallow: / | Anerkannt als maschinenlesbare Erklärung. Gängigste Methode. Viele KI-Anbieter haben eigene User-Agents registriert (GPTBot, Google-Extended, CCBot). | Eintrag in robots.txt auf dem Webserver. Muss regelmäßig aktualisiert werden, wenn neue Bots hinzukommen. |
| Meta-Tags | HTML-Meta-Tags wie <meta name="robots" content="noai, noimageai"> im Header einzelner Seiten. | Wachsende Anerkennung. Von einigen Anbietern respektiert. Noch kein einheitlicher Standard. | Einfügung im HTML-Header (<head>) jeder betroffenen Seite. |
| HTTP-Header | Spezielle HTTP-Response-Header wie X-Robots-Tag: noai. | Technisch möglich, aber noch weniger verbreitet als robots.txt. Rechtlich gleichwertig, wenn maschinenlesbar. | Konfiguration auf Webserver-Ebene (Apache, Nginx, Caddy). |
| TDM Reservation Protocol (TDMRep) | W3C-Entwurf für ein standardisiertes Protokoll zur Erklärung von TDM-Vorbehalten. | In Entwicklung. Noch nicht weit verbreitet, aber von der EU-Kommission unterstützt. | Einbindung über tdmrep-Property in HTML oder HTTP-Header. |
| Vertragliche Vereinbarung | Individuelle Lizenzverträge zwischen Rechteinhaber und KI-Anbieter, z.B. Deals zwischen Verlagen und OpenAI. | Stärkster Schutz. Individuelle Konditionen, Vergütungsregelungen und Nutzungsbeschränkungen möglich. | Vertragsverhandlung mit dem KI-Anbieter. Für kleine Rechteinhaber oft nicht realistisch. |
| Verwertungsgesellschaften | Kollektive Lizenzierung über VG Wort, GEMA etc. | In Diskussion. Könnte langfristig ein Vergütungsmodell für TDM schaffen. | Wahrnehmungsvertrag mit der zuständigen Verwertungsgesellschaft. |
Praxisproblem: Wird der Opt-Out respektiert?
Das größte Problem des Opt-Out-Systems ist die Durchsetzung. Ein robots.txt-Eintrag ist eine Aufforderung, keine technische Sperre. KI-Anbieter können den Eintrag ignorieren -- und in der Praxis geschieht das auch. Die Überprüfung, ob ein bestimmtes Werk für das Training verwendet wurde, ist technisch extrem schwierig.
Zudem besteht ein Zeitproblem: Viele KI-Modelle wurden mit Daten trainiert, die vor der breiten Einführung von Opt-Out-Mechanismen gesammelt wurden. Ob ein nachträglicher Opt-Out auch für bereits abgeschlossene Trainingsvorgänge gilt, ist rechtlich ungeklärt.
Aktuelle Rechtsfragen und Verfahren
Die Frage, ob TDM-Schranken das KI-Training wirklich abdecken, wird derzeit in mehreren aufsehenerregenden Verfahren geprüft:
New York Times vs. OpenAI (USA)
Im Dezember 2023 hat die New York Times Klage gegen OpenAI und Microsoft eingereicht. Die Zeitung argumentiert, dass ChatGPT in der Lage ist, NYT-Artikel nahezu wörtlich wiederzugeben -- was über eine bloße Analyse hinausgehe und eine unzulässige Vervielfältigung darstelle. Das Verfahren ist noch anhängig und könnte die Interpretation von Fair Use in den USA grundlegend verändern. Obwohl es sich um US-Recht handelt, hat das Ergebnis Signalwirkung für die europäische Debatte.
GEMA vs. OpenAI (Deutschland)
Die GEMA (Gesellschaft für musikalische Aufführungs- und mechanische Vervielfältigungsrechte) hat im November 2024 vor dem Landgericht München Klage gegen OpenAI eingereicht. Die GEMA argumentiert, dass OpenAI die Songtexte ihrer Mitglieder ohne Lizenz für das Training von ChatGPT verwendet habe. Es ist die erste Klage einer Verwertungsgesellschaft gegen einen KI-Anbieter in Europa. Das Verfahren wird voraussichtlich grundlegende Fragen zur Reichweite von §44b UrhG klären -- insbesondere ob die TDM-Schranke auch greift, wenn das trainierte Modell anschließend Inhalte erzeugt, die den Originalen ähneln.
Bildrechte: Getty Images und Fotografen
Getty Images hat in den USA und im Vereinigten Königreich Klage gegen Stability AI eingereicht, weil das Unternehmen Millionen von Getty-Fotos für das Training von Stable Diffusion verwendet habe -- einschließlich solcher mit sichtbarem Getty-Wasserzeichen im generierten Output. Parallel laufen Klagen von einzelnen Künstlern und Fotografen gegen verschiedene Bildgenerierungs-KI-Anbieter.
Kneschke vs. LAION (Deutschland)
Der Fotograf Robert Kneschke hat in Deutschland Klage gegen LAION e.V. eingereicht, dessen frei verfügbarer Datensatz LAION-5B die Grundlage für mehrere Bildgeneratoren bildet. Das Verfahren vor dem Landgericht Hamburg könnte erstmals die Anwendbarkeit von §44b UrhG auf KI-Training in der deutschen Rechtsprechung klären.
AI Act und Text- und Data-Mining
Mit der Verordnung (EU) 2024/1689 -- dem AI Act -- hat die EU eine weitere Regulierungsebene geschaffen, die direkt an das TDM-Urheberrecht anknüpft.
Art. 53 Abs. 1 lit. c: Urheberrechtspflichten für GPAI-Anbieter
Art. 53 Abs. 1 lit. c VO (EU) 2024/1689 verpflichtet Anbieter von General Purpose AI (GPAI) Modellen dazu:
- Eine hinreichend detaillierte Zusammenfassung der für das Training verwendeten Inhalte zu erstellen und öffentlich zugänglich zu machen.
- Eine Policy zur Einhaltung des EU-Urheberrechts zu veröffentlichen, insbesondere zur Beachtung des Opt-Out-Rechts nach Art. 4 Abs. 3 der DSM-Richtlinie.
Das bedeutet konkret: KI-Anbieter wie OpenAI, Google, Meta oder Mistral müssen offenlegen, welche Arten von Daten sie für das Training verwendet haben, und nachweisen, dass sie Opt-Out-Erklärungen von Rechteinhabern beachtet haben. Die genauen Anforderungen an die Zusammenfassung werden in einem Template konkretisiert, das das AI Office der EU-Kommission erarbeitet.
Verknüpfung von AI Act und Urheberrecht
Der AI Act ersetzt das Urheberrecht nicht -- er ergänzt es. Die Grundregel bleibt: §44b UrhG (bzw. Art. 3-4 DSM-RL) bestimmt, ob eine Vervielfältigung für TDM zulässig ist. Der AI Act fügt eine Transparenzpflicht hinzu: Selbst wenn das Training urheberrechtlich zulässig war, muss der KI-Anbieter dies dokumentieren und offenlegen.
Bei Verstößen gegen Art. 53 drohen Bußgelder von bis zu 15 Millionen Euro oder 3 % des weltweiten Jahresumsatzes (Art. 101 VO (EU) 2024/1689).
Praxis: Was Content-Ersteller tun sollten
Wenn Sie als Unternehmen, Verlag, Fotograf oder Kreativer verhindern möchten, dass Ihre Inhalte für KI-Training verwendet werden, empfehlen wir folgende Schritte:
1. robots.txt einrichten und pflegen
Tragen Sie die bekannten KI-Crawler in Ihre robots.txt ein. Eine aktuelle Liste der relevanten User-Agents umfasst unter anderem: GPTBot (OpenAI), Google-Extended (Google), anthropic-ai (Anthropic), CCBot (Common Crawl), Bytespider (ByteDance). Aktualisieren Sie die Liste regelmäßig.
2. Meta-Tags ergänzen
Fügen Sie auf wichtigen Seiten <meta name="robots" content="noai, noimageai"> ein. Auch wenn der Standard noch nicht einheitlich ist, schaffen Sie damit eine zusätzliche Opt-Out-Erklärung.
3. Nutzungsbedingungen anpassen Ergänzen Sie Ihre AGB oder Nutzungsbedingungen um eine ausdrückliche TDM-Klausel: „Die Nutzung der auf dieser Website veröffentlichten Inhalte für Text- und Data-Mining im Sinne von §44b UrhG wird hiermit untersagt, sofern keine ausdrückliche Genehmigung erteilt wurde."
4. Verwertungsgesellschaften nutzen Prüfen Sie, ob Ihre Verwertungsgesellschaft (VG Wort, VG Bild-Kunst, GEMA) bereits Maßnahmen zum Schutz vor unautorisierten KI-Trainings ergriffen hat. Informieren Sie sich über laufende Klageverfahren und mögliche Vergütungsansprüche.
5. Dokumentation sicherstellen Dokumentieren Sie, wann Sie welche Opt-Out-Maßnahmen implementiert haben. Im Streitfall ist der Nachweis entscheidend, dass der Vorbehalt rechtzeitig und maschinenlesbar erklärt wurde.
Praxis: Was KI-Nutzer in Unternehmen beachten müssen
Auch auf der Nutzerseite -- also bei Unternehmen, die KI-Systeme einsetzen -- gibt es Handlungsbedarf:
1. Anbieter-Due-Diligence Prüfen Sie, ob Ihr KI-Anbieter eine Urheberrechtspolicy veröffentlicht hat und ob er Opt-Out-Erklärungen nachweislich respektiert. Dies ist insbesondere ab dem Inkrafttreten der GPAI-Pflichten des AI Act relevant.
2. Haftungsrisiken verstehen Wenn ein KI-Modell urheberrechtlich geschützte Inhalte reproduziert, können neben dem Anbieter auch Nutzer haftbar sein -- etwa wegen Verbreitung oder öffentlicher Zugänglichmachung. Prüfen Sie KI-generierte Inhalte vor der Veröffentlichung auf mögliche Urheberrechtsverletzungen.
3. Interne Richtlinien erstellen Definieren Sie in einer internen KI-Richtlinie, wie Mitarbeiter mit KI-generierten Inhalten umgehen sollen. Insbesondere: Keine Veröffentlichung von KI-Output, der offensichtlich urheberrechtlich geschützte Werke reproduziert.
4. Vertragliche Absicherung Achten Sie in Verträgen mit KI-Anbietern auf Freistellungsklauseln (Indemnification) für den Fall von Urheberrechtsverletzungen durch das trainierte Modell.
Häufige Fragen (FAQ)
Darf ich als Unternehmen KI-Modelle mit eigenen Kundendaten trainieren?
Das ist eine andere Frage als TDM im Sinne von §44b UrhG. Wenn Sie eigene Daten verwenden, an denen Sie die Rechte halten, gibt es kein urheberrechtliches Problem. Allerdings können datenschutzrechtliche Einschränkungen gelten (DSGVO), insbesondere wenn personenbezogene Daten betroffen sind. Zudem müssen Sie prüfen, ob Ihre Kunden der Nutzung für KI-Training zugestimmt haben.
Gilt der Opt-Out auch rückwirkend für bereits trainierte Modelle?
Diese Frage ist rechtlich ungeklärt. Aus dem Wortlaut von §44b Abs. 3 UrhG ergibt sich kein Rückwirkungsverbot. Allerdings argumentieren KI-Anbieter, dass ein einmal abgeschlossener Trainingsvorgang nicht rückgängig gemacht werden kann -- die Daten sind in den Modellparametern „aufgelöst". Die Gerichte werden diese Frage in den kommenden Jahren klären müssen.
Reicht ein Hinweis in den AGB als Opt-Out aus?
Nein, in der Regel nicht. §44b Abs. 3 UrhG verlangt eine Erklärung in „maschinenlesbarer Form". Ein bloßer Text in den AGB wird von einem Web-Crawler nicht automatisch erfasst. Sie benötigen zusätzlich technische Maßnahmen wie robots.txt-Einträge oder Meta-Tags.
Können Verwertungsgesellschaften den Opt-Out kollektiv erklären?
Das ist derzeit Gegenstand der Diskussion. Die GEMA und VG Wort haben Positionen bezogen, aber es gibt noch keinen etablierten Mechanismus für einen kollektiven Opt-Out über Verwertungsgesellschaften. Die laufenden Verfahren -- insbesondere GEMA vs. OpenAI -- könnten hier Klarheit schaffen.
Was passiert, wenn ein KI-Anbieter meinen Opt-Out ignoriert?
Wenn ein KI-Anbieter Ihr Opt-Out ignoriert und Ihre Werke dennoch für das Training verwendet, liegt eine Urheberrechtsverletzung vor. Sie können auf Unterlassung, Auskunft und Schadensersatz klagen (§§97 ff. UrhG). Die Beweisführung ist allerdings schwierig: Sie müssen nachweisen, dass Ihre konkreten Werke im Training verwendet wurden. Hier können Transparenzpflichten aus dem AI Act (Art. 53) künftig helfen.
Fazit
Text- und Data-Mining ist die urheberrechtliche Kernfrage des KI-Zeitalters. §44b UrhG bietet einen Rahmen, der sowohl KI-Innovation als auch Rechteinhaber-Interessen berücksichtigt -- aber die konkrete Anwendung auf generatives KI-Training ist noch nicht abschließend geklärt.
Für Unternehmen bedeutet das: Wer KI-Systeme nutzt, sollte die Urheberrechtspolicies seiner Anbieter kennen. Wer Inhalte erstellt, sollte sein Opt-Out-Recht konsequent umsetzen. Und wer KI-Compliance ernst nimmt, sollte die laufenden Gerichtsverfahren und die Umsetzung des AI Act aufmerksam verfolgen.
Die nächsten zwei bis drei Jahre werden zeigen, ob die bestehenden Schrankenregelungen für das KI-Zeitalter ausreichen -- oder ob der Gesetzgeber nachbessern muss.
Sie möchten sicherstellen, dass Ihr Unternehmen die urheberrechtlichen Pflichten beim Einsatz von KI-Systemen einhält? KI Comply bietet Schulungen und Compliance-Lösungen, die Ihre Mitarbeiter auf die aktuellen Anforderungen vorbereiten -- von §44b UrhG über die DSM-Richtlinie bis zum AI Act.
Rechtsquellen
- TDM-Schranke – §44b UrhG
- DSM-Richtlinie – Art. 3-4 RL (EU) 2019/790
- Opt-Out-Recht – §44b Abs. 3 UrhG
- GPAI Urheberrechtsinfo – Art. 53 Abs. 1 lit. c VO (EU) 2024/1689 (Quelle)
Dieser Artikel dient der allgemeinen Information und stellt keine Rechtsberatung dar. Für eine rechtliche Bewertung Ihres konkreten Falls wenden Sie sich bitte an einen spezialisierten Rechtsanwalt.
Artikel teilen:
Machen Sie Ihr Team KI-fit
Mit unserer Online-Schulung erfüllen Sie die Anforderungen der KI-Verordnung - einfach und effizient.
Preise ansehen