Praktische Überlegungen zum Nutzungsvorbehalt

KI-Experte Sebastian Stober beleuchtet einen Aspekt des Urheberrechts aus technischer Perspektive: das Text und Data Mining. Er widmet sich der Frage: Wie können Inhalte vor Crawling und Data Mining geschützt werden?


Zum Training generativer KI-Modelle wie GPT oder Dall-E werden große Mengen an Daten benötigt. Dabei ist es gängige Praxis, entsprechende Inhalte auch durch systematisches Crawling des Internets zu sammeln. Seit 2021 können sich auch kommerzielle Unternehmen dabei rechtlich auf das deutsche Urheberrechtsgesetz (UrhG) berufen, welches in § 44b »Vervielfältigungen von rechtmäßig zugänglichen Werken für das Text und Data Mining« zulässt, solange kein ausdrücklicher Nutzungsvorbehalt durch den Rechtsinhaber vorliegt. Hierin wurde die sogenannte DSM-Richtlinie der EU (Directive on Copyright in the Digital Single Market) von 2019 umgesetzt. § 44b UrhG beschreibt Text und Data Mining als »automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen.« Nach meinem fachlichen Verständnis würde ich die automatische Generierung von Texten und anderen Medien nicht mehr zum Bereich des Text und Data Mining zählen. Hier kann man aber auch anderer Meinung sein, und letztlich ist nicht die fachliche sondern die juristische Auslegung entscheidend.

Angenommen, das Crawling ist rechtens, wie kann dann ein Nutzungsvorbehalt – auch Opt-out genannt – umgesetzt werden? Laut § 44b Abs. 3 UrhG ist bei online zugänglichen Werken ein Opt-out »nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt.« Dies erscheint insofern sinnvoll, als dass der Crawling-Prozess automatisiert erfolgt und die Information, ob ein Opt-out vorliegt, automatisch ausgewertet werden muss. Darüber, wie genau das umgesetzt werden soll, liefert das Gesetz keine Details. Auch gibt es noch keinen verbindlichen technischen Standard für einen solchen Mechanismus. Im Folgenden möchte ich daher verschiedene technische Möglichkeiten skizzieren, die sich aktuell anbieten, um einen Opt-out umzusetzen und die Nutzung von Inhalten für das Training generativer KIs zu verhindern. Dabei sei darauf hingewiesen, dass ich weder Anwalt noch Urheberrechtsexperte bin. Vielmehr gebe ich hier die Lage aus meiner Sicht nach bestem Wissen und Gewissen wieder.

Nutzungsbedingungen und Lizenzen einbetten

Unabhängig von der gewählten Methode sollte das Datum für das Inkrafttreten der neuen Nutzungsbedingungen nach Möglichkeit juristisch sicher dokumentiert werden, damit es keinen Zweifel daran geben kann, ob sie zu einem bestimmten Zeitpunkt galten oder nicht. Zunächst ist eine Integration des Nutzungsvorbehalts in das Impressum oder die Allgemeinen Geschäftsbedingungen (AGB) der Webseite naheliegend. Dabei muss aber die Maschinenlesbakeit gegeben sein. Die Creative Commons bieten hierzu z. B. Lizenzen in maschinenlesbarer »Rights Expression Language« an, mit denen einer kommerziellen Nutzung wiedersprochen werden kann. HTML-Code zum Einbetten in eine Webseite kann automatisch generiert werden und für mit WordPress erstellte Webseiten gibt es auch ein Plugin, was dies übernimmt.

Generell empfiehlt es sich auch, Urheberinformationen und Nutzungsbedingungen direkt in die entsprechenden Medien und deren Metadaten einzubetten. Bei Bildern bieten sich entsprechende Einträge in den IPTC-Metadaten an, die auch von Suchmaschinen wie z. B. Google und DuckDuckGo ausgelesen und bei der Suche berücksichtigt werden. Es ist generell eine gute Idee, diese Metadaten zu pflegen, sodass bei einer Websuche nach Lizenzen gefiltert werden kann. Alle gängigen Bildbearbeitungsprogramme sollten die Bearbeitung der entsprechenden Metadaten unterstützen. Wer die Metadaten-Bearbeitung per Skript automatisieren möchte, kann z. B. zu ExifTool greifen.

robots.txt

Eine weitere Möglichkeit liegt in der sogenannten robots.txt, die im als Standard etablierten »Robots Exclusion Protocol« beschrieben wird. Diese robots.txt-Datei liegt im Stammverzeichnis der Webseite auf dem Server und wird in der Regel von Crawler-Bots ausgelesen und berücksichtigt. Damit kann sowohl allgemein als auch für einzelne Bots festgelegt werden, welche Dateien ausgelesen und welche Links weiterverfolgt werden dürfen. Hier könnte man Crawler generell aussperren und nur einzelne per Ausnahme erlauben. So kann sichergestellt werden, dass die Seite noch von Suchmaschinen indiziert werden kann. OpenAI erklärt z. B. ganz offen, wie dem ChatGPT-Bot durch einen Eintrag in robots.txt der Zugriff auf eine Webseite verwehrt werden kann. Dies gilt allerdings nur für die Aktionen des Bots während einer Unterhaltung und nicht für der Crawler, der die Daten für das Training sammelt. Für die aktuelle GPT-4-Version gibt es keine Informationen zum Crawler. Frühere Versionen wurden unter anderem mit Daten aus dem frei verfügbaren Common Crawl trainiert, der auch generell beim Training von Sprachmodellen sehr beliebt ist. Für den dazugehörigen Crawler gibt es ebenfalls eine Opt-out-Anleitung. Während diese Methode auf einem etablierten Mechanismus aufbaut, hat sie jedoch auch Nachteile. Zum einen ist die Ausdrucksfähigkeit eingeschränkt, so dass z. B. keine Nutzungsarten oder Lizenzbedingungen angegeben werden können. Aktuell wird daher eine Erweiterung des Standards diskutiert. Zum anderen wird hier ein Mechanismus zweckentfremdet, der eigentlich zur Suchmaschinenoptimierung entwickelt wurde, was durchaus zu Problemen führen kann.

TDM Reservation Protocol

Unter anderem deswegen wurde das »Text and Data Mining Reservation Protocol (TDM- Rep)« entwickelt. Diese Spezifikation des World Wide Web Consortium (W3C) ist eine direkte Antwort auf die EU DSM-Richtlinie – und somit auch auf § 44b UrhG. Sie definiert ein einfaches und praktisches Web-Protokoll, das in der Lage ist, den Nutzungsvorbehalt in Bezug auf Text und Data Mining (TDM) für rechtmäßig zugängliche Webinhalte auszudrücken und die Erkennung von TDM-Lizenzierungsrichtlinien für solche Inhalte zu erleichtern. Zur Einbindung stehen drei Mechanismen zur Verfügung: 1. Es kann analog zur robots.txt eine spezielle Datei unter dem Namen /.well-known/tdmrep.json auf dem Webserver angelegt werden, die alle Informationen enthält. 2. Die Informationen können in den HTTP-Header1 der Serverantwort eingebaut werden. 3. Es können entsprechende Meta-Tags im Kopf von HTML-Seiten verwendet werden. Für eine schnelle und einfache Umsetzung empfiehlt sich die 1. Variante. Um den Nutzungsvorbehalt auszudrücken, wird einfach über einen der drei Mechanismen der Wert von »tdm-reservation« auf 1 gesetzt. Zusätzlich kann über den Eintrag »tdm-policy« eine maschinenlesbare Lizenzierungsrichtlinie (Policy) verlinkt werden. Diese nutzt das Format der Open Digital Rights Language (ODRL) und enthält Informationen zu Rechteinhabern sowie Details über verfügbare TDM-Lizenzen. TDM-Akteuren wird es so erleichtert, mit Rechteinhabern von Inhalten in Kontakt zu treten und TDM-Lizenzen zu erwerben. Da das Format maschinenlesbar ist, könnte dies auch automatisiert erfolgen. Damit bietet sich hier eine sehr interessante Lösung, die sogar über den einfachen Nutzungsvorbehalt hinaus geht. Inwiefern diese jedoch schon von TDM-Akteuren umgesetzt wird, ist nicht klar. Angesichts des sehr geringen Aufwands, empfiehlt sich auf jeden Fall die Umsetzung für Rechteinhaber. Je weiter sich die Nutzung verbreitet, desto stärker dürfte der Druck auf die TDM-Akteure werden.

Zugriffskontrolle durch Auswertung des User-Agent

Leider kann nicht garantiert werden, dass sich Crawler-Bots an die robots.txt oder das TDM Reservation Protocol halten, auch wenn dies zum guten Ton gehört. Als weitere Maßnahme kann daher auch eine Zugriffskontrolle für Bots in Betracht gezogen werden. In der Regel identifizieren sich die unterschiedlichen Crawler-Bots über den Eintrag »User-Agent« im HTTP-Header bei jeder Anfrage an einen Webserver. Ist diese Information wahrheitsgemäß, kann sie für die Zugriffskontrolle verwendet werden. Der Webserver kann dann je nach User-Agent unterschiedliche Inhalte liefern oder auch den Zugriff verweigern. Das ist bereits gängige Praxis, um die Macken unterschiedlicher Browser abzufangen oder spezielle Funktionen freizuschalten, über die nicht jeder Browser verfügt. Hält sich ein Crawler jedoch nicht an die gängigen Konventionen und verschleiert seine Identität, indem er sich als ein anderer User-Agent ausgibt, kann dieser Mechanismus schnell ausgehebelt werden. Auch hierfür gibt es wieder Gegenmaßnahmen. Man kann z. B. versuchen, anhand des Surfverhaltens Menschen von Crawlern zu unterscheiden. Oder man kann – falls bekannt – den Netzwerk-Adressbereich eines Crawlers durch die Webserver-Firewall blocken lassen. Durch die Analyse von Serverlogs können solche Adressen durchaus herausgefunden werden. Der Aufwand für dieses »Wettrüsten« mit unkooperativen Crawlern ist jedoch erheblich und der zu erwartende Effekt wohl kaum die Mühe wert.

Erweiterte Gegenmaßnahmen — Maschinenlesbarkeit verringern

Wenn die Indizierung der Inhalte durch Suchmaschinen keine Rolle spielt, können auch drastischere Maßnahmen ergriffen werden, welche das maschinelle Auslesen von Inhalten erschweren. Dazu gehört das Erzwingen einer nachweisbar menschlichen Aktion wie z. B. einem Login, einer AGB-Bestätigung, dem Lösen eines CAPTCHA-Rätsels oder sogar einer Bezahlschranke. Erst dann wird der Zugriff auf die Inhalte gewährt. Eine weitere Möglichkeit besteht im dynamischen Nachladen oder Entschlüsseln der Inhalte auf der Client-Seite per Skript. Die eigentliche Webseite enthält hier keine direkt auslesbaren Inhalte. Auch Links zu eingebundenen Bildern und anderen Medien können so verschleiert werden. Erst durch Ausführen des Skripts werden sie verfügbar. In die gleiche Kategorie gehört der Ansatz, dass erst das Laden einer speziellen Schriftart, bei der die Einträge für die verschiedenen Buchstaben durcheinandergewürfelt wurden, aus einem scheinbaren Buchstabensalat einen lesbaren Text macht. Allerdings können fortgeschrittene Crawler prinzipiell auch Skripte ausführen, Schriftarten laden oder sogar die Interaktion mit einem Browser simulieren, aber das erfordert erheblichen Mehraufwand. Eine noch größere Hürde stellen Texte dar, die als Grafik eingebunden werden. Für Menschen sind diese weiterhin lesbar, aber für die maschinelle Erfassung müssen sie erst mit einer optischen Texterkennung analysiert werden. Allen diesen Tricks bin ich in der einen oder anderen Form schon begegnet und empfand das jedes Mal als extrem nervig. Denn solche Maßnahmen gehen in der Regel auf Kosten der Barrierefreiheit. Sind Skripte im Browser deaktiviert, schaut man ins Leere. Ein Text als Bild lässt sich nicht umformatieren, als Sprachausgabe vorlesen oder per Braille-Schnittstelle ausgeben. Es besteht daher die Gefahr, dass man Webseitenbesucher damit vergrault. Insofern sollte der Einsatz solcher Techniken wohlüberlegt sein.

  1. HTTP ist ein Kommunikationsprotokoll, das u.a. zur Übertragung von Webinhalten verwendet wird.

Sebastian Stober ist Professor für künstliche Intelligenz an der Otto-von-Guericke-Universität Magdeburg. In seiner aktuellen Forschung untersucht und entwickelt er generative Modelle für Musik und Sprache sowie Methoden, mit denen besser nachvollzogen werden kann, was eine künstliche Intelligenz gelernt hat und wie sie konkrete Probleme löst. Dabei verbindet er die Themen künstliche Intelligenz und maschinelles Lernen mit den Neurowissenschaften und Musik Information Retrieval. Er ist weiterhin Gründungsmitglied der International Society for Music Information Retrieval und Co-Organisator mehrerer internationaler Workshops.