Illegales Futter: Darf künstliche Intelligenz mit geschützten Daten lernen?

Damit künstliche Intelligenz funktioniert, muss sie mit Unmengen an Daten trainiert werden. Oft sind diese Trainingsdaten aber urheberrechtlich geschützt.

Die Diskussion rund um die Anwendungen künstlicher Intelligenz (KI) beschränkte sich in den letzten Jahren häufig auf regulatorische Fragen. Auch bei Fragen zu KI und Urheberrecht war der Fokus meist darauf gerichtet, ob die von KI generierten Inhalte – also der Output – urheberrechtlich geschützt sein können und wem daran allenfalls Rechte zustehen. Erst jüngst rückten urheberrechtliche Fragen rund um den Input, also die für viele KI-System notwendigen Datensätze zum Trainieren der Software, in die breitere Öffentlichkeit.

Das zeigt sich etwa an der kürzlich von der Bildagentur Getty Images öffentlichkeitswirksam lancierten Klage gegen Stability AI (den Anbieter der "KI-Kunst"-Anwendung Stable Diffusion). Die Klage betrifft unter anderem das unautorisierte Scraping von Bildmaterial für Zwecke des Trainings der KI-Anwendung. Der Vorwurf: Beim Scraping werde eine große Anzahl von auch urheberrechtlich geschützten Inhalten rechtswidrig kopiert. Das Thema ist freilich nicht nur für "KI-Kunst"-Anwendungen wie Stable Diffusion relevant, sondern für alle KI-Systeme, die im großen Stil auf öffentlich verfügbare Daten als Trainingsmaterial zurückgreifen, etwa die Textanwendung ChatGPT.

Schutz gegen Vervielfältigung

Jene Fälle, in denen die KI urheberrechtlich geschütztes Material in erkennbarer Form direkt in den Output kopiert, sind klar: Hier wird in aller Regel eine Urheberrechtsverletzung vorliegen. Kniffliger ist der häufigere Fall, dass urheberrechtlich geschütztes Material im Output der KI in einer Form zur Geltung kommt, die nicht mehr erkennbar ist. Dann stellt sich nämlich die Frage, ob schon das Scraping – zum Beispiel der Bilder bzw. der Bilddaten aus der Datenbank von Getty Images zum Zwecke des Trainings der KI – eine Urheberrechtsverletzung darstellt, weil die Bilder damit im urheberrechtlichen Sinne vervielfältigt werden.

Das wesentlich vom EU-Recht beeinflusste österreichische Urheberrecht schützt gegen unerlaubte Vervielfältigungen (also Kopien), soweit keine ausdrückliche Ausnahme greift. Dass die beim Scraping eingesammelten Inhalte technisch kopiert und somit vervielfältigt werden, hängt vom technischen Verfahren des Scrapings ab, wird in der Regel aber zu bejahen sein. Eine der infrage kommenden gesetzlichen Ausnahmen, auf die man sich beim Scraping stützen könnte, betrifft sogenannte flüchtige und begleitende vorübergehende Vervielfältigungen, wenn diese ein integraler und wesentlicher Teil eines technischen Verfahrens sind. Allerdings muss der alleinige Zweck einer derartigen Vervielfältigung in der digitalen Übertragung liegen. Diese auf Caching – also die kurzfristige Zwischenspeicherung von Inhalten etwa im Arbeitsspeicher – gemünzte Ausnahme findet auf Scraping daher wohl keine Anwendung.

Spezifische Ausnahmebestimmung

Freilich kennt das österreichische Urheberrecht seit der Urheberrechtsnovelle 2021 eine spezifische Ausnahmebestimmung zum "Text and Data Mining", die aus der EU-Richtlinie über das Urheberrecht im digitalen Binnenmarkt (2019/790/EU) stammt. Diese Ausnahme betrifft die Vervielfältigung zur Auswertung von Texten und Daten in digitaler Form, also auch das hier relevante Scraping.

Die Ausnahme soll vor allem die Auswertung großer Datenmengen für die Forschung ermöglichen. Mit Einschränkungen ist das zwar auch für kommerzielle Zwecke möglich – also auch für Anwendungen wie GPT oder Stable Diffusion. Das gilt jedoch nur soweit, als der Begünstigte rechtmäßig Zugang zu den relevanten Werken hat.

Wenn die Inhalte im Internet ohne weiteres öffentlich zugänglich sind, ließe sich das unter Umständen argumentieren. Anders sind dagegen Fälle zu beurteilen, in denen die Vervielfältigung ausdrücklich verboten und der Rechteinhaber dazu einen entsprechenden Vorbehalt (etwa in den AGB bzw. in den Metadaten) gemacht hat. Bei im Internet verfügbaren Werken kann und muss ein derartiger Vorbehalt auch mit maschinenlesbaren Mitteln (etwa in den Metadaten eines Bildes) kenntlich gemacht werden, um wirksam zu sein.

Sicherheit nur mit Lizenz

Bildagenturen wie Getty Images haben typischerweise derartige Vorbehalte in ihren Nutzungsbedingungen und Metadaten. Ein rechtliches Vorgehen gegen Softwarefirmen, die zustimmungsloses Datascraping betreiben, könnte daher nach österreichischem und nach EU-Recht Aussicht auf Erfolg haben.

Im Ergebnis heißt das, das KI-Anbieter beim Scraping urheberrechtlich geschützter Inhalte tatsächlich vorsichtig sein müssen. Online öffentlich zugängliche Inhalte sollten auf entsprechende Vorbehalte geprüft werden. Anbieter, die Rechtssicherheit wollen, müssen eine Erlaubnis in Form einer Lizenz einholen. Ansonsten droht – soweit die Sammlung und Einspeisung in die KI Vervielfältigungen mit sich bringt – juristisches Ungemach in Form von urheberrechtlichen Unterlassungs- und Schadenersatzansprüchen. (Lutz Riede, Matthias Hofer, 7.2.2023)

Gerichtsverfahren

Illegales Futter: Darf künstliche Intelligenz mit geschützten Daten lernen?

Schutz gegen Vervielfältigung

Spezifische Ausnahmebestimmung

Sicherheit nur mit Lizenz

Forum: 5 Postings

Ihre Meinung zählt.