Woher beziehen Systeme künstlicher Intelligenz (KI) wie ChatGPT eigentlich ihr Wissen? Eine häufig gestellte Frage, deren Antwort wiederum in direkter Folge eine ganz andere Frage aufwirft – nämlich zur Legalität. Immerhin wurden große Sprachmodelle wie GPT-4, auf dem ChatGPT aufsetzt, mit einer Unzahl von Inhalten aus unterschiedlichen Quellen trainiert. Woher die KI dann konkret ihr Wissen für eine einzelne Antwort bezieht, ist bei so einem System nicht ohne weiteres zu sagen.

Kommt die große Klage?

Nun könnte es zum ersten großen Urheberrechtsverfahren rund um generative KI kommen. Wie die US-Rundfunkanstalt in Berufung auf mehrere mit der Angelegenheit vertraute Personen berichtet, prüft die "New York Times" derzeit eine Klage gegen ChatGPT-Hersteller OpenAI.

Das Logo von ChatGPT ist auf einem Smartphone zu sehen
Tools wie ChatGPT haben ihr Wissen aus einer Unzahl von Quellen bezogen. Ob das legal ist, könnte bald vor Gericht landen.
IMAGO/Panama Pictures

Der Vorwurf: Das dahinterstehende KI-Modell sei – unter anderem – mit Artikeln der Zeitung trainiert worden. Damit würden auf GPT basierende Anwendungen direkt von Wissen und Arbeit der Zeitung profitieren, ohne dafür etwas zu zahlen. In letzter Konsequenz könnte dies dazu führen, dass viele die Webseite der "New York Times" nicht mehr besuchen müssten, wenn sie das von dort erlernte Wissen anderswo kostenlos bekommen.

Ungeklärte Fragen

Dass die großen Sprachmodelle von OpenAI unter anderem mit Texten der "New York Times", aber auch anderer Zeitungen trainiert wurden, ist dabei ebenso unbestritten, wie dass dafür keine Genehmigung eingeholt wurde. Ob das legal war, wird von Expertinnen und Experten sehr unterschiedlich beurteilt. So gibt es durchaus auch eine Rechtsauffassung, die das Training anhand von öffentlich verfügbaren Informationen als unproblematisch einstuft und eher damit vergleicht, wenn sich Menschen nach und nach Wissen aus unterschiedlichen Quellen aneignen – was auch oft ohne Abgeltung und späteren Verweisen passiert. OpenAI wird sicherlich auch mit dem in den USA recht weit ausgelegten "Fair Use"-Prinzip argumentieren.

Zahlen oder nicht trainieren

Im Endeffekt geht es bei all dem auch um ein handfestes Thema: Die finanzielle Abgeltung für Seiten, die als Trainingsmaterial für KI-Systeme genutzt werden. So soll denn auch die "New York Times" gerade in Verhandlungen mit OpenAI zu diesem Thema stecken, hinter den aktuellen Klagsüberlegungen könnten also auch strategischen Überlegungen stecken, um den Druck auf die KI-Firma zu erhöhen.

Unabhängig davon ist aber klar: Ein solches Verfahren könnte für OpenAI – und die gesamte Branche – nachhaltige Konsequenzen haben. Denn da bei KI-Modellen, wie erwähnt, nicht klar ist, woher ein einzelnes Stück an "Wissen" stammt, müssten im Falle einer Verurteilung die Modelle von OpenAI eigentlich komplett gelöscht, das Training also neu gestartet werden.

Nur mehr lizenzierte Inhalte?

Ein Neuaufbau wäre dann eigentlich nur mehr mit offiziell lizenzierten Inhalten möglich, würden doch sonst andere Medien sicherlich schnell mit eigenen Klagen folgen. Eine vollständige Lizenzierung könnte wiederum für die betreffenden Firmen ziemlich teuer werden – von der Komplexität dieser Aufgabe einmal ganz abgesehen. Immerhin geht es hierbei um viele Millionen Werke, die für das Training herangezogen werden. Eine solche Verpflichtung könnte also "potentiell vernichtend" für eine Firma wie OpenAI sein, ist zumindest Daniel Gervais, Urheberrechtsexperte an der Vanderbilt University, überzeugt.

Zudem würde OpenAI in so einem Verfahren auch eine saftige Geldstrafe drohen: Um bis zu 150.000 US-Dollar pro einzelnem Urheberrechtsverstoß geht es dabei. Angesichts der Popularität von ChatGPT und Co dürfte hier eine große Summe zusammenkommen.

Vorgeschichte

Die "New York Times" hat sich zuletzt zunehmend offensiver gegen die aktuelle Art der KI-Nutzung oder genauer die Art des Trainings positioniert. So verbietet die Zeitung seit einigen Wochen explizit das Training von KI-Modellen auf Basis eigener Texte und Bilder.

Es wäre allerdings nicht die erste Klage in diesem Bereich. So hat die Comedian Sarah Silverman vor einigen Wochen gemeinsam mit einigen anderen Autorinnen und Autoren Klage gegen OpenAI und Meta eingereicht. Diese hätten ihre KI-Modelle ohne Genehmigung an ihren Büchern – und damit urheberrechtlich geschützten Inhalten – trainiert. Auch rund um populäre Bild-KI-Systeme wie Stable Diffusion wird immer wieder vor der damit einhergehenden Rechtsunsicherheit gewarnt. (apo, 18.8.2023)