Die Wahl der Trainingsinhalte für große Sprachmodelle ist noch weitgehend Geheimnis der Tech-Konzerne. Eine Untersuchung gibt zu bedenken, dass das dringend geändert werden sollte.

Foto: Getty Images/Just_Super

Künstliche Intelligenz von modernen Tools wie ChatGPT oder Bard lässt sich nicht auf Knopfdruck herbeizaubern. Sie erfordert ein aufwendiges Training sogenannter großer Sprachmodelle, die hinter diesen Chatbots stecken. Und die bisher bekannten Rahmenbedingungen dafür sind alles andere als positiv: Nicht nur, dass der Prozess einen hohen Ressourcenbedarf erfordert, auch sollen schon Billiglohnkräfte für das Training herangezogen worden sein.

Womit große Sprachmodelle "gefüttert" werden, um in Tools auf den ersten Blick intelligent zu wirken, ist gewissermaßen Teil der Blackbox. Eine Untersuchung der Washington Post zeigt nun auf, dass auch die Wahl der Trainingsinhalte nicht unumstritten sein dürfte. Neben der Angst vor den Augen der Konkurrenz könnte das wenigstens ein weiteres Puzzleteil sein, weshalb sich große Tech-Konzerne bei der Entwicklung künstlicher Intelligenz nur ungern in die Karten schauen lassen.

Datensatz von Google als Grundlage

Um Einblicke in diesen undurchsichtigen Prozess zu erhalten, hat die Washington Post in Kooperation mit dem Allen Institute for AI den C4-Datensatz von Google untersucht. Dieser Datensatz enthält eine umfangreiche Zusammenstellung der Inhalte von 15 Millionen Websites und diente auch dazu, relevante englischsprachige KI-Modelle wie Googles T5 und Facebooks LLaMA zu trainieren. Welche Datensätze ChatGPT zugrunde liegt, ist nicht bekannt.

Da ein Drittel der Websites nicht mehr abrufbar war, wurden die restlichen 10 Millionen Seiten nach der Häufigkeit ihrer "Token" im Datensatz gerankt. Darunter sind typischerweise Wörter oder Sätze zu verstehen, die von diesen Websites herangezogen worden sind.

Wikipedia, Raubkopien und Propaganda

Dominiert wurde der Datensatz vorwiegend von Websites aus dem Bereich Journalismus, Entertainment, Software-Entwicklung und Medizin. Die meisten Token stammen von der Website patents.google.com, die Texte aus erteilten Patenten enthält, gefolgt von der kostenlosen Online-Enzyklopädie Wikipedia. An dritter Stelle folgte scribd.com, das von vielen als "Youtube für Dokumente" bezeichnet wird.

Mindestens 27 Websites, die von der US-Regierung als Märkte für Raubkopien eingestuft worden sind, waren ebenfalls im Datensatz vorhanden. Ganz oben auf der Liste etwa b-ok.org, ein illegaler Markt für E-Books, der vom FBI mittlerweile schon eingestellt worden ist. Andere Seiten wiederum, wie beispielweise ein Forum für World-of-Warcraft-Spieler wirken absolut willkürlich gewählt.

Darüber hinaus tauchen in der Liste auch Websiten von Medien wie die von Russland unterstützte Russia Today auf oder das Breitbart News Network, eine bekannte Quelle für rechtsextreme Nachrichten und Meinungen. Die Verwendung solcher Trainingsdaten kann dazu führen, dass Vorurteile, Propaganda und falsche Informationen verbreitet werden, ohne dass der Nutzer die ursprüngliche Quelle der Informationen nachvollziehen kann.

Rechtlich zu hinterfragen

Nicht zuletzt wirft die Verwendung etlicher Websites auch urheberrechtliche Fragen auf, wie sie im Zusammenhang mit künstlicher Intelligenz immer öfters auftauchen. Alleine der Umstand, dass das Copyright-Symbol mehr als 200 Millionen Mal im Datensatz auftaucht, sollte zu bedenken geben. Wenigstens im Zusammenhang mit den gelisteten Medienseiten besteht die Wahrscheinlichkeit, dass Inhalte von Künstlern und Autoren ohne deren Erlaubnis genutzt worden sind.

Die Ironie dabei ist auch ein wenig, dass die Bezeichnung "C4" des Datensatzes eigentlich für "Colossal Clean Crawled Corpus" steht. Es mag zwar sein, dass die Daten stark gefiltert worden sind, um Kraftausdrücke, Obszönitäten und nicht zuletzt auch Beleidigungen zu einem gewissen Grad einschränken zu können. Im Rahmen der Untersuchung wurden aber auch hunderte Beispiele pornografischer Websites und mehr als 72.000 Fälle für die englische Bezeichnung von "Hakenkreuz" gefunden, obwohl der Begriff laut Filtervorgabe nicht auftauchen sollte.

Aufgrund solcher und anderer dubiosen Inhalte ist also die abschließende Aufforderung der Washington Post wenig verwunderlich, dass Tech-Konzerne in Zukunft dringend mehr Transparenz zeigen und die Trainingsdaten für ihre großen Sprachmodelle offenlegen müssen. (red, 22.4.2023)