Welche Gefahren Chatbots wie der AMS-Infomat bergen

"2023 war das Jahr der KI, 2024 wird das Jahr der produktiven KI", titelten wir im vergangenen KI-Newsletter. Im übertragenen Sinne: Nach einem Hype-Jahr findet künstliche Intelligenz nun Eingang in immer mehr Alltagsanwendungen. Weil Unternehmen wie Microsoft, Apple oder Adobe KI immer weiter mit ihrer Standardsoftware verzahnen, fällt es vielleicht gar nicht mehr auf, dass wir da KI verwenden, wenn wir E-Mails tippen oder Bilder bearbeiten.

Oder wenn wir Informationen zu einem Job suchen – denn das Arbeitsmarktservice (AMS) hat diese Woche den auf ChatGPT basierenden Berufsinfomaten vorgestellt, der "alle Fragen rund um Beruf, Aus- und Weiterbildung" beantworten soll. Doch wie sich herausstellte, (re)produziert der Chatbot allerhand Geschlechterstereotype, ist technisch schlecht umgesetzt und redet allerhand Nonsens.

Dieses Bild wurde mit der KI Midjourney erstellt. Der Prompt lautete: "illustration of a friendly looking robot, presenting newspapers, looking at the camera. --ar 3:2"

User auf der Plattform X machten sich den Spaß, den Berufsinfomaten zu fragen, wie man Klimakleber, Frühstücksdirektor, Nasenbär oder Systemerhalter wird oder wie viel man dabei verdient – worauf der Chatbot oft mit konkreten Ausbildungswegen und Gehältern antwortete.

Unperfektes ChatGPT, unperfekter Berufsinfomat

Das ist eigentlich wenig verwunderlich. Der Berufsinfomat baut wie gesagt auf ChatGPT auf – und auch diese Software ist nicht perfekt und hat, zumindest momentan, auch gar nicht den Anspruch, es zu sein. Nicht umsonst prangt stets der Hinweis "ChatGPT kann Fehler machen – überprüfen Sie wichtige Informationen" unter dem Eingabefeld des berühmten Chatbots.

Nur legen viele bei einer Applikation, die den Markennamen einer staatlichen Stelle trägt, offenbar andere Maßstäbe an, als wenn wir ein kostenloses Tool eines Silicon-Valley-Konzerns verwenden. Der Berufsinfomat hat die Steuerzahlerinnen und Steuerzahler nämlich 300.000 Euro gekostet – unverhältnismäßig viel, klagen vieler Userinnen und User in den sozialen Medien.

Ein eigenes Large Language Model (LLM) zu bauen, wie ChatGPT eines ist, ist allerdings gar nicht so einfach – und sehr viel teurer. Über 100 Millionen US-Dollar soll das Training von GPT-4 laut den Angaben von OpenAI-Chef Sam Altmann gekostet haben. Wer sich ein eigenes GPT-4-Modell trainieren will, muss mindestens zwei bis drei Millionen US-Dollar berappen, heißt es in einem Kontaktformular bei OpenAI.

Geheime Anweisungen offenbart

Günstiger ist hingegen das sogenannte "Fine-Tuning", bei dem die "Model Weights", vereinfacht gesagt die Verbindungen zwischen den künstlichen Neuronen, an eigene Daten angepasst werden. Noch einfacher ist es, ChatGPT einen "System Prompt" mitzugeben, der definiert, wie der Chatbot zu antworten hat. Wie das auch ganz ohne Programmierkenntnisse funktioniert, haben wir in einer früheren Ausgabe dieses Newsletters erklärt.

Einem X-User ist es aber mit ganz einfachen Mitteln gelungen, dem AMS-Bot diesen Einstiegsprompt zu entlocken. Dort ist etwa zu lesen, dass der Berufsinfomat korrekt gendern, bei Berufsempfehlungen nicht zwischen Mann und Frau unterscheiden oder keinen Programmcode ausgeben soll.

Solche "Prompt Injections" sind ein allgemeines Problem von LLM-Chatbots. Sie können nicht scharf zwischen den Anweisungen der Entwickler, der User und den zu verarbeitenden Daten unterscheiden – jeder eingegebene Text wird einfach stumpf ausgeführt, zum Beispiel auch die Anweisung, frühere Befehle zu ignorieren. Bereits vor einigen Monaten ist es Usern bereits gelungen, die "System Prompts" des Bing-Chatbots von Microsoft auszulesen.

Je nachdem, mit welchen Befugnissen eine Software ausgestattet ist, kann das für die Entwicklerfirma peinlich enden. Bereits 2022 brachten User auf (damals noch) Twitter etwa einen Chatbot, der seine Antworten öffentlich auf der Plattform postete, dazu, zum Sturz des US-Präsidenten aufzurufen – obwohl die Software bloß nach Homeoffice-Jobs suchen sollte.

Beinahe unlösbares Problem

Jemand anders brachte wiederum den Chatbot eines Autohändlers dazu, ihm einen Chevy Tahoe (Listenpreis ab 76.400 US-Dollar) für einen US-Dollar anzubieten – auch wenn das Angebot nicht rechtlich bindend gewesen sein dürfte. Wenn Chatsbots Zugriff auf private Daten haben, könnten "Prompt Injections" wiederum in einem Datenschutzfiasko enden.

Lösungen für dieses Problem gibt es momentan noch nicht wirklich. Dem Wesen der Large Language Models ist geschuldet, dass es meist nicht wirklich nachvollziehbar ist, was sie produzieren. Entwicklerfirmen bauen deshalb oft Filter ein, um die Ein- oder Ausgaben zu überprüfen – und die Antwort im Ernstfall abzuwürgen.

KI ist nicht nur ChatGPT

Die Unkontrollierbarkeit der großen Sprachmodelle könnte sich noch als Hindernis für China entpuppen, argumentierte Michael Schumann bereits vergangenen April in einem interessanten Text im "Atlantic". Denn die Software, die aufgrund ihrer Bauweise auf freien Informationsfluss angewiesen ist, stehe im Widerspruch zu den Zensurbemühungen der chinesischen Regierung. Ein Sprachmodell lässt sich eben weniger gut überwachen als ein Internetblog.

Im konkreten Fall des AMS-Chatbots ist die Unvollkommenheit von ChatGPT und Konsorten allerdings ein viel kleineres Problem: Denn die Ausgaben des Berufsinfomaten sind weder öffentlich, noch kann der Bot auf persönliche Daten der Arbeitssuchenden zugreifen.

Aber vielleicht lehrt uns der etwas holprige Start des Berufsinfomaten, dass Vorsicht angebracht ist, wenn ChatGPT über irgendetwas drübergestülpt wird. (Philip Pramer, 8.1.2024)

Newsletter "Künstliche Intelligenz"