Ein verwirrt dreinblickender Roboter
Forschende wiesen sinkende Qualität beim Sprachmodell GPT-4 nach.
Bing/Dall E Image Creator/Zellinger

Wer schon immer das Gefühl hatte, dass die Qualität von ChatGPT in jüngster Zeit stark nachgelassen hat, darf jetzt laut "Ich hab's gewusst" rufen. Denn ein Forschungsteam hat jetzt bestätigt, was viele schon lange zu wissen glaubten: Die künstliche Intelligenz (KI) wird immer dümmer.

Forscherinnen und Forscher der Universitäten Stanford und Berkeley veröffentlichten diese Woche ein neues Paper. In der Forschungsarbeit wurde vor allem die Veränderung in der Form der Antworten von ChatGPT analysiert und dabei festgestellt, dass die Leistung der dem Chatbot zugrundeliegenden KI-Modelle GPT-3.5 und GPT-4 in der Tat "stark variiert", wie es die Forscherinnen und Forscher diplomatisch formulieren. Tatsächlich zeigt sich, dass GPT-4, das aktuelle Modell, bei den getesteten Aufgaben im Laufe der Zeit immer schlechter abgeschnitten hat.

So wollten die Forschenden von ChatGPT wissen, ob 17.077 eine Primzahl ist. Obwohl die Antwort "Ja" lautet, verzeichnete ChatGPT einen massiven Rückgang der Genauigkeit um 95,2 Prozent. Bei GPT-3.5, der kostenlosen Version von ChatGPT, stieg die Trefferquote bei der gleichen Frage von 7,4 auf 86,8 Prozent.

Schwierige Ursachenforschung

Diese Erkenntnis stellt die Forschenden aber vor eine neue Frage – denn noch konnte niemand erklären, warum die Leistungen von GPT-4 deutlich abgefallen sind.

"Das Papier geht nicht darauf ein, warum der Abbau von Fähigkeiten stattfindet. Wir wissen nicht einmal, ob OpenAI weiß, dass dies geschieht", twitterte Ethan Mollick, Professor für Innovation an der Wharton University, als Reaktion auf die Studie. In der Branche wird schon länger gemutmaßt, dass GPT-4 Antworten schneller generiert, was aber zulasten deren Qualität geht.

Roblox-Produktleiter Peter Yang stellte im Mai fest, dass die Antworten von GPT-4 schneller als zuvor generiert werden, "aber die Qualität scheint schlechter zu sein". "Vielleicht versucht OpenAI, Kosten zu sparen", tweetete er. Im OpenAI-Entwicklerforum findet unterdessen eine laufende Debatte über die sinkende Qualität der Antworten statt, wie "Business Insider" berichtet.

Peter Welinder, Manager bei OpenAI, meinte zu dem schon in der Vorwoche geäußerten Verdacht, das KI-Modell antworte schlechter: "Nein, wir haben GPT-4 nicht dümmer gemacht. Ganz im Gegenteil: Wir machen jede neue Version schlauer als die vorherige." Matei Zaharia, Chief Technology Officer bei Databricks und außerordentlicher Professor für Informatik an der UC Berkeley – sowie einer der Co-Autoren der Forschungsarbeit –, meinte, dass es "definitiv schwierig zu sein scheint, die Qualität der Antworten von KI-Modellen zu steuern".

Einige, wie der Princeton-Professor für Informatik, Arvind Narayanan, haben Bedenken hinsichtlich der Qualität der Studie: Die Verschlechterungen seien möglicherweise auf die gestellten Aufgaben zurückzuführen. Zu den Aufgaben gehörten etwa das Schreiben von Programmcodes und das Lösen von mathematischen Aufgaben sowie ein Puzzle. Vor allem beim Schreiben von Code schnitt GPT-4 deutlich schlechter ab als noch vor ein paar Monaten. So war im März noch die Hälfte des generierten Codes sofort nutzbar. Im Juni sank diese Quote auf zehn Prozent.

KI nicht unbeobachtet arbeiten lassen

Weil niemand genau weiß, wo die sinkende Qualität der Sprachmodelle herrührt, raten die Forschenden zur Vorsicht: Vor allem in Produktionsanwendungen sei es dringend nötig, das Verhalten von KIs ständig zu überwachen und permanent neu zu bewerten. Die Autorinnen und Autoren planen nun eine Langzeitstudie über die schwankende Qualität von Large Language Models. Bis dahin sollten Anwendende oder Unternehmen, die sich auf KI-Dienste verlassen, diese unter Beobachtung stellen. (pez, 20.7.2023)