Die KI-Software Chat GPT stellt das bisherige Textverständnis vor neue Herausforderungen.

Foto: Imago

Chat GPT sorgt anhaltend für Aufsehen im Internet: Die KI-Software gilt im Spannungsfeld zwischen pragmatischen Anwendungsmöglichkeiten und dem Gefahrenpotenzial eines Schummel-Tools oder Fake-News-Generators aber nicht als unumstritten. US-Forscher haben nun herausgefunden, dass man mit dem Chatbot sogar wissenschaftliche Gutachter hinters Licht führen kann. Die Möglichkeit, wissenschaftliche Abstracts unbemerkt fälschen zu können, zählt dabei zu den besorgniserregenderen Leistungen dieser Plattform.

Was anfangs als harmlos anmutende Dialogfunktion mit einem Chatbot anmutet, nimmt in seiner neuesten Version immer größere Ausmaße an. Chat GPT kann nicht nur Smalltalk führen, sondern auf Kommando Handlungsanweisungen geben, Programmcodes erstellen oder eben auch Texte in vorgegebenem Stil erstellen.

Fast ein Drittel an Fehleinschätzungen

Letzteres haben sich Forscher an der Northwestern University und der University of Chicago in einer Studie genauer angesehen. Sie sind dabei der Frage nachgegangen, ob Chat GPT wissenschaftliche Gutachter mit gefälschten Abstracts täuschen kann. Das Ergebnis gibt Anlass zur Sorge und hinterfragt das System, das hinter der Publikation wissenschaftlicher Beiträge steckt: In 32 Prozent der Fälle konnten die Gutachter ausgetrickst werden, und das, obwohl nur acht Prozent der Chat-GPT-Resultate die spezifischen Anforderungen an den Text erfüllt haben.

Für die Untersuchung wählten die Forscher im Vorfeld 50 echte und bereits veröffentlichte medizinische Artikel aus. Sie nahmen die Überschriften der Artikel her und gaben diese mit folgender Aufforderung an die KI-Software weiter: "Schreibe eine wissenschaftliche Zusammenfassung für den Artikel (Titel) im Stil von (Journal) unter (Link)." Dann wurden die 50 falschen mit den 50 echten Abstracts der Artikel in einen Pool geworfen und nach dem Zufallsprinzip Medizinern zur Überprüfung zugewiesen. Den Probanden wurde lediglich mitgeteilt, dass manche Abstracts gefälscht, andere aber wiederum echt seien.

Von den Resultaten überrascht

Dass die Gutachter also nicht nur über fachliche Expertise verfügten, sondern auch noch wussten, dass es Fälschungen unter den Abstracts gibt, macht die Resultate der Untersuchung umso erstaunlicher. "Die Tatsache, dass unsere Rezensenten die von der KI generierten Abstracts in 32 Prozent der Fälle immer noch übersehen haben, bedeutet, dass sie wirklich gut sind", sagte die leitende Forscherin Catherine Gao. "Ich vermute, wenn jemand nur auf eines dieser generierten Abstracts stoßen würde, wäre er nicht unbedingt in der Lage, es als KI-generiert zu identifizieren", so Gao in der Pressemitteilung.

Immerhin: 68 Prozent der der Fälle konnten die Gutachter noch richtig einschätzen. Hinzu kommt allerdings, dass die Probanden 14 Prozent der korrekten Abstracts als KI-generierte Fälschung entlarvt haben. Neben der Überprüfung durch menschliche Gutachter unterzog man die Texte parallel einem KI-Detektor. Erwartungsgemäß konnte die Software wesentlich genauer zwischen Original und Fälschung unterscheiden. So bewertete der Detektor fast ausnahmslos alle Originale richtig. Auch bei den Fälschungen verfügte er über eine höherer Erkennungsrate, hatte aber immer noch Probleme, alle gefälschten Abstracts sauber zu klassifizieren.

Vorsicht geboten

Die Studie ist aufgrund der geringen Stichprobengröße und der Zahl von nur vier Gutachtern natürlich mit Vorsicht zu genießen. Es ist aber ebenso zu berücksichtigen, dass die Forscher die Eingabeaufforderungen an die KI-Software nicht nachjustiert haben, um noch überzeugendere Fälschungen zu produzieren. Immerhin bestünde etwa die Möglichkeit, die bereits generierten Abstracts einer weiteren Überprüfung durch Chat GPT unterziehen zu lassen, um noch glaubwürdigere Resultate zu erzielen.

Die Forscher kommen jedenfalls zu dem Schluss, dass Chat GPT grundsätzlich glaubwürdige wissenschaftliche Abstracts verfassen kann – mit erfundenen Daten. Sie können ungeschulte Leser leicht täuschen, sind jedoch meist mithilfe eines KI-Detektors und genauer menschlicher Gutachter immer noch identifizierbar.

Die Bewertung solcher Abstracts für Fachzeitschriften und Konferenzen erfordere in Anbetracht dieser ersten Ergebnisse ein Umdenken. Zum einen wird nahegelegt, KI-Detektoren bei Überprüfungen ergänzend einzusetzen. Zum anderen führe diese Entwicklung zu einer grundsätzlichen Debatte, inwieweit solche Anwendungen überhaupt zur Unterstützung wissenschaftlichen Schreibens verwendet werden können oder sollen. (bbr, 11.1.2023)