Lehrer bewerten KI-Hausaufgaben: Wie würde ChatGPT als Schüler abschneiden?

Bestanden oder nicht bestanden? ChatGPT schneidet als "digitaler Schüler" nur mittelmäßig ab.

Künstliche Intelligenz bewegt die Gemüter. Kaum ein Lebensbereich, der in den vergangenen Wochen von den rasanten Fortschritten unberührt blieb, kaum eine Meinung, die zum Einsatz von KI bisher noch nicht geäußert wurde. Besonders im Bildungsbereich schlug die Einführung von Open AIs Chatbot ChatGPT – genaugenommen Chat GPT-3.5 – hohe Wellen.

Wie würde sich die Verfügbarkeit des neuen Tools im Schulalltag auswirken? Würden demnächst nur noch KI-generierte Arbeiten eingereicht werden? Muss nun die Urheberschaft jeder unbeaufsichtigt angefertigten Aufgabe angezweifelt werden, weil davon auszugehen ist, dass die jungen Lernenden jedes erdenkliche Beispiel in das Eingabefenster kopieren und so die Erledigung ihrer Hausaufgaben einfach outsourcen"?

Schafft ChatGPT die Matura?

Vor diesem Hintergrund sorgte auch ein Video, das Anfang des Monats vom "Wired"-Magazin geteilt wurde, für Aufsehen. In dem Clip benotet ein Englischlehrer unter anderem ein von ChatGPT geschriebenes Limerick – ein fünfzeiliges Gedicht mit vorgegebener Reimform – und zeigt sich zufrieden mit dem Ergebnis. Der Highschool-Lehrer gibt dem Bot ein "C+" (also ein gutes "Befriedigend") für seine Arbeit. Wie aber würde ChatGPT im österreichischen Schulsystem abschneiden?

Der Highschool-Lehrer Andrew Marzoni benotet in diesem Video "Hausübungen" von ChatGPT. Er gibt sich betont pingelig, völlig chancenlos ist der Chatbot dennoch nicht.

Zu diesem Zweck haben wir uns bei Lehrerinnen und Lehrern umgehört und sie gebeten, von ChatGPT gelöste Aufgaben zu bewerten. Hierfür wurden Maturafragen aus den Fächern Englisch und Deutsch verwendet und im Anschluss von Lehrpersonen korrigiert.

ChatGPT: Vozugsschüler im Fach Englisch

Um einen Eindruck von den Fähigkeiten des Bots zu bekommen, bietet sich eine Analyse der Antwort auf eine Aufgabenstellung im Fach Englisch an. Alexandra Wölfer, Englischlehrerin am Gymnasium Anton-Krieger-Gasse in Wien-Liesing, hat hierfür eine Maturaangabe von ChatGPT lösen lassen.

Alexandra Wölfer stellte dem Chatbot eine Maturaaufgabe aus dem Fach Englisch. Das Ergebnis ist "wirklich sehr überzeugend".

Beim Korrigieren der Englisch-Maturafrage wird schnell klar: Hier kann ChatGPT seine Stärken voll und ganz ausspielen. Beim angeführten Beispiel soll der "Schüler" einen Blog-Kommentar als Antwort auf ein vorgegebenes Posting verfassen. Es geht um das Thema "Second Screening" – also die Angewohnheit, vor laufendem Fernseher auf das Handy (und damit einen zweiten Bildschirm) zu starren.

Die Anforderung ist klar umrissen: Der Kommentar soll darauf eingehen, welche Rolle "Second Screening" im Leben der Menschen einnimmt, welche Programme es begünstigen und warum manche die Angewohnheit kritisch sehen. 250 Wörter soll die Antwort umfassen.

Überzeugendes Ergebnis

Wölfer wirkt von dem Ergebnis beeindruckt: "Das Ergebnis ist wirklich sehr überzeugend, da es inhaltlich gut ist und systematisch auf die Aufgabenstellung eingeht. Die Struktur ist sehr übersichtlich, sprachlich ist es auf dem erforderten Level und passend zur Aufgabe."

Sie bezweifelt jedoch, dass der Bot auch bei anderen Textsorten der Englisch-Matura so gut abschneiden würde: Ginge es beispielsweise um die Interpretation eines Diagramms, also visuellen Input, würde ChatGPT sicherlich Schwierigkeiten haben, ein ähnlich gutes Ergebnis zu liefern, vermutet Wölfer. Die ausgewählte Aufgabe sei "eher eine der leichteren", die computergenerierte Antwort würde aber "relativ hoch bepunktet" werden.

Aufgaben auf Deutsch: Kreativität will gelernt sein

So gut sich ChatGPT bei der Lösung von Textaufgaben in englischer Sprache schlägt, so sehr hat es mit kreativeren Aufgaben auf Deutsch seine liebe Not. Besonders gut sichtbar wird das anhand einer Hausaufgabe, die Markus Hader, Deutschlehrer im Anton-Krieger-Gymnasium, seine Schülerinnen und Schüler aus der achten Klasse lösen ließ.

Die Grundlage des Arbeitsauftrags ist hier ein Text des Musikers Dendemann, der in seinem Lied "Nochn Gedicht" mit zahlreichen Anspielungen aus der Pflanzenwelt experimentiert. Liedzeilen wie "weil auch dieses Spiel nur ein paar Regeln gehorcht, brauchst du mehr Themen als Chrysan und Ideen als Orch" bringen ChatGPT schnell an die Grenzen seiner Möglichkeiten. Den gesamten Text zum Mitlesen gibt es hier.

Dendemanns Dichtkunst wird von ChatGPT nicht in vollem Ausmaß gewürdigt.

Im ersten Schritt sollte der Chatbot "mindestens 15 Anspielungen auf die Pflanzenwelt" im Text benennen. Bereits hier unterlaufen dem Programm erste Fehler:

"Benenne mindestens 15 Anspielungen auf die Pflanzenwelt, welche im Lied vorkommen", lautete der Arbeitsauftrag. Bereits hier hat der Bot Schwierigkeiten.

Von den 15 genannten Begriffen sind gleich vier keine Pflanzen (sondern Gartengeräte beziehungsweise Versmaße), ein aus stilistischen Gründen "verballhornter" Pflanzenname wird zwar als Gewächs erkannt, allerdings nicht mit dem richtigen Namen (Anmerkung: Es handelt sich hier um den Rhododendron, die entsprechende Textzeile lautet "der Style ist roh wie Dodendedron") angeführt. Bereits hier verrät sich die KI, einem Menschen würden derartige Fehler eher nicht passieren.

Rhetorische Gestaltung erläutern – Punkteabzug für die KI

Im nächsten Schritt soll die rhetorische Gestaltung von sieben der aufgezählten Anspielungen erläutert werden. Auch hier schneidet ChatGPT eher mittelmäßig ab:

"Erläutere von sieben davon deren rhetorische Gestaltung", war der nächste Schritt der Textanalyse. An den Antworten gibt es aber einiges auszusetzen.

"Personifikation als Pflanze ergibt keinen Sinn", merkt Hader an. Der "Neologismus durch die Zusammenführung von 'Flora' und 'Apostel'" ("Floralapostel" im Text) wird zwar richtig erkannt, worauf hier allerdings angespielt wird, nämlich den Begriff "Moralapostel", erwähnt ChatGPT nicht.

Auch die genannte Alliteration (Stabreime, also aufeinanderfolgende Wörter, die mit demselben Buchstaben beginnen) findet Hader nur mäßig passend – hier gäbe es noch gelungenere Beispiele in dem wortkunstreichen Text von Dendemann.

Redewendungen erkannt, neue Pflanze erfunden

Ähnlich kritisch sieht Hader auch die nächste Antwort, in der zwar eine "umgangssprachliche Wendung" erkannt wird, allerdings: "Dem Punkt mit der Pflanzenzucht würde ich nicht zustimmen; es fehlt die Zuweisung zu einem Stilmittel", kommentiert der Lehrer das Werk seines digitalen "Schülers".

Zu guter Letzt versucht sich der Bot an dem Wort "Dodenderon" und ernennt die Wortkreation kurzerhand zur eigenständigen Pflanze. Die Brücke zum eigentlich gemeinten "Rhododendron" gelingt ihm hier nicht, aber wenigstens identifiziert die KI das Wortspiel als solches, erkennt Hader an. Für das neu geschaffene Gewächs gäbe es aber bei einer echten Aufgabe trotzdem Punkteabzug.

Von der Kunst, zwischen den Zeilen zu lesen

In den letzten beiden Fragen zum Text sollen die Anspielungen schließlich interpretiert und deren Bedeutung auf den Grund gegangen werden. Hierfür ist ein tiefgreifendes Verständnis unerlässlich, mit einer rein wortwörtlichen Analyse kommt man nicht weit. Die gefragten Textzeilen (41 bis 43 bzw. 48, siehe Markierung) lauten wie folgt:

Ich roch den Daktylus in der Blüte deines Lebens
Nein für Dr. Knackdienuss ist keine Grübelei vergebens
In meinem Garten da wachsen große Jamben und Trochäen
Die andern behandeln die Pflanzen bloß wie Schlampen und Trophäen
Immer jünger nehmen sie Dünger schon auf nüchternen Magen
Und wundern sich warum hat nichts Früchte getragen
Meine Fresse kein Interesse nur ein paar schüchterne Fragen
Was soll man denn zu all den Hobbyzüchtern noch sagen

Auf die Frage, was es mit diesen Zeilen auf sich hat und wer mit "Hobbyzüchter" gemeint sein könnte, antwortet ChatGPT wie folgt:

ChatGPT tut sich sichtlich schwer mit dem Zwischen-den-Zeilen-Lesen. "Hobbyzüchter" wird hier nur mit Pflanzenzucht in Verbindung gebracht, die Anspielung übersehen.

Geht es um die rein stilistische Analyse der Zeilen, macht der Chatbot eine recht gute Figur, inhaltlich besteht aber durchaus noch Aufholbedarf. "Die Anspielung auf die Metren und deren Gleichsetzung mit Pflanzen im 'lyrischen' Garten wurde richtig erkannt, aber nicht eindeutig benannt. Ob Dendemann tatsächlich fähiger Pflanzenzüchter ist, geht aus dem Werk nicht hervor", kommentiert Hader die Antwort.

Auch die Erklärung, was es mit dem "Hobbygärtner" auf sich hat, geht laut Hader "am Kern des Liedes vorbei". So gehe es hier nicht um Pflanzenzucht, "sondern vielmehr wird diese als Symbol für seine unzähligen Anspielungen verwendet".

Fazit: "Genügend", mit viel Selbstbewusstsein trotz Nichtwissens

Das Fazit des Deutschlehrers: Im echten Schulalltag würde er für diese Leistung "eine noch positive Bewertung", also ein "Genügend", geben. Besonders bei interpretatorischen Fragen unterlaufen dem Chatbot aber Fehler, die für Schülerinnen und Schüler einer achten Klasse eher unüblich wären.

"Auffällig ist: Je komplexer und tiefergehender die Aufgabenstellung (Interpretation des Begriffs 'Hobbyzüchter') wird, desto fehleranfälliger ist hier die KI", kommentiert Hader die computergenerierten Antworten. Auch bei den Fachbegriffen der Pflanzen (Beispiel Rhododendron) "gibt es viele Missverständnisse, die auffällig selbstbewusst verschriftlicht werden".

Mehr Erfolg mit weniger kreativitätslastigen Aufgaben

Etwas mehr Glück hätte der Chatbot mit einer Aufgabenstellung, die eine Maturaklasse von Johannes Wenger vom Stiftsgymnasium Schlierbach im Rahmen der ersten Deutschschularbeit zu erarbeiten hatte. Der zugrunde liegende Text war hier ein Artikel zum Thema Klimaproteste, verfasst von Jens Kastner Anfang November 2022. Die Aufgabenstellung lautete wie folgt:

Klare Anweisungen finden sich in dieser Aufgabe, die aus einer Deutschschularbeit einer Maturaklasse stammt. Damit tut sich der Bot schon wesentlich leichter, von einem "Sehr gut" ist man aber trotzdem weit entfernt.

Bei der Antwort des Chatbots merkt man sogleich, dass ihm derartige Anweisungen mehr liegen als die Interpretation kreativer Texte. Die Textgattung Kommentar hat jedoch trotzdem gewisse Tücken, die eine künstliche Intelligenz vor Herausforderungen stellen. "Der Beginn ist nicht kommentartypisch. Ein das Leserinteresse weckender Einstieg fehlt", stellt Johannes Wenger vom Gymnasium Schlierbach gleich bei den ersten Zeilen fest. Außerdem seien Ich-Formulierungen in einem Kommentar "unüblich".

Ein Kommentar mit "400 bis 450 Wörtern" soll es laut Vorgabe werden. ChatGPT liefert respektable, aber doch recht verkürzte 329 Wörter als Output.

"Befriedigend" für ChatGPTs Kommentar

Er gesteht dem KI-Schüler aber zu, dass der Hauptteil sehr gut gelungen ist: "Es ist ein klarer Standpunkt erkennbar, der überzeugend ausgearbeitet wird", so Wenger. Sprachlich sei die Ausarbeitung "gut, wenn auch etwas brav‘" – ein Kommentar lebt nicht zuletzt von einer gewissen Zuspitzung und dem "Einsatz rhetorischer Mittel".

Auch die vorgegebene Länge von 400 bis 450 Wörtern wurde mit 329 Wörtern (trotz klarer Anweisung) wesentlich unterschritten, "was auch gewisse Abstriche in der Beurteilung nach sich zieht". Das Fazit des Deutschlehrers Wenger: "In Summe würde ich diesen Kommentar mit einem 'Befriedigend' bewerten."

ChatGPT: Klassenbester wird man damit nicht

Was aber bedeutet das nun für den Unterrichtsalltag und die Arbeit der Lehrpersonen? Zuallererst zeigen die angeführten Beispiele vor allem eines: ChatGPT wird demnächst weder die Wichtigkeit geschulten Lehrpersonals unterwandern noch wird es Schülerinnen und Schülern kurzerhand zu illegitimen Höhenflügen verhelfen.

Das Programm produziert bei ausgewählten Aufgaben durchaus respektable Ergebnisse: So erkennt es wichtige Argumente in einem Text und kann sogar selbst dazu kommentierend Stellung nehmen. Wesentliche Vorgaben – wie die Wortanzahl – werden aber recht frei ausgelegt und des Öfteren unterschritten, ein Umstand, der vor allem für ein Computermodell überraschend ist, sollte es doch problemlos die Wortanzahl einer Antwort überprüfen und anpassen können.

Besonders ins Schleudern gerät es bei komplexen, kreativen Aufgaben, die über eine rein wörtliche Interpretation hinausgehen. Was ein Künstler oder eine Künstlerin mit einem Werk ausdrücken will, was als unausgesprochene Message in einem Text mitschwingt, kurzum: was das Wesen der Kunst ausmacht, bleibt ChatGPT zumindest vorerst noch verborgen. Eine Analyse findet nur oberflächlich statt, Wortspiele und Andeutungen übersteigen derzeit noch die Fähigkeiten der künstlichen Intelligenz.

Keine Angst vor künstlicher Intelligenz in der Schule

Von einem Verbot des Programms, wie es in New Yorker Schulen eingeführt wurde, hält Markus Hader übrigens nichts. Er hält ein derartiges Einschreiten für "sinnlos", da der populäre Chatbot ohnehin "bereits voll im Schulalltag angekommen" sei. In einer siebenten Klasse AHS hat Hader eine anonyme Umfrage durchgeführt. Das Ergebnis: Von 24 Schülerinnen und Schülern nutzt rund ein Viertel ChatGPT bereits "für Unterschiedliches". Statistisch relevant ist das zwar aufgrund des kleinen Samples nicht, dennoch bietet die Zahl einen Einblick in die Lebensrealität junger Lernender.

"Angst" habe er weniger vor dem Programm, sondern eher davor, "dass die KI vonseiten des Gesetzgebers bzw. Verantwortlichen im bildungspolitischen Bereich einfach (aus Überforderung/Unterschätzung/Unwissen) ignoriert wird" und so der Umgang damit in der pädagogischen Ausbildung neuer Lehrkräfte nicht beachtet wird.

KI als Chance

Ob es einem nun passt oder nicht: Künstliche Intelligenz ist gekommen, um zu bleiben. Für Lehrerinnen und Lehrer bedeutet das, dass Aufgabenstellungen in Zukunft der neuen Technologie Rechnung tragen und entsprechend angepasst werden sollten. Im Unterricht kann KI als Hilfestellung zum Einsatz kommen, Hausaufgaben sollten aber vor allem die Interpretationsfähigkeiten schulen anstatt lediglich Faktenwissen abzufragen.

Vor allem für Lernende, die Unterstützung benötigen, könnten KI-gestützte Lösungen in Zukunft vielversprechend sein. Dies treffe beispielsweise auf Schülerinnen und Schüler zu, die von ihren Eltern eine notwendige Unterstützung "nicht bekommen können", so Hader. Auch Alicia Bankhofer, Lehrerin für Englisch und digitale Grundbildung am Gymnasium Anton-Krieger-Gasse, merkt an, dass Personen mit besonderen Lernbedürfnissen "sehr dankbar" sein würden, "wenn Texte vereinfacht, zusammengefasst, übersetzt" werden können. (Lisa Haberkorn, 21.2.2023)

KI und Schule