Schlechte Algorithmen bewerten Prüfungen von Millionen Schülern

Immer öfter werden Schüler mithilfe von Maschinen benotet.

Standardisierte Tests sind in den USA sehr gängig. Millionen Studenten müssen Prüfungen positiv abschließen, um Zugang zu höherer Bildung zu bekommen, manche Tests entscheiden über staatliche Finanzierungen. In den letzten Jahren haben sich die Prüfungen gewandelt: Statt Stift und Papier schreiben die Nutzer am Computer. Und für die Bewertung sind immer öfter Algorithmen zuständig – oft auch für Textaufgaben. Dafür wird zur Computerlinguistik gegriffen.

Bewertungsmaschinen

Bezeichnet werden die Systeme als "automatisierte Essay-Bewertungsmaschinen", schreibt "Motherboard" in einem Bericht. In 21 US-Bundesstaaten seien diese der wichtigste oder zweitwichtigste Faktor für die Bewertung. In drei Staaten gehe auch ein Mensch die Texte nochmals durch, in 18 weiteren geschehe das aber nur stichprobenartig, um sicherzustellen, dass das System korrekt arbeitet.

Dabei werden die Systeme enorm problematisch gesehen. So sagen KI-Experten, dass die Tools – wie schon andere maschinenlernende Werkzeuge – schnell ein Bias entwickeln und bestimmte gesellschaftliche Gruppen benachteiligen könnten. Der Grund dafür liegt darin, dass die Systeme anhand von Trainingsdaten, also historischen Informationen, mit denen sie gefüttert werden, dazulernen. Das heißt, dass beispielsweise bestehende Vorurteile weitergeführt werden. Gerade Schüler mit afroamerikanischem, spanischsprachigem oder arabischem Hintergrund würden tendenziell schlechtere Noten bekommen, als wenn ein Mensch ihre Texte lese.

Sinnbefreite Texte mit anspruchsvollen Vokabeln reichen

Dazu kommt, dass die Maschinen nicht die tatsächliche Qualität der Texte bewerten (können). Sie haben zuvor hunderte bis tausende Texte bekommen, anhand derer sie Bewertungsmuster gelernt haben, basierend darauf, welche Note Lehrer bisher vergeben haben. Damit versuchen sie vorherzusagen, wie ein menschlicher Bewerter agieren würde. In einem Experiment von "Motherboard" reichte es, einen komplett sinnbefreiten Text zu verfassen und trotzdem eine gute Note zu bekommen – dafür wurden einfach anspruchsvolle Vokabeln benutzt. Demnach könnten Schüler einfach bestimmte Textbausteine auswendig lernen und so bessere Noten erhalten.

Historisch gab es bereits Diskriminierung an Schulen in den USA – etwa gab es in der Vergangenheit Versuche, afroamerikanische Umgangssprache zu verbieten. Künstliche Intelligenz könnte solche Vorurteile noch verstärken.

Finanzieller Hintergrund

Der Grund für den Einsatz ist vorwiegend ein finanzieller. Texte werden normalerweise von zwei Personen kontrolliert – durch das System reicht ein Backup-Benoter neben der Maschine aus. Sieht sich der Mensch diese aber nicht an, könnten Texte mit Sätzen, die überhaupt keinen inneren Zusammenhang haben, gute Noten erhalten – solange Schüler komplexe Worte dazu schreiben. (red, 30.8.2019)

Bildung & IT

Schlechte Algorithmen bewerten Prüfungen von Millionen Schülern

Bewertungsmaschinen

Sinnbefreite Texte mit anspruchsvollen Vokabeln reichen

Finanzieller Hintergrund

Forum: 24 Postings

Ihre Meinung zählt.