Maschinen sprechen mittlerweile verschiedene Sprachen – Diversität fehlt aber in der Programmierung oft.

Foto: The International Federation of Robotics/T. Plettenberg

Die Marktschreier im Silicon Valley haben die "Voice-Revolution" ausgerufen. Mit Alexa die Rollläden herunterlassen oder Musik abspielen? Die Konsumwelt kann so einfach sein. Doch damit die Sprachsteuerung reibungslos funktioniert, ist jede Menge Manpower notwendig. Allein bei Amazon arbeiten 10.000 Mitarbeiter an der Optimierung von Alexa.

Spracherkennung bedeutet jede Menge Handarbeit: Audioaufnahmen müssen transkribiert, Texte zerlegt, Wörter gelabelt werden. Diese recht stupide Arbeit verrichten Vertragsarbeiter auf der ganzen Welt, für komplexere Tätigkeiten wie die Entwicklung von Sprachmodellen sind die meist inhouse beschäftigten Programmierer und Computerlinguisten zuständig. Deren Aufgabe besteht darin, der Maschine den Feinschliff zu verpassen.

Seitdem der Computerpionier Joseph Weizenbaum 1966 mit Eliza den ersten Chatbot präsentierte, haben sich Sprachcomputer stetig weiterentwickelt. Alexa kann heute sogar flüstern oder Witze erzählen. Wie Amazon-Vizepräsident Steve Rabuchin sagte, gibt es sogar ein eigenes Team, das an der "Persönlichkeit" von Alexa arbeitet.

Unterricht für Maschinen

Auch bei Apple und Google arbeiten tausende Mitarbeiter an der Sprachsoftware. Für Google Assistant existiert sogar eine richtige Personenskizze, wie Entwickler James Giangola einmal dem Atlantic verriet: "Sie ist die jüngste Tochter einer Bibliothekarin und eines Physikprofessors, der einen Bachelor of Art in Geschichte von der Northwestern (University) hat." Ein ganz schön kultivierter Sprachcomputer, der einem da im Alltag begleitet. Autos, Hotels, Schulen, Krankenhäuser – Sprachsteuerung dringt in immer mehr gesellschaftliche Bereiche vor. Damit wächst auch der Bedarf an Computerlinguisten.

Bei Amazon waren Ende Februar dutzende Stellen für "Datenlinguisten" für verschiedene Sprachen ausgeschrieben. Zum Aufgabenprofil gehört unter anderem die phonemische Transkription und Datenaufbereitung. Auch Apple sucht für seinen Sprachassistenten Siri Softwareingenieure, die Kenntnisse in Natural Language Processing (NLP) besitzen und dem Computer Sprachunterricht erteilen.

Die neuen Methoden der Sprachverarbeitung orientieren sich nicht mehr an abstrakten Grammatikregeln, sondern am Erwerb der Muttersprache. Wie ein Kleinkind lernt die künstliche Intelligenz (KI) Silben und Wörter erkennen, die sie dann nach einem Wahr-scheinlichkeitsmodell kombiniert. Siri "spricht" mittlerweile über ein Dutzend Sprachen, von Kantonesisch über Hebräisch bis Thailändisch. Alexa beherrscht sogar mehrere englische, französische und spanische Dialekte.

Von Hindi bis Isländisch

Ganz so polyglott ist die KI aber noch nicht. Beim Schweizerdeutsch haben Sprachassistenten Probleme, auch beim Arabischen hapert es, weil es für die arabischen Dialekte weder brauchbare Wörterbücher noch Audioaufnahmen noch eine Aussprachedatenbank gibt, auf die man zurückgreifen könnte. Doch die Technik wird immer besser. Seit 2019 beantwortet Alexa auch Fragen auf Hindi, das in Indien mehr als eine halbe Milliarde Sprecher hat.

Tech-Konzerne fokussieren sich aber nicht nur auf die großen "Sprachmärkte", sondern auch auf Nischen. So hat Amazon vor Jahren seine Text-to-Speech-Funktion Polly, die Texte in Sprache umwandelt, auf Isländisch erweitert und eine Stelle für einen Linguisten für Isländisch ausgeschrieben. Universitätsprofessoren waren begeistert: Isländisch, das von 330.000 Menschen gesprochen wird und konstitutiv für die Identität der Menschen auf der Insel ist, wird im Alltag zunehmend vom Englischen verdrängt. Ausgerechnet Sprachcomputer, die ja eigentlich nur Programmiersprache "verstehen", könnten nun regionale Sprachen und Dialekte vor dem Aussterben retten.

Probleme beim Soziolekt

Doch wo Sprachsteuerung auf der einen Seite Lokalkolorit konserviert, verstärkt es auf der anderen Seite soziale Ungleichheiten: Laut einer Studie der Stanford University verstehen automatische Spracherkennungssysteme Schwarze deutlich schlechter als Weiße. Die Forscher untersuchten Spracherkennungssysteme von Amazon, Apple, Google, IBM und Microsoft anhand von knapp 20 Stunden Audiomaterial. Ergebnis: Das System missverstand rund 19 Prozent der Wörter der weißen Sprecher. Bei den Schwarzen lag die Fehlerrate dagegen bei durchschnittlich 35 Prozent.

Der Grund für die Missverständnisse: der Soziolekt, das African-American Vernacular English, das von Afroamerikanern in urbanen Gegenden gesprochen wird. Statt "I mean" (ich meine) sagen die Sprecher häufig das gleichbedeutende "me mean". Wissenschafter fordern daher, dass das African-American Vernacular English mehr Berücksichtigung in den Trainingsdaten findet (was wohl nur mit diverseren Entwicklerteams zu bewerkstelligen sein dürfte).

Damit die Sprachassistenten unsere Fragen beantworten können, müssen wir jedenfalls von unserem Leben sehr viel preisgeben und sehr viele Daten zur Verarbeitung liefern – oder abziehen lassen. (Adrian Lobe, 15.3.2021)