KI kann jetzt Stimmen imitieren – aber wozu eigentlich? - Zukunft - derStandard.de

Stammt die Stimme von echten Menschen oder einer Maschine? Das wird immer schwieriger unterscheidbar.

Dass künstliche Intelligenz (KI) in Sekundenschnelle Fotos generieren oder Texte schreiben kann, ist in der Zeit des immer rasanter werdenden KI-Hypes, in der täglich neue Anwendungen präsentiert werden, ein alter Hut. Von menschlichen Kreationen lassen sie sich zunächst oft kaum unterscheiden. Doch kaum haben wir begonnen, unsere Augen auf die Erkennung von KI-Fakes zu schulen, beginnt die Täuschung des nächsten Sinnesorgans: der Ohren.

Denn die künstliche Intelligenz wurde jetzt das Sprechen gelehrt – oder besser: Sie hat es sich selbst beigebracht. Denn neuerdings reichen schon wenige Sekunden einer Tonaufnahme aus, damit sich sogenannte Neural-Voice-Cloning-Software eine Stimme aneignen kann.

Aus Stunden werden Sekunden

Dass Computer sprechen können, ist per se nichts Neues. Bereits in den 1930er-Jahren experimentierten die legendären Bell Labs an Sprachsynthese. Die blechern klingenden Computerstimmen wurden im Laufe der Jahrzehnte immer besser. Auch heute spricht, wenn Chris Lohner am Bahnsteig eine Verspätung verkündet, eine digitale Repräsentation ihrer Stimme. Auch Bücher und Websites kann man sich schon lange von einer Computerstimme vorlesen lassen.

Chris Lohners ist die Stimme der ÖBB – sie selbst sitzt aber nicht mehr hinter dem Mikrofon.

Doch damit diese halbwegs brauchbar klingt, brauchte man rund 24 Stunden Audiomaterial in hoher Qualität. Das heißt, oder hieß, rund vier Wochen Knochenarbeit für den Sprecher oder die Sprecherin im Studio – vor allem aber für diejenigen, die die Aufnahmen später in abertausende Schnipsel zerschneiden mussten. Entweder in Phrasen, Wörter oder sogar einzelne Phoneme – ein e wie in Schnee etwa oder eines wie in Welt. Wenn aus den Schnipseln wieder ein ganzer Satz werden sollte, wurden die Laute wieder anders aneinandergestoppelt.

Das Ende harter Sprecharbeit

Ein ziemlich aufwendiger Prozess also. Einen Monat lang hat Chris Lohner vor einigen Jahren 15.000 Sätze in einem Studio eingesprochen, damit die ÖBB daraus automatische Ansagen bauen konnte. "Fast bis zum Kreislaufkollaps" habe sie das gebracht, sagte Lohner dem STANDARD kürzlich.

Mit Neural-Voice-Cloning wird das um mehrere Größenordnungen einfacher. Statt aus aufgenommenen Lauten Sätze zusammenzubasteln, erkennt die KI nun anhand eines kurzen Beispiels, wie eine Person spricht, und ahmt diese Eigenheiten nach. Weil keine langen Studiosessions mehr notwendig sind, wird es viel einfacher, auch ohne die Zustimmung der Betroffenen Stimmen zu klonen.

Enkeltrick reloaded

Das musste Remie Michelle Clarke am eigenen Leib erfahren. Die Sprecherin, die vor allem für Fernsehspots gebucht wurde, fand eine Kopie ihrer Stimme auf der Website Revoicer. Gegen einen kleinen monatlichen Beitrag konnte man "Olivia", wie die Stimme dort hieß, mieten – laut Revoicer eignete sie sich etwa "exzellent für Hörbücher". Später entfernte das Unternehmen die Stimme zwar von seiner Website. Doch die Fälle von Stimmdiebstahl nahmen in den vergangenen Monaten enorm zu.

Emma Watsons Stimme wurde etwa missbraucht, um Passagen aus Hitlers Mein Kampf zu rezitieren. Auf Tiktok trendete ein Song von Drake und The Weeknd – zur Überraschung der beiden Musiker, denn nicht sie, sondern der anonyme Nutzer Ghostwriter977 hatte den Song mithilfe von KI-Tools generiert.

Das Potenzial von Voice-Cloning haben inzwischen auch Kriminelle erkannt. In Nordamerika häufen sich bereits Fälle, bei denen sich Betrüger als Angehörige ausgeben und auf KI-Tools zurückgreifen. Wie die Washington Post berichtet, konnte etwa erst ein Bankmitarbeiter ein älteres kanadisches Paar davon abhalten, große Mengen Geld abzuheben, das sie ihrem vermeintlichen Enkel schicken wollte. Auch Geiselnahmen sollen so bereits vorgetäuscht worden sein.

Stimmen konservieren

Dass die Technologie für Missbrauch taugt, streitet Mark Hasegawa-Johnson, der sich an der Universität von Illinois mit Sprach-KIs beschäftigt, gar nicht ab. Aber es gebe eben auch viele moralisch weniger fragwürdige Anwendungen von Voice-Cloning. Er und sein Team arbeiten etwa daran, auch jenen Sprachen eine digitale Stimme zu geben, für die sich die traditionelle Methode finanziell nicht rentiert – den afrikanischen Sprachen Dinka oder Zulu.

Zwar ist es grundsätzlich möglich, nach dem alten, aufwendigen Verfahren erzeugte Stimmen auch andere Sprachen sprechen zu lassen. "Aber das klingt, als hätte man einen schrecklichen englischen Akzent", sagt Mark Hasegawa-Johnson. "Wirklich lächerlich." Jeder Mensch sollte das Internet auch in seiner eigenen Sprache konsumieren können, findet der Informatiker – sei es in Textform oder gesprochen. Vor allem für Menschen mit Sehbehinderungen ist die Sprachausgabe wichtig, um überhaupt visuelle Medien konsumieren zu können.

Aber auch Menschen, die aus verschiedenen Gründen nicht mehr sprechen können, kann künstliche Intelligenz helfen, sich wieder zu artikulieren. Erste Unternehmen bieten bereits Sprachcomputer an, mit denen Menschen, die an der Nervenkrankheit ALS erkrankt sind, ihre Stimme konservieren und per Texteingabe weiterverwenden können. Auch Stephen Hawking hatte so einen Computer – allerdings noch mit einer unpersonalisierten Stimme "von der Stange".

Junger Luke Skywalker

Das meiste Geld gibt es aber in der Unterhaltungsbranche zu holen. Dort geht es den Abnehmern der Technologie gar nicht immer darum, eine Stimme zu generieren, die wie eine bestimmte Person klingt, sondern eine, die zum fiktionalen Charakter passt, erklärt Mark Hasegawa-Johnson. So wäre es etwa möglich, mehrere Stimmen zu kreuzen oder den Akzent zu verändern.

Oder zu verjüngen. Die ukrainische Firma Respeecher klonte etwa für die Disney-Serie Obi-Wan Kenobi nicht nur die legendäre Stimme von Darth Vader, die vom inzwischen 92-jährigen Schauspieler James Earl Jones stammt, sondern verjüngte auch die Stimme von Luke Skywalker.

Die Stimme von Darth Vader in der Disney-Serie Obi-Wan Kenobi ist KI-generiert.

Ob die Vorteile der geklonten Stimmen am Ende die Gefahren der Innovation überwiegen? Softwareunternehmen gehen mit ihren Erfindungen momentan zumindest noch vorsichtig um. Einen von Microsoft entwickelten Stimmenkloner kann etwa nur benutzen, wer zuerst gute Gründe in einem langen Formular angibt. Doch schon jetzt gibt es Tools, die auch lokal auf dem eigenen Rechner laufen – und die praktisch unkontrollierbar sind. (Philip Pramer, 29.4.2023)

Aus dem Nichts

KI kann jetzt Stimmen imitieren – aber wozu eigentlich?