Neue Microsoft-KI kann Stimmen nach nur drei Sekunden imitieren

Zugegeben, das Bild hat wenig mit dem Artikel zu tun. Aber wenn wir uns alle gemeinsam vorstellen, dass dieses Gesicht mit einer Stimmen-KI kombiniert werden könnte (und das ist nicht ausgeschlossen!), dann passt es wieder.

Im vergangenen Jahr hat sich rund um das Thema künstliche Intelligenz eine ganze Menge getan: Während Stable Diffusion oder Midjourney eindrücklich demonstrieren, wie gut KIs mittlerweile bei der Erstellung von Bildern geworden sind, brilliert ChatGPT bei der Textkonversation und dem Lösen unterschiedlicher Aufgaben. Bei Microsoft beackert man nun noch ein weiteres Themenfeld.

Nachbau

Unter dem Namen VALL-E haben die Forscher von Microsoft eine neue KI präsentiert, die die Stimmen einzelner Personen imitieren kann. Verblüffend ist dabei vor allem, wie schnell das geht. Bereits ein Tonschnipsel in der Länge von drei Sekunden soll ausreichen, um eine Stimme nachahmen zu können. Dabei sollen sowohl die emotionale Färbung als auch der Ton der Umgebung erhalten bleiben.

Bei Microsoft sieht man für die Technologie eine Fülle von Anwendungsmöglichkeiten. So wären etwa hochqualitative Text-zu-Sprache-Funktionen denkbar, wo dann eine Textnachricht mit der Stimme des Gegenübers vorgelesen wird. Aber auch die Korrektur einer Aufnahme – etwa wenn eine Aussage angepasst werden muss – wäre denkbar.

Manipulation

Spätestens hier dürfte klar werden, dass solche Technologien auch eine Kehrseite haben. Immerhin ließe sich das Ganze theoretisch verwenden, um Aussagen einer Person nachträglich zu fälschen oder gar vollständig neu zu erfinden. In Zukunft dürfte der Wert von Sprachaufzeichnungen als Beweis also weiter sinken. Bei Microsoft ist man sich dessen bewusst und kündigt an, ein Tool zu entwickeln, das mit VALL-E erstellte Audioclips erkennen kann.

Hintergrund

VALL-E basiert auf einer Technologie namens EnCodec, die Facebook-Hersteller Meta im Oktober 2022 vorgestellt hat. Dabei wird die Stimme nicht über die Wellenlänge synthetisiert, wie es bei klassischen Ansätzen der Fall ist. Stattdessen lernt die KI tatsächlich, wie eine Person spricht, und ordnet diese Information in unterschiedliche Komponenten – die sogenannten Tokens – ein.

Training vorab

Da die KI zuvor auf eine Fülle anderer Sprachbeispiele – in diesem Fall rund 60.000 – trainiert wurde, kann sie auf dieses Wissen zurückgreifen, um eine passende Stimme zu erzeugen. Dadurch reicht dann ein solch kurzes Sample, um imitieren zu können, wie beliebige von derselben Person gesprochene Beispiele klingen würden. Damit wird auch eine Einschränkung klar: Das Ganze funktioniert umso besser, je näher die anvisierte Stimme an einem in den allgemeinen Trainingsdaten enthaltenen Sample liegt.

Forschung zuerst

Generell betont Microsoft, dass es sich dabei natürlich nur um ein Forschungsprojekt handelt, VALL-E insofern auch noch nicht für die breite Öffentlichkeit zur Verfügung steht. Allerdings bietet man auf einer eigenen Website eine Reihe von Beispielen an, die verdeutlichen, wie gut das Ganze zum Teil schon funktioniert – aber auch, dass andere Versuche, eine realistisch klingende Stimme zu erzeugen, scheiterten. (apo, 10.1.2023)

VALL-E