OpenAI hält die Sprach-KI Voice Engine zurück, wohl aus Furcht, sie könnte zur Wählerbeeinflussung missbraucht werden.
IMAGO/Nicolas Economou

OpenAI, das Unternehmen hinter ChatGPT, hat eine Software entwickelt, die menschliche Stimmen perfekt klonen können soll. Aus Sorge vor Missbrauch, wird sie aber vorerst nicht veröffentlicht. "Voice Engine verwendet Texteingaben und eine lediglich 15-sekündige Audioprobe, um natürlich klingende Sprache zu erzeugen, die dem Originalsprecher sehr ähnlich ist", heißt es in der Mitteilung des Unternehmens.

Voice Engine wird seit 2022 entwickelt und eine erste Version der Software wurde für die Text-to-Speech-Funktion in ChatGPT verwendet. Ihre Leistungsfähigkeit wurde jedoch nie öffentlich bekannt gegeben, was zum Teil auf den "vorsichtigen und informierten" Ansatz zurückzuführen ist, den OpenAI verfolgt, um sie weiter zu verbreiten.

Voice Engine hilft beim Lesenlernen

"Wir hoffen, einen Dialog über den verantwortungsvollen Einsatz von synthetischen Stimmen zu beginnen und darüber, wie sich die Gesellschaft an diese neuen Fähigkeiten anpassen kann", so OpenAI in einem nicht signierten Blogpost. "Auf der Grundlage dieser Gespräche und der Ergebnisse dieser kleinen Tests werden wir eine fundiertere Entscheidung darüber treffen, ob und wie wir diese Technologie in großem Maßstab einsetzen."

Aktuell wird Voice Engine nur im kleinen Maßstab eingesetzt. So hilft das Programm etwa Kindern beim Lesenlernen. Das Bildungstechnologieunternehmen Age of Learning erstellt mit Hilfe der Software beispielsweise Voiceovers zu generieren im eigenen Lernmaterial. Außerdem kommt die Stimmen-KI bei dem KI-Videogenerator Heygen zum Einsatz, wo sie beispielsweise Akzente generiert. Außerdem wird das Beispiel einer jungen Frau genannt, die aufgrund eines Hirntumors ihre Stimme verloren hatte. Diese Testläufe wolle man weiter fortsetzen. Wie und wann Voice Engine veröffentlicht wird, ist unklar.

Angst vor Manipulation

Die Sorge vor Manipulation dürfte auch mit den bevorstehenden US-Präsidentschaftswahlen und den Wahlen in der Europäischen Union zu tun haben. Erst im Jänner kam es zu Fällen, in denen bekennende Demokraten von einer wie Joe Biden klingenden Stimme am Telefon aufgefordert wurden, nicht an den Vorwahlen der Demokraten in New Hampshire teilzunehmen, wie "Golem" berichtet.

Darüber hinaus will OpenAI eine Kennzeichnung von KI-generierten Stimmen einführen. "Wir befürworten Schritte wie die schrittweise Abschaffung der sprachbasierten Authentifizierung als Sicherheitsmaßnahme für den Zugriff auf Bankkonten und andere sensible Informationen", heißt es darüber hinaus in dem Blogpost. Der ChatGPT-Entwickler ist nicht das erste Unternehmen, das Lösungen für Voice-Cloning anbietet. So konnte DER STANDARD für den Podcast "Thema des Tages" beide Sprecher binnen 20 Minuten klonen und ein einigermaßen überzeugendes Resultat abliefern, auch wenn die Sprecher einen klar hörbaren bundesdeutschen Einschlag hatten. Mit der deutschen Sprache tut sich aber Voice Engine noch schwer, wie ein Soundbeispiel in dem Blogpost beweist: Die KI-Stimme spricht mit einem erheblichen englischen Akzent.