Vor allem kleine Studios können mithilfe von künstlicher Intelligenz mehr Output generieren.

(Dieses Bild wurde von der Bild-KI Stable Diffusion generiert. Der Prompt lautete: "a robot playing electric guitar on a stage".)

Foto: Stabe Diffusion/Stefan Mey

Von der Texterstellung mit Tools wie ChatGPT bis zur Generierung von Bilder mit Werkzeugen wie Stable Diffusion oder Midjourney: Künstliche Intelligenz (KI) ist gleichermaßen in der Kreativszene und im Massenmarkt angekommen, diverse Tech-Konzerne von Microsoft bis Baidu sind zuletzt verstärkt auf das Thema aufgesprungen. Fast schon medial untergegangen ist dabei das Ende Jänner aufgetauchte Google-Projekt namens Music LM: Es soll nicht weniger können, als auf Textbefehle hin Musikstücke zu komponieren. Mit MuseNet arbeitet OpenAI, das Unternehmen hinter ChatGPT, an einer ähnlichen Lösung.

Betrachtet man die ersten Beispiele von Music LM, dann sind diese Ergebnisse durchaus beeindruckend. So soll die KI nicht nur bestimmte Musikstile, sondern auch die Stimmungen der Songs auf Befehl übernehmen können, auch das Komponieren von Liedern auf Basis eines Bildes ist möglich.

Ähnliche Tools gibt es in Form von Riffusion und Dance Diffusion zwar schon heute, allerdings nicht in diesem Ausmaß – unter anderem sind diese Tools dadurch eingeschränkt, dass sie nur kurze Soundschnipsel produzieren, die für den tatsächlichen Einsatz in der professionellen Musikproduktion ungeeignet sind. Und bis Googles Lösung den Massenmarkt erreicht, wird es wohl noch eine Weile dauern.

"In jedem tausendsten Lied steckt eine Seele"

Es gibt aber durchaus KI-Tools, die schon heute passable Ergebnisse liefern und somit in vielen Bereichen – von der Konzeption eines Songs bis hin zum Mastering – eingesetzt werden können. Das weiß auch Michael Katzlberger. Er war bis 2021 Geschäftsfüher von Tunnel 23, einer Agentur für digitale Werbung, und ist nun als Experte für künstliche Intelligenz in der Kreativindustrie tätig.

Und als solcher experimentiert er auch viel mit KI-generierter Musik. Rund 20.000 Lieder hat er inzwischen mithilfe von KI-Tools generiert, wie er im Gespräch mit dem STANDARD sagt: "Und in jedem tausendsten Lied steckt so etwas wie eine Seele drin. Alle paar Hundert Songs denkt man sich, dass das genauso von einem Mensch hätte komponiert werden können." Die Ausfallrate ist also noch hoch. Aber die Tools werden auch immer besser, wie Katzlberger sagt.

In puncto Genre hat sich Katzlberger auf klassische Klaviermusik, Filmmusik und House konzentriert. Die Ergebnisse verkauft er teils an B2B-Kunden, die sie zum Beispiel auf Afterpartys als Hintergrundmusik verwenden. Andere Anwendungsszenarien gäbe es etwa in Fahrstühlen oder in Thermen – also an Orten, wo Hintergrundberieselung gewünscht ist und die Musik nicht im Vordergrund steht.

Der große Vorteil: Die synthetischen und neu komponierten Songs sind rechtefrei und können somit auch unabhängig von diversen Verwertungsgesellschaften verwendet werden, sofern die Tools auch mit rechtefreiem Material – etwa klassischer Musik aus vergangenen Jahrhunderten – trainiert werden.

Gesang und Gitarren als Herausforderung

Katzlberger sieht, dass kleinere Kreativagenturen und Musikstudios diese Technologie nutzen können, um ihren Output zu verbessern, vermutlich experimentieren aber auch die großen Stars schon mit diesen Tools. In einem Blogbeitrag erklärt Katzlberger etwa, dass auch David Bowie zu Lebzeiten schon mit einem KI-Textgenerator experimentierte.

Textshop Experiments

Zu den großen Herausforderungen gehört unter anderem die authentische Generierung von Gesang. Hier gibt es zwar mit Google Wavenet schon einen guten Text-to-Speech-Converter, und die Welt blickte zuletzt schockiert auf das Tool Prime Voice AI, mit dem ein Fake-Soundfile generiert wurde, in dem die Schauspielerin Emma Watson Passagen aus Adolf Hitlers "Mein Kampf" liest – in all diesen Fällen handelt es sich aber bestenfalls um melodisches Sprechen, das für Rapsongs verwendet werden kann, nicht aber um akkuraten Gesang im Takt der begleitenden Musik.

Doch hier wird es Fortschritte geben, ist Katzlberger überzeugt: "Auch hier werden die KI-Ergebnisse künftig nur noch von Profis erkannt werden." Eine andere Herausforderung ist hingegen, wenn es darum geht, möglichst schmutzige Ergebnisse – etwa aus den Musikrichtungen Punk und Grunge – zu produzieren. "An verzerrten E-Gitarren habe ich mir auch die Zähne ausgebissen", sagt Katzlberger.

MIDI als das Maß aller Dinge

Katzlberger selbst arbeitet mit einer Bibliothek aus mittlerweile rechtefreien Kompositionen alter Meister, etwa Beethoven. Diese liegen ihm im MIDI-Format vor. Für Laien erklärt: MIDI steht für Musical Instrument Digital Interface und geht auf das Jahr 1981 zurück. Im Gegensatz zu fertig produzierten Musikstücken – etwa in Form von MP3s – bestehen MIDI-Dateien aus Befehlen an den Computer, wann er welche Note in welcher Höhe wie lange und mit welcher Intensität ausspielen soll.

Der Computer nutzt dann eine Audiobibliothek, um diese Daten als hörbare Musik auszuspielen. Seit Jahrzehnten ist MIDI das etablierte Format in der Musikproduktion, und wegen seiner Maschinenlesbarkeit und der einfachen Editierbarkeit ist es freilich auch für die KI ein gefundenes Fressen. Das gilt etwa auch für die eingangs erwähnten Tools, die aus Stimmungen, Texten, Bildern und Videos Musik generieren: MIDIs sind Daten, und Daten versteht der Computer.

Als Beispiele für KI-Tools zum Erstellen von MIDIs nennt Katzlberger etwa Audiocipher und Soundraw: zwei Text-zu-MIDI-Generatoren, die schon jetzt geschriebene Texte und Stimmungen in MIDIs verwandeln. Zu beachten ist dabei: Das Endprodukt ist alles andere als perfekt, das von der KI ausgespuckte Werk muss nachher in einem entsprechenden Programm, der Digital Audio Workstation (DAW), von einem Menschen nachbearbeitet werden. Dort können freilich auch andere Instrumente oder auch menschlicher Gesang hinzugefügt werden, wenn man das möchte.

Meisterarbeit Mastering

Als Königsklasse in der Musikproduktion gilt aber letztlich etwas, das als Mastering bezeichnet wird: das genaue Abstimmen der einzelnen Instrumente für die finale Produktion. Hierfür brauchen Menschen traditionell nicht nur ein extrem gutes Gehör, sondern auch sündhaft teures Equipment. Doch auch diese Tätigkeit wird von der KI inzwischen übernommen: Katzlberger verwendet für das Mastering ein Tool namens Emastered, ein anderes beliebtes Mastering-Werkzeug ist Songmastr.

Bedeutet dies nun, dass die Königsklasse obsolet wird und die einst teuer entlohnten Fachkräfte arbeitslos werden? Nein, das glaubt auch KI-Experte Katzlberger nicht: "Es wird trotzdem immer professionelles Mastering geben, etwa wenn viele Musiker gemeinsam in einem Studio spielen."

Dass sich aber diverse Kreativbranchen im Umbruch befinden, davon ist Katzlberger auf jeden Fall überzeugt. Viele Jobs, auch in Kreativagenturen, würden in ihrer alten Form wegfallen oder sich radikal ändern, dafür würden neue entstehen – nicht zuletzt jener des Prompt-Designers, der es wie kein anderes Teammitglied versteht, die Maschine mit den richtigen Anweisungen zu füttern. Und somit Hand in Hand mit der KI zu kollaborieren. (Stefan Mey, 12.2.2023)