Foto: ANDREW KELLY

Eine Fusion aus Reggaeton und elektronischer Tanzmusik, mit einem spacigen, jenseitigen Sound. Vermittelt die Erfahrung, im Raum verloren zu sein.

Mit dieser kurzen Beschreibung schafft die neue Google-KI Music LM ein 30-sekündiges Musikstück, das genau dieser Vorgabe entspricht – oder zumindest klingt, wie eine passende Interpretation dieser Idee. Wie schon Text- und Bild-KIs der letzten Monate, sind auch die Ergebnisse dieser neuen KI-Forschung mehr als beeindruckend und werden wohl nicht nur in der Kunstszene für vielerlei Diskussionen sorgen.

Wird die Musik verändern

"Das ist größer als Chat GPT für mich", zeigt sich der KI-Forscher Keunwoo Choi auf Twitter begeistert. Auch wenn Music LM nicht das erste KI-System ist, das auf diese Weise Musik erzeugt, so gab es etwa bereits Riffusion oder Dance Diffusion, ist es doch das erste, das komplexe Vorgaben dieser Art meistern und eine solch hohe Tonqualität liefern kann.

Veröffentlicht wurden die für staunende Gesichter sorgenden Beispiele in einer wissenschaftlichen Arbeit, die Google am Freitag veröffentlichte. 280.000 Stunden an Musikdaten trainierten die KI, um auch Vorgaben "erheblicher Komplexität" erfüllen zu können, wie die Forscher erklären. Beispiele finden sich in der Arbeit ausreichend. "Zauberhafter Jazzsong mit einprägsamem Saxofon-Solo und einem Solosänger" wäre eines davon oder auch "Der Soundtrack eines Arcade-Spiels. Es ist schnell und optimistisch, mit einem eingängigen E-Gitarren-Riff. Die Musik ist repetitiv und leicht zu merken, aber mit unerwarteten Geräuschen wie Beckenschlägen oder Trommelwirbeln".

Egal wie lang die Beschreibung ist und welche Melodien oder auch nur Stimmungen verlangt werden, Music LM stellt sich der Aufgabe und setzt diese um. Auch ein Wechsel der Musikrichtung, nach beispielsweise 15 Sekunden, werden mit sanften Übergängen in passende Klänge verwandelt. So ist sogar das musikalische Erzählen einer Geschichte möglich, was eine KI bis dato so noch nicht umsetzen konnte.

Bella ciao, bella ciao

Aber die Fähigkeiten von Music LM gehen noch weiter. Sie kann auf bekannte Songs zugreifen und diese beispielsweise summen oder pfeifen. Ein Beispiel in der Arbeit ist etwa die Kombination aus "Bella Ciao" und "Jingle Bells". In dem zehnsekündigen Stück wechselt die Pfeif-KI nach fünf Sekunden das Lied, ohne einen spürbaren Bruch zu erzeugen.

Ebenfalls möglich ist die musikalische Interpretation eines Bildes in Kombination mit der dazugehörigen Beschreibung. Als Beispiele finden sich Interpretationen zu "Der Schrei" von Edvard Munch oder auch zu "Die Beständigkeit der Erinnerung" von Dali. Da kommt der KI zugute, dass sie Instrumente bestimmten Epochen und Orten zuordnen kann. Sogar das Können der Musiker kann festgelegt werden – obwohl sich hier die Frage stellt, wer unerfahrenen Gitarristen oder Klavierspielerinnen zuhören möchte.

Unerfahren klingen auch so manche gesungene Passagen, die von der künstlichen Intelligenzen erstellt werden. Ein Nutzer auf Twitter nennt die Sprache etwa "unangenehm", auch weil der gesungene Text manchmal gar keinen Sinn ergibt und oftmals nur peripher an die englische Sprache erinnert.

In der Forschungsarbeit werden zahlreiche Beispiele gezeigt, auf was die KI alles zugreifen und wie sie Ideen kombinieren kann.
Foto: Google

Rechtliche Probleme

Ebenfalls in der Forschungsarbeit finden sich Anmerkungen, dass man sich sehr wohl der ethischen Herausforderungen bewusst ist, die solch eine KI mit sich bringt. In einem Experiment wurde etwa festgestellt, dass ein Prozent der generierten Songs direkte Replikationen von bereits bestehenden Musikstücken waren. Wohl auch ein Grund, warum sich Google aktuell dazu entschieden hat, Music LM nicht an die Öffentlichkeit weiterzugeben, sondern die KI weiterhin nur im Labor zu testen und weiterzuentwickeln.

"Wir erkennen das Risiko einer potenziellen Zweckentfremdung kreativer Inhalte im Zusammenhang mit unserer Forschung an", ist im Paper zu lesen. Diese Risiken in der Musikerstellung würde man sich deshalb noch sehr genau ansehen.

Auch wenn KI-Systeme dieser Art vor allem zur Unterstützung von menschlichem Schaffen und nicht deren Ersetzen zum Ziel haben, bleiben auch bei der Musikgenerierung viele rechtlichen Fragen offen, sollte Music LM oder eine ähnliche KI mit dieser Qualität irgendwann frei zugänglich sein. Bereits vor zwei Jahren hat etwa der Rechtsberater Eric Sunray einen kritischen Bericht dazu verfasst, da seiner Meinung nach KI-generierte Musik "kohärente Tonteppiche aus den Werken schafft, die sie zuvor eingespeist bekommen, und damit das Vervielfältigungsrecht des US-amerikanischen Urheberrechtsgesetzes" verletzen.

Eine ähnliche Diskussion gibt es aktuell rund um zahlreiche Bild-KIs, die basierend auf realen Werken neue schaffen. In den USA hat das mittlerweile dazu geführt, dass von zahlreichen Künstlerinnen und Künstlern eine Sammelklage gegen Midjourney und Stability AI initiiert wurde. Darin wird unter anderem gefordert, dass eine einstweilige Verfügung weitere durch KI geschaffene Bilder verhindern soll. In der Klageschrift wird ausgeführt, dass Stable Diffusion nur erschaffen werden konnte, indem die dahinterstehende Firma (Stability AI) "Kopien von Milliarden urheberrechtlich geschützten Bildern ohne Erlaubnis heruntergeladen oder anderweitig bezogen hat, um Stable Diffusion zu erstellen".

Dadurch seien auch die Kunstwerke der Klägerinnen in das KI-Tool integriert worden, allerdings ohne die Künstlerinnen dafür zu entschädigen. Dabei könne man sogar Bilder im Stil einer bestimmten Künstlerin in Auftrag geben. (aam, 28.1.2023)