KI von Meta erstellt aus Textbefehlen sogar Videos

So stellt sich die KI von Make-A-Video einen fliegenden Hund im Superheldenkostüm vor.

Wie es wohl aussähe, wenn ein Hund in einem Superhelden-Outfit durch die Lüfte flöge? Oder man einfach nur einen Schnappschuss aus dem Urlaub in Bewegung versetzt? Make-A-Video von Facebook-Mutter Meta könnte diese und ähnliche Fragen schon bald beantworten: Das KI-Tool soll nämlich das Erstellen von Videos mit simplen Textbefehlen oder auch auf Grundlage von eigenem Bildmaterial ermöglichen. Die Entwicklung befindet sich noch in einem frühen Stadium, zeigt aber jetzt schon großes Potenzial.

Neue Herausforderung

Im Internet findet seit letztem Jahr ein regelrechter Hype um KI-gestützte Anwendungen statt. Insbesondere die enormen Fortschritte von Bildgeneratoren wie Stable Diffusion, Midjourney oder DALL-E stellen eindrucksvoll unter Beweis, dass künstliche Intelligenz selbst Laien mächtige Tools an die Hand gibt, mit denen aufwendige kreative Prozesse in einem Bruchteil der bisher dafür notwendigen Zeit abgewickelt werden können. Freilich lassen die Resultate mitunter noch zu wünschen übrig, die fortlaufende Verbesserung verdeutlicht aber, dass diese Werkzeuge gekommen sind, um zu bleiben.

KI-gestützte Videogeneratoren hingegen sind nochmal eine ungleich schwierigere Herausforderung. Geht man davon aus, dass sie ähnlich zur Methode der Bildgeneratoren Trainingsmaterial mit Beschreibungen bräuchten, würde sich daraus eine ungleich höhere und komplexer zu verarbeitende Datenmenge ergeben, die zur Entwicklung eines KI-Modells notwendig wäre.

Für die Resultate von Make-A-Video verwendet Meta offenbar eine andere Zugangsweise. Zwar würden einerseits sehr wohl Videos verwendet, damit die KI "lernen kann, wie die Welt sich bewegt", heißt es auf der offiziellen Webseite. Jedoch würden diese über keine Textbeschreibung verfügen. Andererseits dürften auch sehr wohl bloße Bilder mit Beschreibungen als Lerngrundlage dafür herangezogen werden, wie die Welt aussieht und wie sie oft beschrieben wird.

Vorbild Mensch

Wie aus der Forschungsarbeit hervorgeht, wollen die Wissenschafter die KI mit der Herangehensweise eines unüberwachten Lernens nach und nach von der Abhängigkeit lösen, bearbeitete Daten, also in diesem Fall Daten mit einer Beschreibung, zu benötigen. In gewisser Weise würde man mit dem System versuchen wollen, mit der Art und Weise, wie das Umfeld wahrgenommen wird, das menschliche Lernen zu imitieren. Ganz ohne eine Kombination mit beschrifteten Bildern gehe dies aber noch nicht.

Im Ausblick der Arbeit wird auch klargestellt, dass Make-A-Video noch über Defizite verfügt, die man in künftigen Arbeiten ausbessern wolle. Dazu zählt beispielsweise das fehlende Verständnis der künstlichen Intelligenz, Zusammenhänge zwischen eingespeisten Texten und Vorgängen herzustellen, die sich ausschließlich aus den Videos (ohne Textbeschreibung) ableiten lassen. Das Forscherteam spricht aber auch den Schwachpunkt an, dass sich mit dieser Vorgehensweise noch keine komplexeren Handlungen oder detailliertere Geschichten darstellen lassen.

Erstaunliche Illusion

Sieht man sich konkrete Beispiele an, die Meta zur Verfügung stellt, ist man zunächst verblüfft, wie präzise die KI die angegebenen Textbefehle in einen kurzen Clip umwandelt: Blaue Einhörner fliegen über Fantasywelten, Roboter tanzen auf dem Times Square, und an anderer Stelle malt ein Teddybär ein Porträt von sich selbst. Die detaillierte Darstellung täuscht allerdings auf den ersten Blick.

Nach einem ersten Aha-Erlebnis wird klar, dass es sich wie schon angedeutet nur um kurze Clips oder Sequenzen handelt, die einem Meme-Generator alle Ehre machen würden. Darüber hinaus zeigt sich auch, dass die KI offenbar noch Probleme hat, die Bewegung von Lebewesen richtig zu interpretieren und dementsprechend korrekt darzustellen. Betrachtet man den Ritter, der über einen Feldweg reitet, scheinen der Bewegungsablauf der Pferdebeine etwas durcheinandergeraten zu sein.

Weiters fällt auf, dass das quadratische Format leicht abgehackter Videoclips darauf zurückzuführen ist, dass Make-A-Video die Inhalte laut Forschungsarbeit offenbar lediglich mit einer Auflösung von 64 x 64 Pixeln bei 16 Bildern pro Sekunde berechnet. Eine separate Routine skaliert das Ergebnis erst auf 768 x 768 Pixel hoch.

Ein 3-in-1-Tool

Geht es um die Anwendungsmöglichkeiten, soll Make-A-Video nicht ausschließlich darauf beschränkt sein, Bewegtbilder aufgrund von Textbefehlen zu erstellen. So soll man die KI auch selbst mit Bildern füttern können: Wahlweise kann man sich zu einem einzelnen Bild die entsprechende Animation "dazuerfinden" lassen. Oder aber man stellt Make-A-Video zwei Bilder zur Verfügung und die KI versucht, die "Lücke" dazwischen mit einer entsprechenden Animation auszugleichen.

Die dritte Möglichkeit besteht darin, dass man mit dem KI-Tool den Inhalt eines bestehenden Videos aufwertet, etwa durch einen aufwendigeren Hintergrund, oder sich einfach gleich mehrere Variationen der ursprünglichen Szene ausspielen lässt.

Genauer Verwendungszweck noch unbekannt

Meta ist davon überzeugt, dass Make-A-Video deshalb nicht nur ein spannendes Spielzeug für den Amateurbereich ist, sondern irgendwann einmal Medienschaffenden wie auch Künstlerinnen und Künstlern zugutekommen könnte. Im jetzigen frühen Stadium wäre es allerdings noch zu früh für Spekulationen, wo und unter welchen Konditionen Meta fortgeschrittene Versionen dieses KI-Videogenerators konkret einsetzen wird.

Naheliegend ist aber auch, dass die Gefahr kritischer Inhalte und missbräuchlicher Anwendung mindestens genauso hoch ist wie bei Bildgeneratoren. Meta weist in diesem Zusammenhang darauf hin, dass bereits zahlreiche Filter bei der Auswahl des Trainingsmaterials verwendet worden sind, um das Auftauchen bedenklicher Inhalte zu verhindern. Darüber hinaus sollen alle Inhalte auch mit einem Wasserzeichen versehen werden, um die KI-Herkunft klar zuweisen zu können. Unabhängig davon, dass sich Vorkehrungsmaßnahmen in der Praxis oft umgehen lassen, sind solche Technologien in einer fortgeschrittenen Entwicklungsphase möglicherweise auch hinsichtlich der Gefahr von Deepfakes zu hinterfragen.

Bitte warten

Make-A-Video wurde Ende September letzten Jahres erstmals vorgestellt und kann seither noch mit keinem weiteren Update aufwarten. Auf der offiziellen Seite zum Projekt gibt es nur die Beispielergebnisse des Generators von Meta selbst, für die sich nachträglich nicht abschätzen lässt, inwieweit sie nachbearbeitet worden sind. In Kürze soll es aber möglicherweise schon ein Update zu den Fortschritten des Projekts geben.

Auch überraschen lassen muss man sich in diesem Zusammenhang, ob das einen (teil-)öffentlichen Zugang zum Tool inkludieren wird. Grundsätzlich war von Anfang an eine Anmeldung möglich, um Interesse für das Testen von Make-A-Video zu bekunden, das Formular ist mittlerweile aber nicht mehr erreichbar. (Benjamin Brandtner, 6.2.2023)

Künstliche Intelligenz