"Corgi mit Mascherl und Hut": KI beeindruckt mit Bildern aus Textbeschreibungen

Ein Corgi, der ein rotes Mascherl und einen violetten Partyhut trägt. Eine Illustration von Albert Einstein in einem Superheldenkostüm. Eine Glasmalerei eines Pandas, der Bambus frisst. Eine Herbstlandschaft mit einer kleinen Hütte bei einem See.

All das sind Arbeitsaufträge, die Forscher des Open-AI-Projekts einer von ihnen entwickelten künstlichen Intelligenz übertragen haben. Das hybride System namens Glide (Guided Language to Image Diffusion for Generation and Editing) machte daraus beeindruckende Bilder, die die Beschreibungen auch klar erfüllen.

Multitalent

"Wir sehen, dass unser Modell fotorealistische Bilder mit Schatten und Reflexionen produzieren, mehrere Konzepte korrekt zusammensetzen und künstlerische Darstellungen neuer Konzepte erstellen kann", schreiben die Wissenschafter in einer Preprint-Ausgabe ihres Papers auf der Plattform "Arxiv".

Glide setzt auf ein Diffusionsmodell, das mit 3,5 Milliarden Parametern arbeitet. Trainiert wird es, in dem man ihm Bilder vorlegt, die graduell durch gaußsches Rauschen zerstört werden, um von der KI wieder instand gesetzt zu werden. Dieser Prozess wurde verbunden mit einem Textinterpreter für natürliche Sprache.

Photoshop-Prinzip

Neben der Fähigkeit, Bilder selbst zu generieren, hat man die KI auch mit Bildbearbeitungsmöglichkeiten ausgerüstet. Nach der Eingabe einer Beschreibung sucht das System nach existierendem Bildmaterial, das es weiter bearbeiten kann. Als Beispiel nennt man den Bildauftrag "Ein Mädchen, das einen Corgi umarmt", wobei Glide hier ein Foto eines Mädchens sucht, das einen Hund umarmt, um diesen dann mit einem Vierbeiner der korrekten Rasse zu ersetzen.

Beim Auftrag "Nur eine Wolke heute am Himmel" sucht Glide ein Panoramabild und generiert dafür einen blauen Himmel nebst besagter Einzelwolke. Auf mehreren Grafiken zeigt man grob den Bearbeitungsprozess.

Potenzial und Sorgen

Auf der Codehosting-Plattform Github hat Open AI eine limitierte Version der KI verfügbar gemacht. Der Künstler Kyle McDonald hat damit bereits experimentiert und festgestellt, dass sie prinzipiell funktioniert, die Ergebnisse der vollen Version aber qualitativ unterlegen sind. Das zeigt er mit einer Reihe von Ergebnissen für die Zeichenanweisung "Ein Igel, der einen Taschenrechner benutzt". Allerdings gibt es in den Reaktionen auf McDonald auch Verdächtigungen, dass Open AI seine veröffentlichten Ergebnisse sorgfältig ausgewählt hat und diese möglicherweise nicht sehr repräsentativ sind.

Doch selbst wenn die veröffentlichten Ergebnisse stark kuratiert sind, sind sie technisch sehr beeindruckend. Allerdings werfen sie auch Fragen auf. Deepfakes, also die KI-gestützte Manipulation von Bildern, Videos und Audio, gelten schon länger nicht nur als kreatives Werkzeug, sondern auch als möglicher Treiber für Meinungsmanipulation und Desinformation. Ihr Einsatz für diese sinistren Zwecke hält sich derzeit noch in Grenzen. Zum größeren Problem geworden sind aber bereits Deepnudes und Deepfake-Pornos, bei denen vor allem die Gesichter von Frauen ohne deren Einwilligung in explizite Fotos und Filme integriert werden. (gpi, 23.12.2021)

Innovationen

"Corgi mit Mascherl und Hut": KI beeindruckt mit Bildern aus Textbeschreibungen

Multitalent

Photoshop-Prinzip

Potenzial und Sorgen

Forum: 26 Postings

Ihre Meinung zählt.