Stable Diffusion: Die nächste Bilder-KI sorgt für Begeisterung

In dieser Galerie: 11 Bilder

"A cat in a leather jacket playing e-guitar on a concert stage."

"A bearded man wearing top hat and monocle sitting in a London cafe, reading a newspaper Steampunk age."

"A godly hand holding a galaxy in deep space."

"A female wizard standing on a windy mountaintop in a thunderstorm during the night anime style."

"Frontal photo of Donald Trump holding a press conference."

"A canine priest reading the sermon in a gothic cathedral."

"Panoramic view of the alpine mountains during full moon."

"Bronze statue of a frog knight standing on a deserted plaza."

"Sepia photo of an ancient dragon crawling out of a swamp."

"A gloomy, foggy autumn day with light rain in the forest"

Künstliche Intelligenzen, die auf Kommando Bilder malen, haben in den letzten Monaten breite Aufmerksamkeit erfahren – auch außerhalb der Tech-Welt. Zuletzt hat etwa der Sieg eines von der KI "Midjourney" generierten Gemäldes bei einem Ausstellungsbewerb auf der Colorado State Fair für einige Diskussionen darüber gesorgt, wie viel menschliche Kunst eigentlich in einem solchen Werk steckt.

Ungeachtet dessen erfreuen sich mittlerweile zigtausende Menschen an dem Werkzeug, das ihnen die Technologie bietet. Es reicht die Eingabe einer Idee – egal ob nur grob ausformuliert oder mit vielen Details –, um teils erstaunliche Resultate zu erzeugen. Während Google seinen eigenen Bildgenerator "Imagen" nicht öffentlich verfügbar macht und Open AI für sein Projekt "Dall-E 2" eine Warteliste für den öffentlichen Testlauf pflegt und die limitierte Auskopplung "Craiyon" (vormals "Dall-E Mini") wesentlich weniger leistungsfähig ist, ist Midjourney für jeden nutzbar. Neue User erhalten ein Kontingent an kostenlosen Credits für Tests und können anschließend für die Nutzung zahlen.

Bild-KI goes Open Source

Mit "Stable Diffusion" von Stability AI gibt es nun auch eine dritte Option. Diese wurde zuerst für Forscher freigegeben, steht seit Ende August aber auch der Allgemeinheit als Open Source zur Verfügung. Wer die Skills und Ressourcen dafür hat, kann damit auch direkt auf seinem eigenen Rechner Bilder erzeugen lassen. Diese Öffnung bietet daher großes Potenzial, birgt aber auch erhöhte Risiken – Stichwort: Deepfakes. Ebenso aber bessere Chancen, künftigen Fälschungen leichter auf die Schliche zu kommen.

Mit Dreamstudio gibt es ein von Stability selbst entwickeltes webbasiertes Tool, über dessen Interface verschiedene Einstellungen gesetzt und Bildbeschreibungen übermittelt werden können. Dieses befindet sich aktuell im Betatest. Interessenten können die Chance nutzen und derzeit ebenfalls kostenlos mit der KI experimentieren, ohne selbst Hand an den Code legen zu müssen.

DER STANDARD hat sie ausprobiert und einen Vergleich zu Midjourney angestellt. Dabei offenbaren beide KIs klare Unterschiede, Stärken und Schwächen.

Hinweise: Genutzt wurden die Standardeinstellungen von Dreamstudio (Bilder in der Größe von 512 x 512 Pixel, Cfg scale 7, Steps 50, Sampler kms und Version 1.5 des Stable-Diffusion-Modells). Die Anzahl der Ergebnisse für jede Eingabe wurde aber von einem Bild auf vier erhöht, um auch Varianten vergleichen zu können. Verglichen wird außerdem mit den Ergebnissen aus dem Midjourney-Probelauf im Juni. Die KI hat seitdem allerdings Updates erhalten, die Bilder geben dafür also nicht mehr zwingend den aktuellen Stand wieder.

Schnitzeltest und Tiefseequallen

Einleitend musste sich natürlich auch Stable Diffusion dem "Schnitzeltest" stellen und auf den Prompt "A Wiener Schnitzel on a plate" ein Bild erzeugen. Die Ergebnisse sind vergleichbar mit jenen von Midjourney.

Eingabe: "A Wiener Schnitzel on a plate".

Die Ergebnisse sind annähernd fotorealistisch. Während Midjourney sich recht penibel an die Vorgabe hält, allerdings in einem Resultat offenbar das Schnitzel als aufgegessen betrachtete, ergänzt Stable Diffusion Beilagen, die so manchen puristischen Anhänger des austriakischen Traditionsgerichts nicht erfreuen dürften.

Die nächste Herausforderung ist nicht nur komplexer, sondern bietet auch mehr künstlerische Elemente. Es geht um Qualle(n), die in der Tiefsee "schweben". Der Zusatz "mit Licht" lässt offen, ob dieses von der Umgebung stammt oder ausschließlich von den Quallen selbst ausgestrahlt wird. Auffällig ist hier, dass Stable Diffusion erneut Ergebnisse kreiert, die an Fotos erinnern, während Midjourney durchgängig zeichnerische Werke vorlegt.

"Beautiful luminescent jellyfish floating in the deep sea with light."

Schön sind alle Ergebnisse auf ihre eigene Art, geht es aber um die glaubwürdige Abbildung von Quallen, so liegt Stable Diffusion klar im Vorteil. Das muss nicht unbedingt am KI-Modell selbst liegen, sondern kann auch bedeuten, dass beim Training der KI mehr Daten in Form von Text-Bild-Paaren eingeflossen sind. Oder dass diese schlicht mehr Quallen-Aufnahmen enthalten haben.

Bias-Check

Zeit, zu prüfen, welche Vorurteile und Stereotypen die KI aus dem Datenmaterial gelernt hat. Vor diesem Risiko warnten auch die Entwickler selbst, als sie ihre KI der Öffentlichkeit zugänglich machten. Ein Klassiker ist hier freilich die Abfrage ihres "Schönheitsideals". Wie also stellt sich Stable Diffusion den "schönsten Mann" bzw. die "schönste Frau der Welt" vor?

"The most beautiful woman/man in the world."

Die "Fotolastigkeit" der KI im Vergleich zur malerischen Ästhetik von Midjourney setzt sich hier fort. Beim männlichen Schönheitsideal liegen beide sehr ähnlich, nämlich mit einer klaren Tendenz zu einem schlanken, jungen Herrn mit Dreitagebart und heller Hautfarbe. Stable Diffusion gesteht diesem aber eine größere Varianz hinsichtlich der Frisur zu und erzeugt außerdem drei unterschiedlich aussehende digitale Frauen, während Midjourney mehrfach die gleiche "Person" abbildet. Stable Diffusion schlägt sich auch generell klar besser bei der Abbildung von Gesichtern, baut aber ebenfalls klar ersichtliche Fehler ein.

Dreamstudio hat allerdings zusätzlich Filter implementiert, mit denen "Not Safe for Work"-Inhalte ausgeblendet werden, weswegen hier mehrere Ergebnisse nur verwaschen dargestellt werden. Bei manchen Begriffen erscheint überhaupt nur eine Warnmeldung, die über ein Verbot informiert. In Sachen Gewalt zeigt sich der Filter deutlich weniger sensibel, ein blutiges Axtmordopfer im Wald wurde ohne Warnmeldung oder Weichzeichnung erzeugt.

Midjourney besser bei "freien" Eingaben

Geht es um Eingaben, die freie Interpretation fordern, spielt allerdings Midjourney im Vergleich seine Stärken aus. Auf die Aufforderung, eine Welt nach dem Verfehlen des Zwei-Grad-Klimaziels zu erfinden, generierte die KI eine Reihe dystopischer Visualisierungen.

"A world after failing to reach the two degree temperature goal."

Stable Diffusion hingegen legte sich beim Begriff "Welt" auf eine Karten- oder Globusdarstellung fest – in einem Fall ausschließlich auf die USA bezogen. Alle weiteren Angaben sind höchstens aus der Farbgebung oder der wenig erfolgreichen Generation von Pseudotext zu erkennen.

Nächstes Betätigungsfeld: Popkultur. Zur Erprobung, wie gewandt Stable Diffusion im Umgang mit spezifischen Referenzen und dem Erkennen bekannter, aber fiktiver Figuren ist, wurden zwei Aufgaben gestellt. Einerseits sollte der Leitspruch der Lovecraft'schen Cthulhu-Kultisten ("In seinem Haus in Rlyeh wartet der tote Cthulhu träumend") in ein Bild umgewandelt werden, andererseits der vulkanische "Enterprise"-Offizier Spock in einen Profi-Wrestler verwandelt werden.

"In his house at Rlyeh dead Cthulhu waits dreaming." / "Mister Spock as a pro wrestler realistic."

Aus ihrem Datenschatz haben beide KIs eine gute "Vorstellung" davon entwickelt, wie das extraterrestrische Tentakelmonster aussieht. Stable Diffusion wechselt hierfür auch zu verschiedenen illustratorischen Darstellungen. Dass sich Cthulhu in einem wie auch immer gearteten Haus befindet oder träumen könnte, geht aus den Erzeugnissen aber nicht hervor. Midjourney nimmt diese Vorgabe immerhin auf, so ganz passt ein klassisches Bett mit Decke und Polster aber nicht ins Konzept.

Beim Showsport-Spock hingegen spielt Stable Diffusion seine Überlegenheit in der realistischen Abbildung von Gesichtern aus und liefert auch eine – wenn auch immer noch fehlerbehaftete – Visualisierung von Körperteilen.

Style-Transfer

Style-Transfer, also das Imitieren und Übertragen eines Zeichenstils, scheint Midjourney besser zu liegen. Bei der Erschaffung einer "fröhlichen" Szene im Stile des für seine düsteren Bilder bekannten Alfred Kubin hält sie sich besser ans Original als Stable Diffusion. Auch die "technische Zeichnung" des Brandenburger Tors sieht hier mehr aus wie aus einem Comic.

"A happy scene in the style of Alfred Kubin." / "Technical drawing of the Brandenburg Gate Berlin."

Vorteile hat Midjourney auch beim Nachahmen des Zeichenstils eines vierjährigen Kindes. Ob das auch daran liegt, dass Dreamstudio die Eingabe des Begriffs "child" gar nicht erst erlaubt und seine Schlüsse somit nur aus "4 year old" ziehen muss, sei dahin gestellt. Für die Plaza-Szene im Stil des "Matrix"-Films finden beide KIs unterschiedliche Zugangsweisen.

Midjourney ertränkt seine Ergebnisse in Grüntonen und scheint seine visuellen Clues weniger aus dem Live-Action-Film als der Cartoon-Serie "The Animatrix" zu ziehen. Stable Diffusion liefert Bilder mit stärker cineastischem Anspruch. Beim Betrachten der Ergebnisse würde man aber nicht unbedingt auf die Idee kommen, dass der vielleicht bekannteste Film mit Keanu Reeves die ästhetische Vorlage sein soll.

"Animals on a field drawn by a 4 year old (child)." / "A Roman plaza scene in the style of the Matrix movie."

Bei komplexen künstlerischen Prompts zeigt sich Midjourney als fähiger. Das muss allerdings nicht zwingend am Datenbestand oder dem Erzeugungsverfahren liegen, sondern könnte auch schlicht besserem Textverständnis geschuldet sein. Die Vorgabe einen "sehr alten, faltigen Mann aus Stein als 2D-Kunst" zu erschaffen, wird noch gut erfüllt. Beim Star-Wars-Bäckerduell hingegen gehen jegliche Referenzen auf die Weltraum-Fantasy-Saga verloren.

"A very old wrinkly bald man made of stone 2D art." / "Two french bakers dueling with baguettes as weapons Star Wars aesthetics."

Ausgesprochen schöne und glaubwürdige Werke liefern beide KIs ab, wenn es um Landschaftsbilder geht. Dabei lassen sich unterschiedlich gesetzte Schwerpunkte ebenfalls gut erkennen. Wo Stable Diffusion den Wunsch nach "viel Moos" sehr ernst nimmt, punktet Midjourney wiederum stark mit der Lichtstimmung.

"A misty wet forest with lots of moss in the morning light."

Schier endloses Potenzial

Mit diesem Vergleich kratzt man aber nur an der Oberfläche dessen, was mit Technologie wie dieser und ihrer Offenlegung möglich wird. Obwohl der Quellcode noch nicht lange vorliegt, erwecken schon zahlreiche Enthusiasten das Potenzial von Stable Diffusion, wie Ars Technica dokumentiert.

Sie lassen die KI vollwertige Porträts aus den pixeligen Vorlagen von Computercharakteren aus Games-Klassikern wie "Monkey Island" erzeugen oder plastische, detaillierte Bilder aus Zeichnungen von Kindern. Ein Entwickler lässt die KI sogar die Blockwelt von "Minecraft" in eine realistische Landschaftsdarstellung "übersetzen". Das Ergebnis ist hier zwar noch von überschaubarer Qualität, gibt aber einen Vorgeschmack auf kommende Entwicklungen.

Die Bedeutung der Freigabe kann man kaum überschätzen. Zu diesem Schluss kommt auch der Computergrafik-Experte Karoly Szolnai-Feher. Der ehemalige Doktorand von der TU Wien gibt in einem Video auf seinem Youtube-Kanal "Two Minute Papers" eine kurze Übersicht zu den Möglichkeiten, die sich jetzt und in Zukunft eröffnen werden.

Wer Stable Diffusion selber austesten möchte, kann dies entweder mit dem Testkontingent von Dreamstudio oder auf dieser Demo-Website. Wer sich daran probieren möchte, die KI mithilfe der eigenen Grafikkarte laufen zu lassen, findet wiederum an dieser Stelle eine ausführliche Anleitung. (gpi, 11.9.22)

Innovationen