Googles Dream Fusion erstellt 3D-Modelle auf Basis von Sprachbefehlen.

Foto: Dreamfusion

In den vergangenen Monaten haben diverse KI-Tools Einzug in den Massenmarkt gehalten, die wie Midjourney oder Stable Diffusion auf Befehl Bilder erstellen oder wie Chat GPT aufgrund eines einfachen Befehls ganze Texte schreiben.

Deutlich komplexer als zweidimensionale Bilder ist aber die Erstellung dreidimensionaler Objekte – und diese Bastion dürfte nun als Nächstes fallen. So könnte eine künstliche Intelligenz künftig 3D-Modelle erstellen, die anschließend in der Industrie als Vorlage für Produkte oder auch als Objekte in Computerspielen oder für Special Effects in Filmen verwendet werden.

3D-Modell per Texteingabe

Eines dieser Tools hört auf den Namen "Point-E" und wurde wie sein Namensvetter Dall-E vom Team hinter Open AI ins Leben gerufen – nur dass Point-E eben nicht auf eine Texteingabe hin Bilder erstellt, sondern 3D-Modelle.

Das klingt zunächst beeindruckend, allerdings spuckten die Versuche des Tech-Mediums "The Register" äußerst enttäuschende Ergebnisse aus, bei denen keine ganzen Objekte erstellt wurden, sondern lediglich Ansammlungen bunter Bildpunkte.

Foto: The Register

Das ist aber gar nicht schlimm, heißt es in dem Beitrag des Tech-Mediums. Denn ebendiese Ansammlungen von Bildpunkten können anschließend in 3D-Grafikprogramme wie Blender importiert werden, um dort fertige 3D-Modelle zu erstellen, die schon deutlich ansehnlicher sind und in diverse Kreativprojekte integriert werden können.

Foto: The Register

Das ist nicht perfekt, aber es ist recht schnell, wie die Initiatoren des Projekts in einem Paper schreiben. Deutlich schneller als das ähnlich funktionierende Projekt Dream Fusion aus dem Hause Google – und zwar um den Faktor 600, wie manche Beobachter verkünden. In Summe können dreidimensionale Objekte so innerhalb von nur ein bis zwei Minuten erstellt werden.

Kommerziell einsatzbereit ist diese Software zwar noch nicht – doch wenn es so weit ist, dann könnte sie das Rapid Prototyping solcher Prozesse verändern. Gleichzeitig werden hier ähnliche Fragen aufgeworfen wie bei KIs, die auf Texteingaben hin Bilder erzeugen: Mit welchem Material lernt die Software? Ist dieses urheberrechtlich geschützt? Und wird die KI dazu trainiert, rassistische oder sexistische Stereotype zu verstärken?

Übrigens: Googles Dream Fusion lässt sich auf der entsprechenden Website bereits ausprobieren und kann auch in einem größeren Umfang gratis genutzt werden – vorausgesetzt, man bringt entsprechendes technisches Know-how und ausreichend Zeit mit. Eine Anleitung dazu findet sich unter diesem Link.

3D-Modelle aus Fotos generieren

Eine andere Herangehensweise ist jene, 3D-Modelle aus Scans und Fotos zu generieren. Dies kann bereits heute mit Apps wie dem von Niantic vertriebenen Scaniverse durchgeführt werden und wurde vom STANDARD an anderer Stelle ausführlich getestet. Allerdings ist diese Technologie begrenzt: Sie scheitert oft an Lichtreflexionen, besonders große oder kleine Objekte ließen sich nicht vernünftig scannen.

Das ändert sich mit einer Technologie namens "Neural Radiance Field" (NeRF). Hier werden zweidimensionale Fotos genutzt, um daraus auf Basis von künstlicher Intelligenz 3D-Modelle zu generieren – die geradezu foto- und videorealistisch sind, wie diverse Versuche demonstrieren. Unter anderem werden Beleuchtung und Reflexionen realistisch wiedergegeben.

Äußerst faszinierend ist etwa ein Video des Youtube-Channels "Corridor Crew", in welchem die Technologie erklärt und demonstriert wird. Im Finale des Videos wird eine Szene des Blockbusterfilms "Inception" mit äußerst einfachen Mitteln nachgebaut.

Corridor Crew

Die Technologie ist noch nicht perfekt, sagt der Experte im Video – er zeigt sich aber äußerst beeindruckt von den ersten Möglichkeiten, Personen mit einfachen Mitteln und ohne Zuhilfenahme eines Greenscreens in virtuelle Umgebungen zu projizieren. Gerade für die Filmbranche soll sich hier viel Potenzial ergeben.

Zum Einsatz kam dabei übrigens keine aufwendige Software, sondern eine kostenlose App, die aktuell nur für iOS erhältlich ist: Luma AI. "Sie können Hollywood-Qualität ohne Hollywood-Budget erstellen", wirbt der Publisher. Benötigt wird dazu nur eine Kamera, ein Lidar-Sensor – wie bei vielen anderen 3D-Scanner-Apps – kommt nicht zum Einsatz.

Weniger Daten

Neu ist nun auch die Tatsache, dass das Unternehmen Nvidia in das Geschäft mit NeRFs eingestiegen ist. Der Vorteil, den man hier sieht: Fotos brauchen deutlich weniger Daten als detailreich gerenderte 3D-Modelle – was entsprechend Bandbreite und Festplattenspeicher spart, wenn diese Technologie bei Games zum Einsatz kommt. Die Grafikkarte könnte die Modelle also künftig in Echtzeit aus Fotos generieren, wie ein Youtuber im nachfolgenden Video erklärt und das Team auch in einem Research Paper erläutert.

Two Minute Papers

Man sieht: Die Breite möglicher Anwendungen mit dieser Technologie ist enorm, allein schon unter Filmemachern und Game-Developern dürfte sich neues Potenzial auftun und der Budgetvorteil großer Studios gegenüber kleinen Kreativstudios zunehmend schmelzen. Nun stellt sich nur noch die Frage: Was wird zuerst da sein – eine Fülle an via KI erstellten 3D-Modellen oder der Durchbruch des Metaversums im Massenmarkt? (Stefan Mey, 23.12.2022)