Schummelvorwürfe, eine halbfertige KI: Google hat den Gemini-Launch vergeigt

Der Vorwurf ist schwerwiegend: Google hat bei der Vorstellung seines neuen KI-Modells Gemini ein Video bewusst gefälscht, um besser dazustehen. So wird es zumindest derzeit in vielen Schlagzeilen knackig formuliert. Bei näherer Betrachtung erweist sich dieser Vorwurf zwar schnell als deutlich übertrieben, und doch fügt er sich in ein Bild. Der Launch von Gemini ist ziemlich chaotisch verlaufen, man könnte gar sagen: Google hat ihn versemmelt.

Gemini AI — Gemini ist da. Irgendwie halt.

Zu viel Lärm um ziemlich wenig

Beginnen wir mit dem, was derzeit am meisten zu interessieren scheint: jenes Video, das die multimodalen Fähigkeiten von Gemini demonstrieren soll, also das Zusammenspiel von Text, Bildern und Co. Was an der Kritik stimmt: Tatsächlich stellt dies keine direkte Wiedergabe einer Interaktion mit Gemini dar. Die Abläufe wurden ebenso gekürzt wie die verwendeten Prompts, die realen Anfragen waren also länger. Zudem erfolgten die Eingaben nicht via Sprache, sondern Text, und die KI orientierte sich auch nicht an einem laufenden Video, sondern an Einzelbildern.

Klingt alles zunächst durchaus problematisch, der Vorwurf einer gezielten Fälschung, um Gemini besser dastehen zu lassen, geht trotzdem ins Leere. Dass jene, die nun aufgeregt darüber berichten, überhaupt von all dem wissen, liegt nämlich daran, dass Google selbst parallel zum Video einen detaillierten Blogeintrag mit den realen Interaktionen veröffentlicht hat. Ein Blogeintrag, der zudem direkt in der Videobeschreibung auf Youtube verlinkt ist. Versteckt hat ihn das Unternehmen also nicht gerade.

Dazu kommt, dass sämtliche Medien, die am Pre-Briefing für Gemini teilgenommen haben, darunter auch DER STANDARD, explizit darauf hingewiesen wurden, dass das Video einen Ausblick auf kommende Möglichkeiten darstellt – also nicht auf aktuell bereits gebotene Funktionalität. Dinge, die dank der Multimodalität von Gemini schon bald möglich sein sollten. Kommuniziert hat das dann aber kaum wer. Zum Teil müssen sich also jene, die sich jetzt empören, schon selbst an der Nase nehmen.

Das umstrittene Video

Ungeschickt war es trotzdem

Wenn man Google also etwas vorhalten kann, dann dass man diesen Umstand im Video selbst nicht klar herausgestrichen hat. Ein vorgeschalteter Hinweis am Anfang hätte dem Unternehmen den aktuellen Shitstorm sehr einfach erspart. Tatsächlich sollen Google-intern vorab schon manche gewarnt haben, dass der Clip missverstanden werden könnte. In der Eile, all das schnell zu veröffentlichen, scheint das aber nicht gehört worden zu sein. Dass Google-Chef Sundar Pichai selbst das Video ohne entsprechende Klarstellungen auf Twitter geteilt hat, war zweifelsohne ebenfalls ein schwerer Fehler.

Was von all dem tatsächlich bleibt: Google hat in diesem Fall also verblüffend – und für das Unternehmen ungewohnt – ungeschickt agiert. Der Vorwurf einer gezielten Fälschung ergibt aber wenig Sinn. Wer etwas verheimlichen will, veröffentlicht nicht parallel eine ausführliche Erklärung mit den realen Hintergründen.

Unerfreulich ist diese Episode auch, weil damit der Kernpunkt untergeht, den Nat Friedman, früher bekannter Linux-Entwickler, dann Github-Chef und mittlerweile einer der angesehensten Investoren im KI-Bereich, in einem Posting auf X herausstreicht. Nämlich dass all das, was im Video zu sehen ist, tatsächlich ziemlich bald möglich sein wird.

Vieles ist in Wirklichkeit noch unfertig

Bei all der Aufregung über besagtes Video geht unter, dass es an Googles Gemini-Launch noch anderes – und wesentlich Wichtigeres – zu kritisieren gäbe. Das, was Google da präsentierte, wirkte nämlich auf vielen Ebenen schlicht unfertig. So, als hätte man mit aller Kraft versucht, die öffentliche Präsentation noch vor Jahresende durchzuziehen, egal wie weit die Entwicklung wirklich fortgeschritten ist.

Das zeigt sich bereits an den verfügbaren Varianten von Gemini, die Google präsentiert hat: Gemini Ultra soll das oberste Ende des Leistungsspektrums abdecken, Gemini Nano dafür gar auf Smartphones laufen. Und Gemini Pro ist irgendwo in der Mitte angesiedelt.

Wirklich breiter verfügbar ist derzeit aber eigentlich nur Gemini Pro, dessen Leistungsniveau etwas über dem des älteren GPT 3.5 von OpenAI liegen soll. Das ist zunächst auch einmal nicht verkehrt, denn was viele vergessen: Nicht für jede KI-Aufgabe ist auch immer das größte Modell das beste. Gemini Pro könnte so etwas wie das Massenmodell in der Produktpalette werden, einfach weil es erheblich effizienter laufen dürfte als Gemini Ultra.

Die kleinste Variante ist ziemlich exklusiv

Gemini Nano gibt es zwar ebenfalls bereits, aber erst auf einem einzigen Smartphone: Googles eigenem Pixel 8 Pro. Und auch dort derzeit nur in einem sehr begrenzten Einsatz für zwei kleinere Features, während ein groß angekündigtes (die "Zoom Enhance"-Funktion für das Hinzufügen nachträglicher Details bei Bildern) noch fehlt. Zumindest können Drittentwickler aber schon einmal Interesse anmelden, wenn sie in ihren Apps selbst Gemini Nano verwenden wollen. Zudem betont Google, dass in Zukunft wesentlich mehr Geräte unterstützt werden sollen.

Wer dieses Smartphone hat, kann Gemini Nano schon einsetzen. Sonst niemand.

Insofern ist der vorsichtige Start mit einem einzelnen Gerät durchaus nachvollziehbar, die fixe Integration in Android als Systemdienst der richtige Weg. Zumal Google damit weit vor der direkten Konkurrenz liegt, die Stärken des Zusammenspiels vieler unterschiedlicher Abteilungen geschickt ausspielt.

Wo ist die Ultra-Version?

Schwieriger wird es dann schon mit Gemini Ultra. Die größte Variante, und damit jene, die es mit GPT-4 aufnehmen soll, soll erst Anfang kommenden Jahres folgen. Insofern kann man in dieser Hinsicht bislang eigentlich nur Googles Versprechungen glauben – oder auch nicht.

Zumal es bereits Kritik an den von Google gewählten Benchmarks gibt. Die Überlegenheit gegenüber GPT-4 ergibt sich nämlich nur, weil man das eher ungewöhnliche CoT@32-Verfahren gewählt hat, beim sonst gebräuchlichen 5-Shot liegt GPT-4 im verbreiteten MMLU-Benchmark (Massive Multitask Language Understanding) nämlich weiter an der Spitze.

Multimodalität

Und doch geht auch diese Kritik etwas am Kern vorbei. Das wirklich Spannende an Gemini – und sicher auch von folgenden Modellen anderer Herstellern wie OpenAI – ist die bereits erwähnte Multimodalität. Also die Fähigkeit, mit unterschiedlichen Formen der Ein- und Ausgabe nativ umgehen zu können. Dabei beherrscht dasselbe Modell also sowohl den Umgang mit Text, als auch mit Bildern, Videos, Code und mehr.

Wer jetzt schon einmal ChatGPT oder Bard benutzt hat, der fragt sich sicherlich: Geht das nicht jetzt schon? Tatsächlich können auch dort schon unterschiedlich Ein- und Ausgabeformen gewählt werden, dafür schummeln die Hersteller aber ein bisschen – werden dafür doch mehrere Modelle kombiniert und deren Ausgaben am Ende zusammengefügt.

Ein echtes multimodales Sprachmodell hat hingegen ein viel tieferes Verständnis der Zusammenhänge zwischen den einzelnen Modalitäten, kann so auch bessere Schlüsse ziehen, diese Schritt für Schritt erklären und hinterfragen.

Text only

Klingt für die Zukunft toll, derzeit kann das aber bei Gemini noch niemand wirklich nutzen. Denn selbst Gemini Pro ist vorerst auf Text beschränkt, das noch dazu nur auf Englisch. Der Grund dafür ist kein großes Geheimnis, und da wären wir dann wieder beim Zeitdruck.

Google will einfach sein neues Modell noch weiter testen und die Sicherheitssperren verfeinern, um zu verhindern, dass die KI (allzu) problematische Ergebnisse liefert. Und dieses Finetuning dauert mit all den Modalitäten und Sprachen natürlich noch einmal deutlich länger. Das war schließlich auch der Grund, warum es erste Versionen des Chatbots Bard zunächst nur auf Englisch gab, obwohl das dahinterstehende Modell eigentlich von Anfang an viele Sprachen beherrschte.

Bitte warten

Aus europäischer Sicht heißt es damit, auch im Hinblick auf den neuen Bard mit Gemini Pro im Hintergrund noch zu warten. Das ist auch deswegen schade, weil erste Tests zeigen, dass dieser bei vielen Fragen deutlich besser als sein Vorgänger agiert und bei einzelnen Aufgaben näher an ChatGPT herankommt – und bestehende Stärken gar noch ausbaut. Wirklich spannend dürfte es dann aber ohnehin erst mit Bard Advanced auf Basis von Gemini Ultra werden, doch auch hier wird man sich außerhalb der USA ein paar Wochen oder Monate länger gedulden müssen.

Es gibt auf all das aber natürlich auch eine andere Perspektive, nämlich die positive. Immerhin ist es gut, dass sich Google offenbar die Zeit nimmt, das alles noch einmal weiter zu testen, bevor man es auf die Menschheit loslässt. Das ist generell auch zu begrüßen, ändert aber nichts daran, dass der aktuelle Launch damit jetzt etwas chaotisch und unvollständig wirkt.

Es fühlt sich chaotisch an

Dazu passt auch, was sich im Vorfeld der Präsentation abgespielt hat, wurde doch in den Tagen zuvor bereits von einigen Medien über eine Absage des Gemini-Launchs spekuliert. Tatsächlich dürften einige Events kurzfristig gecancelt worden sein. Stattdessen gab es dann "nur" ein virtuelles Vorabbriefing, in dem hunderte Journalistinnen und Journalisten aus der ganzen Welt einer 30-minütigen Präsentation folgten, bei der man sich nicht des Eindrucks erwehren konnte, dass der Inhalt irgendwann einmal für mehrere Stunden gedacht war.

All das legt nahe, dass es im Vorfeld der Gemini-Präsentation bei Google ziemlich rund gegangen sein dürfte. Das nährt wiederum die Frage nach dem Warum. Also warum tut man sich das überhaupt an? Ein Grund ist sicherlich die Jahreszeit: Hätte Google Gemini jetzt nicht präsentiert, hätte man aufgrund der nahenden Feiertage zumindest einen Monat verloren. Das ist im aktuell mit atemberaubender Geschwindigkeit dahinschießenden KI-Zug ziemlich viel Zeit, und auch symbolisch ist es etwas anderes, noch 2023 statt 2024 zu erscheinen.

Eine Gelegenheit dank OpenAI

Zudem liegt die Vermutung nahe, dass man damit das aktuelle Chaos rund um die Führung bei OpenAI ausnutzen wollte, um damit ein klares Signal in Richtung potentieller Partner zu setzen. Immerhin hat das Hin und Her rund um CEO Sam Altman auch bei Firmen, die GPT einsetzen, für viel Verunsicherung gesorgt. Das ist für Google fraglos eine Chance, sich selbst besser zu positionieren.

Klingt alles prinzipiell logisch und verständlich, das Problem ist jedoch, dass unter solch einem Zeitdruck sowohl kleinere als auch größere Fehler fast unvermeidbar sind. Und das erzeugt dann erst recht wieder eine negative Wahrnehmung. Egal wie beeindruckend es eigentlich ist, dass die vor einigen Monaten vorgenommene Vereinigung von Google Brain und Deepmind zu Google Deepmind dermaßen schnell ein komplett neues Modell aus dem Boden gestampft hat.

Hyper, Hyper!

All das zeigt aber auch, dass derzeit noch keine Phase der Beruhigung rund um den KI-Hype abzusehen ist. Das ist dann aber auch eine Perspektive, die man nicht ganz vergessen sollte. Denn schon in ein paar Monaten könnten wir ohnehin schon wieder über ganz andere Verhältnisse reden. Dass OpenAI irgendwann mit GPT-5 kontern wird, ist unvermeidlich. Dass Google bereits an Gemini-2 arbeitet, aber ebenso – Letzteres hat man sogar bereits kurz erwähnt.

Trotzdem bleibt zu hoffen, dass die aktuelle Sturm-und-Drang-Periode irgendwann einmal abflaut. Gerade bei einem solch sensiblen und mit zahlreichen schweren Fragestellungen verknüpften Thema wie der künstlichen Intelligenz wäre es nämlich gut, wenn mal etwas Ruhe einkehrt.

Einfach damit eben nicht mehr alles, was gerade neu ist, so halb überlegt auf den Markt geworfen wird. Damit in Ruhe über die Fortschritte und ihre Auswirkungen diskutiert werden kann. Das ist übrigens auch eine Hoffnung, die aus Kreisen von Forscherinnen und Forschern in diesem Bereich immer wieder zu hören ist. Der aktuelle Wettlauf lässt dies aber kaum zu. (Andreas Proschofsky, 11.12.2023)

Künstliche Intelligenz