Der Biometriker Gerd Antes warnt vor medizinischen Marketing-Fantasien in Big Data.

Foto: Katsey
Foto: Standard

STANDARD: Alle schwärmen von Big Data. Nur Sie wettern dagegen. Warum denn das, Herr Antes?

Gerd Antes: Wir erleben gerade eine Gesellschaft im Datenrausch. Big Data, Digitalisierung und künstliche Intelligenz beherrschen die Schlagzeilen. Manche bezeichnen Daten sogar als das Öl oder Gold des 21. Jahrhunderts. Es wird dabei suggeriert, dass wir mit mehr Daten auch mehr Wissen generieren. Das sagt uns auch unser Bauchgefühl, aber es stimmt einfach nicht.

STANDARD: Warum nicht?

Antes: Big Data ist ein Hype, der uns geradewegs in eine Falle führt. Die Idee dahinter ist, dass man riesige Datenmengen völlig unstrukturiert und unsystematisch durchwühlen kann und dabei auf sinnvolle Zusammenhänge stößt. Das ist wissenschaftlicher Unfug und kann nicht funktionieren.

STANDARD: Welche Fallen meinen Sie?

Antes: Wissenschaftliches Arbeiten bedeutet, dass man mithilfe von Theorie und Daten Hypothesen generiert, die empirisch durch Studien bestätigt oder widerlegt werden müssen. Der Big-Data-Hype steht in krassem Gegensatz zu diesem Erkenntnisprozess. Man tut so, als ob man in riesigen Datenmengen einfach nach Korrelationen suchen kann und diese dann einen Sinn ergeben. Da kommt unglaublich viel Schwachsinn heraus. Das ist wie das Suchen nach einer Nadel im Heuhaufen. Durch Big Data macht man jedoch den Heuhaufen nur noch größer.

STANDARD: Haben Sie dazu ein konkretes Beispiel?

Antes: Es gibt ein Buch mit solchen sinnfreien Zusammenhängen. Beispielsweise, dass der tägliche Käsekonsum von US-Bürgern mit der Anzahl der Bürger korreliert, die sich mit dem eigenen Bettlaken erdrosseln.

STANDARD: Google versuchte, anhand von Suchanfragen Grippewellen vorherzusagen. Das macht schon mehr Sinn, oder?

Antes: Ja, aber es hat auch nur zwei Jahre lang einigermaßen funktioniert. Im dritten Jahr ging es nicht mehr. Es fehlte ein systematischer Zusammenhang. Die ersten beiden Jahre hatten die Forscher einfach Glück.

STANDARD: Sie sagen, dass die Ära der Kausalität verlassen wurde und wir uns mitten im Zeitalter der Korrelation befinden. Was heißt das?

Antes: Korrelationen werden als Brunnen der Erkenntnis verkauft, für die man Daten nur zu sammeln braucht. Das ist ein Irrweg, Daten müssen geplant genau und intelligent ausgewertet werden. Wenn ich Daten einfach laufen lasse, dann entdecke ich mehr Falsches als Richtiges. Das Rauschen wächst schneller als die richtigen Signale. Man muss Daten zielgerichtet erheben, nicht willkürlich. Durch das nachträgliche Korrelieren von blindwütig gesammelten Daten bekommt man falsche Erkenntnisse – das nennt man dann "spurious correlations", also unechte Korrelationen. Solche falsch-positiven Ergebnisse sind eines der zentralen Probleme der empirischen Forschung und können durch den Big-Data-Ansatz über die Korrelationen zu voller Blüte gelangen.

STANDARD: In manchen Bereichen – etwa in der Klimaforschung – gibt es aber schon gute Beispiele, wo große Datenpools zu neuen Erkenntnissen geführt haben. Warum hat das funktioniert?

Antes: Es bringt dort etwas, wo ich Modelle von hoher Qualität entwickle und diese gezielt mit Daten füttere. Das erfordert Zeit und Aufwand. Wenn das gelingt, kann man beispielsweise immer besser voraussagen, wo und mit welcher Geschwindigkeit ein Hurrikan auf Land treffen wird. Damit kann man Leben retten.

STANDARD: Und das funktioniert in der Medizin nicht?

Antes: Doch, das kann auch in der Medizin funktionieren. Im Augenblick wird jedoch jede Menge falscher Hoffnung produziert, und es werden dabei völlig unterschiedliche Anwendungen durcheinandergeworfen. Die Präzisionsmedizin hat den Traum, dass sie mit der genetischen Entschlüsselung die komplette Architektur des Menschen kennt und damit auch die Schalter, mit dem sie Symptome ausschalten kann. Das funktioniert so aber nicht. Für Krankheiten gibt es nicht den einen genetischen Schalter, den man einfach umlegen kann. Es gibt eine Fülle von Faktoren, die wechselseitig miteinander agieren. Die Bioinformatik quält sich seit vielen Jahren damit herum, dort Ordnung zu schaffen. Und jetzt kommen die Heilsversprecher von Big Data und tun so, als ob das mit einem Fingerschnippen erledigt werden kann.

STANDARD: Aber ist es nicht hilfreich, Studienergebnisse mit vielen Daten aus der täglichen Anwendung abzugleichen?

Antes: Natürlich, aber das versuchen wir schon lange mit Beobachtungsstudien und guten Registern. Das hat nichts mit Big Data zu tun. Wenn ich allerdings ohne Studien gleich in den Alltag mit Daten schlechter Qualität schaue, dann bewege ich mich auf sehr dünnem Eis. Es ist sehr wahrscheinlich, dass ich damit systematisch Fehler mache oder sogar reproduziere. "Big Data" produziert "Big Errors". Der etablierte Grundsatz der Methodik für Entscheidungen in der Medizin ist, das Risiko zu kontrollieren, dass ich systematisch falsche Ergebnisse produziere. Da kann es um Menschenleben gehen.

STANDARD: Sie verwenden gerne den Begriff "Big Data Paradox". Was meinen Sie damit?

Antes: Es gibt eine aktuelle Publikation des Wissenschafters Xiao-Li Meng von der Harvard-Universität, der dieses Phänomen theoretisch untersucht und am Beispiel der falschen Prognosen vor der Wahl von Donald Trump diskutiert. Die Vorhersage des eigenen Wahlverhaltens von 2,3 Millionen unsystematisch ausgewählten US-Wählern ist nicht besser als eine sorgfältig geplante zufällige Stichprobe mit 500 Befragten. Dass ein Mehr an Daten irreführend ist, widerspricht jeder Intuition und ist gegenüber der herrschenden Lehre tatsächlich paradox. Deswegen bezeichnet es Meng auch als das "Paradoxon von Big Data". Fehler in den Daten, deren Natur nicht klar ist und die keine besondere Aufmerksamkeit bekommen, können sich bei "riesigen" Datenmengen so potenzieren, dass sie zu absurden Ergebnissen führen. Big Data ist gleich Big Errors. Das ist selbst für Wissenschafter schwierig zu akzeptieren, weil es im Gegensatz zum Fundament der Statistik steht, dass mit mehr Daten alles besser wird.

STANDARD: Sind selbstlernende Algorithmen die Lösung?

Antes: Für dieses Problem nicht. Big Data hat ein sehr gutes Marketing. Die Erfolgsmeldungen über selbstlernende Systeme beziehen sich auf die Fähigkeit, Schach oder Go zu lernen. Aber welcher Patient würde mit seiner Krankheit zu einem Schachspieler gehen? Der vielgepriesene Dr. Watson von IBM ist das treffendste Negativbeispiel. Er ist 2011 mit der Ankündigung angetreten, die Krebsmedizin zu revolutionieren. Bis heute ist daraus nichts geworden. Im Gegenteil: Watson wurde von einer der renommiertesten Krebskliniken gefeuert, nachdem man dort 62 Millionen Dollar investiert hatte.

STANDARD: Sie glauben nicht an die Vision der künstlichen Intelligenz?

Antes: Das, was wir aktuell erleben, ist keine künstliche Intelligenz, sondern zu einem großen Teil künstliche Dummheit. Der Welt wird versprochen, mit Big Data in eine neue Ära einzutreten. Tatsächlich ist sie jedoch schon seit Jahren Geisel von GAFAM – Google, Apple, Facebook, Amazon, Microsoft – und Komplizen. Ihnen beugen sich auch jene, die uns eigentlich schützen sollten, wie Ministerien, Forschungsförderungsinstitutionen und Universitäten. Hier muss etwas passieren.

STANDARD: Was muss Ihrer Ansicht nach passieren?

Antes: Es braucht in der Medizin eine Rückbesinnung auf die Patienten. Wir brauchen eine vollständige und ehrliche Gegenüberstellung von Nutzen, Risiken und Kosten. Dazu gehört auch die Bewertung der zunehmenden Entfremdung der Menschen von einer durch Digitalisierung und Kommerzialisierung bestimmten Medizin. Was wir nicht brauchen, sind die Marketingmaschinerie und die tägliche Gehirnwäsche der Big-Data-Apologeten. (Andrea Fried, CURE, 24.8.2019)