Big Data leidet oft unter statistischen Unschärfen

Klosterneuburg/Wien – Der Modebegriff "Big Data" steht für das Sammeln, Verarbeiten und Analysieren riesiger Datenmengen. Daraus die richtigen Schlüsse abzuleiten, ist aber nicht immer einfach. Ist etwa bei der Analyse von Bevölkerungsdaten eine Population überproportional vertreten ("Oversampling"), dann "weiß" das der Computer nicht und produziert verzerrte Resultate.

Solche statistischen Unschärfen hätten in den vergangenen Jahren zu einer "Reproduzierbarkeits-Krise" von wissenschaftlichen Studien geführt, sagt der US-Informatiker Michael Jordan. So wären kolportierte Zusammenhänge zwischen einem Gen und einer Krankheit anschließend oft nicht mehr nachvollziehbar gewesen. Jordan schlägt daher einen "neuen Denkstil" vor, der die Stärken von Computerwissenschaft und Statistik miteinander kombiniert

"Es ist sehr leicht, aus Big Data die falschen Schlüsse zu ziehen, weil man nicht wirklich versteht, was dabei passiert. Der Computer macht die ganze Arbeit", sagt der an der Universität Berkeley (USA) tätige Professor für Statistik und Computerwissenschaft. Jordan hält am Mittwoch am Institute of Science and Technology (IST) Austria einen Vortrag zum Thema "Computational Thinking, Inferential Thinking and Data Science".

"False Discovery Rate" mit einplanen

Die dahinter liegenden Probleme der statistischen Entscheidungsfindung zu lösen, die eine große Anzahl von Menschen, verschiedene Kulturen und Situationen überspannen, ist für den Experten "weit schwieriger als alles, was bisher in der Computerwissenschaft gemacht wurde". Beikommen könnte man dem zumindest zum Teil, indem bei der Auswertung von Daten durch Computersysteme statistische Fehlerkorrekturen wie die "False Discovery Rate" bereits im Voraus mit eingeplant sind. Von solchen Lösungsansätzen aus der Statistik wüssten jedoch viele Informatiker, die diese Systeme planen und bauen, nichts oder noch zu wenig.

Die grundsätzliche Krux, die es zu überwinden gelte, ist laut Jordan die: Wo sich der Statistiker über möglichst viele Daten freut, weil sie genauere Rückschlüsse zulassen, will der Informatiker die Komplexität der Daten reduzieren, um den Überblick zu behalten. Die Kluft zwischen diesen Welten ist zum Teil auf fehlende Schwerpunkte in der Ausbildung zurückzuführen, hat aber auch tiefere Gründe. "Bestehende Konzepte, die beide Sphären unterstützen, stehen eher in Konflikt miteinander, anstatt voneinander zu profitieren", so Jordan.

Im Wesentlichen gehe es darum, inferentielles Denken – grob gesagt geht es um Schlussfolgerungen auf statistischer Basis – und informatisches Denken stärker, auch institutionell, zu verbinden. "Es wird einiges intellektuelles Sondieren und wahrscheinlich mehrere Jahrzehnte an Forschung brauchen, um Konzepte zu entwickeln, die besser miteinander harmonieren", so Jordan, für den diese Anstrengungen letztlich in der Etablierung einer neuen akademischen Disziplin kulminieren sollen.

Keine Angst vor Künstlichen Intelligenzen

Der Informatiker, aufgrund seines wissenschaftlichen Impakts und seiner Namensgleichheit mit einer US-Basketball-Legende einmal als der "Michael Jordan des Machine Learning" bezeichnet, hat keine Angst vor einer die Menschheit bedrohenden maschinellen Superintelligenz. Solche Szenarien seien pure Science Fiction und wenn, dann vielleicht erst in 500 Jahren denkbar. Wahre Intelligenz spricht der "Skeptiker und Optimist" zumindest den heutigen Computern rundweg ab. Bestenfalls könne man von erweiterter ("augmented") Intelligenz sprechen, die den Menschen – etwa bei Suchanfragen im Web, per Spracherkennung oder bei Empfehlungsdiensten – unterstützt.

Selbst die Tatsache, dass Computer mittlerweile in hoch komplexen Spielen wie Go menschliche Spitzenspieler schlagen, heißt für Jordan, der Universitätsabschlüsse in Psychologie, Mathematik und Kognitionswissenschaften vorzuweisen hat, im Grunde "genau gar nichts": "Ein Computer, der Milliarden von möglichen Pfaden durchforstet und die richtigen findet, das ist eine gute Ingenieursleistung. Das heißt aber nicht, dass der Computer plötzlich superschlau ist." (APA, red, 7. 11. 2017)

Fehlschlüsse

Big Data leidet oft unter statistischen Unschärfen

"False Discovery Rate" mit einplanen

Keine Angst vor Künstlichen Intelligenzen

Forum:

Ihre Meinung zählt.