Was ist eigentlich Big Data? Kurz gesagt einfach nur eine gewaltige Menge an Daten. Viele Geisteswissenschaftler führen beispielsweise Korpusanalysen durch. Sie erstellen oder generieren also sogenannte Korpora - meist Sammlungen an Texten. Einige Organisationen und Institutionen haben hier bereits gute Übersichten entwickelt.
Die Literaturwissenschaften arbeiten beispielsweise häufig mit COSMAS2 der IdS Mannheim. Mit den COSMAS II-Applikationen kann in 557 Korpora recherchiert werden. Aktuell werden dort circa 55,7 Milliarden laufende Wortformen (entspricht etwa 139,2 Millionen Buchseiten) verwaltet.

Populärere und bekanntere Alternative dürften Google Books (in der Regel Publikationen seit 2004) oder Google Ngram Viewer (in der Regel Publikationen bis 2004) darstellen.

Wie verlässlich sind die Grundlagen?

Hier beginnt aber bereits das Problem, denn obwohl es ja heißt, dass die Masse nicht irren kann, spielt es eine große Rolle, woher genau der Datenbestand kommt. Wie vertrauenswürdig sind zum Beispiel die 139 Millionen Buchseiten bei COSMAS oder die 5,2 Millionen Bücher bei Google Books?

Sprechen wir von recherchierter und faktenbelegter wissenschaftlicher Arbeit oder doch eher vom Boulevardblatt um die Ecke? Und wofür sollen die Daten genutzt werden? Eine Heftromanreihe kann manchmal eine bessere Quelle sein, wenn es um alltäglich gesprochene Sprache geht, ein wissenschaftliches Journal hingegen verrät viel über aktuelle Sichtweisen oder gesellschaftliche Diskussionen.

Wer führt die Qualitätskontrolle durch? Ist eine solche überhaupt notwendig? Und kann man aus allem, was bislang publiziert wurde, auch statistisch errechnen, was in Zukunft passieren wird?

Big Data Quality?

Isaac Asimov gilt als einer der Väter moderner Science Fiction. In seiner berühmten Foundation-Zyklus hat er eine Wissenschaft namens Psychohistorik eingeführt. Der Romanheld Hari Seldon entwickelt auf der Basis mathematischer, statistischer und soziologischer Verfahren allgemeine und dennoch präzise Voraussagen über das zukünftige Verhalten von großen Gruppen von Menschen.

Isaac Asimov gilt als einer der Väter moderner Science Fiction. In seiner berühmten Foundation-Zyklus hat er eine Wissenschaft namens Psychohistorik eingeführt. Der Romanheld Hari Seldon entwickelt auf der Basis mathematischer, statistischer und soziologischer Verfahren allgemeine und dennoch präzise Voraussagen über das zukünftige Verhalten von großen Gruppen von Menschen.

Kann Big Data aus diesen SF-Ideen eine echte handhabbare Methode erschaffen? Es gibt in vielen Ländern mehrere große Organisationen, die sich Allwissenheit auf die unternehmerische Fahne geschrieben haben; darunter bspw. in Deutschland GEMA, SCHUFA und andere. Doch es wäre nicht das erste Mal, dass bspw. die Scoring-Anstalt SCHUFA bei einer Kreditaufnahme Probleme verursacht oder die Verwertungsgesellschaft GEMA von Künstlern Gebühren für die eigene Musik verlangt. Einige geben gar Tipps, wie man mit legalen Tricks den SCHUFA-Score beeinflussen könne. Im Falle der Schufa führte ein aufgrund falscher Ablage verursachter Identitätsdiebstahl Jahre später zu falschen Forderungen.

Die Beispiele verdeutlichen bereits, dass Menschen immer versuchen zu manipulieren, um für sie günstige Ergebnisse zu erhalten. Das sollte niemanden überraschen. Doch kann in solchen Fällen Big Data überhaupt vertraut werden?

Die Qualität bei Computercode wird meist noch händisch von Menschen kontrolliert.
CC0 via Hack Capital / unsplash

Um die Qualität (also quasi die Güteklasse und die Vertraulichkeit von Informationen) sorgen sich auch viele Unternehmen. Das Thema an sich läuft unter der Bezeichnung Big Data Quality oder schlicht Data Quality - und ist nicht so neu. Bereits seit Jahren soll bei Big Data durch bessere Planung eine höhere Qualität der Daten erreicht werden. Hierfür wurden eigene Berufszweige geschaffen, unter anderem die des Data Scientist. Hinter dieser glanzvollen Bezeichnung steckt einfach eine Art Qualitätsprüfer. Damit wäre dieser Arbeit aber Unrecht getan, denn ein Data Scientist muss viele weitere Fähigkeiten mitbringen:

  • Technisches und/oder naturwissenschaftliches Know-How, um mit den Tools umgehen zu können
  • Problemlösungsorientiertes Denken; die berühmte Phrase über den Tellerrand hinaus denken zu können ist bei Data Scientists Tagesgeschäft. Ein einfaches Abarbeiten nach einem vorgegebenen Schema funktioniert nicht.
  • Kommunikationskompetenz; auch und speziell im interkulturellen Bereich, um komplexe oder komplizierte Sachverhalte einfach und verständlich kommunizieren oder darstellen zu können.
  • Weitere Fähigkeiten, die sich je nach Anforderungsprofil stark unterscheiden können (in der Systemgastronomie sind die Anforderungen ganz andere als bspw. in der Schwermetallindustrie oder im Consulting-Geschäft)

Die Zukunft orakeln: Delphi-Methode & Co.

Das historische Orakel von Delphi befand sich im antiken Griechenland und hat die Götter befragt. Die Delphi-Methode stammt aus der Trendforschung der 1960er und soll Prognosen abbilden. Dazu wird meist ein mehrstufiges Befragungsverfahren systematisch konstruiert, mit Rückkopplungsschleifen:

  • Ein Arbeitsformular wird vorbereitet, das die Projektbeschreibung und einzelne Teilaspekte des Projekts enthält.
  • Eine verschiedenartig große Anzahl an Experten erhält eine kurze Beschreibung. Es findet keine Diskussion oder Abstimmung statt; jeder Experte schätzt die einzelnen Teilaspekte des Projekts allein.
  • Auswertung der Expertenbögen; entstehen große Diskrepanzen zwischen einzelnen Experten bezüglich derselben Aspekte, werden diese vermerkt bzw. kommentiert.
  • Die Experten erhalten die kommentierten Bögen erneut.
  • Die Experten evaluieren neu.
  • Der Prozess wird so häufig wiederholt bis sich ein Konsens (mit Toleranzbereich) ergibt.
  • Ein Mittelwert aller Schätzungen wird errechnet und als Ergebnis präsentiet

Die Methode soll zukünftige Ereignisse, technologische Trends oder sonstige Entwicklungen möglichst zielsicher abschätzen. Diese und vergleichbare Methoden wie Big-Data-Management versuchen also nicht weniger als in die Zukunft zu blicken.

Fazit: Qualität siegt über Quantität?

Es ist schwer zu sagen und für manche fast schon eine Glaubensfrage, ob wissenschaftliche Methoden glaubhaft Trends abbilden können. Es erscheint charmant: Lass mich genug Datenpunkte haben und ich kann alles berechnen.

Umso treffender brachte es allerdings Isaac Asimov in seinem Foundation-Zyklus auf den Punkt: Die von Hari Seldon erdachte Psychohistorik berechnet die menschliche Entwicklung anhand von Statistiken. Dazu dürfen die Menschen a) hiervon nichts wissen (um das Ergebnis nicht wissentlich zu beeinflussen) und b) muss eine genügend große Anzahl an Menschen einbezogen sein. Doch dann passiert es und ein Mutant, dem Seldons Berechnungen eine verschwindend geringe prozentuale Existenz-Wahrscheinlichkeit eingeräumt haben, reißt die Macht an sich und verändert die Berechnungen und damit die Zukunft.

Die Allegorie aus der Science Fiction soll vor allem zeigen: Reine Technikgläubigkeit nutzt selten und Big Data ist aktuell auch nur ein Schlagwort von vielen. Die Entwicklung wird zeigen müssen, wie und wofür diese Technologie schlussendlich genutzt wird. Denn in die Zukunft blicken kann niemand. Dafür gibt es einfach zu viele Variablen und Unbekannte. (Christian Allner, 11.6.2019)

Weitere Beiträge des Bloggers