Überall in menschlichen Infrastrukturen werden Daten produziert. Doch kaum jemand kümmert sich um die Archivierung augenblicklich nicht genutzter Datensätze.
Foto: Getty Images / iStockphoto / Suebsiri

Das Forschungsteam hat Hypothesen aufgestellt und eine Theorie entwickelt. Fragebögen wurden erstellt und Beobachtungsdaten zusammengetragen, um damit einen Ausschnitt der Realität auf neue Weise abzubilden. Für eine Handvoll Menschen war diese Arbeit für Monate das Zentrum der Aufmerksamkeit. Doch letztendlich ließ sich die Theorie aus den Daten nicht bestätigen, aus der erhofften Publikation wurde nichts – ein Schicksal vieler Forschungsvorhaben. Der Fokus liegt schnell auf neuen Herausforderungen. Und der erhobene Datensatz? Soll er für andere Forschungsteams verfügbar gemacht werden? Immerhin könnten vielleicht noch andere Erkenntnisse daraus gezogen werden. Oder wird er als Datenmüll betrachtet, der sang- und klanglos gelöscht werden kann?

In vielen solchen Fällen passiert weder das eine noch das andere. Die Ressourcen für eine Aufbereitung von Daten eines abgeschlossenen Projekts sind selten vorhanden. Doch auch das Löschen fühlt sich falsch an – die Informationen könnten sich immerhin noch einmal als nützlich erweisen. Also dämmern sie dauerhaft auf einem Server oder Cloudspeicher vor sich hin und vergrößern die Menge an Dark Data, wie gespeicherte, aber ungenutzte und häufig unidentifizierbare Daten im Fachjargon heißen.

Verlorene Forschungsdaten

Die Soziologin Sabine Neuhofer vom Bereich Verhaltensökonomik des Instituts für Höhere Studien (IHS) untersucht den Umgang mit Daten in der Forschung. Gemeinsam mit ihrem Kollegen Robert Braun und ihrer Kollegin Kira Abstiens beschäftigt sie sich im Rahmen der IHS-Forschungsinitiative "Data Metabolism" unter anderem mit der Frage, welche organisatorischen, technischen oder rechtlichen Ansätze im wissenschaftlichen Datenmanagement fehlen und wie man die Entstehung von "dunklen" Forschungsdaten verhindern kann.

"Bei großen Projekten, in denen riesige Datenmengen automatisiert verarbeitet werden – beispielsweise in der Astronomie –, gibt es zumeist auch Strategien, die ältere Daten auffindbar halten", erklärt Neuhofer. "Das sind aber nicht mehr als 20 Prozent. 80 Prozent der Forschungsdaten, die zumeist aus kleineren Projekten stammen, werden unauffindbar und gehen damit de facto verloren. Es gibt kaum Finanzierungen oder Anreize für eine nachvollziehbare Archivierung und nur wenige Organisationen, die sich darum kümmern."

Viele offene Fragen

Die offenen Fragen in diesem Zusammenhang sind vielfältig: Gemeinsame technische Standards und einheitliche Formate fehlen oder sind erst in Entwicklung. Besonders schwierig ist die strukturierte Archivierung von nicht standardisierbaren Daten wie qualitative Interviews oder niedergeschriebene Beobachtungen und visuelles Material. Die Indexierungen und die Erstellung von Metadaten sind arbeitsintensiv. Zukünftig sollten Datenbestände zudem maschinenlesbar sein, um in Auswertungen einbezogen zu werden. Dazu kommen rechtliche Aspekte zu geistigem Eigentum und Datenschutz, zählt Neuhofer auf. Vielfach sind Verantwortlichkeiten nicht geklärt: Wer sorgt sich um die Daten, wenn ein Wissenschafter, eine Wissenschafterin in Pension geht? Was passiert, wenn eine Abteilung umstrukturiert oder geschlossen wird? Wer entscheidet, ob Daten noch gebraucht werden oder tatsächlich Datenmüll sind und gelöscht werden dürfen?

Von den Wissenschaftstreibenden selbst ist kaum erwartbar, dass sie sich um diese Fragen kümmern. Eine neue akademische Arbeitsteilung muss etabliert werden. "Nicht jeder Forschende kann sich die nötige Expertise aneignen. Es braucht designierte Expertinnen und Experten in den Forschungseinrichtungen, aber auch eigene Institutionen im Wissenschaftsbetrieb, die sich ähnlich den Archivaren in Bibliotheken um die Daten kümmern", sagt Neuhofer. Studien in diesem Bereich weisen in eine ähnliche Richtung. Eine Untersuchung des High-Performance Computing Center der Universität Stuttgart, die sich 2020 dem eigenen Dark-Data-Problem widmete, schlägt etwa die Position eines "Scientific Data Officer" vor, der sich um die Organisation von Wissenschaftsdaten kümmert.

Ungenutzte Daten, egal ob im wissenschaftlichen, privaten oder unternehmerischen Umfeld, brauchen Speicherplatz und verursachen damit monetäre und ökologische Kosten. Studien kommen auf enorme CO2-Emissionen, die durch Dark Data verursacht werden. Dass in absehbarer Zeit der global verfügbare Speicherplatz schrumpfen wird, ist ebenso wenig abzusehen.

Handy aufräumen

Doch im Konsolidierungsprozess, der nützliche Daten zugänglich macht, nutzlosen Datenmüll dagegen als solchen deklariert und zur Löschung freigibt, steht unsere Digitalkultur noch ganz am Anfang. Das fängt mit jedem Smartphone-Nutzenden an. "Wie viele Menschen, die nach Vorbild von Aufräumexpertin Marie Kondo unnötige Gegenstände wegwerfen, löschen auch unnötige Fotos, Mails und andere Dateien auf ihren Handys und Computern?", fragt Neuhofer. Eine eigene Marie Kondo für die weltweiten Datenbestände wird dringend gesucht. (Alois Pumhösel, 25.2.2023)