Im Februar 2005 organisierte das Nationale Rote Kreuz von Osttimor einen Lebensmitteltransport in eine hochgelegene Region. 20 Tonnen Nahrungsmittel erreichten nach einer abenteuerlichen Fahrt die zentrale Siedlung der Region (Abbildung 1), nur um festzustellen, dass dort viel weniger Menschen lebten als angenommen. Auch der Ernährungszustand der anwesenden Bevölkerung war nicht als gesundheitsbedrohlich einzustufen. Solche Einsätze verschwenden Geld und führen zu fehlgeleiteten Entwicklungsplänen. Leider sind sie keine Einzelfälle.

Auto fährt über Brücke
Typische Straße in den entlegenen Regionen Osttimors.
Valentin Seidler, 2005

Die ärmsten Länder des Südens verfügen in der Regel nicht über die finanziellen und personellen Ressourcen, um Bevölkerungs-Vollerhebungen durchzuführen. Die Lösung sind Schätzerhebungen auf Haushaltsebene. Interviewer-Teams erheben Haushaltsdaten wie Anzahl der Bewohner, Alter, Geschlecht, Einkommen oder Gesundheitszustand der unter Fünfjährigen in Haushalten, die nach einem statistischen Zufallsverfahren ausgewählt werden. Dadurch ist es möglich, von den erhobenen Daten der ausgewählten Haushalte mit hoher statistischer Sicherheit auf die Gesamtbevölkerung zu schließen. Die meisten Länder Afrikas verlassen sich seit Jahrzehnten auf diese Schätzerhebungen, die entweder von Unicef, der Weltbank oder der amerikanischen Entwicklungsagentur USAID finanziert und personell unterstützt werden.

Seit gut 15 Jahren werden die so erhobenen Daten geokodiert. Das heißt, die genaue Position jedes befragten Haushalts wird während der Befragung per GPS erfasst. Die Daten sind natürlich anonymisiert, und die genaue Position des Haushalts wird durch ein sogenanntes Jittering-Verfahren bewusst mit einer Unschärfe von drei bis fünf Kilometer versehen. Dennoch erlauben die geokodierten Daten lokalisierte Schätzungen zu Bevölkerungszahl, Ernährungszustand und vielem mehr auf Distriktebene – also genau auf der Ebene, auf der Entwicklungsprojekte geplant und durchgeführt werden.

Fehleranfälligkeit der Daten

Das heißt, niemand weiß genau, wie viele Kinder unter fünf Jahren beispielsweise im Distrikt Guzamala im Nordosten Nigerias leben und wie viele davon unterernährt sind. Die letzte vollständige Erhebung stammt aus dem Jahr 2006 und ist völlig veraltet. Forschende und Entwicklungsexpertinnen sowie Entwicklungsexperten vertrauen hier auf eine aktuellere Schätzung aus dem Jahr 2018. Die von USAID finanzierten Haushaltserhebungen, Demographic and Health Surveys (DHS), gelten als die am häufigsten verwendeten Daten in Afrika und sind so etwas wie der Goldstandard unter den Haushaltserhebungen. DHS entwickelt die Erhebungsmethode ständig weiter, publiziert ausführlich zu den entdeckten Problemen und beschäftigt die hochqualifizierte Demografen und Statistiker der Welt. Wir haben aus den letzten zwölf Jahren mehr als 6.000 wissenschaftliche Veröffentlichungen gefunden, deren Ergebnisse auf DHS-Daten beruhen.

Eine neue Studie, die an der WU Wien erstellt wurde und derzeit von der Fachzeitschrift "Nature Communications" begutachtet wird, untersucht nun erstmals die Qualität der Daten, die in 33 afrikanischen Ländern im Rahmen von Haushaltsbefragungen des DHS erhoben wurden. Kleine Fehler, etwa bei der Messung der Körpergröße von Kleinkindern, sind unvermeidlich und können in der Regel statistisch korrigiert werden. Uns interessierte, ob diese Datenfehler relativ gleichmäßig – am besten völlig zufällig – über das gesamte Staatsgebiet verteilt sind, oder ob sie in bestimmten Regionen oder gar Dörfern häufiger auftreten. Ersteres wäre statistisch leicht zu korrigieren. Eine den Forscher:innen unbekannte Häufung von Datenfehlern in bestimmten geografischen Regionen wäre dagegen kaum nachträglich zu korrigieren. Die Daten aus der Region müssten insgesamt hinterfragt werden, wenn fehlgeleitete lokale Entwicklungsstrategien bis hin zu Hilfslieferungen der eingangs beschriebenen Art vermieden werden sollen. Nicht zuletzt müssten tausende wissenschaftliche Publikationen in ihren Kernaussagen infrage gestellt werden, da sie in ihren Grundannahmen auf einer harmlosen Gleichverteilung von zufälligen Datenfehlern beruhen.

Deutlich mehr Datenfehler in ärmeren Regionen

Leider findet unsere Studie "Subnational Variations in the Quality of Population Health Data: A Geospatial Analysis of Household Surveys in Africa" in fast allen untersuchten Ländern das schwerwiegendere Problem. DHS-Datenfehler häufen sich systematisch, das heißt nicht zufällig, mit zunehmender Entfernung von der nächstgelegenen Siedlung mit elektrischer Straßenbeleuchtung.

Screenshot des online-Fehlerschätzungstools
Unser Online-Tool illustriert die schwankende Datenqualität von Haushaltsdaten in 33 afrikanischen Ländern anhand von drei Indikatoren.
Frei verwendbar.

Die Fehlerhäufigkeit, gemessen an drei verschiedenen Indikatoren, steigt zunächst leicht und nach circa 100 Kilometer Entfernung stark an. Das bedeutet, dass abgelegene und damit ärmere Regionen deutlich mehr Datenfehler aufweisen und Daten, die in der Nähe von Siedlungen und Städten erhoben wurden, eine bessere Qualität aufweisen. Die Bevölkerung in abgelegenen Regionen benötigt aber im Vergleich zur Bevölkerung in Stadtnähe mehr Entwicklungsunterstützung durch den Staat oder durch Hilfsorganisationen, da wichtige Infrastrukturen wie Krankenhäuser, Schulen oder Straßen teilweise gänzlich fehlen. (Valentin Seidler, 11.11.2023)