Die neueste Zufallsstichprobe der Statistik Austria hat bei 1432 Österreicherinnen und Österreichern über 16 genau eine Person gefunden, die am Coronavirus erkrankt war. Die Stichprobe wurde in der Zeit vom 21. bis 24. April durchgeführt. Daraus ergaben sich, laut Statistik Austria, zum 24. April eine geschätzte Anzahl von 3.400 Coronakranken in Österreich und eine Obergrenze (aus einem 95-Prozent-Konfidenzintervall) von knapp unter 11.000.

Ich möchte in diesem kurzen Artikel zwei Dinge erklären. Erstens ist die angegebene Obergrenze von 11.000 wohl eine recht grobe Approximation der tatsächlichen 95-Prozent-Konfidenzintervallsobergrenze und unterschätzt diese doch um einiges. Zweitens kann man mit ein bisschen mehr Information, die sich leicht bekommen ließe, einen etwas genaueren Schätzer mit besserem, exakterem Konfidenzintervall bekommen. Natürlich ändert das Ganze nichts an der allgemeinen Erkenntnis, dass wir von einer Herdenimmunität weit weg sind. Ich möchte ich auch dem Team der Statistik Austria danken, denn sie haben alle meine Fragen extrem rasch und gut beantwortet.

Führte die Zufallsstichprobe durch: die Statistik Austria.
Foto: APA/GEORG HOCHMUTH

Mittels Bootstrapmethode zum Ergebnis

Nun kurz zum ersten Punkt. Statistik Austria hat mir erklärt, wie sie zu der Konfidenzintervallsobergrenze von knapp 11.000 gekommen sind. Sie haben das mittels einer Bootstrapmethode gemacht, in der man Tausende neue Stichproben zieht, und zwar durch zufälliges Ziehen mit Zurücklegen aus der ursprünglichen Stichprobe. Für jede dieser künstlichen Stichproben wird ein Schätzwert berechnet. Man bekommt dadurch eine Verteilung möglicher Schätzwerte und kann daraus das 97,5-Prozent-Quantil ablesen. Eigentlich berechnet man hier einfach das 97,5-Prozent-Quantil der Binomialverteilung mit 1.432 Versuchen und einer Erfolgswahrscheinlichkeit von 0,05 Prozent (dem Schätzwert aus der ursprünglichen Stichprobe). Das ist dann die Obergrenze im Konfidenzintervall. Ich habe das nachvollzogen und komme da auf einen Schätzer für die Obergrenze von 0,209 Prozent der Bevölkerung über 16 Jahren, was wohl in etwa den genannten 11.000 Menschen in Österreich entspricht. Da ich die recht komplexe Gewichtung, die die Statistik Austria gemacht hat, zum jetzigen Informationsstand nicht vorliegen habe, musste ich diese grob approximieren. Das spielt aber keine allzu große Rolle.

Bootstrapping ist in der Regel eine sehr gute Methode zur Konfidenzintervallbestimmung. Bei so kleinen Fallzahlen (wie hier eben 1) ist das allerdings nachweisbar nicht der Fall. Diese Bootstrapmethode unterschätzt die Obergrenze doch um einiges, wie man leicht zeigen kann. Es gibt da aber auch eine exakte(!) Methode, die auch SORA in ihrer Studie angegeben haben. Das ist die sogenannte Clopper-Pearson-Methode. Sie können diese (und andere) hier auch selbst ausprobieren. Aus der Anwendung dieser Methode ergibt sich dann eine Untergrenze von 0,0018 Prozent und eine Obergrenze von 0,39 Prozent. Wenn 0,21 Prozent der Gesamtbevölkerung über 16 in etwa 11.000 Menschen sind, dann sind 0,39 Prozent ein bisschen mehr als 20.000 Menschen.

Das wäre die exakte 95-Prozent-Konfidenzintervallsobergrenze, wenn man nur berücksichtigt, dass eine Person von 1.432 als coronakrank identifiziert wurde.

Eine andere Methode

Man kann allerdings, und ich komme nun zum zweiten Punkt, mit etwas mehr Information einen etwas besseren Schätzer plus Intervall bekommen. Die Zusatzinformation, die ich brauche, ist folgende: War die eine Person schon offiziell als coronakrank gemeldet oder nicht?

Nennen wir die Anzahl der in der Stichprobe gefundenen Coronakranken X. Nennen wir die Anzahl derer in der Stichprobe, die zusätzlich auch schon offiziell als coronakrank vermerkt waren, Y. Der übliche Schätzer, der auch von Statistik Austria verwendet wurde, ist einfach X/n, wobei n die Größe der Stichprobe ist. Hier ist das also 1/1432 – was durch die Gewichtung, die ich nicht kenne, zu 0,05 Prozent wird. Nun nennen wir noch q die Proportion aller bereits in der offiziellen Statistik aufgefassten Coronakranken. Zum Zeitpunkt 24. April waren das 2.636 Coronakranke in Österreich. Nehmen wir an, dass diese Personen alle über 16 Jahre alt sind. Das gibt uns ein q von in etwa 0,050 Prozent.

Ein nachweislich genauerer Schätzer des Coronakrankenanteils an der Bevölkerung (über 16) ist dann q+(X-Y)/n. Man nimmt also die schon bekannte Proportion der offiziell deklarierten Coronakranken und zählt dazu nur noch den Anteil der noch nicht registrierten Coronakranken in der Stichprobe. Wie ich anderweitig erkläre, ist dieser Schätzer ebenso erwartungstreu wie der übliche, hat aber eine geringere Varianz; ist also genauer.

Frau Dr. Matea Paskvan von Statistik Austria hat mir mitgeteilt, dass die eine Person, die in der Stichprobe als coronakrank aufscheint, nach eigenen Angaben davon noch nicht wusste. Das bedeutet, dass in unserem Fall X=1 und Y=0 ist.

Christoph Kuzmics beschäftigt sich mit Entscheidungstheorie und der Theorie des strategischen Denkens. Er ist seit 2015 Professor für Mikroökonomik am Institut für Volkswirtschaftslehre und Mitglied des neuen profilbildenden Bereich COLIBRI (complexity of life) an der Universität Graz. Nach Abschluss seines Doktoratsstudiums in Economics an der University of Cambridge, war Christoph Kuzmics von 2003 bis 2011 Assistenzprofessor an der Kellogg School of Management, Northwestern University, und von 2011 bis 2015 Professor für Wirtschaftstheorie an der Universität Bielefeld.
Foto: privat

Ich bekomme daher einen genaueren Schätzer des Anteils der Coronakranken in Österreich von 0,12 Prozent; sprich 6.290 Personen in Österreich. Man kann mit derselben Clopper-Pearson-Methode auch ein exaktes 95-Prozent-Konfidenzintervall berechnen. Das liefert jetzt eine untere Grenze von 0,052 Prozent oder 2.729 Personen (man beachte, dass diese Zahl nun größer als die Zahl der 2.636 bereits bekannten Coronakranken ist) und eine obere Grenze von 0,44 Prozent oder 22.976.

Das ist das exakte Konfidenzintervall, das alle Informationen berücksichtigt.

Übrigens, für den Fall, dass diese eine Person bereits als coronakrank offiziell registriert gewesen wäre, hätten wir einen Schätzer von 2.636 Coronakranken in Österreich bekommen, mit unterer Grenze ebenfalls 2.636 und obere Grenze 16.107 Personen. Diese Information macht also schon einen recht großen Unterschied aus. (Christoph Kuzmics, 6.5.2020)