37 Stunden lang wurde das Netzwerk von Centurylink durch massiven Datenstau lahmgelegt.

Foto: APA

Es ist wohl eines der absoluten Worst-Case-Szenarien, das im Dezember beim US-Telekomanbieter Centurylink eingetreten ist. Sämtliche Kunden, die an dessen Glasfasernetz angebunden sind, sahen sich mit einem vollständigen Blackout ihrer Dienste konfrontiert.

Für 37 Stunden, mehr als anderthalb Tage, war nicht nur kein Internetzugang mehr möglich, auch sämtliche Voice-over-IP-Dienste (VoIP) fielen aus. Nun kennt man die Ursache: Vier schadhafte Datenpakete sorgten für eine fatale Kettenreaktion, berichtet The Register. Die Telekombehörde FCC ermittelt.

Domino-Effekt

Der Hergang des Blackouts wird folgendermaßen geschildert: Am Anfang stand das Versagen eines Switches an einem Knotenpunkt des Netzwerkes in Denver um vier Uhr morgens am 27. Dezember. Von diesem aus machten sich vier schadhafte Datenpakete auf den Weg. Sie verfügten über validierbare Checksummen und fehlerfreie Header und waren darauf konfiguriert, jeweils an alle verbundenen Geräte im Netzwerk versandt zu werden. Allerdings fehlte ihnen die Angabe einer Auslaufzeit, was verhinderte, dass die Datenpakete ab einem bestimmten Zeitpunkt nicht mehr weitergeleitet worden wären. Zudem überschritten sie die vorgesehene Größe von 64 Kilobyte.

Die Datenpakete wurden von Knoten zu Knoten weiter geleitet, und dort jeweils abgelehnt, ehe sie von dort in den sogenannten "Management" Channel geleitet und von dort wiederum an alle Knoten verteilt wurden, die sie jeweils wieder weiter leiteten. Dieser Prozess setzte sich eben in Ermangelung einer angegebenen Auslaufzeit so lange fort, bis selbst der Glasfaser-Backbone von Centurylink durch Überlastung zusammenbrach. In einem Diagramm der FCC wird die Situation übersichtlich abgebildet.

Dieses Diagramm der FCC zeigt, wie es zum Netzwerk-Desaster kam.
Foto: FCC

Backbone-Ausfall verzögerte Behebung

Die Folge war, das selbst die Administratoren des Unternehmens nicht mehr aus der Ferne auf die Knoten zugreifen konnten, was die Fehlersuche massiv verzögerte. Erst 15 Stunden später konnte das Problem in Denver identifiziert werden. Ein Tausch des Switches alleine löste die Situation allerdings nicht, denn nach wie vor wurden innerhalb des Netzwerks massenhaft fehlerhafte Datenpakete hin und her verschickt, was fortgesetzte Ausfälle bedeutete.

Erst weitere drei Stunden später gelang es, Zugriff auf weitere Knoten zu erlangen und durch Konfigurationsanpassungen die Weiterleitung der fraglichen Datenpakete zu unterbinden. Erst um 23.36 Uhr am 28. Dezember waren alle Knoten wieder in Betrieb. Zu Mittag des Folgetags erklärte man den Ausfall offiziell für behoben.

Auch Notrufzentralen und Regierungsnetzwerke betroffen

Betroffen waren freilich nicht nur Privatkunden von Centurylink, sondern auch alle Kunden von Unternehmen, die in dessen Netz eingemietet sind. Dazu zählen auch verschiedene Regierungen auf Bundesstaatsebene und andere Provider.

Besonders schwer wiegt dabei der Ausfall des VoIP-Services, denn selbst der 911-Notruf war nicht mehr möglich, zudem waren mehrere Notrufzentralen nicht mehr erreichbar. Dies ist auch der Grund, warum die FCC tätig geworden ist, stellt dies doch einen Verstoß gegen ihre Vorgaben dar. Laut Centurylink konnten insgesamt mehr als 12,1 Millionen Telefonate aufgrund des Netzwerk-Unfalls nicht verbunden werden.

Centurylink ist nach eigenen Angaben nun dabei, alle Knoten mit neuen Regeln für den Ethernet-Policer zu füttern. Dies soll in Zukunft verhindern, dass fehlerhafte Datenpakete über längere Zeit im Netzwerk verteilt werden können. Die Aktualisierung soll im Laufe des Jahres abgeschlossen werden. (red, 29.8.2019)