Rund sechs Stunden lang dauerten die Ausfälle zahlreicher Microsoft-Services.

Foto: DADO RUVIC

Am 25. Jänner meldeten zahlreiche Userinnen und User Probleme mit diversen Services von Microsoft. Tausende hatten am Mittwoch weder Zugriff auf ihre E-Mails noch auf Videokonferenzen. Auch der Gaming-Dienst Xbox Live sowie der Microsoft Store waren betroffen, wie der STANDARD berichtete. Nun erklärte der US Konzern, wie es zu den Ausfällen kam.

Ausfall der Cloud

Knapp sechs Stunden hatten Kunden der Microsoft-Services an diesem Tag Verbindungsprobleme, hohe Latenzen und Timeouts beim Zugriff auf Azure-Cloud-Ressourcen. Wie in dem Post-Incident-Review von Microsoft zu lesen ist, waren für den Ausfall geplante Änderungen an einem WAN-Router (Wide Area Network) schuld. Ein an den Router gesendetes Kommando führte zu Nachrichten an alle Router in diesem Netzwerk, was zu ungeplanten Neuberechnungen führte und so das Netzwerk für seine eigentlichen Aufgaben lahmlegte.

Das von Microsoft veröffentlichte Review lässt wissen, dass man nur wenige Minuten nach den ersten gemeldeten Problemen sofort Nachforschungen eingeleitet hatte. Alle kürzlichen Änderungen am System wurden geprüft, aber schon nach rund einer Stunde erholte sich das Netzwerk durch einen automatisierten Recovery-Prozess von den ungeplanten Auslastungen von selbst. Passieren konnte der Vorfall wohl deshalb, da das gesendete Kommando zuvor nicht die dafür vorgesehene Qualitätskontrolle durchlief, was gelegentlich im Bereich der Netzwerkautomatisierung vorkommen kann.

Schnell reagiert

Microsoft hat in diesem Fall sehr schnell reagiert. Grundsätzlich wäre der Ausfall noch viel kürzer gewesen, hätte der WAN-Ausfall nicht auch Automatisierungssysteme im Monitoring-Bereich betroffen. Derzeit hat man beim US-Konzern Kommandos mit großem Impact geblockt und alle Ausführungen den eigenen "safe change guidelines" unterworfen. In zwei Wochen soll ein finaler Nachbericht zu dem Vorfall veröffentlicht werden. (red, 28.1.2023)