Wie ein winziger Softwarefehler das halbe Internet lahmlegte

Die RedaktionSamstag, 25.10.20251 Min Lesezeit265

geralt (CC0), Pixabay

Ein unscheinbarer Programmfehler bei Amazon Web Services (AWS) hat am Montag zu einem der schwersten Internetausfälle der letzten Jahre geführt. Betroffen waren Millionen Nutzer weltweit – von Streamingdiensten über Fluggesellschaften bis hin zu Krankenhäusern.

Nach Angaben von Amazon begann alles mit einem simplen technischen Konflikt: Zwei automatisierte Systeme versuchten gleichzeitig, denselben DNS-Eintrag – also einen Datensatz im „Telefonbuch des Internets“ – zu aktualisieren. Das Ergebnis war ein leerer Eintrag, der eine Kettenreaktion auslöste und zentrale Cloud-Dienste lahmlegte.

Von einem Datenkonflikt zum Totalausfall

Die Panne führte zunächst zum Ausfall der Amazon-Datenbank DynamoDB, die wiederum andere AWS-Dienste wie EC2 (virtuelle Server für App-Entwicklung) und den Network Load Balancer in Mitleidenschaft zog. Als DynamoDB wieder hochgefahren wurde, versuchte EC2, alle Server gleichzeitig neu zu starten – und überforderte damit das System vollständig.

„Das ist, als würden zwei Schüler gleichzeitig an demselben Heft arbeiten – der eine schnell, der andere langsam – und sich dabei gegenseitig ihre Notizen überschreiben“, erklärte Informatikprofessor Indranil Gupta von der Universität Illinois. „Am Ende steht eine leere Seite, wenn der Lehrer kontrolliert.“

Folgen weltweit spürbar

Während der Ausfall andauerte, konnten Nutzer unter anderem keine Lebensmittel bestellen, keine Bankgeschäfte erledigen und keine Smart-Home-Systeme steuern. Auch große Unternehmen wie Netflix, Starbucks und United Airlines waren zeitweise offline.

„Wir wissen, dass dieses Ereignis viele unserer Kunden erheblich beeinträchtigt hat“, erklärte Amazon in einem Statement. „Wir werden alles tun, um daraus zu lernen und unsere Systeme noch robuster zu machen.“

Ursachenanalyse und Konsequenzen

Amazon kündigte an, die zugrunde liegende „Race-Condition-Situation“ – also das gleichzeitige Schreiben mehrerer Prozesse auf denselben Datensatz – dauerhaft zu beseitigen. Zusätzlich sollen erweiterte Testreihen in den AWS-Diensten eingeführt werden, um ähnliche Probleme frühzeitig zu erkennen.

„Solche Ausfälle sind unvermeidlich“

Laut Experten wie Gupta gehören solche Störungen zum Alltag großer Cloud-Plattformen:
„Großflächige Ausfälle passieren – das lässt sich nie ganz verhindern, so wie Menschen auch manchmal krank werden“, sagte er. „Entscheidend ist, wie ein Unternehmen darauf reagiert und seine Kunden informiert.“

Hintergrund:
Amazon Web Services (AWS) ist der weltweit größte Cloud-Anbieter. Millionen Firmen nutzen die Plattform für Serverkapazitäten, Datenspeicherung und Softwareentwicklung. Fällt AWS aus, spüren das meist auch Endverbraucher – oft, ohne es zu wissen.