Zephyrnet-Logo

Australiens zweitgrößtes Telekommunikationsunternehmen geriet in Panik und es herrschte Chaos

Datum:

Ingenieure neigen dazu, sich Sorgen um die Betriebszeit zu machen, sei es in der Serverfarm eines Unternehmens oder einfach nur bei unseren eigenen kleinen Hobby-Servern zu Hause. Hin und wieder geht etwas schief und eine Box wird offline geschaltet, was ein wenig menschliches Eingreifen erfordert, um das Problem zu beheben. Im Idealfall haben Sie immer noch einen Befehlslink, der aktiv bleibt, sodass Sie das Problem beheben können. Wenn Sie das jedoch verlieren, stecken Sie in großen Schwierigkeiten.

Genau das ist Anfang des Monats mit Australiens zweitgrößtem Telekommunikationsanbieter passiert. Systeme fielen aus, Millionen von Menschen verloren ihre Konnektivität und die Techniker des Unternehmens waren damit beschäftigt, die Teile wieder zusammenzusetzen. Lassen Sie uns eintauchen und erkunden, was auf Optus passiert ist Der peinlichste Tag der letzten Zeit.

Wo hin?

Es passierte alles in den frühen Morgenstunden des 8. November, gegen 4:05 Uhr, als ein routinemäßiges Software-Upgrade geplant war. Im Rahmen des Upgrades gab es eine Änderung der Routing-Informationen für das Border Gateway Protocol (BGP) für das Optus-Netzwerk von einem internationalen Peering-Netzwerk. In der Analyse des Unternehmens nach dem Vorfall hieß es: „Diese Änderungen der Routing-Informationen breiteten sich über mehrere Schichten in unserem Netzwerk aus und überstiegen voreingestellte Sicherheitsstufen auf wichtigen Routern, die damit nicht umgehen konnten.“ Dies führte dazu, dass diese Router die Verbindung zum Optus IP Core-Netzwerk trennten, um sich selbst zu schützen.“

Das ist alles ein bisschen chaotisch, also was bedeutet das? Nun, im Grunde sagen die BGP-Routing-Informationen den Routern von Optus, wo sie andere Maschinen im Internet finden. Die Routing-Informationsaktualisierungen kamen von einem Singtel-Internetaustausch, STiX, den Optus für den Zugriff auf das globale Internet nutzt. Was passiert ist, ist, dass die Updates die Optus-eigenen Router überlastet haben, die als Reaktion auf das Erreichen eines bestimmten Standardschwellenwerts für Routenaktualisierungen heruntergefahren wurden. Diese Grenzwerte sind werkseitig in der Routerausrüstung vorkonfiguriert. Da dies bei Routern im Kernnetzwerk von Optus geschah, die offline gingen, wurde das gesamte nationale Netzwerk des Telekommunikationsunternehmens lahmgelegt, was sich auf Sprach-, Mobilfunk- und Internetkunden auswirkte.

Die Ingenieure verbrachten die ersten sechs Stunden damit, verschiedene Ursachen des Vorfalls zu untersuchen, während Millionen Menschen mit unterbrochenen Internetverbindungen und Telefonen ohne Empfang aufwachten. Die Teams machten die jüngsten Änderungen von Optus selbst rückgängig und untersuchten, ob sie einer Art DDoS-Angriff ausgesetzt waren. Letztendlich stellten die Ingenieure fest, dass das Problem darin bestand, dass sich die Router selbst isolierten, um eine Überflutung mit Routing-Informationsaktualisierungen zu vermeiden, die sich über das Netzwerk verbreitet hatten. Das Zurücksetzen des Routings auf den Normalzustand reichte aus, um die Netzwerke wieder online zu bringen, wobei die Ingenieure den Datenverkehr sorgfältig wieder in das Backbone von Optus einleiteten, um unschöne Überraschungen während des Vorgangs zu vermeiden. Optus machte schließlich die automatischen Sicherheitsmechanismen dafür verantwortlich und erklärte: „Man geht jetzt davon aus, dass der Ausfall dadurch verursacht wurde, dass sich etwa 90 PE-Router automatisch selbst isolierten, um sich vor einer Überlastung mit IP-Routing-Informationen zu schützen.“ Diese Selbstschutzgrenzwerte sind Standardeinstellungen, die vom jeweiligen globalen Gerätehersteller (Cisco) bereitgestellt werden.“ Dies deutet möglicherweise darauf hin, dass die Selbstschutzgrenzen übermäßig vorsichtig sind und das Netzwerk offline geschaltet haben, obwohl dies nicht wirklich notwendig war.

<img decoding="async" data-attachment-id="641357" data-permalink="https://hackaday.com/2023/11/22/australias-second-largest-telco-went-dark-and-chaos -reigned/screenshot-2023-11-20-171039/" data-orig-file="https://zephyrnet.com/wp-content/uploads/2023/11/australias-second-largest-telco-went-dark -and-chaos-reigned-1.png" data-orig-size="918,860" data-comments-opened="1" data-image-meta="{"aperture":"0","credit":" ","camera":"","caption":"","created_timestamp":"0","copyright":"","focal_length":"0","iso":"0","shutter_speed" : „0“, „title“: „, „orientation“: „0“}“ data-image-title = „Screenshot 2023-11-20 171039“ data-image-description data-image-caption =

Optus nutzte die sozialen Medien, um sich bei den Kunden zu entschuldigen, sobald diese online waren und die Nachricht lesen konnten. Bildnachweis: Optus/Facebook

„data-medium-file=“https://zephyrnet.com/wp-content/uploads/2023/11/australias-second-largest-telco-went-dark-and-chaos-reigned-1.png?w= 400″ data-large-file=“https://zephyrnet.com/wp-content/uploads/2023/11/australias-second-largest-telco-went-dark-and-chaos-reigned.png“ class=“ wp-image-641357 size-large“ src=“https://zephyrnet.com/wp-content/uploads/2023/11/australias-second-largest-telco-went-dark-and-chaos-reigned.png“ alt width=“667″ height=“625″ srcset=“https://zephyrnet.com/wp-content/uploads/2023/11/australias-second-largest-telco-went-dark-and-chaos-reigned- 1.png 918w, https://zephyrnet.com/wp-content/uploads/2023/11/australias-second-largest-telco-went-dark-and-chaos-reigned-1.png?resize=250,234 250w, https://zephyrnet.com/wp-content/uploads/2023/11/australias-second-largest-telco-went-dark-and-chaos-reigned-1.png?resize=400,375 400w, https://zephyrnet .com/wp-content/uploads/2023/11/australias-second-largest-telco-went-dark-and-chaos-reigned-1.png?resize=667,625 667w“ size=“(max-width: 667px) 100vw, 667px“>

Optus nutzte die sozialen Medien, um sich bei den Kunden zu entschuldigen, sobald diese online waren und die Nachricht lesen konnten. Bildnachweis: Optus/Facebook

Laut Optus waren 150 Ingenieure direkt an der Untersuchung des Problems und der Wiederherstellung des Dienstes beteiligt, weitere 250 Mitarbeiter und fünf Anbieter waren im Support tätig. Unterdessen wurden die Bemühungen, wieder online zu gehen, dadurch zunichte gemacht, dass es für Techniker aufgrund des Ausfalls des Optus-Netzwerks schwierig war, tatsächlich auf die Maschinen im Netzwerk zuzugreifen, um das Problem zu beheben. Letztendlich würde es volle vierzehn Stunden dauern, bis Optus seine Systeme wieder vollständig online kriegt, wobei Techniker einige Geräte persönlich bedienen mussten, um sie wieder online zu bringen.

Optus ist nicht das einzige Unternehmen, das Probleme mit einem großen BGP-Zusammenbruch hatte. Bekanntermaßen verschwand Facebook im Jahr 2021 für ein paar Stunden aus dem Internet, weil die Einstellungen falsch waren einige eigene Backbone-Router.

Die Folgen

Das Ergebnis dieses beispiellosen Ausfalls war, dass Optus in den australischen Medien vorübergehend zum Staatsfeind Nr. 1 wurde. Millionen im ganzen Land hatten den Tag ohne Internetverbindung, ohne mobile Konnektivität und mit wenigen bis wenigen Updates von Optus darüber verbracht, was tatsächlich vor sich ging. Kunden mussten ihre Updates über herkömmliche Medien wie Zeitungen, Radio und Fernsehen beziehen, da sie über ihre eigenen Geräte keine Möglichkeit hatten, auf das Internet zuzugreifen oder Anrufe entgegenzunehmen. Glücklicherweise konnten Mobilfunknutzer zumindest über alternative Mobilfunknetze Kontakt zu Notdiensten aufnehmen, Festnetznutzer waren jedoch davon abgeschnitten.

Unternehmen, die auf EFTPOS-Zahlungsterminals mit Optus-SIM-Karten angewiesen waren, konnten keine Zahlungen entgegennehmen, während Banken, Krankenhäuser und sogar einige Zugverbindungen betroffen waren. Das Zugnetz in Melbourne wurde eine Stunde lang stillgelegt, da die Fahrer nicht mit der Leitstelle kommunizieren konnten. Hunderte Züge fielen den ganzen Tag über aus. Optus selbst verlor im Laufe des Tages 2 Milliarden US-Dollar an Wert an der Börse, wobei CEO Kelly Bayer Rosmarin einige Wochen später aufgrund des Ausfalls zurücktrat. Bisher hat das Unternehmen seinen Kunden 200 GB kostenloses Datenvolumen als Entschädigung für den Ausfall angeboten. Es hat sich für viele als Trost erwiesen, insbesondere für Kleinunternehmen, denen in diesem Zeitraum Hunderte oder Tausende von Dollar an Handelseinbußen entgangen sind.

Die einzigen Gewinner in diesem Szenario waren die Hauptkonkurrenten von Optus, nämlich Telstra und Vodafone. Die beiden Unternehmen betreiben konkurrierende Mobilfunknetze und bieten landesweit Heim-Internetverbindungen an. Da sich diese Katastrophe nur ein Jahr nach einem großen Datenverstoß bei Optus ereignete, bei dem die Kunden massenhaft kompromittiert wurden, werden die beiden Unternehmen große Erfolge verzeichnen, wenn es darum geht, den Kundenstamm ihrer Konkurrenten zu stehlen.

Letztendlich kann man aus dem Untergang von Optus eine Lehre ziehen. Entscheidende Systeme sollten in der Lage sein, ein routinemäßiges Update zu bewältigen, ohne massenhaft zusammenzubrechen, selbst wenn etwas schief geht. Im Jahr 2023 werden Kunden einen 14-stündigen Verbindungsverlust einfach nicht akzeptieren, insbesondere wenn dies auf schlecht konfigurierte Geräte zurückzuführen ist. Konnektivität ist für die Menschen mittlerweile fast genauso wichtig wie die Luft, die sie atmen, und das Wasser, das sie trinken. Wenn man das wegnimmt, werden sie sehr schnell sehr verärgert.

spot_img

Neueste Intelligenz

spot_img