Logo Zéphyrnet

La deuxième plus grande société de télécommunications d'Australie est devenue sombre et le chaos a régné

Date :

Les ingénieurs ont tendance à s'inquiéter de la disponibilité, qu'il s'agisse d'une ferme de serveurs d'entreprise ou simplement de nos propres petits serveurs amateurs à la maison. De temps en temps, quelque chose se passe mal et met une boîte hors ligne, ce qui nécessite une petite intervention humaine pour la réparer. Idéalement, vous disposerez toujours d’un lien de commande qui restera actif afin que vous puissiez résoudre le problème. Mais si vous perdez cela, vous aurez de gros ennuis.

C'est précisément ce qui est arrivé au deuxième plus grand fournisseur de télécommunications d'Australie au début du mois. Les systèmes sont tombés en panne, des millions de personnes ont perdu la connectivité et les techniciens de l’entreprise ont dû se démener pour reconstituer les pièces. Plongeons et explorons ce qui s'est passé sur Optus journée la plus embarrassante de mémoire récente.

Où aller?

Tout s'est déroulé aux petites heures du 8 novembre, vers 4h05 du matin, alors qu'une mise à jour de routine du logiciel était prévue. Dans le cadre de la mise à niveau, les informations de routage du Border Gateway Protocol (BGP) pour le réseau Optus à partir d'un réseau de peering international ont été modifiées. Selon l'analyse de l'entreprise après l'événement, « ces modifications des informations de routage se sont propagées à travers plusieurs couches de notre réseau et ont dépassé les niveaux de sécurité prédéfinis sur les routeurs clés qui ne pouvaient pas les gérer. Cela a conduit ces routeurs à se déconnecter du réseau Optus IP Core pour se protéger.

C'est un peu le bordel, alors qu'est-ce que ça veut dire ? Eh bien, fondamentalement, les informations de routage BGP indiquent aux routeurs d'Optus où trouver d'autres machines sur Internet. Les mises à jour des informations de routage provenaient d'un échange Internet Singtel, STiX, qu'Optus utilise pour accéder à l'Internet mondial. Ce qui s'est passé, c'est que les mises à jour ont submergé les propres routeurs d'Optus, qui se sont arrêtés en réponse à l'atteinte d'un certain niveau de seuil par défaut pour les mises à jour des routes. Ces limites sont préconfigurées dans l'équipement du routeur en usine. Comme cela s'est produit dans les routeurs du réseau principal d'Optus, lorsqu'ils se sont déconnectés, ils ont mis hors service l'ensemble du réseau national de l'opérateur de télécommunications, affectant les clients voix, mobile et Internet.

Les ingénieurs ont passé les six premières heures à enquêter sur les diverses causes de l'incident, tandis que des millions de personnes se réveillaient avec des connexions Internet coupées et des téléphones sans signal. Les équipes ont annulé les modifications récentes apportées par Optus lui-même et ont examiné si elles étaient victimes d'une sorte d'attaque DDoS. En fin de compte, les ingénieurs ont déterminé le problème de l'auto-isolation des routeurs pour éviter la surcharge des mises à jour des informations de routage qui s'étaient propagées à travers le réseau. La réinitialisation du routage à la normale a suffi à remettre les réseaux en ligne, les ingénieurs réintroduisant soigneusement le trafic dans le réseau fédérateur d'Optus pour éviter toute surprise inconvenante au cours du processus. Optus a finalement imputé la faute aux mécanismes de sécurité automatiques, déclarant : « Il est désormais entendu que la panne s'est produite en raison de l'auto-isolation automatique d'environ 90 routeurs PE afin de se protéger d'une surcharge d'informations de routage IP. Ces limites d'autoprotection sont des paramètres par défaut fournis par le fournisseur d'équipement mondial concerné (Cisco). Cela implique peut-être que les limites d’autoprotection sont indûment prudentes et ont mis le réseau hors ligne alors que cela n’était pas vraiment nécessaire.

<img decoding="async" data-attachment-id="641357" data-permalink="https://hackaday.com/2023/11/22/australias-second-largest-telco-went-dark-and-chaos -reigned/screenshot-2023-11-20-171039/" data-orig-file="https://zephyrnet.com/wp-content/uploads/2023/11/australias-second-largest-telco-went-dark -and-chaos-reigned-1.png" data-orig-size="918,860 1" data-comments-opened="0" data-image-meta="{"aperture":"0","credit":" ","camera":"","caption":"","created_timestamp":"0","copyright":"","focal_length":"0","iso":"0","shutter_speed" :"0","title":"","orientation":"2023"}" data-image-title="Capture d'écran 11-20-171039 XNUMX" data-image-description data-image-caption="

Optus s'est adressé aux réseaux sociaux pour s'excuser auprès des clients, une fois qu'ils ont pu se connecter en ligne pour lire le message. Crédit : Optus/Facebook

" data-medium-file = "https://zephyrnet.com/wp-content/uploads/2023/11/australias-second-largest-telco-went-dark-and-chaos-reigned-1.png?w= 400″ data-large-file=”https://zephyrnet.com/wp-content/uploads/2023/11/australias-second-largest-telco-went-dark-and-chaos-reigned.png” class=” wp-image-641357 taille-large" src = "https://zephyrnet.com/wp-content/uploads/2023/11/australias-second-largest-telco-went-dark-and-chaos-reigned.png" alt width=”667″ height=”625″ srcset=”https://zephyrnet.com/wp-content/uploads/2023/11/australias-second-largest-telco-went-dark-and-chaos-reigned- 1.png 918w, https://zephyrnet.com/wp-content/uploads/2023/11/australias-second-largest-telco-went-dark-and-chaos-reigned-1.png?resize=250,234 250w, https://zephyrnet.com/wp-content/uploads/2023/11/australias-second-largest-telco-went-dark-and-chaos-reigned-1.png?resize=400,375 400w, https://zephyrnet .com/wp-content/uploads/2023/11/australias-second-largest-telco-went-dark-and-chaos-reigned-1.png?resize=667,625 667w” size=”(largeur maximale : 667px) 100vw, 667px”>

Optus s'est adressé aux réseaux sociaux pour s'excuser auprès des clients, une fois qu'ils ont pu se connecter en ligne pour lire le message. Crédit : Optus/Facebook

Selon Optus, 150 ingénieurs ont été directement impliqués dans l'enquête sur le problème et le rétablissement du service, avec 250 autres employés et 5 fournisseurs travaillant en support. Pendant ce temps, les efforts de retour en ligne ont été contrecarrés par le fait que, le réseau d'Optus étant en panne, il était difficile pour les techniciens d'accéder aux machines du réseau pour résoudre le problème. En fin de compte, il faudrait quatorze heures complètes à Optus pour remettre entièrement ses systèmes en ligne, les techniciens devant se rendre en personne sur certains équipements pour les remettre en ligne.

Optus n'est pas la seule entreprise à avoir eu des problèmes avec une crise majeure du BGP. Facebook a disparu d'Internet en 2021 pendant quelques heures après avoir mal configuré ses paramètres. quelques-uns de ses propres routeurs de base.

The Aftermath

Le résultat de cette panne sans précédent a fait qu'Optus est temporairement devenu l'ennemi public n°1 dans les médias australiens. Des millions de personnes à travers le pays ont passé la journée sans connexion Internet, sans connectivité mobile et avec peu ou peu de mises à jour d'Optus sur ce qui se passait réellement. Les clients devaient obtenir leurs mises à jour via les médias conventionnels comme les journaux, la radio et la télévision, car ils n'avaient aucun moyen d'accéder à Internet ni de recevoir des appels via leurs propres appareils. Heureusement, les utilisateurs de téléphones portables ont au moins pu contacter les services d'urgence via d'autres réseaux cellulaires, mais les utilisateurs de lignes fixes ont été coupés.

Les entreprises qui utilisaient des terminaux de paiement EFTPOS équipés de cartes SIM Optus n'ont pas pu accepter de paiements, tandis que les banques, les hôpitaux et même certains services ferroviaires ont été touchés. Le réseau ferroviaire de Melbourne a été interrompu pendant une heure, les conducteurs ne pouvant pas communiquer avec le centre de contrôle, et des centaines de trains ont été annulés tout au long de la journée. Quant à Optus lui-même, il a perdu 2 milliards de dollars en bourse au fil de la journée, le PDG Kelly Bayer Rosmarin démissionnant quelques semaines plus tard en raison de la panne. Jusqu'à présent, la société a offert à ses clients 200 Go de données gratuites en guise de compensation pour la panne. Cela s'est avéré être un maigre réconfort pour beaucoup, en particulier pour les petites entreprises qui ont perdu des centaines, voire des milliers de dollars en échanges commerciaux au cours de cette période.

Les seuls gagnants de ce scénario ont été les principaux concurrents d'Optus, à savoir Telstra et Vodafone. Les deux sociétés exploitent des réseaux cellulaires concurrents et proposent des connexions Internet à domicile dans tout le pays. Ce désastre survenant seulement un an après qu'une violation majeure des données chez Optus ait compromis en masse les clients, les deux sociétés verront des signes de dollar lorsqu'il s'agira de voler la clientèle de leurs rivaux.

En fin de compte, il y a une leçon à tirer de la chute d’Optus. Les systèmes cruciaux devraient être capables de gérer une mise à jour de routine sans s’effondrer massivement, même en cas de problème. En 2023, les clients n’accepteront tout simplement pas de perdre leur connectivité pendant 14 heures, surtout si cela est dû à un équipement mal configuré. La connectivité est désormais presque aussi importante pour les gens que l’air qu’ils respirent et l’eau qu’ils boivent. Enlevez cela et ils deviennent très contrariés, très vite en fait.

spot_img

Dernières informations

spot_img