AWS, le leader mondial du cloud computing, vient de connaître deux pannes majeures en l'espace de deux semaines. La panne d'hier a commencé vers 7h43 PST (Pacific Standard Time), soit vers 16h43 à Paris, et a affecté les régions US-WEST-1 et US-WEST-2. Après que les utilisateurs ont commencé par signaler des problèmes de connectivité, AWS a finalement admis sur sa page d'état à 7h48 PST (16h48 à Paris) que sa région US-WEST-2 connaissait des problèmes de connectivité, et de même pour US-WEST-1 à 7h52 PT (16h52 à Paris). Dix minutes plus tard, l'entreprise a déclaré qu'elle avait trouvé la cause de la perte de connectivité des régions.
Elle a ajouté qu'elle avait apporté quelques corrections et qu'elle constatait une certaine reprise. Puis à 08h10 PST (17:10 à Paris), elle a déclaré : « nous avons résolu le problème affectant la connectivité Internet de la région US-WEST-1. La connectivité au sein de la région n'a pas été affectée par cet événement. Le problème a été résolu et le service fonctionne normalement ». Il en a été de même pour US-WEST-2 quatre minutes plus tard. La durée totale de la panne a été d'environ 30 minutes. La déclaration ci-dessus suggère que les connexions entrantes et sortantes de la région avec le reste du monde ont été affectées.
Elle suggère également que la mise en réseau au sein de la région était correcte. La cause exacte n'a pas été précisée. Il se peut qu'un technicien négligent ait trébuché sur un câble, qu'un ISP (Internet service provider) de la dorsale ait eu des problèmes quelque part, ou que ce soit le DNS. Les effets de ce temps d'arrêt se sont rapidement propagés sur Internet : les gens ont remarqué que les sites Web et les applications hébergés par Amazon ne fonctionnaient plus comme prévu. De nombreux services en ligne ont été affectés, notamment Twitch, Zoom, PSN, Xbox Live, Doordash, Quickbooks Online et Hulu.
La page d'état du géant du Web est devenue de moins en moins réactive, car les internautes ont afflué vers elle pour savoir ce qu'il était advenu de leurs services ou les choses chez AWS sont devenues de plus en plus bancales. De plus, cette panne survient après une autre panne massive d'AWS au début du mois affectant la région US-EAST-1, qui fournit la connectivité aux personnes et aux entreprises de la partie nord-est des États-Unis. En conséquence, le streaming via Netflix, Roku et Amazon Prime a été immédiatement affecté. Les appareils Ring ont également été mis hors service et sont devenus inaccessibles.
Les employés d'Amazon chargés de la livraison ont également déclaré qu'ils ne pouvaient pas accéder aux applications internes nécessaires pour scanner les colis, accéder aux itinéraires de livraison ou voir les horaires à venir. Comme AWS l'a expliqué par la suite, cet incident a été causé par une "activité automatisée visant à augmenter la capacité de l'un des services AWS hébergés sur le réseau AWS principal" qui "a entraîné une forte augmentation de l'activité de connexion. Cela a submergé les dispositifs de mise en réseau entre le réseau interne et le réseau AWS principal".
Selon les analystes, le moment est mal choisi pour le géant du cloud, qui a aussi travaillé d'arrache-pied au cours de la semaine écoulée pour corriger ses composants affectés par la vulnérabilité d'exécution de code à distance Apache Log4j (CVE-2021-44228), à en juger par le dernier bulletin de sécurité d'Amazon à ce sujet. Les pannes d'AWS, même brèves, rappellent à quel point les applications, les sites Web et les services d'aujourd'hui dépendent de plateformes uniques comme AWS. Par ailleurs, le site de détection des pannes DownDetector a montré que les sites de Salesforce et Facebook ont également été affectés par la panne d'hier.
Sources : Page d'état des services d'AWS, Rapports (1, 2)
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des pannes répétitives subies par AWS dernièrement ?
Avez-vous été affecté par l'une des dernières pannes d'AWS ?
Si oui, quelles ont été les répercussions sur vous ou votre organisation ?
Les pannes d'AWS entraînent l'indisponibilité d'une partie non négligeable du Web. Selon vous, pourquoi beaucoup de développeurs et d'entreprises choisissent-ils le cloud d'AWS ?
Cela signifie-t-il qu'AWS propose de meilleurs services et infrastructures que ses concurrents ?
Voir aussi
La panne du cloud d'Amazon a affecté les principaux sites web et les applications de streaming, 24 000 cas de personnes ayant signalé des problèmes avec Amazon ont également été recensés
AWS révèle que ses services cloud étaient indisponibles à cause d'un dépassement des limites des threads du SE, les administrateurs système n'étaient pas familiarisés avec les solutions palliatives
AWS lance Amazon DevOps Guru, un service d'opérations dans le cloud alimenté par l'apprentissage automatique pour améliorer la disponibilité des applications
Panne OVH : l'hébergeur revient sur le dernier incident qu'il a connu avec plus de détails