IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

La panne de Google Cloud a été attribuée à une mise à jour de code défectueuse dans son système de contrôle des services
Qui a déclenché une boucle de crash mondiale

Le , par Jade Emy

178PARTAGES

7  0 
La panne de Google Cloud a été attribuée à une mise à jour de code défectueuse dans son système de contrôle des services, qui a déclenché une boucle de crash mondiale en raison d'une gestion des erreurs défaillante et d'un manque de protection des indicateurs de fonctionnalités. La plupart des régions ont été reconnectées en 40 minutes, mais certaines ont mis encore plus de temps. L'entreprise a promis de se prémunir contre de futures pannes et d'améliorer la communication.

Google Cloud Platform (GCP) est une suite de services de cloud computing proposée par Google qui fournit une série de services cloud modulaires, notamment des services de calcul, de stockage de données, d'analyse de données et d'apprentissage automatique, ainsi qu'un ensemble d'outils de gestion. Elle fonctionne sur la même infrastructure que celle utilisée en interne par Google pour ses produits destinés aux utilisateurs finaux, tels que Google Search, Gmail et Google Docs. Google Cloud Platform fournit une infrastructure en tant que service, une plateforme en tant que service et des environnements informatiques sans serveur.

Récemment, Google Cloud a rencontré une panne généralisée, qui a mis hors ligne des sites tels que Spotify, Cloudflare et Discord. Depuis, la société a publié un rapport détaillé expliquant précisément pourquoi elle a déçu ses clients. La société affirme que la cause principale était un problème de code dans Service Control, qui fait partie du système de gestion des API et de vérification des politiques de la société.

Plus précisément, une mise à jour automatisée invalide des quotas et une gestion inadéquate des erreurs ont déclenché une boucle de crash mondiale, avec des erreurs 503 observées non seulement sur les services Google Cloud, mais aussi sur les services utilisant ses API. La panne a affecté l'infrastructure Google Cloud, ainsi que d'autres applications Google Workspace populaires telles que Drive, Docs, Gmail et Calendar. Cependant, les sites tiers accédant à l'API de Google Cloud, notamment la célèbre plateforme de streaming musical Spotify, qui compte 678 millions d'utilisateurs, ainsi que certains services Cloudflare, ont également été touchés.


"Le 29 mai 2025, une nouvelle fonctionnalité a été ajoutée à Service Control pour des vérifications supplémentaires des politiques de quota", a écrit la société dans son rapport d'incident. "Le problème avec cette modification était qu'elle ne disposait pas d'une gestion des erreurs appropriée et n'était pas protégée par un indicateur de fonctionnalité."

Google Cloud s'est vanté que son équipe d'ingénierie de fiabilité des sites avait commencé à trier l'incident en deux minutes, après avoir identifié la cause profonde en 10 minutes. "Le bouton rouge [pour désactiver le chemin d'accès] était prêt à être déployé environ 25 minutes après le début de l'incident", a déclaré Google, le déploiement ayant été achevé en 40 minutes. Bien que les petites régions aient été rétablies relativement rapidement, les grandes régions comme us-central-1 ont mis plus de temps à revenir en ligne, environ deux heures et 40 minutes dans le cas de cette région particulière.

Dans son mini-rapport d'incident publié le jour de la panne, Google Cloud a promis de "faire mieux". Son rapport plus détaillé promet les réponses habituelles pour l'avenir, telles que l'amélioration des pratiques d'analyse statique et de test, l'audit et la modularisation de l'architecture de Service Control afin de limiter les incidents futurs, mais l'entreprise s'est également engagée à "améliorer [ses] communications externes" afin de mieux informer ses clients, en veillant à ce que son infrastructure de communication reste en ligne même lors de telles pannes à l'avenir.

Pour rappel, il y a un an, les 647 000 utilisateurs d'UniSuper ont dû faire face à deux semaines d'indisponibilité à cause d'un bogue de Google Cloud. Dans son rapport de panne, Google Cloud expliquait comment il a accidentellement supprimé le compte client d'UniSuper. UniSuper est un fonds de pension australien de 135 milliards de dollars. Google déclarait à l'époque : "la perturbation est survenue à la suite d'une séquence d'événements sans précédent où une mauvaise configuration par inadvertance pendant le provisionnement des services de Cloud privé d'UniSuper a finalement entraîné la suppression de l'abonnement de Cloud privé d'UniSuper".

Voici le rapport final de Google concernant la panne récente :

[QUOTE]
Résumé

Les produits Google Cloud, Google Workspace et Google Security Operations ont connu une augmentation des erreurs 503 dans les requêtes API externes, ce qui a eu un impact sur les clients.

Nous vous présentons nos sincères excuses pour les désagréments causés par cette interruption. Les clients Google Cloud et leurs utilisateurs font confiance à Google pour leurs activités, et nous nous engageons à faire mieux. Nous sommes désolés pour l'impact que cela a eu non seulement sur les activités de nos clients et leurs utilisateurs, mais aussi sur la confiance accordée à nos systèmes. Nous nous engageons à apporter des améliorations afin d'éviter que de telles interruptions ne se reproduisent à l'avenir....
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !