Envoyé par Google Envoyé par

Nous avons supprimé l'outil interne qui a déclenché cette séquence d'événements. Cet aspect est désormais entièrement automatisé et contrôlé par les clients via l'interface utilisateur, même lorsqu'une gestion spécifique de la capacité est requise.

Nous avons nettoyé la base de données du système et examiné manuellement tous les cloud privés GCVE pour nous assurer qu'aucun autre déploiement GCVE n'est en danger.

Nous avons corrigé le comportement du système qui définit les cloud privés GCVE pour la suppression pour de tels flux de travail de déploiement. Google Cloud a depuis pris plusieurs mesures pour s'assurer que cet incident ne se produise pas et ne puisse pas se reproduire :

Des signalements des utilisateurs de Google Drive évoquant des fichiers qui disparaissent

Conclusion

Plus tôt ce mois-ci, le PDG d'UniSuper, Peter Chun, a écrit aux membres du fonds, expliquant que la panne n'était pas le résultat d'une cyberattaque et qu'aucune donnée personnelle n'avait été exposée à la suite de la panne. Il a désigné le service cloud de Google comme étant à l'origine de la panne. Dans une déclaration commune conjointe avec le directeur général de Google Cloud, Thomas Kurian, les deux hommes se sont excusés auprès des membres pour la panne et ont déclaré qu'elle avait été « extrêmement frustrante et décevante ».Ils ont déclaré que la panne avait été causée par une mauvaise configuration qui a entraîné la suppression du compte cloud d'UniSuper, ce qui n'était jamais arrivé à Google Cloud auparavant : « la perturbation est survenue à la suite d'une séquence d'événements sans précédent où une mauvaise configuration par inadvertance pendant le provisionnement des services de Cloud privé d'UniSuper a finalement entraîné la suppression de l'abonnement de Cloud privé d'UniSuper ».Quelques semaines plus tard, l'examen interne du problème par Google Cloud a pris fin et l'entreprise a publié un billet de blog détaillant ce qui s'est passé :« Lors du déploiement initial d'un cloud privé Google Cloud VMware Engine (GCVE) pour le client à l'aide d'un outil interne, les opérateurs de Google ont mal configuré le service GCVE par inadvertance en laissant un paramètre vide. Cette erreur a eu pour conséquence involontaire et inconnue à l'époque de faire passer par défaut le cloud privé GCVE du client à une durée fixe, avec suppression automatique à la fin de cette période. Le déclencheur de l'incident et le comportement du système en aval ont tous deux été corrigés afin d'éviter que cela ne se reproduise.« Cet incident n'a pas eu d'incidence sur d'autres services Google Cloud que le cloud privé GCVE de ce client. Les autres clients n'ont pas été affectés par cet incident ».Il faut également noter d'autres éléments :Le plus choquant dans cette erreur de Google a été la suppression soudaine et irréversible du compte client. On pourrait s’attendre à des protections, des notifications et des confirmations pour éviter toute suppression accidentelle. Google affirme qu’elles existent, mais ces avertissements sont destinés à une « suppression initiée par le client » et n’ont pas fonctionné lors de l’utilisation de l’outil d’administration. Aucune notification n’a été envoyée au client, car la suppression a été déclenchée par un paramètre laissé vide par les opérateurs de Google, et non par une demande de suppression du client.Pendant les nombreuses mises à jour de la période d’interruption, UniSuper a indiqué qu’il n’avait pas accès aux sauvegardes de Google Cloud et a dû se tourner vers un stockage tiers (probablement moins à jour) pour reprendre ses activités. UniSuper a déclaré qu'il avait mis en place une duplication dans deux zones géographiques pour se protéger contre les pannes et les pertes, mais la suppression de l’abonnement au GCVE Private Cloud d’UniSuper a entraîné la suppression dans les deux zones géographiques.« La restauration de l'instance de Cloud privé d'UniSuper a nécessité une quantité incroyable de concentration, d'efforts et de partenariat entre nos équipes pour permettre une restauration complète de tous les systèmes centraux. Le dévouement et la collaboration entre UniSuper et Google Cloud ont permis une restauration complète de notre Cloud privé qui comprend des centaines de machines virtuelles, de bases de données et d'applications. UniSuper avait mis en place des sauvegardes avec un autre fournisseur de services. Ces sauvegardes ont permis de minimiser la perte de données et d'améliorer de manière significative la capacité d'UniSuper et de Google Cloud à mener à bien la restauration ».Pourtant, dans son rapport d'incident, Google déclare : « les sauvegardes de données stockées dans Google Cloud Storage dans la même région n'ont pas été affectées par la suppression et, avec les logiciels de sauvegarde tiers, ont contribué à une restauration rapide ». Il est difficile de concilier ces deux affirmations, notamment en ce qui concerne la période de restauration de deux semaines. L'objectif d'une sauvegarde est d'être rapidement restaurée ; donc soit les sauvegardes d'UniSuper n'ont pas été supprimées et n'ont pas été efficaces, ce qui a entraîné deux semaines d'indisponibilité, soit elles auraient été efficaces si elles n'avaient pas été partiellement ou complètement effacées.Google a souligné à plusieurs reprises dans son message que ce problème n'affectait qu'un seul client, qu'il ne s'était jamais produit auparavant, qu'il ne devrait jamais se reproduire et qu'il ne s'agissait pas d'un problème systémique lié à Google Cloud. Voici l'intégralité de la section « remédiation » du billet de blog :Cette situation chez UniSuper fait suite à des signalements des utilisateurs de Google Drive selon lesquels des fichiers disparaissent de façon subite du service. Certains internautes, sur les forums d'assistance du géant technologique, ont affirmé que six mois de travail, voire plus, ont disparu sans crier gare au cours du mois de novembre de l’année précédente.« Mes fichiers Google Drive ont disparu de façon soudaine. Les données de mai à aujourd'hui ont disparu, et la structure des dossiers est revenue à l'état du mois de mai de l’année en cours. L'activité de Google Drive ne montre aucun changement. Seule l'activité du mois de mai est visible. Aucun fichier n'a été supprimé de façon manuelle, donc aucun fichier dans la corbeille. Je n'ai jamais synchronisé ou partagé mes fichiers et mon disque avec qui que ce soit. J’en fais un usage local. J'ai suivi la procédure de récupération indiquée par l'équipe d'assistance de Google (équipe de Corée du Sud). Ils m'ont demandé de sauvegarder et de restaurer le dossier DriveFS, mais rien n'a changé. J'ai remonté la situation à l'équipe d'assistance de Google, probablement aux États-Unis, et ils m'ont demandé de signaler le problème à leur ingénieur. Mais l'ingénieur n'a pas répondu et je ne peux pas savoir s'il est en train d'examiner mon problème. J'ai utilisé le disque il y a quelques jours et ce problème horrible s'est produit le matin dernier. J'ai besoin d'aide pour le résoudre », se plaignait un utilisateur du service en ligne qu’offre le géant technologique.Il peut même arriver que Google décide de mettre en place de façon inattendue une limite de fichiers , ce qui a pour conséquence d’empêcher les utilisateurs de son service de stockage dans le nuage de créer de nouveaux fichiers. C’est ce qui s’est vu au début du deuxième trimestre de l’année en cours. Google a discrètement plafonné le nombre de fichiers qu’il est possible de créer et stocker dans Google Drive.Résultat : perte de contrôle des utilisateurs sur ce qui est en principe leur espace de stockage attribué par l’entreprise. Ce changement aurait été mis en place depuis le mois de février de l’année en cours, et ce, sans communication explicative de l’entreprise. C’est à la dure que les utilisateurs l’ont découvert. Ces situations ravivent le débat sur les avantages et les inconvénients du cloud computing.Cette erreur de Google Cloud souligne l’importance de la vigilance lors de la configuration des services cloud et la nécessité de mettre en place des mécanismes de protection robustes pour éviter de telles catastrophes. Espérons que des leçons ont été tirées et que des mesures ont été prises pour éviter que cela ne se reproduise à l’avenir.Sources : Google Quelles précautions les entreprises devraient-elles prendre pour éviter de telles erreurs dans le cloud ?Comment les fournisseurs de services cloud peuvent-ils améliorer leurs processus pour minimiser les risques de suppression accidentelle ?Quelles sont les conséquences potentielles pour les clients lorsque leurs données sont supprimées par inadvertance ?