La préparation des données pour l'analyse et l'apprentissage machine implique plusieurs tâches nécessaires et longues, notamment l'extraction des données, le nettoyage, la normalisation, le chargement et l'orchestration des flux de travail ETL à l'échelle. ETL est un acronyme qui désigne les termes "Extract Transform Load". Il s’agit d'une technologie informatique intergicielle permettant de collecter des données en provenance de sources multiples pour ensuite les convertir dans un format adapté à une Data Warehouse et les y transférer.
Pour l'extraction, l'orchestration et le chargement des données à l'échelle, les ingénieurs de données et les développeurs ETL préfèrent souvent les interfaces visuelles courantes des outils ETL modernes à l'écriture de SQL, Python ou Scala. C'est pourquoi Amazon Web Services, une division du groupe américain de commerce électronique Amazon, a récemment lancé AWS Glue Studio, une nouvelle interface visuelle qui aide à créer, exécuter et contrôler les travaux ETL sans avoir à écrire de code.
Ce nouvel outil visuel de normalisation des données sans code s'appuie sur le succès de AWS Glue. Depuis 2016, selon AWS, les ingénieurs de données utilisent AWS Glue pour créer, exécuter et surveiller des travaux d'extraction, de transformation et de chargement. AWS Glue fournit des interfaces à la fois visuelles et basées sur le code, et a considérablement simplifié l'extraction, l'orchestration et le chargement des données dans le Cloud pour les clients. Les analystes de données et les scientifiques de données peuvent utiliser Glue DataBrew pour l'exploration et l'expérimentation des données directement à partir des lacs de données, des entrepôts de données et des bases de données d'AWS sans écrire de code, d’après AWS.
AWS Glue DataBrew propose à ses clients plus de 250 transformations prédéfinies pour automatiser les tâches de préparation des données (par exemple, filtrage des anomalies, normalisation des formats et correction des valeurs non valides) qui, autrement, nécessiteraient des jours ou des semaines d'écriture de transformations codées à la main. Une fois les données préparées, les clients peuvent immédiatement commencer à les utiliser avec AWS et des services tiers d'analyse et d'apprentissage automatique pour interroger les données et former les modèles d'apprentissage Machine.
« Vous pouvez choisir parmi plus de 250 transformations prédéfinies pour automatiser les tâches de préparation des données, le tout sans avoir à écrire le moindre code. Vous pouvez automatiser les anomalies de filtrage, la conversion des données en formats standard et la correction des valeurs non valides, ainsi que d'autres tâches. Lorsque vos données sont prêtes, vous pouvez les utiliser immédiatement pour des projets d'analyse et d'apprentissage automatique », lit-on sur la page dédiée à l’outil.
Des clients utilisent Glue DataBrew pour comprendre leurs données
Raju Gulabani, vice-président base de données et analyse chez AWS, a déclaré : « Les clients d'AWS utilisent les données pour l'analyse et l'apprentissage automatique à un rythme sans précédent. Cependant, ces clients nous disent régulièrement que leurs équipes passent trop de temps sur les tâches indifférenciées, répétitives et banales associées à la préparation des données. Les clients apprécient l'évolutivité et la flexibilité des services de préparation de données basés sur le code, comme AWS Glue, mais ils pourraient également bénéficier de la possibilité pour les utilisateurs professionnels, les analystes de données et les scientifiques de données d'explorer visuellement et d'expérimenter avec les données de manière indépendante, sans écrire de code. AWS Glue DataBrew dispose d'une interface visuelle facile à utiliser qui aide les analystes de données et les scientifiques de données de tous les niveaux techniques à comprendre, combiner, nettoyer et transformer les données ».
Selon AWS, l’outil permet d’évaluer la qualité des données en les profilant pour comprendre les schémas de données et détecter les anomalies. Les professionnels peuvent également cartographier visuellement la lignée de leurs données pour comprendre les différentes sources de données et les étapes de transformation que les données ont traversées.
Les sociétés NTT DOCOMO (au Japon), BP (en Grande-Bretagne), et INVISTA (aux États-Unis) sont parmi les clients qui utilisent AWS Glue DataBrew. Les responsables de ces sociétés ont parlé du nouvel outil.
« Nos analystes profilent et interrogent divers types de données structurées et non structurées afin de mieux comprendre les modes d'utilisation. AWS Glue DataBrew fournit une interface visuelle qui permet à nos utilisateurs techniques et non techniques d'analyser les données rapidement et facilement. Sa capacité avancée de profilage des données nous aide à mieux comprendre nos données et à en contrôler la qualité. AWS Glue DataBrew et les autres services d'analyse d'AWS nous ont permis de rationaliser notre flux de travail et d'augmenter notre productivité », a déclaré Takashi Ito, directeur général du département de planification de la plateforme marketing chez NTT DOCOMO.
Chez BP, John Maio, directeur de l’architecture des données et des plateformes d'analyse, a dit :
« Un lac de données est un élément essentiel de notre stratégie d'analyse. L'un des défis que nous devons relever est de ne pas pouvoir explorer facilement les données avant de les intégrer dans notre lac de données. AWS Glue DataBrew dispose de fonctionnalités sophistiquées de profilage des données et d'un riche ensemble de transformations intégrées. Cela permet à nos ingénieurs d'explorer facilement de nouveaux ensembles de données dans une interface visuelle et d'y apporter des modifications afin d'optimiser l'ingestion et de permettre aux analystes de façonner les données pour leurs solutions analytiques. Nous considérons AWS Glue DataBrew comme un moyen de nous aider à mieux gérer notre plateforme de données et à améliorer l'efficacité de nos pipelines de données ».
Selon Amazon Web Service, Glue DataBrew automatise les tâches de nettoyage et de normalisation des données en appliquant les transformations enregistrées directement aux nouvelles données dès qu'elles arrivent dans votre système source. L’outil est disponible aux États-Unis, dans l'Union européenne et dans l'Asie-Pacifique, et d'autres régions suivront. Tanner Gonzalez, analyste et responsable du Cloud chez INVISTA a déclaré :
« Les données sont essentielles pour optimiser nos processus de fabrication. L'un des défis que nous devons relever est de nous assurer que nous disposons d'un lac de données propre qui puisse servir de source de vérité pour nos applications d'analyse et d'apprentissage machine. Les données ingérées dans notre lac de données contiennent souvent des valeurs en double, un formatage incorrect et d'autres imperfections qui les rendent difficiles à utiliser sous leur forme brute. AWS Glue DataBrew d'Amazon permettra à nos analystes de données d'inspecter visuellement de grands ensembles de données, de nettoyer et d'enrichir les données, et d'effectuer des transformations avancées. AWS Glue DataBrew permettra à nos analystes et à nos scientifiques de données d'effectuer des activités d'ingénierie de données avancées, leur donnant la liberté d'explorer leurs données et réduisant le temps nécessaire pour en tirer de nouvelles conclusions ».
Source : AWS
Et vous ?
Que pensez-vous d’AWS Glue DataBrew ?
Quelles sont les fonctionnalités de l’outil qui attirent votre attention ?
Voir aussi :
AWS Ground Station, le service entièrement géré qui permet de contrôler les communications satellitaires, sans avoir à créer votre infrastructure de stations au sol, gagne en fonctionnalités
AWS annonce la disponibilité générale de la sixième génération d'instances Amazon EC2, avec trois nouvelles instances propulsées par des processeurs Graviton2 conçus par AWS
AWS et Alibaba en tête du marché du Cloud de l'APAC, Microsoft les suit de près et Tencent et Google viennent après