Cloud hybride : Cloudera annonce le lancement du service cloud-natif Cloudera DataFlow.

Entretien avec Mael Ropars, Solutions Engineering Manager

Le 22 octobre 2021 à 16:30, par Stéphane le calme

64PARTAGES

Selon le rapport Worldwide Global DataSphere IoT Device and Data Forecast, 2021–2025 d’IDC, les volumes de données en mouvement (data-in-motion) devraient connaître une croissance exponentielle, jusqu'à 79 ZB, dans tous les secteurs. De nombreuses entreprises exploitent déjà Apache NiFi pour capturer et traiter des données dans des architectures cloud hybride en concevant visuellement des flux de données sans code.

Si le cloud offre un moyen facile de traiter ou de stocker des volumes massifs, de nombreux défis doivent être relevés. Le déploiement de dizaines de flux de données sophistiqués dans un seul cluster peut entraîner des difficultés opérationnelles et de surveillance. En effet, lorsque plusieurs flux NiFi se disputent les mêmes ressources, cela peut entraîner des problèmes de performance. Les responsables IT ont donc tendance à choisir de plus grandes infrastructures par prudence, ce qui entraîne une sous-utilisation et des coûts élevés. Enfin, les entreprises souhaitent un modèle « pay-as-you-go » pour éviter de payer pour des ressources non utilisées.

Cloudera, le spécialiste du data cloud pour les entreprises, a annoncé le lancement de Cloudera DataFlow (CDF) pour le cloud public, un service cloud-natif pour les flux de données afin de traiter les workloads hybrides en streaming sur Cloudera Data Platform (CDP). Grâce à ce nouveau service, les utilisateurs peuvent désormais automatiser les opérations complexes, améliorer l’efficacité opérationnelle des données de streaming grâce à sa scalabilité automatique, et réduire ainsi les coûts du cloud en éliminant les approximations de dimensionnement de l'infrastructure.

Mael Ropars, Solutions Engineering Manager chez Cloudera, a échangé avec Developpez.com pour apporter plus de lumière sur l’entreprise, sur ses offres cloud en général et Cloudera DataFlow en particulier, mais aussi sur les perspectives de l'entreprise en matière de technologie et d'emploi

Developpez.com : Pouvez-vous nous présenter Cloudera ?

Mael Ropars : Cloudera est un éditeur de solutions d’entreprise autour de la donnée. L’idée est de données aux clients une plateforme qui va gérer le cycle de la donnée, c’est-à-dire :

Ingérer la donnée, que ce soit en continue (donc sous la forme de stream) ou que ça soit via des démarches batch (donc en masse)
Stocker la donnée à moindre coût
Fournir tout un outillage pour transformer cette donnée (data engineering) en quelque chose d’intelligible pour l’entreprise
Permettre des requêtes sur ces données via des technologies SQL (donc de l’analytique, du dataware), du Spark, des API (pour alimenter des sites web, des applications mobiles, des moteurs de recherche) et plus récemment du machine learning parce que nos clients ont très souvent des démarches de Datalab où ils vont permettre à des data scientists de prendre des données, les croiser, appliquer des algorithmes - deep learning, statistiques, etc. - pour alimenter des modèles. Ces modèles sont exposés à des applications par exemple pour faire un score, si on est dans la finance, pour expliquer qu’une transaction est suspecte ou qu’une demande de crédit est à risque.

De plus, nous avons une culture open source. Des employés Cloudera ont créé ou contribuent à de nombreux projets comme Apache Impala, Apache Hive, Apache Kafka, Apache SolR ou Apache NiFi

Avec environ 800 millions de chiffres d’affaires, nous sommes l’un des plus gros éditeurs en termes de chiffres d’affaires s’appuyant sur l’open source. Nous fournissons nos solutions aux grandes entreprises dans plusieurs secteurs : les banques, les télécoms, les entreprises dans le service public, etc. toutes ont besoin de collecter les données, les analyser et faire de la data science ou du Machine Learning.

Un marché assez généraliste puisque nous avons des clients dans toutes les industries même si, historiquement, nous servons plus le monde la haute technologie et de la finance qui étaient les premières industries à faire du Big Data.

Parlez-nous brièvement des services cloud que vous proposez et un peu plus de Cloudera DataFlow (cas d'utilisations, technologies, grille tarifaire, etc.).

Le cloud chez Cloudera est extrêmement important. Nous venons du monde des solutions distribuées qui nécessitent beaucoup de machines pour effectuer des traitements en parallèle. Aussi, assez naturellement, avec l’essor du cloud et des technologies qui font le cloud, c’était extrêmement bien adapté à nos solutions. Donc l’ingénierie a assez rapidement fait évoluer ces solutions pour qu’elles soient cloud natives.

L’idée est de faire en sorte que nos solutions puissent travailler directement sur des stockages cloud comme ceux proposés par Amazon, Google ou Microsoft Azure.

Dans le data center donc on-premise, nous proposons notre propre stockage Big Data qui est issue des technologies open source comme Apache Hadoop.

Des avantages pour les développeurs ?

Apache Nifi est un accélérateur pour réaliser des injections qui peuvent être parfois compliquées à mettre en œuvre quand on développe ; il faut pouvoir s’appuyer sur une palette de connecteurs et traitements. Nous proposons au total 300 processeurs, qui sont des composants de traitement et disponible par interface graphique.

L’idée c’est de fonctionner plus par paramétrage que par programmation. A l’écran le développeur va sélectionner les éléments de traitement et les combiner jusqu’à former un flux d’ingestion. Par exemple un processeur de récupération de fichier, suivi par un processeur de filtrage, de transformation et enfin, un processeur de dépôt vers un système cible, qu’il soit Cloudera ou non. Chaque processeur se paramètre en renseignant des valeurs (nom de fichier, répertoire, fréquence de récupération), il n’est pas nécessaire de programmer.

Cela permet d’aller très vite en productivité.

Une des particularités de cette technologie c’est qu’on peut tester tout de suite ; de façon Agile : il est possible de démarrer chacun des composants indépendamment pour voir si les informations sont bien récupérées du système source, si le routage se fait comme il faut, si la donnée est bien injectée dans le système cible.

Nous avons même poussé la productivité dans la dernière version cloud en proposant des templates de flux d’intégration préconçus, par exemple Apache Kafka vers Amazon S3. Directement, nous avons notre flux qui est prêt, nous n’avons qu’à paramétrer la connexion vers Kafka en source et la connexion cible..

Nous avons fait en sorte de proposer un catalogue avec ces intégrations prêtes à l’emploi et l’idée c’est que celui-ci s’enrichisse au fur et à mesure.

Mael Ropars, Solutions Engineering Manager

Plusieurs services cloud autour des flux de données sont proposés. Quelle est, selon-vous, la particularité qui vous démarque de la concurrence ?

Nous pouvons déjà évoquer la nature de la technologie qui s’appuie dans notre cas sur l’open source. Nous avons des clients pour lesquels c’est important d’avoir cette possibilité de faire de la rétro-ingénierie à tout moment pour diverses raisons.

Nous pouvons déjà évoquer notre stratégie Hybride, autour du multicloud et de l’ on-premise. Ainsi, si l’entreprise décide pour une raison ou pour une autre de ne plus travailler avec un fournisseur cloud, elle peut rapatrier son flux on-premise ou le déployer dans un autre cloud. C’est important en ces temps où l’on voit que les stratégies cloud des entreprises fluctuent énormément.

Apache NiFi est unique sur le marché étant donné qu’il a été conçu en priorité pour répondre à des exigences de performance et scalabilité..Cela fait que des acteurs du telecom, de la finance, peuvent ingérer des volumétries très importantes avec NiFi.
La flexibilité des processors permet aussi à NiFi de répondre à de nombreux cas d’usages métier.

Selon un rapport d’IBM Security, la facilité et la rapidité avec lesquelles les nouveaux outils dans le Cloud peuvent être déployés peuvent également rendre plus difficile le contrôle de leur utilisation par les équipes de sécurité. Les questions fondamentales de surveillance de la sécurité, notamment la gouvernance, les vulnérabilités et les mauvaises configurations, restent les principaux facteurs de risque auxquels les organisations devraient faire face pour aider à sécuriser des opérations de plus en plus basées sur le Cloud. Comment est gérée la sécurité des données avec Cloudera DataFlow ?

La gouvernance est un sujet sur lequel nous sommes très sensible avec Cloudera DataFlow étant donné que nous avons beaucoup de clients dans le secteur de la finance, dans le gouvernement et la santé qui sont sujets à des régulations très fortes. Il s’agit donc d’un point crucial pour nous.

Nous proposons un outil de gouvernance, disponible dans le cloud public et On Premise. Il est motorisé en partie par des briques open source Apache (par exemple Apache Atlas). L’idée est de pouvoir proposer plusieurs choses :
[LIST][*]Un linéage : imaginez que vous avez un flux Data Flow qui va prendre une donnée dans un système source. Ce flux a poussé la donnée dans une file de streaming Apache Kafka et après la donnée a été traitée pour alimenter un rapport métier. Pour une raison quelconque, la source serait compromise. Le lineage permet d’identifier quels seraient les rapports métiers impactés, puisqu’un rapport métier compromis peut entrainer une mauvaise prise de décision. C’est ici qu’intervient la solution de gouvernance. C’est-à-dire que nous avons mis en œuvre des connecteurs internes pour remonter les informations en central, ce n’est pas au développeur de le faire., Cela permet aussi, à l’inverse, de comprendre quelles sont les sources utilisées pour alimenter un rapport.[*]La piste d’audit : qui a manipulé la donnée, à quel moment ? C’est une information importante pour nos clients, raisons pour laquelle nous avons ajouté la gestion centrale de ces métadonnées. Ainsi, par exemple, si vous avez une donnée source qui est marquée comme étant sensible, vous pouvez savoir quels en ont été les accès. conserver le marquage après réplication des...[/*]

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Cloud hybride : Cloudera annonce le lancement du service cloud-natif Cloudera DataFlow.

Entretien avec Mael Ropars, Solutions Engineering Manager

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Cloud hybride : Cloudera annonce le lancement du service cloud-natif Cloudera DataFlow. Entretien avec Mael Ropars, Solutions Engineering Manager

Cloud hybride : Cloudera annonce le lancement du service cloud-natif Cloudera DataFlow.

Entretien avec Mael Ropars, Solutions Engineering Manager