Si le cloud offre un moyen facile de traiter ou de stocker des volumes massifs, de nombreux défis doivent être relevés. Le déploiement de dizaines de flux de données sophistiqués dans un seul cluster peut entraîner des difficultés opérationnelles et de surveillance. En effet, lorsque plusieurs flux NiFi se disputent les mêmes ressources, cela peut entraîner des problèmes de performance. Les responsables IT ont donc tendance à choisir de plus grandes infrastructures par prudence, ce qui entraîne une sous-utilisation et des coûts élevés. Enfin, les entreprises souhaitent un modèle « pay-as-you-go » pour éviter de payer pour des ressources non utilisées.
Cloudera, le spécialiste du data cloud pour les entreprises, a annoncé le lancement de Cloudera DataFlow (CDF) pour le cloud public, un service cloud-natif pour les flux de données afin de traiter les workloads hybrides en streaming sur Cloudera Data Platform (CDP). Grâce à ce nouveau service, les utilisateurs peuvent désormais automatiser les opérations complexes, améliorer l’efficacité opérationnelle des données de streaming grâce à sa scalabilité automatique, et réduire ainsi les coûts du cloud en éliminant les approximations de dimensionnement de l'infrastructure.
Mael Ropars, Solutions Engineering Manager chez Cloudera, a échangé avec Developpez.com pour apporter plus de lumière sur l’entreprise, sur ses offres cloud en général et Cloudera DataFlow en particulier, mais aussi sur les perspectives de l'entreprise en matière de technologie et d'emploi
Developpez.com : Pouvez-vous nous présenter Cloudera ?
Mael Ropars : Cloudera est un éditeur de solutions d’entreprise autour de la donnée. L’idée est de données aux clients une plateforme qui va gérer le cycle de la donnée, c’est-à-dire :
- Ingérer la donnée, que ce soit en continue (donc sous la forme de stream) ou que ça soit via des démarches batch (donc en masse)
- Stocker la donnée à moindre coût
- Fournir tout un outillage pour transformer cette donnée (data engineering) en quelque chose d’intelligible pour l’entreprise
- Permettre des requêtes sur ces données via des technologies SQL (donc de l’analytique, du dataware), du Spark, des API (pour alimenter des sites web, des applications mobiles, des moteurs de recherche) et plus récemment du machine learning parce que nos clients ont très souvent des démarches de Datalab où ils vont permettre à des data scientists de prendre des données, les croiser, appliquer des algorithmes - deep learning, statistiques, etc. - pour alimenter des modèles. Ces modèles sont exposés à des applications par exemple pour faire un score, si on est dans la finance, pour expliquer qu’une transaction est suspecte ou qu’une demande de crédit est à risque.
De plus, nous avons une culture open source. Des employés Cloudera ont créé ou contribuent à de nombreux projets comme Apache Impala, Apache Hive, Apache Kafka, Apache SolR ou Apache NiFi
Avec environ 800 millions de chiffres d’affaires, nous sommes l’un des plus gros éditeurs en termes de chiffres d’affaires s’appuyant sur l’open source. Nous fournissons nos solutions aux grandes entreprises dans plusieurs secteurs : les banques, les télécoms, les entreprises dans le service public, etc. toutes ont besoin de collecter les données, les analyser et faire de la data science ou du Machine Learning.
Un marché assez généraliste puisque nous avons des clients dans toutes les industries même si, historiquement, nous servons plus le monde la haute technologie et de la finance qui étaient les premières industries à faire du Big Data.
Parlez-nous brièvement des services cloud que vous proposez et un peu plus de Cloudera DataFlow (cas d'utilisations, technologies, grille tarifaire, etc.).
Le cloud chez Cloudera est extrêmement important. Nous venons du monde des solutions distribuées qui nécessitent beaucoup de machines pour effectuer des traitements en parallèle. Aussi, assez naturellement, avec l’essor du cloud et des technologies qui font le cloud, c’était extrêmement bien adapté à nos solutions. Donc l’ingénierie a assez rapidement fait évoluer ces solutions pour qu’elles soient cloud natives.
L’idée est de faire en sorte que nos solutions puissent travailler directement sur des stockages cloud comme ceux proposés par Amazon, Google ou Microsoft Azure.
Dans le data center donc on-premise, nous proposons notre propre stockage Big Data qui est issue des technologies open source comme Apache Hadoop.
Des avantages pour les développeurs ?
Apache Nifi est un accélérateur pour réaliser des injections qui peuvent être parfois compliquées à mettre en œuvre quand on développe ; il faut pouvoir s’appuyer sur une palette de connecteurs et traitements. Nous proposons au total 300 processeurs, qui sont des composants de traitement et disponible par interface graphique.
L’idée c’est de fonctionner plus par paramétrage que par programmation. A l’écran le développeur va sélectionner les éléments de traitement et les combiner jusqu’à former un flux d’ingestion. Par exemple un processeur de récupération de fichier, suivi par un processeur de filtrage, de transformation et enfin, un processeur de dépôt vers un système cible, qu’il soit Cloudera ou non. Chaque processeur se paramètre en renseignant des valeurs (nom de fichier, répertoire, fréquence de récupération), il n’est pas nécessaire de programmer.
Cela permet d’aller très vite en productivité.
Une des particularités de cette technologie c’est qu’on peut tester tout de suite ; de façon Agile : il est possible de démarrer chacun des composants indépendamment pour voir si les informations sont bien récupérées du système source, si le routage se fait comme il faut, si la donnée est bien injectée dans le système cible.
Nous avons même poussé la productivité dans la dernière version cloud en proposant des templates de flux d’intégration préconçus, par exemple Apache Kafka vers Amazon S3. Directement, nous avons notre flux qui est prêt, nous n’avons qu’à paramétrer la connexion vers Kafka en source et la connexion cible..
Nous avons fait en sorte de proposer un catalogue avec ces intégrations prêtes à l’emploi et l’idée c’est que celui-ci s’enrichisse au fur et à mesure.
Mael Ropars, Solutions Engineering Manager
Plusieurs services cloud autour des flux de données sont proposés. Quelle est, selon-vous, la particularité qui vous démarque de la concurrence ?
Nous pouvons déjà évoquer la nature de la technologie qui s’appuie dans notre cas sur l’open source. Nous avons des clients pour lesquels c’est important d’avoir cette possibilité de faire de la rétro-ingénierie à tout moment pour diverses raisons.
Nous pouvons déjà évoquer notre stratégie Hybride, autour du multicloud et de l’ on-premise. Ainsi, si l’entreprise décide pour une raison ou pour une autre de ne plus travailler avec un fournisseur cloud, elle peut rapatrier son flux on-premise ou le déployer dans un autre cloud. C’est important en ces temps où l’on voit que les stratégies cloud des entreprises fluctuent énormément.
Apache NiFi est unique sur le marché étant donné qu’il a été conçu en priorité pour répondre à des exigences de performance et scalabilité..Cela fait que des acteurs du telecom, de la finance, peuvent ingérer des volumétries très importantes avec NiFi.
La flexibilité des processors permet aussi à NiFi de répondre à de nombreux cas d’usages métier.
Selon un rapport d’IBM Security, la facilité et la rapidité avec lesquelles les nouveaux outils dans le Cloud peuvent être déployés peuvent également rendre plus difficile le contrôle de leur utilisation par les équipes de sécurité. Les questions fondamentales de surveillance de la sécurité, notamment la gouvernance, les vulnérabilités et les mauvaises configurations, restent les principaux facteurs de risque auxquels les organisations devraient faire face pour aider à sécuriser des opérations de plus en plus basées sur le Cloud. Comment est gérée la sécurité des données avec Cloudera DataFlow ?
La gouvernance est un sujet sur lequel nous sommes très sensible avec Cloudera DataFlow étant donné que nous avons beaucoup de clients dans le secteur de la finance, dans le gouvernement et la santé qui sont sujets à des régulations très fortes. Il s’agit donc d’un point crucial pour nous.
Nous proposons un outil de gouvernance, disponible dans le cloud public et On Premise. Il est motorisé en partie par des briques open source Apache (par exemple Apache Atlas). L’idée est de pouvoir proposer plusieurs choses :
- Un linéage : imaginez que vous avez un flux Data Flow qui va prendre une donnée dans un système source. Ce flux a poussé la donnée dans une file de streaming Apache Kafka et après la donnée a été traitée pour alimenter un rapport métier. Pour une raison quelconque, la source serait compromise. Le lineage permet d’identifier quels seraient les rapports métiers impactés, puisqu’un rapport métier compromis peut entrainer une mauvaise prise de décision. C’est ici qu’intervient la solution de gouvernance. C’est-à-dire que nous avons mis en œuvre des connecteurs internes pour remonter les informations en central, ce n’est pas au développeur de le faire., Cela permet aussi, à l’inverse, de comprendre quelles sont les sources utilisées pour alimenter un rapport.
- La piste d’audit : qui a manipulé la donnée, à quel moment ? C’est une information importante pour nos clients, raisons pour laquelle nous avons ajouté la gestion centrale de ces métadonnées. Ainsi, par exemple, si vous avez une donnée source qui est marquée comme étant sensible, vous pouvez savoir quels en ont été les accès. conserver le marquage après réplication des données auxquelles seront associées des règles de sécurité (en restreignant par exemple les accès).
La partie vulnérabilité est différente, nous sommes plus dans une démarche classique d’éditeur qui consiste à réaliser une veille au niveau communautaire, une veille au niveau de nos clients (nous sommes évidemment en relation régulière avec eux), et nos propres tests de sécurité. L’idée est d’être le plus réactif possible, lorsqu’il y a une faille de sécurité qui est détectée, pour notifier les clients, aller corriger dans la solution et côté communautaire. Nous corrigeons aussi les briques dans le cloud public.
Au passage, qu'en est-il de votre politique de confidentialité ?
Nous nous appuyons sur le stockage du cloud. De fait, la donnée peut être stockée chez le client dans le respect des règles de sécurité du client en question. Nous n’hébergeons pas les données métiers du client, nous ne traitons que les méta-données.
Notre solution Cloud est présente aux Etats-Unis, en Asie et en Europe, pour répondre aux inquiétudes des clients concernant un hébergement aux Etats-Unis.
Au cours de la dernière décennie, le cloud computing est devenu le fondement de la fourniture de services mobiles et de contenu, ainsi qu'une alternative aux environnements informatiques d'entreprise traditionnels. IDC prévoit que les dépenses mondiales liées au cloud atteindront 1,3 billion de dollars d'ici 2025. Qu’est-ce que Cloudera DataFlow apporte réellement aux entreprises que l’IT traditionnel ne permet pas ?
La genèse de la solution était aux prémices du cloud computing. On est dans quelque chose qui est très fortement distribué mais qui n’est pas forcément dépendant du cloud computing de par sa conception. Néanmoins, Cloudera DataFlow aide énormément à aller dans le cloud. Cloudera Data Flow peut servir à distribuer l’information entre plusieurs Clouds et avec le Data Center.
Nous sommes convaincus qu’il y aura toujours besoin de faire des aller-retour entre le cloud et on-premise (faire revenir certaines données ou le résultat d’opérations sur le cloud public dans notre cloud privé).
Une feuille de route à communiquer pour Cloudera DataFlow (fonctionnalités en cours de développement, technologies prises en charge, etc.) ?
Nous avons une feuille de route ambitieuse. Cloudera DataFlow sur public cloud est sorti récemment sur Amazon. On travaille pour sortir très prochainement la version sur Azure. Cela fait partie de notre promesse multi-cloud. Et puis viendront plus tard les portages sur Google.
Un autre sujet sur lequel on travaille c’est Nifi-as-a-function pour exécuter notre DataFlow sous la forme de fonction dans les systèmes serverless du cloud afin d’alléger encore plus l’architecture.
Quelles sont les prochaines étapes (produits, centre de données, etc.) pour Cloudera ? Quelles seront les répercussions sur votre politique RH (embauche ou pas, quels types de collaborateurs, etc.) ?
Cloudera fournit une plateforme data dont la toute dernière version s’appelle CDP (Cloudera Data Platform) et elle est disponible dans une version datacenter et cloud public. Notre stratégie est de continuer et d’accélérer sur cette promesse de développement d’une plateforme hybride sur laquelle les entreprises peuvent s’appuyer et faire abstraction de l’infrastructure.
L’idée est de proposer les mêmes fonctionnalités sous plusieurs cloud et on-premise.
En termes de compétences, nous sommes un éditeur de logiciel, donc nous recrutons pour différents métiers chez nous. Nous sommes toujours à la recherche de profils :
- Architectes et experts pour rejoindre nos équipes Consulting Professionnal Services, c’est-à-dire des personnes qui vont accompagner nos clients dans leur transition vers le cloud.
- Dans les fonctions de vente, marketing, technico-commercial. Il s’agit de personnes qui aiment évangéliser les technologies, qui sont en mesure de présenter les solutions de manière simple, de faire des formations, etc.
- D’ingénieurs R&D. Cloudera a une ingénierie présente dans différents pays. Il s’agit de personnes qui vont contribuer au projet sur les deux facettes (la contribution open source et la contribution de la solution que l’on fournit aux clients).
En savoir plus sur Cloudera DataFlow