IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Cloud hybride : Cloudera annonce le lancement du service cloud-natif Cloudera DataFlow.
Entretien avec Mael Ropars, Solutions Engineering Manager

Le , par Stéphane le calme

66PARTAGES

4  0 
Selon le rapport Worldwide Global DataSphere IoT Device and Data Forecast, 2021–2025 d’IDC, les volumes de données en mouvement (data-in-motion) devraient connaître une croissance exponentielle, jusqu'à 79 ZB, dans tous les secteurs. De nombreuses entreprises exploitent déjà Apache NiFi pour capturer et traiter des données dans des architectures cloud hybride en concevant visuellement des flux de données sans code.

Si le cloud offre un moyen facile de traiter ou de stocker des volumes massifs, de nombreux défis doivent être relevés. Le déploiement de dizaines de flux de données sophistiqués dans un seul cluster peut entraîner des difficultés opérationnelles et de surveillance. En effet, lorsque plusieurs flux NiFi se disputent les mêmes ressources, cela peut entraîner des problèmes de performance. Les responsables IT ont donc tendance à choisir de plus grandes infrastructures par prudence, ce qui entraîne une sous-utilisation et des coûts élevés. Enfin, les entreprises souhaitent un modèle « pay-as-you-go » pour éviter de payer pour des ressources non utilisées.

Cloudera, le spécialiste du data cloud pour les entreprises, a annoncé le lancement de Cloudera DataFlow (CDF) pour le cloud public, un service cloud-natif pour les flux de données afin de traiter les workloads hybrides en streaming sur Cloudera Data Platform (CDP). Grâce à ce nouveau service, les utilisateurs peuvent désormais automatiser les opérations complexes, améliorer l’efficacité opérationnelle des données de streaming grâce à sa scalabilité automatique, et réduire ainsi les coûts du cloud en éliminant les approximations de dimensionnement de l'infrastructure.

Mael Ropars, Solutions Engineering Manager chez Cloudera, a échangé avec Developpez.com pour apporter plus de lumière sur l’entreprise, sur ses offres cloud en général et Cloudera DataFlow en particulier, mais aussi sur les perspectives de l'entreprise en matière de technologie et d'emploi

Developpez.com : Pouvez-vous nous présenter Cloudera ?

Mael Ropars : Cloudera est un éditeur de solutions d’entreprise autour de la donnée. L’idée est de données aux clients une plateforme qui va gérer le cycle de la donnée, c’est-à-dire :
  • Ingérer la donnée, que ce soit en continue (donc sous la forme de stream) ou que ça soit via des démarches batch (donc en masse)
  • Stocker la donnée à moindre coût
  • Fournir tout un outillage pour transformer cette donnée (data engineering) en quelque chose d’intelligible pour l’entreprise
  • Permettre des requêtes sur ces données via des technologies SQL (donc de l’analytique, du dataware), du Spark, des API (pour alimenter des sites web, des applications mobiles, des moteurs de recherche) et plus récemment du machine learning parce que nos clients ont très souvent des démarches de Datalab où ils vont permettre à des data scientists de prendre des données, les croiser, appliquer des algorithmes - deep learning, statistiques, etc. - pour alimenter des modèles. Ces modèles sont exposés à des applications par exemple pour faire un score, si on est dans la finance, pour expliquer qu’une transaction est suspecte ou qu’une demande de crédit est à risque.

De plus, nous avons une culture open source. Des employés Cloudera ont créé ou contribuent à de nombreux projets comme Apache Impala, Apache Hive, Apache Kafka, Apache SolR ou Apache NiFi

Avec environ 800 millions de chiffres d’affaires, nous sommes l’un des plus gros éditeurs en termes de chiffres d’affaires s’appuyant sur l’open source. Nous fournissons nos solutions aux grandes entreprises dans plusieurs secteurs : les banques, les télécoms, les entreprises dans le service public, etc. toutes ont besoin de collecter les données, les analyser et faire de la data science ou du Machine Learning.

Un marché assez généraliste puisque nous avons des clients dans toutes les industries même si, historiquement, nous servons plus le monde la haute technologie et de la finance qui étaient les premières industries à faire du Big Data.

Parlez-nous brièvement des services cloud que vous proposez et un peu plus de Cloudera DataFlow (cas d'utilisations, technologies, grille tarifaire, etc.).

Le cloud chez Cloudera est extrêmement important. Nous venons du monde des solutions distribuées qui nécessitent beaucoup de machines pour effectuer des traitements en parallèle. Aussi, assez naturellement, avec l’essor du cloud et des technologies qui font le cloud, c’était extrêmement bien adapté à nos solutions. Donc l’ingénierie a assez rapidement fait évoluer ces solutions pour qu’elles soient cloud natives.

L’idée est de faire en sorte que nos solutions puissent travailler directement sur des stockages cloud comme ceux proposés par Amazon, Google ou Microsoft Azure.

Dans le data center donc on-premise, nous proposons notre propre stockage Big Data qui est issue des technologies open source comme Apache Hadoop.

Des avantages pour les développeurs ?

Apache Nifi est un accélérateur pour réaliser des injections qui peuvent être parfois compliquées à mettre en œuvre quand on développe ; il faut pouvoir s’appuyer sur une palette de connecteurs et traitements. Nous proposons au total 300 processeurs, qui sont des composants de traitement et disponible par interface graphique.

L’idée c’est de fonctionner plus par paramétrage que par programmation. A l’écran le développeur va sélectionner les éléments de traitement et les combiner jusqu’à former un flux d’ingestion. Par exemple un processeur de récupération de fichier, suivi par un processeur de filtrage, de transformation et enfin, un processeur de dépôt vers un système cible, qu’il soit Cloudera ou non. Chaque processeur se paramètre en renseignant des valeurs (nom de fichier, répertoire, fréquence de récupération), il n’est pas nécessaire de...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !