LANSROD

Nicolas LANSKI

+33(0)1 81 69 87 98

Analytique

API

Applications

Dataviz

Infrastructure

Institutionnels

Consultants/SSII

Intégrateurs

LA PRIORITÉ DE CONSTRUCTION D’UN DATA LAKE

Le retour d’expérience de nos nombreuses interventions clients sur des projets Big Data a fait émerger un constat clair : dans toutes les approches clients, il y a la volonté de traiter leurs données dans un Data Lake Hadoop.

 

Le développement de Data Lake s’est accéléré avec la convergence du besoin de plateformes fédératrices dans les entreprises et de nouveaux moyens techniques économiques apportés par les technologies Big Data.

Un Data Lake est un référentiel de données permettant de stocker une très large quantité de données brutes dans le format natif pour une durée indéterminée. Cette méthode de stockage permet de faciliter la cohabitation entre les différents schémas et formes structurelles de données, généralement des blobs d’objets ou des fichiers.

 

Au sein d’un seul Data Lake, toutes les données de l’entreprise sont stockées. Les données brutes, y compris les copies des données système source, côtoient les données transformées.

 

Le Data Lake regroupe les données structurées en provenance de bases de données relationnelles en couloir ou en colonne, les données semi-structurées telles que les CSV, les logs, les XML, les JSON, et les données non structurées telles que les emails, les documents et les PDF. On y trouve même des données binaires telles que des images, des fichiers audios ou des vidéos.

 

Le point commun à toute construction d’un Data Lake est d’implémenter d’une part des chaînes d’acquisition de traitement et d’autre part des données de tous types dans ce même Data Lake.

 

Ainsi, avant même de pouvoir exploiter et exposer les données du Data Lake, nous avons constaté des délais parfois considérables pour construire ce Data Lake. Ces délais sont souvent couplés à une indisponibilité de ressources expertes maitrisant les technologies permettant le développement des chaînes d’acquisition et d’ingestion des données. Il est fréquent de constater des délais de plusieurs mois voire années avant d’intégrer l’ensemble des données.

 

Il faut rappeler qu’au-delà du stockage, l’un des enjeux du Data Lake est de pouvoir très facilement traiter et transformer l’information afin d’accélérer les cycles d’innovation, et ainsi être un support aux différentes initiatives data.

 

Malheureusement, cet enjeu important se trouve complétement obstrué par les difficultés rencontrées lors de sa mise en place.

De ce constat est né l’idée de proposer DM360, un outil permettant d’ingérer rapidement tous types de données, depuis des sources externes (tous types de fichiers plats (xls, xml, json, ...), BDD SQL et Nosql, web services, open data, CRM, ...) vers le Data Lake, de façon automatisée, entrainant un double avantage pour l’entreprise : réduire considérablement les délais et les couts d’ingestion des données dans le Data Lake.

Pour illustrer concrètement cet apport, il suffit de prendre en exemple un cas rencontré au sein d’un grand groupe : 2500 fichiers étaient à intégrer dans le Data Lake, nécessitant pour chaque fichier le développement d’un job Spark. 10 data engineer ont été mobilisés durant une période de plus d’un an.

Avec l’utilisation de DM360, les délais et les coûts sont divisés par 10, ce qui représente un enjeux considérable. Chaque job Spark est généré automatiquement en prenant en compte les paramètres du fichier, permettant son ingestion de façon rapide et automatisée dans le Data Lake.

Mais ce n’est pas tout, car le même travail, une fois les données ingérées, est à effectuer en sortie du Data Lake. Il est effectivement nécessaire de créer un job Spark pour les exposer (établir des rapports, visualiser les données, analyser les données ou le Machine Learning).

 

De même, la modification de toutes ces chaînes (par exemple suite à l’intégration d’une nouvelle donnée ou d’un nouvel indicateur) entrainera à nouveau l’intervention d’un data engineer en charge de modifier la chaîne de bout en bout.

 

En prenant en compte le cycle de vie des données et les nombreuses interventions nécessaires à l’enrichissement et l’optimisation du Data Lake, le coût devient une contrainte importante, malgré les technologies open source.

 

En résumé, notre volonté est d’apporter une agilité, flexibilité et rapidité dans le management des données END-TO-END du Data Lake.

 

Les 5 grandes fonctionnalités présentes au sein de DM360 sont les suivantes :

  • Une ingestion automatisée des données depuis tout type de sources externes vers le Data Lake.
  • Un moteur d’agrégation, de jointures, d’enrichissement et de calcul.
  • Un choix d’exposition (que ce soit dans hdfs, hive, elastic) ou d’exportation vers une BDD Sql externe.
  • Un ordonnanceur pour la gestion des cycles de vie des données.
  • Une interface utilisateur via Angular 4 pour une simplicité d’utilisation et un rendu visuel optimal.

LANSROD

Fahd

ESSID

CTO Big Datav

interview

INTERVIEW

COMMENT VOYEZ-VOUS L’ÉVOLUTION ET LA MATURITÉ DU BIG DATA ?

Hadoop et les technologies NoSQL ont une dizaine d’années aujourd’hui. Après une période d’attentisme au sein de plusieurs entreprises, marquée par la volonté de résultats prouvés dans leur domaine avant de se lancer, nous constatons dans presque tous les secteurs une évolution importante : ces grandes entreprises ont rejoint les groupes précurseurs déjà convertis depuis de nombreuses années au Big Data. Et si ce n’est pas encore le cas, cela fait partie de leur stratégie à moyen ou à long terme. De façon générale, notre ressenti est que le Big Data devient l’enjeu stratégique majeur dans le domaine IT. Une fois la décision prise de se lancer dans le Big Data, il existe diverses manières d’adopter ces technologies. La tendance étant aujourd’hui d’utiliser un Data Lake, ce que nous partageons. En effet, dans une démarche de data management, le Data Lake permet de collecter tout type de données, de raffiner celles-ci pour offrir une vision 360. Le Data Lake est basé sur des technologies qui permettent le traitement in-situ des données. Le fait de disposer de puissance de calcul directement associée au stockage permet de raffiner un flux de données, et ainsi de facilement en créer les déclinaisons métier attendues. La richesse des outillages intégrés permet ensuite de tirer parti des données.

 

QUELS SONT LES CHALLENGES ET DIFFICULTÉS QUE RENCONTRENT LES ENTREPRISES DANS LA GESTION DE LEURS DONNÉES ?

Une des difficultés rencontrées par les entreprises est l’offre pléthorique dans le domaine Big Data, rendant le choix très complexe. Il en ressort que les entreprises se sentent perdues et démunies face à une offre de plus en plus grande. Lors de la mise en place d’un Data Lake, nous rencontrons souvent deux problèmes récurrents : d’une part, le nombre de projets de mise en place de Data Lake couplé à une pénurie de data engineer entraine une mise en route difficile et compliquée dans le parcours de mise en place d’un Data Lake. D’autre part, il est fréquent qu’une entreprise ait des milliers de sources à intégrer dans son Data Lake. Pour chaque source, une chaine de traitement (ingestion, mais aussi calcul et exposition) doit être développée. C’est un travail titanesque à l’échelle de plusieurs milliers de sources. Enfin, les solutions mises en place au sein de l’entreprise font face au manque de connaissances des équipes métiers, matérialisé par une maîtrise imparfaite des outils ainsi mis à leur disposition et destinés à leur donner accès au Big Data. Pour aider nos clients dans cette logique, nous avons mis au point une solution de data management, DM360, visant à apporter plus d’autonomie aux entreprises.

 

COMMENT RÉPONDEZ VOUS AUX DIFFÉRENTS CHALLENGES ET PROBLÈMES CITÉS ?

Concernant la pénurie d’ingénieurs ayant une expertise Big Data, auquel nous avons nous-même été confrontés dès notre entrée dans le Big Data, nous avons créé Lansrod Data Factory, un centre de compétence unique permettant de former des ingénieurs issus de grandes écoles au métier du Big Data. Au-delà de leur cursus de haut niveau, ils ont en point commun une grande motivation. Ils ont à disposition des clusters « tests » pour évaluer les technologies en toute sécurité. Ils sont mis à contribution sur des projets de grosse volumétrie de type industriel et non « PoC ». Ceci implique qu’ils rencontrent les difficultés inhérentes et présentes sur les projets clients. Cela leurs confère un avantage important par rapport aux autres ingénieurs Big Data. Une certification Big Data Hortonworks HDP® vient valider ses acquis. Cette stratégie nous a permis de répondre qualitativement et quantitativement aux besoins de nos clients en ressources Big Data, et a été validée par nos clients : en effet, 5 ingénieurs constituaient le Lansrod Data Factory lors de la création du centre en 2014. Ils sont aujourd’hui 50, sans compter les 30 ingénieurs ayant intégrés des projets clients. Notre application DM360 répond à l’autre problématique rencontrée lors de l’intégration et lors de la gestion des milliers de sources dans le Data Lake. Celle-ci se résume simplement en plusieurs fonctionnalités :

  • La capacité à permettre l’ingestion automatique de tous types de flux.
  • Un moteur d’agrégation, de jointures, d’enrichissement et de calcul intégré.
  • Un choix d’exposition ou d’exportation vers une BDD Sql externe.
  • Un ordonnanceur pour la gestion des cycles de vie des données.
  • Pour terminer, une interface utilisateur pour gérer l’ensemble de ces fonctionnalités. En conséquence, il n’est plus nécessaire de faire appel à un data engineer pour développer ces chaines de traitement spark. Le gain, rapporté à l’ensemble des flux, est énorme. L’objectif est d’apporter une meilleure autonomie aux entreprises, et de leur permettre de se concentrer sur des problématiques métiers.

 

QU’EN EST-IL DE VOTRE STRATÉGIE DE LA CULTURE DATA ?

Les experts choisissent déjà LANSROD pour son approche unique du Big Data et sa capacité à leur proposer des projets complexes mais aussi une structure incluant un support important. L’organisation de l’entreprise basée sur la prise d’initiative et l’innovation sont valorisées et encouragées. Il y a une verticalité importante, où les experts échangent fréquemment avec un groupe de data engineer, afin de capitaliser sur les acquis et connais-sances de chacun. J’y ai moi-même connu une belle progression en étant aujourd’hui architecte et techlead Big Data au sein d’un leader de la finance.

 

fahd.essid@lansrod.com / +33 6 58 78 10 95