SOPRA STERIA

Olivier LE MOING

Hikhmat SAID IBRAHIM

Directeur Analytics & Big Data

Chargée de Marketing

www.soprasteria.com

Analytique

API

Applications

Dataviz

Infrastructure

Institutionnels

Consultants/SSII

Intégrateurs

Composante majeure du Digital Transformation Office de Sopra Steria, forte de plus de 1200 collaborateurs en Europe, la Practice Analytics & Big Data :

 

 • Fédère et anime les équipes d’experts et architectes sur les projets Big Data, Data Science, MDM et décisionnels du Groupe

 • Crée les parcours de formations pour nos collaborateurs (250 formés par an sur Hadoop, Datascience, Architectures Big Data)

 • Capitalise les bonnes pratiques (gouvernance des données des Data Lake intelligents, industrialisation des projets Hadoop, architecture à l’état de l’art, …)

 • Met à disposition et administre les environnements Big Data Ready pour nos clients.

 

L’offre Analytics et Big Data de Sopra Steria se déploie principalement sur les thématiques suivantes :

 • Valorisation des données clients (parcours omni-canal, données Internet, données d’usage des produits/services, …) pour améliorer la relation client

 • Analyse des logs des capteurs et de l’IoT pour la maintenance préventive

 • Analyse sémantique des données non structurées (email, voix du client, CV, …) pour en tirer le meilleur parti

 • Passage du mode réactif au mode prédictif à l’aide des nouveaux outils algorithmiques et analytiques

 • Exploitation des nouveaux modes de visualisation des données pour mieux les valoriser

 • Intégration des nouvelles technologies Hadoop, Appliances, In Memory, … pour servir les enjeux et cas d’usage métier.

 

 

 

Avis d’Expert : Big Data – Comment industrialiser un Datalake Hadoop ?

 

 Eric LESTIENNEPractice Data Management« Un Datalake se construit d’abord par une réflexion
sur les services à rendre et non pas simplement par
une implémentation Hadoop »

 

Une réflexion orientée services plus que technologies

Nos clients mettent en œuvre Hadoop pour tester la technologie et traiter les premiers cas d’usage exprimés par les métiers. Cette approche agile est bonne, à condition de l’associer à une réflexion orientée services.

En effet on peut se contenter de simplement déposer des flux de données brutes sur un Datalake, comme on peut y associer des services de traitement de données (contrôles, mise en qualité, rapprochements, dédoublonnage, calculs, agrégations, …), services analytiques, et évidemment services de traçabilité. Cette approche services est essentielle et met en évidence que la quantité de flux de données traitée requiert une approche industrielle pour garantir la pérennité du Datalake.

 

Un framework applicatif pour compléter Hadoop.

La très grande quantité de flux de données va générer une encore plus grande quantité de traitements, avec des outils très variés comme Sqoop, Hive, Spark, Kafka, Oozie… Ainsi la plateforme va orchestrer des milliers de programmes. C’est pour cela qu’il faut absolument dépasser le cadre de l’usage standard des différentes briques Hadoop pour constituer un framework applicatif qui va industrialiser le développement et faciliter la maintenance.

Ce framework doit traiter l’ingestion des données sur la plateforme, et peut être implémenté à plusieurs niveaux complémentaires : avec à minima des normes de développement et nommage des composants logiciels, des templates de développement selon les différents types de flux et technologies, un générateur de code des traitements selon un paramétrage défini, et enfin un code dynamique qui exécute N traitements via table de paramétrage.

 

Des référentiels spécifiques pour compléter Hadoop

Pour être efficace, le framework applicatif doit s’appuyer sur des référentiels spécifiques peu encore aujourd’hui gérés par l’écosystème Hadoop. Selon notre expérience des grandes plateformes de gestion de données nous nous focalisons sur :

 • La gestion des flux avec le référentiel des flux de la plateforme d’ingestion, la définition des contrôles opérés sur les flux et enfin la trace des contrôles effectués.

 • La gestion des traitements avec le référentiel des traitements qui décrit l’ensemble des traitements gérés par la plateforme et l’agrégation de toutes les traces d’exécution issues des nombreux outils/langages qu’il est nécessaire d’assembler sous un format unifié.

 • La gestion des espaces de données avec le référentiel des espaces de données, pour HDFS mais pas seulement.

 • La gestion des sécurités d’accès aux données avec le référentiel des entités / utilisateurs et de leurs droits.

 

Un Datalake qui assure qualité et gouvernance des données

La gestion de la qualité de données s’opère à plusieurs niveaux sur un Datalake; au-delà des contrôles sur les flux déjà évoqués, pour éviter que les contrôles soient noyés dans des centaines de programmes, il faut envisager :

 • La définition des règles fonctionnelles des contrôles à opérer, en allant jusqu’à proposer un IHM aux métiers pour qu’ils paramètrent eux-mêmes les règles.

 • Le reporting qualité, qui exécute des requêtes paramétrées pour publier des tableaux de bord de mesure de la qualité des données ingérées, qui seront exploités par les data stewards.

 

En synthèse sur le volet de la gouvernance, il faut soit se satisfaire des briques Hadoop toujours en maturation, soit les compléter par un développement spécifique afin de prétendre à l’industrialisation ; le choix reste délicat car les composants Hadoop concernés vont évidemment évoluer rapidement.