CONVERTEO

Adriano Mucciardi

Manager

+33(0)6 66 79 38 26

+33(0)1 84 17 26 21

www.converteo.com

Analytique

API

Applications

Dataviz

Infrastructure

Institutionnels

Consultants/SSII

Intégrateurs

Les data-lakes au service du smart marketing ? Le point de vue de Converteo

 

Dans un marketing de plus en plus « dataifié », ces dernières années ont été marquées par la multiplication des technologies permettant de centraliser et activer la data marketing.

La dernière en date est le data-lake, outil adopté par certaines entreprises, notamment afin d’améliorer leur efficacité marketing et commerciale.

 

 

Revenons sur cette technologie qui, bien exploitée, peut devenir la pierre angulaire de la stratégie data et marketing d’une organisation.

S’appuyant majoritairement sur une infrastructure dite « big data », le data-lake serait un datawarehouse dont on aurait gommé la plupart des limites :

  • Potentiel de stockage quasi illimité
  • Puissance de calcul quasi illimitée
  • Capacité à se connecter à l’ensemble des systèmes d’information et   des applicatifs d’une organisation
  • Compatibilité avec des données structurées et non structurées

Contrairement au datawarehouse, qui a uniquement vocation à stocker les données « utiles » et principalement structurées, le data-lake stocke toutes les données, qu’importe leur format, sans schéma de données préconçu. Il possède une architecture flexible et ouverte, alors que le datawarehouse est un espace de stockage et de restitution structuré et relativement figé.

 

Le data-lake comme moyen de transformer l’entreprise

 

Les données issues de l’ensemble de l’entreprise se retrouvent ainsi au même endroit, ce qui  facilite donc l’accès, l’analyse et l’exploitation de ce patrimoine data ainsi constitué. Les data-lakes sont un des agents du « désilotage des organisations ».

La grande accessibilité de cette donnée couplée avec une grande puissance de calcul permet de démocratiser l’utilisation avancée de la donnée. Il y a encore peu, chaque analyse d’un jeu de données issu de plusieurs systèmes, se traduisait par un projet structurant et engendrant des délais conséquents sans certitude sur le résultat. Les équipes métier se retrouvaient souvent à s’autocensurer et vivre de vraies frustrations, alors que la donnée existait et semblait riche en potentiel.

Outil de démocratisation de la donnée, le data-lake permet aujourd’hui aux équipes métier d’amorcer une démarche data-driven ; où la simplicité et la rapidité aident à redévelopper la curiosité du chiffre.

Loin des contraintes techniques du passé, les limitations volant en éclat, les équipes peuvent enfin se concentrer sur la pertinence de leurs analyses.

 

Focus sur les complémentarités entre DMP (Data Management Platform) et data-lake

 

Deux principaux points prouvent leur forte complémentarité :

  • A la différence du data-lake, la DMP n’a pas vocation première à stocker les données personnelles (PII) et autres données sensibles de l’entreprise
  • La DMP est directement reliée à l’écosystème digital (de préférence en temps réel), tandis que le data-lake est davantage adapté à un fonctionnement d’imports/exports quotidiens de données.

 

DMP et data-lake sont donc à envisager comme deux « briques » qui se superposent : le date-lake agrège et calcule la donnée potentiellement sensible, via des opérations telles que le scoring ou le calcul prédictif, avant de la transmettre à la DMP (sous forme anonymisée et simplifiée), pour que celle-ci l’exploite dans sa segmentation et sur les différents canaux auxquels elle est connectée.

 

 

Deux modes d’hébergement possibles : On Premise et Cloud Services

Avec le mode «On Premise», l’organisation a la mainmise sur l’ensemble de la chaîne de stockage et d’exploitation de la donnée. L’organisation doit également fixer ses propres règles de sécurité à appliquer à sa donnée.

Les architectures Cloud présentent, elles, de grands avantages en termes de facilité de déploiement et de ressources nécessaires à l’exploitation des données, en mettant à disposition des entreprises des produits de plus en plus packagés et automatisés ; selon une philosophie « NoOps ».

 

L’entreprise doit choisir le mode d’hébergement qui répondra le mieux à ses besoins en termes de gouvernance, d’évolution et de facilité de déploiement. Les deux modes d’hébergement présentant chacun des avantages spécifiques.

 

Quelle organisation et expertise pour le lancement d’un projet data-lake ?

 

La complexité de mise en place d’un data-lake demande la constitution d’une équipe projet ad hoc, bénéficiant d’un fort sponsorship interne (la donnée étant transversale à toute l’entreprise).

 

Cette équipe doit idéalement présenter un administrateur système, un data architecte, un data engineer ainsi qu’un data scientist.

Enfin, une méthode agile est à privilégier, afin de garantir un déploiement progressif, au rythme des différents cas d’application préalablement priorisés en fonction de leur intérêt.