BLUESCALE

Franck BELLENGER

Directeur associé

01 53 25 02 10

Analytique

API

Applications

Dataviz

Infrastructure

Institutionnels

Consultants/SSII

Intégrateurs

BLUESCALE AIDE SES CLIENTS A METTRE EN ŒUVRE LES NOUVEAUX LEVIERS D’INNOVATION TOUT AU LONG DE LA CHAINE DE VALEUR DU BIG DATA

 

Bluescale est composé d’une équipe unique de 50 consultants, développeurs et ingénieurs de la donnée, maîtrisant les dernières technologies et les nouveaux paradigmes de la data, avec pour seul objectif de mettre en place de façon industrielle et agile les briques technologiques de la chaine d’information de demain.

 

Bluescale intervient tout au long du cycle de vie de vos projets :

  • Accompagnement fonctionnel
  • Conception et mise en œuvre d’architectures big data assurant performance, qualité, sécurité, traçabilité, agilité et innovation
  • Mise en place de processus d’industrialisation de prototypes ou de modèles
  • Optimisation et automatisation de processus métier à l’aide d’algorithmes d’intelligence artificielle
  • Intégration de solutions de dataviz, de mise en valeur et partage de la connaissance
  • Développement d’applications agiles Data Driven opérationnelles
  • Conduite du changement, formations

 

Bluescale, c’est plus de 10 ans d’expérience dédiés à la data et à l’innovation.

 

BLUESCALE

Jonathan

GESLIN

Associé

interview

INTERVIEW

La data virtualization

 

Data lake centralisé ou data lake logique ?

Les entreprises qui mettent en place un data lake ont schématiquement le choix entre 2 implémentations :

  • Un data lake centralisé, autour d’un mode de stockage unique, comme Hadoop ou S3 d’AWS
  • Un data lake logique, constitué de plusieurs technologies hétérogènes, afin de répondre aux besoins spécifiques de modélisation et de modes d’accès.

 

Le choix de l’une ou l’autre des solutions est une question de compromis, les deux solutions ayant leurs avantages :

  • une gouvernance plus simple pour le stockage unique du data lake centralisé, mais une ingestion et une préparation plus lourde
  • une multiplication des modes d’accès et une consommation des données plus complexe pour le data lake logique

 

La data virtualization, la prochaine étape ?

Afin de tirer parti du meilleur des 2 architectures, Bluescale propose un nouveau concept original qui change la perspective des démarches de data management : la data virtualization.

La data virtualization prend la forme d’une nouvelle couche logique et logicielle qui permet d’offrir un point d’accès unique à toutes les sources données, sans se soucier de leur mode de stockage ou de leur localisation. Les données sont fédérées et centralisées de manière logique. Elles sont utilisées directement depuis leur localisation source, ne sont pas copiées, ou transférées, et sont donc accessibles en temps réel.

Cette approche s’appuie sur des fonctionnalités qui commencent à émerger dans l’écosystème Big Data. L’utilisation d’un moteur de requêtage unifié entre le consommateur et les sources de données (Drill, Presto) permet déjà par exemple d’extraire et d’analyser des données provenant de plusieurs moteurs de stockage, ou bien même de fichiers.

La data virtualisation en tant que plateforme ne se limite pas au data lake. Elle peut s’étendre à toute source de données vérifiée : bases opérationnelles, data warehouse, MDM, CRM…

 

Les avantages sont les suivants :

  • Simplification de la consommation des données
  • Catalogue centralisé des données
  • Évaluation rapide des impacts d’une modification des modèles
  • Simplification des audits de données, traçage simplifié des accès
  • Agilité dans la mise en place de nouveaux services
  • Optimisation centralisée des performances et des accès

 

Une mise en œuvre qui accompagne la gouvernance des données de l’entreprise

Dans un projet d’envergure aux sources de données multiples, la mise en œuvre d’un data lake doit s’accompagner d’une réflexion sur la gouvernance de la donnée.

La mise en place d’une data virtualization matérialise cette gouvernance par un catalogue de données formalisé. La virtualisation ne remplace pas une cartographie métier détaillée, mais elle facilite son implémentation.

 

L’adoption récente des technologies Big Data et la multiplication des démarches de data lake ont fait émerger les problématiques de multiplication des sources et des technologies de stockage. La data virtualization est une approche novatrice et élégante pour y répondre.

 

 

 

La data virtualization remplace-t-elle un ETL (ou un ESB) ?

La data virtualization peut être combinée à une solution ETL pour simplifier l’accès à plusieurs sources de données hétérogènes. Par ailleurs, les ETL restent la solution idéale pour les opérations physiques sur les données :

  • Le transfert de gros volumes de données
  • La création d’historiques ou de snapshots
  • Les transformations complexes en plusieurs phases et le chargement en masse de données brutes vers un data store approprié