SYNALTIC GROUP

Marc sallières

Directeur Général

01 55 28 89 40

www.synaltic.fr

Analytique

API

Applications

Dataviz

Infrastructure

Institutionnels

Consultants/SSII

Intégrateurs

Synaltic accompagne Le Point dans le déploiement de son DataHub, plate-forme de centralisation de données.

 

Le Point, acteur majeur de la presse hebdomadaire, souhaite disposer d’une plate-forme de centralisation de ses données afin d’avoir la possibilité de disposer d’analyses transverses, voire à 360°, de son activité.

 

Synaltic accompagne l’hebdomadaire pour la mise en place de ce « DataHub », s’appuyant à la fois sur des technologies Big Data (Hortonworks) et classiques (Tableau, MariaDB Columnstore, Talend). Le Point a fait appel à Synaltic à la fois pour l’accompagnement technique mais également pour sa capacité de conseil sur les technologies à envisager.

 

Afin de mener ce projet à bien, Synaltic a constitué une équipe pluridisciplinaire afin de traiter l’ensemble de la donnée, de la récupération des sources jusqu’à la restitution en passant par l’intégration ou l’architecture. Cette équipe « Data » a ainsi été en mesure de mettre en place une architecture basée sur un cluster Hadoop, lui-même alimenté par des jobs Talend et le gestionnaire de workflow Airflow, ainsi qu’une base de données MariaDB Columnstore, permettant des restitutions analytiques, via Tableau.

 

C’est lors d’une phase de Proof of Concept, qui aura duré deux mois au total, que le choix de l’architecture à mettre en place a été effectué avec les équipes du Point. Ce « POC » a également permis à l’équipe projet de Synaltic d’évoluer en fonction des besoins et de l’avancement du développement, sans diminution d’efficacité. Par exemple, sur l’architecture, trois personnes se sont succédées sans subir de latences ni de pertes, grâce aux outils utilisés, facilitant des passages de témoin rapides et efficaces. Synaltic possède désormais plusieurs personnes en connaissance du projet, pouvant intervenir pour accompagner Le Point.

 

Une première source peut en cacher une autre

La démarche proposée par Synaltic a permis de traiter la première source de données en quelques semaines. De la découverte de la source à la modélisation décisionnelle, en passant par l’ingestion des futures données, l’équipe de Synaltic a pris soin de travailler conjointement avec celle du Point. A la fin du projet, Le Point a pu bénéficier d’un accès à des données issues de différents systèmes.

 

Ce “désilotage” donne au Point la possibilité d’analyser de manière transverse ses données. Les barrières entre les différents systèmes existants sont retirées pour offrir aux utilisateurs finaux une vue globale de leur activité. Les corrélations possibles permettront au Point de fournir des analyses enrichies.

 

Basée sur ce « DataHub », la première analyse réalisée a croisé des données provenant d’une base MariaDB Columnstore pour les agrégations et du cluster Hadoop pour les données de détails. La volonté finale du Point était d’une part, de pouvoir disposer de données agrégées et rapidement interrogeables pour fournir des analyses et restitutions aux utilisateurs métiers et d’autre part, d’avoir à portée de main toutes les données historisées pour créer des analyses ad-hoc plus poussées. L’architecture mise en place par Synaltic a permis de répondre à ces deux besoins.

 

A terme, le but est de mettre à disposition des utilisateurs des données, issues de plusieurs systèmes internes, qui seront traitées et analysées avec des outils de visualisation type Tableau. Ce « DataHub » deviendra alors le point d’accès unique aux données du Point.

 

 

Synaltic group

Charly

Clairmont

CTO

 

interview

Comment voyez-vous l’évolution du Big Data ? Quel est le prochain « buzzword » selon vous ?

Je pense que le big data est en train d’évoluer vers de plus en plus d’outils « Platform ». Je peux citer l’exemple de Confluent, « The Apache Kafka Company », qui propose une solution dont l’objectif consiste à séduire un spectre d’utilisateurs de plus en plus large et de moins en moins technique. Autour de l’analytique, nombreuses sont les solutions dont l’offre s’étend de l’ingestion jusqu’à la diffusion des données, entre autres, sous forme de visualisations. C’est un peu le cas de Tableau, qui entre lui aussi dans cette « platformisation », avec Hyper et Maestro, la firme ouvrant son offre en alliant la data preparation à la visualisation.

La tendance du self-service se confirme. On le voit avec bon nombre d’éditeurs qui ont sorti leurs solutions à destination d’utilisateurs moins experts (Hortonworks avec SAM, Cloudera avec Data Science Workbench, Trifacta, Talend Dataprep, Talend DSC, Streamset, Alation…). Aujourd’hui, il est surtout question de former les personnes déjà en poste. On ne peut pas attendre que tout le monde devienne informaticien !

 

Quelle est la maturité des entreprises françaises ?

Au salon Viva Tech, j’ai pu voir des startups dans l’IOT et des nouvelles solutions propulsées par les données. Toutefois, peu d’entre elles ont déjà une approche « scalable » ! En effet l’architecture de leur solution ne repose pas toujours sur les briques déjà tolérantes à la panne, capables d’exister dans des PME et passant à l’échelle au sein de grands groupes. D’un autre côté, les petites entreprises n’imaginent toujours pas avoir accès à de telles technologies, alors que la mutualisation pourrait primer pour que, toutes ensembles, elles servent globalement mieux leurs clients. C’est un peu ce qu’il s’est passé dans la presse française qui s’est unie pour coconstruire un nouvel opérateur de publicité en ligne.

La notion même de big data progresse : la presse en débat, les radios consacrent de plus en plus d’émissions avec des invités de qualité. Chez Synaltic, nous avons noté une perception nouvelle de la part des DSI, qui franchissent de plus en plus le pas vers le Big Data. Elles font appel à Synaltic pour s’informer, se former, se faire une nouvelle idée de ce phénomène. Ainsi, de nouvelles solutions fleurissent au sein de ces organisations : par exemple, Trifacta facilite très clairement l’accès à la donnée dans HDFS, Talend sait l’y amener, la traiter et l’extraire, quand Tableau la sublime !

 

Quels secteurs sont selon vous les plus avancés dans leur utilisation du Big Data ?

Les sociétés ayant déjà un pied dans le web font face désormais aux problématiques d’historisation des données. Elles sont dans l’obligation de penser ou repenser leur architecture pour rester compétitives. Quant aux grands groupes qui se sont lancés dans la digitalisation, ils embrassent désormais le Big Data ou les Data Lakes sous différentes formes. La principale problématique : avoir une vision à 360 degrés du client, suivre étroitement tous les contacts qui peuvent exister avec, en ligne de mire, la volonté de le servir toujours mieux. A cela s’ajoute l’envie féroce d’anticiper les besoins de leurs clients pour être le premier à vendre.

 

Il est de notoriété publique que le secteur des Télécom génère beaucoup de données. Mais, c’est aussi le cas de l’énergie : l’exemple le plus important étant Linky, sans compter toutes les données liées à la surveillance du réseau !

Mais à partir de mai 2018, tout le monde risque d’être concerné par le big data, avec l’arrivée de la GDPR qui met toutes les organisations dans l’obligation de surveiller et gouverner la gestion de leurs données.

 

Votre cellule R&D est en veille sur les tendances technologiques, pouvez-vous nous parler de technos qui vont mettre le secteur en émoi dans l’année à venir ?

Cette année nous avons surtout mis l’accent sur les métadonnées. Nous avons cherché à ce que tous nos traitements intègrent les sondes nécessaires, afin de pouvoir suivre pas à pas ce que devenaient chaque résultat de chaque traitement. Bien entendu, les solutions open source existent pour cela ! Il y a par exemple Apache Atlas. Les métadonnées prennent un rôle très important car elles permettent de garantir que les traitements dans leurs détails répondent aux spécifications. Au-delà de capacité technique c’est surtout une nouvelle facilité de dialogue avec les utilisateurs, à qui il est plus simple d’expliquer tant les traitements que les données elles-mêmes.