DATAIKU

Grégory herbert

VP Sales France

 

www.dataiku.com

Analytique

API

Applications

Dataviz

Infrastructure

Institutionnels

Consultants/SSII

Intégrateurs

GRDF est un des clients historiques de Dataiku. Retrouvez dans cet échange entre Marc Batty, co-fondateur de Dataiku et Paul Fournier, Responsable Innovation numérique et dataLab chez GRDF, comment une entreprise a pu utiliser le big data pour s’attaquer à de véritables problématiques business.

 

Paul, Comment est organisée votre démarche big data chez GRDF, et pour répondre à quels défis ?

Nous avons un dataLab au sein de la DSI composé de Data Scientists qui utilisent Dataiku en proximité avec les métiers et des équipes SI. Cette équipe travaille sur des expérimentations data en mode agile.

Une de ces expérimentations porte sur la prévision de la charge d’appels des plateaux téléphoniques du service Urgence Sécurité Gaz. En cas de suspicion de fuite ou de coupure de gaz, GRDF met à disposition un numéro d’appel gratuit pour les particuliers. Derrière ce numéro, il y a un plateau téléphonique où 140 professionnels de l’Urgence Sécurité Gaz se relaient 24h/24 7j/7 pour répondre aux appels. Cela représente un volume d’environ 700 00 appels/an.

 

La question qui a été posée au dataLab est la suivante : est-il possible d’améliorer la prévision du nombre d’appels pour optimiser la planification des ressources et des activités de ces équipes ?

 Les données historiques des appels des dernières années étant accessibles, nous avons pu rapidement tester nos algorithmes de Data Science. Après quelques essais, nous avons obtenu une amélioration de la prévision à moyen terme de 15% par rapport à la méthode existante. La prochaine étape consiste à intégrer au modèle les incidents réseaux et ainsi prévoir l’impact d’un incident sur le nombre d’appels à court terme (d’une heure à quelques jours) en fonction de sa nature, sa localisation ou encore de l’heure à laquelle il survient. Je vous cite cet exemple pour montrer qu’il est possible d’obtenir des quicks wins à partir du moment où les données sont accessibles et que l’on a les outils pour les traiter.

 

Marc : Intéressant! Un autre exemple de cas d’usage où vous avez utilisé des algorithmes de Machine Learning avec succès ?

Paul : Oui tout à fait. Comme vous le savez, la donnée est en effet un véritable « actif » pour l’entreprise. C’est à la fois une source de valeur et une source de risque notamment du fait de l’application de la GDPR dès 2018.

C’est dans ce contexte que notre Chief Data Security Officer nous a sollicité pour analyser les données saisies dans les zones de commentaires libres. Ces zones présentent en effet le risque de contenir des informations sensibles ou des informations sur la vie privée. Des règles strictes encadrent donc leur utilisation. La CNIL préconise la réalisation d’audits et le recours à des outils automatiques vérifiant les mots contenus dans ces zones. Elle fournit ainsi une liste de 337 mots “interdits”.

On a récupéré 1 million de commentaires libres issus d’une de nos applications CRM. La première approche a été de chercher les mots “interdits”.

 

Les limites de la méthode sont vite apparues :

 • Certains mots interdits peuvent apparaître dans un commentaire conforme – par exemple : « le client est incapable de déterminer sur place quel est le bon compteur en cave. Le compteur se situe près du vide-ordure”

 • Certains commentaires non conformes peuvent ne contenir aucun mot interdit.

 

Nous avons donc entrepris de construire un modèle capable de classer les commentaires : conforme ou non conforme. Notre Chief Data Security Officer a classé “à la main” un échantillon de commentaires qui a servi de base d’apprentissage à notre modèle. Le modèle a appris ce qu’était un commentaire conforme ou non conforme sur ces exemples et il sait maintenant classer automatiquement des commentaires qu’il n’a jamais “vus”.

 

Après plusieurs étapes d’optimisation, les résultats sont au rendez-vous. Par rapport à la simple recherche de mots “interdits” 7 fois plus de commentaires non conformes sont détectés et le modèle se trompe 2 fois moins.

En d’autres termes : en utilisant le Machine Learning via la plateforme Dataiku, nous avons une méthode qui améliore significativement la qualité et la précision de la détection.

 

Marc : Selon toi, quelles sont les clés pour réussir une démarche data au sein de l’entreprise ?

Paul : Avec le recul que nous avons aujourd’hui, j’ai tendance à dire que tout ceci a été possible grâce à :

 • Une organisation agile : équipe pluridisciplinaire / tests terrains / indicateurs de performance

 • Une acceptation à tous les niveaux de l’entreprise du droit à l’erreur (on s’autorise à travailler sur un problème sans savoir si nous allons trouver une solution)

 • Une démarche orientée “cas d’usages” plutôt qu’une course effrénée à la mise en place d’infrastructures Big Data

 

Cela nous a permis de positionner l’activité du dataLab au cœur du projet d’entreprise de GRDF, sur des sujets tels que la performance opérationnelle, l’expérience client réussie et la sécurité des réseaux.

 

Enfin, pour conclure sur notre partenariat fructueux avec Dataiku, j’utiliserai la formule suivante :

« GRDF est une grande entreprise qui a pensé son dataLab comme une start-up. Dataiku est une start-up qui a tous les atouts pour devenir une grande entreprise »