C’était il y a dix ans.

Le 22 décembre 2008, au sein de la prestigieuse Computing Research Association américaine, trois chercheurs des universités de Carnegie Mellon, Berkeley et Washington – respectivement : Randal E. Bryant, Randy H. Katz et Edward D. Lazowska – publient un white paper intitulé « Big-Data Computing: Creating Revolutionary Breakthroughs in Commerce, Science and Society ». Synthétisé sur sept pages, le papier offre une vision circulaire du nouveau phénomène « data deluge » et des perspectives offertes pour l’économie. Retail, santé, environnement, administration… « Le traitement des big data est peut-être la plus grande innovation de la dernière décennie dans le secteur informatique » écrivent les trois chercheurs.

Le mot est lâché : Big Data.

 

Dix ans plus tard, Spark a (quasiment) pris le pouvoir dans l’écosystème Hadoop, le Cloud computing est devenu la norme et partout, le buzzword IA fait vibrer l’analyste… mais le Big Data, lui, a gardé le même vocable. Ou plutôt la même aura. « Le Big Data, écrivent les  chercheuses Danah Boyd et Kate Crawford en 2012 dans la revue Information, Communications and Society, c’est la combinaison ultime entre Technologie (maximiser la puissance de calcul et la précision algorithmique), Analyse (traiter de larges sets de données pour identifier des patterns) et… Mythologie (croire que l’abondance des données générera une forme supérieure d’intelligence et de savoir, auparavant inconcevable).

Dix ans après, la mythologie du Big Data est toujours vivace :

 

  • Un marché de 210 milliards de dollars envisagés à échelle mondiale en 2020 (soit l’équivalent du PIB d’un pays comme la République Tchèque ou le Portugal)
  • Des applications dans le marketing, la finance ou la logistique - qui feraient économiser 1 200 milliards de dollars aux entreprises utilisatrices selon Forrester…
  • Des usages à portée de tous dans les transports, la santé, le e-commerce, avec des fournisseurs de services digital natives comme Uber, Airbnb ou BlablaCar…
  • Une myriade d’acteurs tech, des traditionnels GAFA aux vieux routiers de la BI en passant par les start-ups aspirantes licornes qui ont triplé leurs levées de fonds entre 2010 et 2016…

 

… Et des doutes, encore et toujours, sur l’intrusion de la technologie dans le cercle privé, au moment où le législateur européen tente de créer des frontières…

Dix ans après, le Big Data est toujours roi…

 

Mais sa couronne a des reflets contrastés : « La maturité du Big Data, elle est réelle sur certains aspects technologiques, invoque Jean-David Benassouli, Associé, Responsable Data Intelligence pour la France et l’Afrique francophone chez PwC. Mais elle se heurte encore à de nombreux écueils, principalement sur l’implémentation ». « Le frein se situe au niveau du déploiement, confirme Florian Douetteau, fondateur et PDG de Dataiku. Les projets data sont encore trop souvent le fait d’initiés qui ne répondent pas directement à des besoins métiers. Conséquence : les équipes opérationnelles n’en comprennent pas l’intérêt et ne les intègrent pas dans leur mode de fonctionnement… »

Les entreprises l’ont compris : il faut repenser la méthodologie Big Data sous l’angle de la user experience, pour remettre au coeur de l’application l’objectif visé, la corrélation entre les données et la capacité à manipuler facilement les modèles. « Avant, on avait tendance à parler de data visualisation, ce qui laissait entendre que l’aspect visuel n’était qu’une transposition figurée des modèles statistiques, explique Edouard Beaucourt, Directeur France et Europe du Sud de Tableau. On préfère désormais parler de Visual Analytics, car cela témoigne de la capacité d’analyse et de décision de celui qui reçoit et utilise l’information. »

 

Mais ce n’est pas tout… Autre démarche d’appropriation : multiplier les projets de collaboration entre experts data et experts métiers sur des problématiques opérationnelles. Chez Swiss Life, le Big Data Lab réunit ainsi data scientists, actuaires et responsables opérationnels pour identifier les données nécessaires et mettre au point de nouveaux services. « Pas uniquement des personnes qui connaissent Python ou R » sourit Cynthia Traoré, Manager du Département Data Science et Responsable du Data Lab.

       

 

Avec le programme Smart Home ECare, Engie allie objets connectés et nouveaux services

 

 

 

Même concept chez ENGIE Digital où Aïssa Belaïd, CDO, chapeaute le programme Smart Home (création de services innovants pour les clients particuliers dotés d’objets connectés) en collaboration avec les business units du monde entier : « Je ne me lance dans un projet que si la BU me propose un plan concret d’utilisation, pas seulement un PoC ».

 

CDO, Head of Analytics, Head of AI… les sujets d’organisation et de gouvernance font aussi partie de l’équation : « Il y a parfois – encore trop souvent – des querelles de chapelles entre équipes, qui brident à la fois l’accès aux données et le déploiement d’une stratégie data-driven unifiée », témoigne Jean-David Benassouli de PwC. Pour lui, les grandes entreprises sont encore victimes de leurs « legacy systems » sur lesquels on a eu tendance à construire des couches digitales. « Forcément, il est plus facile de partir d’une page blanche quand on s’appelle Uber ou Tesla… ».

 

De fait, les projets de grande ampleur sur le marché français restent encore le pré carré de secteurs historiquement et culturellement data-centric (télécoms, utilities…) et beaucoup de projets industriels restent encore au stade de Proof of Concept / Proof of Value. « Il y a encore en France un manque de maturité dans les entreprises intermédiaires (500-5000 personnes) sur l’opportunité d’adopter ou non une approche AI ou Big Data », confirme Florian Douetteau qui a fait de Dataiku un acteur bien implanté sur le marché nord-américain. « Les entreprises américaines ont 1 ou 2 ans d’avance dans leur culture data et analytique… »

 

Alors, la flamme viendra-t-elle des entreprises plus petites, plus pragmatiques dans leurs besoins ? « Demain, un restaurateur ou un commerçant qui se trouve confronté à des problématiques data sur sa clientèle, ses finances ou sa logistique doit pouvoir mettre à profit des technologies Big Data indépendamment de ses volumes », espère Edouard Beaucourt de Tableau Software

 

Le volume… une question qui semble désormais reléguée au stade préhistorique du Big Data. Quitte à recentrer le débat sur la simple « data ». « Quand on parle de Big Data, on a l’impression que c’est le volume qui pose problème, évoque Zyed Zalila, professeur à l’UTC et fondateur d’Intellitech. Or, à part sur le stockage et l’accès aux données, ce problème-là est dépassé : d’un point de vue analytique, c’est la complexité des processus à modéliser due au nombre de variables en jeu et à leurs interactions faibles ou fortes qui constitue l’horizon technologique… »

 

 

Dix ans après l’article de la Computing Research Association, le data deluge semble un lointain souci : « A ce stade, toutes les industries ont réussi à passer l’étape ‘Où mettre mes données ? Où les récupérer ?’ », appuie Florian Douetteau.

 

 

S’il résout une équation coût-volume cruciale en matière de stockage, le Cloud reste sans réponse claire face au défi de la privacy

 

D’autant que le virage Cloud First opéré au cœur des années 2013-2016 a complètement résolu l’équation coût/scalabilité : « Les gros fournisseurs GAFAM ont réussi à proposer des offres complètes alliant flexibilité des architectures et pertinence des services associés », souligne Jean-David Benassouli.

Reste la question de la privacy qui, avec l’Internet des Objets, ne manquera pas de se poser avec encore plus d’acuité dans les années à venir, post-RGPD. « Le consommateur ne va pas accepter que les données collectées dans son salon ou sa chambre à coucher remontent dans un cloud hébergé à des milliers de kilomètres », avertit Yann Léchelle, Directeur des Opérations chez Snips, qui a créé Snips AIR, une plateforme d’assistants vocaux capables de stocker les données directement sur l’appareil. « L’IoT a besoin de temps réel, renchérit Juvénal Chokogoué, Lead Data Engineer et auteur de ‘Maîtrisez l’utilisation des technologies Hadoop’, et le système HDFS propose un traitement par lot, avec une latence. Technologiquement, il faudra probablement passer sur un autre paradigme ‘au fil de l’eau’ dans les années à venir ».

Edge computing, stream data, fast data… ce sont peut-être là les nouveaux visages du Big Data, où la donnée se fait plus “small” mais directement utilisable et contextualisée via des supports de stockage flash. « Au fur et à mesure qu’on est passé du stockage vers l’applicatif, on s’est plutôt tourné vers la question des flux, de la pérennité des données », explique Florian Douetteau.

Les 3V du début (Volume, Variété, Vélocité) se sont alors étoffés de nouveaux concepts : accessibilité, confidentialité, sécurité, connectivité, durabilité, mais surtout… fiabilité. Face à la profusion de sources et de données disponibles, l’impératif de qualité est devenu plus que jamais central pour éviter de corrompre les modèles apprenants d’IA.

 

L’IA. Au fur et à mesure de la décennie 2010, ce vieux concept tout droit sorti des années 1950 est revenu hanter la sphère décisionnelle… quitte à faire de l’ombre à son proche parent, le Big Data. « L’IA c’est l’objectif, le Big Data la matière première. Et la discipline qu’on utilise, c’est la data science », recadre Florian Douetteau. Revue de vocabulaire utile tant les concepts

semblent parfois flottants, au gré de l’ambiance marketing du moment. « C’est du bullshit de dire que l’IA a remplacé le Big Data, tempère Jean-David Benassouli : les deux concepts progressent ensemble. Les techniques de Machine Learning existaient depuis longtemps mais c’est la profusion de données et la mise à disposition d’énormes capacités de stockage/calculs et de frameworks de Machine Learning évolués (de type Keras ou TensorFlow) qui leur a permis de s’étendre aux domaines d’applications qu’on connaît – voix, textes, images ».

 

 

Dans 2001 l’Odyssée de l’Espace, le robot HAL incarne une IA menaçante et accomplie telle qu’on la pressent dans les années 60

 

De fait, les algorithmes d’IA commencent à démontrer une maturité technologique certaine qui prolonge les perspectives déjà ouvertes en 2008 par le Big Data. Et si, en 2017, le marché de l’intelligence artificielle pointait à 4,8 milliards de dollars, c’est 50% de plus qui est d’ores et déjà annoncé en 2018, soit 7,3 milliards de dollars… sans compter les 89,8 annoncés pour 2025 (chiffres Statista, ndlr). Autant dire un potentiel économique aussi prometteur que celui du Big Data - on corrèle d’ailleurs souvent les deux marchés sous un même vocable « Big Data et IA ».

Une fièvre IA qui n’est pas près de retomber, donc. « Mais attention, prévient Aïssa Belaïd, l’IA ne va pas tout révolutionner comme une boule de cristal, il faudra de vrais use cases derrière ». L’usage, encore et toujours…

 

Dix ans après, le Big Data est donc plus que jamais concurrencé sur le terrain de la « com’ » – par l’IA, par l’IoT et demain par la Blockchain. Mais ses enjeux et ses applications sont, eux, toujours en mouvement, voire en construction.

« Nous avons seulement commencé à voir son potentiel à collecter, organiser et traiter des données dans tous les champs de l’existence » écrivaient Bryant, Katz et Lazowska en 2008.

 

 

2018…

début d’une nouvelle décennie ?

 

retour au sommaire