retour au sommaire

Du Big Data à l’analytics aux sciences cognitives

Une nouvelle ère de la data

 

Nous vivons dans un Monde dominé par la data et les algorithmes. Selon une étude réalisée par la CNIL et l’IFOP, 80% des citoyens français sont conscients de la présence des algorithmes dans notre société. Une société data-driven dans laquelle l’information est devenue une véritable devise monétaire. Les consommateurs utilisent quotidiennement des services gratuits des GAFAM en échange des données laissées sur leur passage et de l’autorisation donnée à ces géants du web de monétiser leur comportement sur Internet. Gartner prédit d’ailleurs que d’ici 2021, 20% de toutes les activités individuelles impliqueront au moins un des sept géants de l’IT, parmi lesquelles Google, Apple, Facebook, Amazon pour les États-Unis et l’Europe et Baidu, Alibaba et Tencent pour la Chine, générant toujours plus de données.

 

Plus globalement, l’IDC prédit que les données produites en 2025 atteindront 163 Zettaoctets
(1 Zo équivalent 1 180 milliards de milliards d’octets), soit 10 fois plus que les 16,1 Zo de données générées en 2016. Face à cette augmentation considérable du volume de données, la question primordiale qui se pose n’est plus celle de la génération et collecte des données, mais bien celle de la qualité, de la valorisation des données et des perspectives business qui peuvent en être retirées.

 

Annual Size of the Global Datasphere

D’autant que l’essentiel des datas générées, (plus de 60% selon IDC) le seront par les entreprises, et proviendront de sources multiples telles que les systèmes embarqués et l’IoT, les systèmes cognitifs et d’Intelligence Artificielle, le mobile et les applications en temps réel etc… Indépendamment de l’origine des données, les entreprises seront amenées à gérer plus de 97% de la
« Datasphere » dans son ensemble.

 

Le mot Big Data n’est d’ailleurs plus totalement d’actualité, tant le volume est une problématique révolue. Gartner, lors de l’une de ses conférences aux États-Unis, a proclamé la mort de la Business Intelligence et l’avènement de la Data Analytics. Alors que la Business Intel-ligence consiste à examiner des sets de données collectées afin de tirer des conclusions sur les informations qu’ils contiennent et de prendre des décisions business plus éclairées, l’Analytics est une véritable data science. Les outils de Data Analytics sont déployés afin de prédire des comportements dans le futur et de construire des modèles prédictifs d’analyse.

 

 

Trop de data !

 

Devant cette abondance de data, les opportunités sont nombreuses pour tirer profit du large volume de données et pourtant les entreprises n’ont pas encore les capacités et compétences nécessaires pour donner du sens aux données critiques, soit car la stratégie n’est pas adaptée, soit par manque de ressources ou de technologies. Selon un sondage réalisé par NewVantage Partners auprès des « Fortune 1000 entreprises », elles peinent encore à établir une culture data-driven : 69,4 % d’entre elles ont lancé des initiatives en la matière mais seul 27,9 % en voit les bénéfices. De même, plus de 45,2% d’entre elles n’ont pas encore commencé à monétiser leurs initiatives Big Data.

 

Parmi les obstacles prioritaires rencontrés selon ce même sondage, le manque d’alignement entre les différents services au sein de l’organisation et la difficile adoption et compréhension du Big Data par le middle management sont cités en premier.

 

Le cabinet Gartner souligne ici le rôle du Chief Data Officer, une fonction encore peu développée en France comparé aux États-Unis. L’intégration d’un Chief Data Officer (CDO) est pourtant un indicateur clef qu’une organisation s’inscrit dans une culture data-driven.

 

Le rôle du CDO consiste justement à rendre accessibles et compréhensibles les données par l’ensemble de l’entreprise, depuis la logistique jusqu’à la vente, en passant par les RH, le marketing, etc. Son rôle est donc lié à la gouvernance de ces informations, en relation avec les principaux décideurs de l’entreprise. La majorité des cadres interrogés par NewVantage estime d’ailleurs que les CDOs devraient reporter au CEO (53,4%) ou au COO (17,8%) plutôt qu’au CIO (15,6%). La relation entre le CIO et le CDO est souvent complexe, chacun revendiquant le périmètre de l’autre.

 

 

Quelles datas ?

 

Naturellement, toutes les données ne sont pas adaptées ni disponibles à l’analyse. L’IDC estime ainsi que d’ici 2025, seulement 20% de la Datasphere sera essentielle (« critical ») et seulement 10% sera absolument essentielle (« hyper-Critical ») dans notre vie quotidienne.

Data Critical Over Time

 

Source : IDC’s Data Age 2025 study, sponsored by Seagate, April 2017

 

De même seulement 15% de l’ensemble des données sera taggué, et pourra donc être soumis à une analyse Machine Learning ou d’Intelligence Artificielle, et seulement 3% du total sera analysé par des systèmes cognitifs.

 

 

Des données structurées aux données non structurées

 

Les données structurées sont celles dont l’ensemble des valeurs possibles est déterminé et connu à l’avance. Par exemple, dans une base de données rassemblant les résultats d’une enquête d’opinion, l’âge ou la catégorie socio-professionnelle des individus interrogés sont des données structurées, car les tranches d’âges ou la liste des catégories socio-professionnelles possibles sont déterminées a priori.

 

Les données non structurées sont de façon générale des données textuelles qui ne rentrent pas dans des bases de données relationnelles. Elles existent sous de nombreuses formes (textes, images, vidéos, sons…), sont publiées sur de nombreux supports (articles de blog, fils Twitter, posts Facebook, réclamations téléphoniques auprès du service client...) et sont essentielles à la compréhension du business. Alors que les données structurées décrivent une action ou un fait, les données non structurées donnent les raisons et le pourquoi !

 

On estime aujourd’hui que plus de 90% des données sont soit semi-structurées soit non structurées. Jusqu’ici la valeur de ces données était largement sous exploitée et la priorité des entreprises était de mettre en place des initiatives sur les données structurées notamment parce que les outils nécessaires pour exploiter le volume des données non structurées n’existaient pas encore. Les technologies de Machine Learning et de data visualisation rendent cela possible, de même que la baisse des coûts des technologies et la qualité de celles-ci vont permettre aux entreprises de mettre l’analyse des données non structurées en haut de leurs priorités.

 

Par leur variété et leur volume, les données non structurées sont essentielles, par exemple pour améliorer la connaissance client. L’analyse linguistique et le text mining permettent désormais de reconnaître les mots et expressions soigneusement choisis pour décrypter les sentiments exprimés par l’internaute, le client ou le prospect.

 

 

Des plateformes analytiques à l’analyse intégrée

 

L’analyse intégrée ou embarquée (embedded analytics) représente l’utilisation des capacités d’analyse au cœur même des applications logicielles. Les outils analytiques sont des composants natifs de l’application plutôt que des plateformes dédiées et distinctes de l’application. Ces capacités d’analyse peuvent résider en dehors de l’application, néanmoins elles doivent être accessibles de manière aisée et rapide par l’application, sans forcer l’utilisateur à passer par un autre système. Selon une étude Logi Analytics, plus de 66% des équipes IT utilisent désormais l’analyse embarquée dans leurs organisations, et presque 30% envisagent de l’utiliser dans un futur proche.

 

Les données embarquées sont produites par les objets connectés et les technologies Machine-to-Machine tels que les caméras de sécurité, compteurs intelligents, lecteurs RFID, wearables, les automates, les voitures & tous les moyens de transports connectés, les bâtiments connectés, implants médicaux etc.

Selon Gartner, 26 milliards d’objets seront connectés dans le monde en 2020 et 6 milliards pourraient bénéficier d’Intelligence Artificielle dès 2018.

 

Aujourd’hui, chacun d’entre nous détient en moyenne moins d’un objet connecté embarquant des capacités analytiques. Dans les 10 prochaines années, chaque personne en détiendra plus de 4 (Source : IDC) et les données des systèmes d’analyse embarqués représenteront presque 20% de l’ensemble de la « Datasphere » d’ici 2025.

 

Cependant, les données IoT ne provoqueront qu’une très légère augmentation de la demande de stockage (moins de 3 %), d’ici 2018. La plupart des données IoT ne seront pas conservées.

 

Les données collectées de l’IoT et des systèmes embarqués sont de vrais gisements de valeur, pourtant, selon Forrester, seul un tiers des entreprises qui exploitent des équipements connectés savent utiliser les données générées. Il faut donc instaurer un dialogue entre data-scientists et responsables métiers afin de faire parler les données collectées.

L’essor des objets connectés et embarqués impliquera naturellement une explosion du volume de données mobiles et de données en temps réel. Le volume des données en real-time va augmenter une fois et demi plus vite que le volume des données globales.

 

 

Du prédictif au prescriptif !

 

L’analytique pour les entreprises est passée par plusieurs phases, qui ont abouti aux modèles suivants :

- L’Analytique descriptive qui aide les utilisateurs à avoir une meilleure compréhension des données passées grâce à du reporting, du groupement et des tableaux de bord.

- L’Analytique prédictive qui utilise des techniques statistiques pour étudier les données passées et présentes afin de faire des prévisions.

- L’Analytique prescriptive qui permet aux utilisateurs de prendre les bonnes décisions par la simulation et l’optimisation des scénarios.

 

En 2017, de plus en plus d’entreprises se sont intéressées à l’analyse prescriptive mais seulement 10% des organisations dans le monde l’utilisent, un chiffre qui devrait atteindre 35% d’ici 2020. Gartner prédit par ailleurs que le marché devrait atteindre 1,1 milliards d’euros d’ici 2019.

 

Source : IDC’s Data Age 2025 study, sponsored by Seagate, April 2017

 

 

 

Des technologies Big Data aux technologies cognitives et d’Intelligence Artificielle

 

 

 

 

Alors qu’aujourd’hui, seulement 4% des organisations disposent d’un système cognitif opérationnel, les ¾ des organisations interrogées ont les data et les capacités analytiques requises pour implémenter des systèmes cognitifs. L’explosion du volume de données disponibles donne implicitement un avantage compétitif aux entreprises ayant intégré l’Intelligence Artificielle. 89% des early adopters des technologies cognitives sont plus rentables et plus innovants que leurs pairs et concurrents.
(Source : IBM)

Outre les données nécessaires, les applications d’Intelligence Artificielle nécessitent des capacités de stockage en masse et une puissance de traitement que seules les toutes dernières technologies peuvent offrir. L’économie du Cloud jouera un rôle de premier plan dans le développement d’applications basées sur l’Intelligence Artificielle dans l’entreprise. Ainsi d’ici 2020, 67% des dépenses en infrastructures des entreprises IT seront basées sur des offres Cloud et les plateformes Cloud collaboratives utilisées conjointement par les entreprises vont tripler d’ici 2018 (Source : IDC).

 

Plus globalement, d’ici 2019, 40% des initiatives de transformation digitale et 100% des développements IoT seront supportés par les technologies cognitives et l’Intelligence Artificielle (Source IDC).

 

Le marché de l’Intelligence Artificielle pour les applications en entreprise est estimé à plus de 11 Milliards de dollars en 2024 et le revenu global est estimé à plus de 36 Milliards de dollars d’ici 2025 selon Tractica.

 

Une étude Accenture montre que l’Intelligence Artificielle a le potentiel d’augmenter le taux de profitabilité de 38% en moyenne et d’entraîner une relance de l’économie à hauteur de 14 milliards de dollars à travers 16 industries d’ici 2035. Les domaines de l’information et de la communication, de la finance et du manufacturing profiteront prioritairement de l’impact de l’Intelligence Artificielle.

 

 

De la défense à la sécurité by design

 

Avec de plus en plus de données personnelles à gérer, en real-time et mobiles, les entreprises se doivent d’investir massivement pour garantir la fiabilité et la confidentialité des données et manager les risques de sécurité. La plupart des données requièrent un haut niveau de sécurité, soit presque 90% d’entre elles d’ici 2025, à l’image des informations financières, des informations personnelles et médicales… D’autre part, une prise de conscience est nécessaire sur le fait que les challenges en termes de sécurité et de confidentialité ne sont pas uniquement dédiés aux équipes IT mais requièrent la participation de l’ensemble des salariés d’une entreprise.

 

Le Règlement européen sur la protection des données personnelles (RGDP) qui entrera en application le 25 mai 2018 vise notamment à renforcer les droits des personnes et responsabiliser les acteurs traitant des données (responsables de traitement et sous-traitants).

 

Nommer un référent Conformité Informa-tique & Libertés pour certifier les démarches, le former à ses missions de Data Protection Officer (DPO), former les collaborateurs à la collecte des données, faire des audits pour vérifier la conformité au regard des nouvelles directives, avoir le temps d’établir un plan d’actions, mettre en place des process et des plateformes SI “sécurisés” sont autant de recommandations de la CNIL pour être en conformité avec le règlement.

 

Néanmoins, la mise en conformité avec le règlement européen ne garantit pas pour autant la fiabilité, la transparence et l’éthique de l’ensemble des démarches Big Data et d’Intelligence Artificielle. Les algorithmes sont également remis en question. Selon une étude de la CNIL, plus de 72% des personnes interrogées en France estime que les algorithmes sont un véritable enjeu de société et plus de 64% considère les algorithmes comme une menace en raison de l’accumulation des données personnelles sur les choix, les goûts et les comportements de chacun. Il revient aux entreprises de s’associer aux institutions publiques pour instaurer la confiance des citoyens et consommateurs et définir des standards éthiques sur le sujet. TransAlgo interviewé ci-après intervient notamment dans ce but.

 

 

 

Source : IDC’s Data Age 2025 study, sponsored by Seagate, April 2017

Data Creation Share by Type

Source : TRACTICA