D’UNE DONNÉE RÉSIDENTE
À UNE DONNÉE NOMADE

LES NOUVEAUX ENJEUX DU STOCKAGE ET DU TRAITEMENT DES BIG DATA

 

Il fut un temps où, pour stocker le data deluge, on appliquait un protocole en trois étapes : le traitement ETL (Extract Transform Load) pour traiter la donnée brute, puis le stockage dans d’immenses entrepôts de données (Data Warehouses) puis le fléchage dans des Datamarts applicatifs pour répondre aux besoins métiers.

L’apparition des Data Lakes au milieu des années 2010 est venue compresser ce long dispositif en une seule étape : désormais il est devenu possible de stocker directement la donnée brute dans le Data Lake sans traitement intermédiaire, selon un processus simple « Extract Load Transform » qui garantit un accès facilité aux données pour les métiers, sans l’effet silo du Data Mart.

A mesure que l’enjeu des usages s’est ensuite imposé comme le nerf central de la valorisation des Big Data, le débat s’est alors recentré sur la phase aval d’analyse des données, soit la phase applicative… ouvrant ainsi le champ à des pratiques nouvelles sur le stockage et le traitement des données.  Cloud, Edge Computing, Blockchain… Bienvenue dans l’ère de la donnée nomade !

 

FAST DATA VS BIG DATA… L’HEURE DU TEMPS RÉEL

 

Si le traitement de gros volumes de données « en batch » reste un enjeu de taille au sein de l’entreprise – pour identifier des patterns et répondre à des besoins métiers long terme – le besoin d’immédiateté s’est vite imposé sur des segments de données plus petits et plus volatiles. Concrètement, pour des applications d’IoT ou de marketing personnalisé, la capacité de réaction rapide du système à un événement peut entrer en ligne de compte : par exemple, la formulation d’une offre promotionnelle dédiée pour un client qui effectue un comparatif de prix sur Internet. Ou la réponse d’un assistant vocal à la question de son utilisateur.

 

La notion de Fast Data s’est alors imposée : s’appuyant sur les technologies de stream data (Spark, Storm, Kafka…) qui limitent le temps de traitement et l’occupation de la mémoire, le Fast Data vise à traiter et analyser de petits ensembles de données entrantes (structurées ou non-structurées) qui risqueraient de perdre leur valeur si elles ne sont pas soumises à une analyse immédiate. Le procédé s’appuie sur des outils de stockage flash et des bases de données orientées vélocité qui permettront d’extraire et traiter la donnée à très grande vitesse (on parle de plusieurs millions d’événements par seconde). Ce phénomène devrait s’accélérer avec l’avènement de l’Internet des Objets.

 

 

Dans leur étude “Big & Fast Data: The Rise of Insight-Driven Business”, Cap Gemini et EMC indiquent que 54% des entreprises interrogées pour l’étude considèrent l’analyse des Fast Data comme plus importante que celle des Big Data.

En réalité, c’est la complémentarité des systèmes qui semble s’imposer comme l’enjeu numéro un des prochaines années : à savoir la segmentation des données de flux d’une part et des données de stock d’autre part, en fonction des utilisations différenciées que l’on souhaite en faire… Rajoutons à cela la problématique du coût (une infrastructure Fast Data coûtant le double d’une infrastructure Big Data) et c’est un probable casse-tête qui s’annonce pour les DSI !

 

Dans leur étude “Big & Fast Data: The Rise of Insight-Driven Business”, Cap Gemini et EMC indiquent que 54% des entreprises interrogées pour l’étude considèrent l’analyse des Fast Data comme plus importante que celle des Big Data

 

 

 

 

 

 

 

 

 

IOT ET EDGE COMPUTING,
LES NOUVEAUX ENJEUX DE LA DONNEE EMBARQUÉE :

 

L’avènement de la Fast Data n’est pas un phénomène hors sol : c’est notamment par l’accroissement exponentiel des dispositifs d’Internet des Objets que l’on en est venu à se poser la question des traitements simplifiés. Comme l’évoquait Juvénal Chokogoué, Lead Data Engineer : « L’IoT est capable de générer 5 gigaoctets par seconde… Si on ne met pas en place des traitements temps réel, on passera à côté de ces data ».

 

Au-delà de la question des outils de traitement Fast Data, c’est le challenge des flux qui est cœur du dispositif : comment réduire le temps de traitement si les données doivent repasser par un serveur Cloud ? Pour répondre à ces questions et rendre les capteurs indépendants de la notion de connectivité, de nombreux dispositifs de traitement « à la périphérie » - c’est-à-dire sur une infrastructure de stockage de proximité – ont récemment vu le jour.

Le terme technique : Edge Computing.

 

Grâce à celui-ci, données et algorithmes sont hébergés sur des serveurs voisins des dispositifs de capture de l’information, permettant ainsi un traitement plus immédiat… et plus sécurisé. De plus en plus prisé dans le milieu industriel, le Edge Computing dispose désormais d’un marché d’offres (AWS Greengrass, EdgeLine IoT…) qui met en avant les coûts avantageux de cette technique par rapport aux stockages Cloud ou Data Lake. Seul prérequis : s’assurer de l’interopérabilité entre le système IoT et l’infrastructure Edge Computing.

 

 

 

 

 

L’Internet des Objets :

 

11,2 milliards d’objets connectés dans le monde en 2017 (source Idate)

5 milliards de dollars de chiffre d’affaires d’ici 2020 (source Gartner)

 

Edge Computing :

 

Un taux de croissance supérieur à 30% de 2018 à 2022 (source Trendforce)

 

Interview

INTERVIEW DE Yann Léchelle,
Directeur des Opérations,
SNIPS

1/ Vous avez développé un assistant vocal qui analyse les données directement sur l’appareil… En quoi est-ce un avantage pour l’utilisateur ?

L’avantage numéro 1, c’est le « privacy by design » : nous garantissons que les données vocales des utilisateurs restent bien sur l’appareil et ne vont pas être transférées dans le Cloud. A partir du moment où l’on développe une approche de traitement localisé, on n’a aucune justification à faire remonter les données dans le Cloud. Quand on sait que ce sont des données collectées au plus près de l’activité (au sein de l’usine, au sein du véhicule, au sein du domicile), cela nous semble primordial de garantir cette confidentialité. Ce que ne fait pas Amazon avec Alexa…

Les deux autres avantages, ce sont bien évidemment le temps de réaction (il y a forcément moins de latence que lorsqu’on envoie sur un Cloud) et l’absence de connectivité requise (on peut utiliser l’assistant dans un environnement privé d’Internet).

 

2/ Techniquement, comment vous assurez-vous de la stabilité de vos modèles ?

Contrairement à la plupart des algorithmes qui sont mis à jour quotidiennement dans le Cloud en se connectant aux données hébergées, nous séparons les deux processus : nous créons d’abord un modèle d’inférence qui apprend et s’entraîne sur une base Big Data hébergée sur un serveur, puis, lorsqu’il est stable, nous l’exportons en autonomie sur l’appareil pour qu’il interagisse avec les données de l’utilisateur. Lorsque des mises à jour sont nécessaires, nous refaisons tourner le modèle sur le serveur pour l’enrichir avec des data externes.

 

3/Avez-vous besoin d’un grand nombre de données pour lancer le modèle ?

Comme pour beaucoup d’applications, l’enjeu numéro un pour créer un modèle est d’abord celui du démarrage « à froid » : on a besoin de générer un grand nombre de données pour stabiliser le modèle. Mais dans le domaine du langage naturel, on arrive à un premier plateau autour de quelques centaines de milliers d’expressions. C’est lorsque le système ne comprend plus la requête qu’on met en place une boucle de retour pour le mettre à jour.

Avec SNIPS, nous travaillons beaucoup sur des cas d’usage industriels donc nous calibrons aussi le langage naturel en fonction de ces besoins.

 

 

 

 

 

 

 

 

 

 

 

 

(Neuro-linguistic Programming)

 

4/ Pouvez-vous nous décrire les briques algorithmiques de votre modèle ?

Il y en a 3 principales : une brique qui traduit le mot en phonème, une autre qui analyse l’intention derrière le mot (NLU) et enfin une autre qui est axée sur le dialogue.  Nous avons décidé d’open sourcer la partie NLU car c’est celle qui nous semblait la plus avancée technologiquement et donc la plus susceptible de nous donner de la visibilité dans la communauté des développeurs. Notre ambition est vraiment de fédérer une communauté autour de l’utilisateur pour que l’interface homme machine devienne plus naturelle que ce que nous observons aujourd’hui avec la technologie.

 

5/ Justement, comment voyez-vous la pratique de l’IoT évoluer dans les prochaines années ?

L’IoT se développe mais souffre encore des problèmes de communication inter-objets : chaque opérateur essaie d’imposer son protocole et comme ce sont des infrastructures lourdes conçues pour des dizaines d’années (ex : dans le bâtiment), il est difficile d’imaginer un mouvement d’uniformisation des plateformes avant quelques années. Cependant les GAFA vont probablement essayer de faire accélérer l’adoption en rajoutant des fonctionnalités d’abord à la périphérie de l’usage (ex :

fonctions domotiques) avant de transformer l’ensemble du bâtiment. Le principal souci, alors, ce sera celui de la privacy car personne ne va accepter qu’Amazon ou Google ne s’invite dans son salon !

 

6/ De quoi avez-vous encore besoin pour développer SNIPS ?

Aujourd’hui cela fait 5 ans que nous existons et nous avons déjà rattrapé l’état de l’art pour des performances analogues à celles des GAFA en matière de langage naturel. Les verrous que nous rencontrons ils sont davantage marketing et financiers que technologiques. Nous avons une force de frappe bien moindre que celle des GAFA en matière commerciale, mais également moins de soutien financier que dans la Silicon Valley où les investisseurs sont capables de créer des géants (et pourtant nous avons la chance d’avoir été soutenus très tôt par de bons investisseurs). Aujourd’hui il y a une maturité dans l’usage des assistants vocaux (7 ans après l’arrivée de Siri !), il faut simplement réussir à embarquer davantage ces technologies dans les objets du quotidien.

 

 

LA BLOCKCHAIN, AVENIR DU STOCKAGE ?

 

Sur le terrain du stockage et de la mobilité des données, la tendance qui s’est imposée ces dernières années à l’instar du Big Data est sans conteste celle de la Blockchain.

 

Conçue comme un stockage de données « décentralisé », c’est-à-dire éclaté entre plusieurs réseaux de serveurs, la Blockchain se présente sous la forme de bases de données distribuées dont chaque enregistrement constitue un bloc daté. Un enregistrement ultérieur constituera un second bloc lié au précédent… De telle sorte que chaque version de la base de données pourra être monitorée par plusieurs ordinateurs hôtes.

C’est cette garantie de sécurité exercée par une multitude de machines qui constitue l’argument numéro 1 en faveur de la Blockchain : parce qu’il n’y a pas de responsabilité d’un serveur unique mais d’une multitude, la probabilité d’identifier les failles de données et de transmettre l’information au réseau semble plus élevée. Idem dans le cas d’une malveillance : avec une Blockchain, impossible de prendre la main sur les bases de données puisqu’elles sont hébergées en plusieurs endroits, avec des technologies de cryptage avancé pour sécuriser les échanges.

 

A l’origine développée pour mettre en place des systèmes monétaires numériques (tels que le Bitcoin), la technologie Blockchain s’est désormais élargie à l’ensemble des données du digital… ce qui la connecte forcément au Big Data. Là où le principal apport du Big Data résidait dans l’analyse, c’est autour de la notion de transfert de données que s’est créé le positionnement de la Blockchain. Transactions bancaires, échanges d’informations médicales, flux entre deux capteurs : la Blockchain permettrait d’envoyer des informations sécurisées à l’ensemble du réseau en détectant les données erronées, les doublons, les problèmes de versions, etc. Une étape préliminaire indispensable à l’analyse Big Data et qui pourrait permettre à l’usage « détection de fraudes » de progresser à grande vitesse parmi les use cases du Big Data… tout comme les applications en matière de traçabilité dans les flux logistiques et industriels, avec la Blockchain comme garantie de transparence.

S’il est difficile d’établir le nombre de blockchains dans le monde aujourd’hui (publiques comme privées), les chiffres pointent clairement une augmentation des transactions sur ces réseaux : rien que sur le segment des ICO (levées de fonds numériques utilisant les cryptomonnaies en circulation sur les blockchains), le montant total est passé de 100 millions de dollars en 2016 à 5,6 milliards de dollars en 2017.

 

 

La Blockchain pourrait représenter 20% du marché Big Data d’ici 2030.

 

 

 

Interview

INTERVIEW DE Gilles Fedak,
CEO de IExec

« On est en train de basculer dans le Big Data décentralisé »

 

Profitant des capacités de la blockchain Ethereum (une des principales blockchains mondiales), Gilles Fedak et son équipe ont créé iExec, une place de marché qui connecte des clouds décentralisés et calcule en temps réel les coûts associés aux besoins de stockage et de puissance de l’utilisateur. Une avancée économique et technologique… Mais aussi environnementale.

 

 

1/ Vous êtes très optimiste sur la Blockchain… En quoi va-t-elle changer le Big Data ?

On est en train de basculer dans le Big Data décentralisé, c’est-à-dire qu’on va enfin pouvoir reprendre le contrôle sur les données, en matière de privacy mais aussi en termes de marché. Plus de transparence, plus de sécurité mais aussi plus de compétitivité par rapport à la valeur de chaque donnée…

 

 

2/ C’est-à-dire qu’on pourrait monétiser chacune de nos données ?

C’est l’objectif, même si c’est encore très peu fait : pour avancer là-dessus, il faudrait pouvoir garantir que les autres utilisateurs d’une blockchain ne puissent copier cette donnée (Intel travaille notamment sur le sujet des enclaves technologiques). Mais dans l’esprit, on peut tout à fait imaginer un marché où chaque utilisateur pourrait contrôler qui a accès à sa donnée et la monnayer contre un autre service. Qui plus est avec des jeux de données transformées par l’IA…

 

3/ Vous proposez une marketplace qui optimise les coûts de stockage Cloud… comment fonctionne-t-elle ?

C’est simple : si vous cherchez à stocker et traiter un grand volume de données, vous pouvez vous connecter à notre service qui va vous indiquer en temps réel les puissances machines disponibles sur les ordinateurs connectés à la Blockchain ainsi que les fluctuations de prix. Il vous suffira alors de placer un ordre de réservation pour obtenir l’espace indiqué. Tous les « work orders » sont enregistrés dans la Blockchain et un algorithme de consensus valide l’accord des différentes parties prenantes, ce qui garantit que la transaction pourra s’exécuter en toute sécurité… et en toute transparence !

Concrètement, nous offrons un accès au stockage mais aussi et surtout à une grande capacité de calcul pour des applications complexes : si vous voulez stocker un film 3D, il vous faudra probablement 10 000 heures de CPU… autant dire que vous aurez besoin de plusieurs machines !

 

4/ En quoi changez-vous le rapport au Cloud ?

Déjà, nous optimisons les serveurs ce qui présente un intérêt environnemental non négligeable (nous travaillons d’ailleurs avec de nombreux fournisseurs de Cloud issus du Clean IT). Ensuite, nous proposons de décorréler le Cloud des grandes plateformes sur lesquelles il s’est historiquement construit (eBay, Amazon, etc) : désormais, même des petits créateurs d’application vont pouvoir accéder à des puissances de calcul importantes sans forcément avoir à héberger leurs données chez un fournisseur.

 

5/ Quelles sont les prochaines étapes pour iExec ?

Pour l’instant, notre service est ouvert et gratuit (nous nous sommes financés par ICO) mais nous fournirons bientôt des services additionnels privés, par exemple si certaines entreprises souhaitent des prix de gros pour des volumes importants. Ou des services financiers, en lien avec notre expertise des transactions.

 

 

ET PENDANT CE TEMPS, SUR LE CLOUD…

 

Plus de dix ans après ses premiers balbutiements (AWS est né dès 2006 et son framework Big Data « Elastic MapReduce » en 2009), le Cloud a rapidement imposé sa patte sur le terrain naissant du Big Data : accès à des infrastructures « as a service », packaging d’offres stockage et traitements, réduction des coûts… Dominé par les géants Amazon (AWS), Microsoft (Azure) et Google (Google Cloud Platform), le Cloud est devenu en quelques années l’accélérateur de la généralisation du Big Data. Et pourrait bien doper l’IA…

Mais les enjeux et questionnements restent nombreux, notamment autour de sa gouvernance.

Interview

Détail des enjeux avec Cyrille Chausson,
co-fondateur et rédacteur en chef de LeMagIT :

 

retour au sommaire

 

 

 

 

L’ENJEU RÉGLEMENTAIRE

C’est la principale interrogation qui agite la sphère informatique en France et en Europe. Le Cloud Act américain voté en 2018 assoit un droit de propriété sur les données détenues par les grands fournisseurs de plateformes : il oblige toutes les entreprises de droit américain à donner accès aux données qu’elles hébergent – y compris celles localisées à l’étranger – aux instances fédérales américaines en cas d’investigation. Une pratique qui écorne le RGPD en soustrayant les données au droit européen. À ce jour, seul Microsoft a accepté de localiser juridiquement ses données européennes en Europe (via une délégation à T-System, entreprise allemande détentrice de datacenters à Magdebourg et Francfort). Pour les autres fournisseurs, aucune réponse n’a pour l’instant été apportée. D’où le positionnement de nouvelles offres dites « de Clouds souverains » (pour la France : Orange avec Cloudwatt, SFR avec Numergy…) qui commencent à trouver un certain écho.

 

L’ENJEU TECHNOLOGIQUE

La grande frontière technologique pour le Cloud, c’est probablement la question du multi Cloud et de l’interopérabilité des systèmes. On n’a pas encore développé de technologies suffisamment éprouvées permettant d’hybrider complétement les plateformes… et de proposer du coup des offres capables de placer intelligemment une application ou des services en fonction des besoins de performances ou de coûts.

L’autre question technologique qui est liée, c’est celle de la capacité des réseaux à supporter la charge : plus le volume de données augmente, plus se pose la question du trafic. Est-on vraiment dimensionné pour supporter tous ces flux et services Cloud en pleine phase d’explosion de l’IoT et de l’IA… ?

 

L’ENJEU FINANCIER

Même si l’argument des coûts a souvent été avancé pour favoriser l’adoption du Cloud, il n’en reste pas moins que le Cloud exige une gestion financière complexe : la facturation est souvent plurielle en fonction de l’application ainsi que des méthodes de tarification et de calculs qui ne sont pas les mêmes d’un métier à l’autre. Plus on se rapproche de l’usage en matière de Big Data, plus la question des coûts aura tendance à se complexifier pour le dirigeant d’entreprise. Avec peut-être à la clé la création d’un nouveau métier : le FinOps… soit la personne en charge d’optimiser les coûts du Cloud en fonction des besoins et de l’élasticité prix des fournisseurs.