NEO4J

Cédric FAUVET

Business Développement France

0033 (0) 8 05 08 03 44

Analytique

API

Applications

Dataviz

Infrastructure

Institutionnels

Consultants/SSII

Intégrateurs

La NASA utilise Neo4j pour exploiter sa base dedonnées de retours d’expériences

 

« Lessons Learned », la base de connaissances et d’expériences des missions de la NASA depuis 1950, peut dorénavant être consultée, enrichie et traitée grâce à l’utilisation de la base de données de graphes Neo4j.

 

Depuis 1950, la NASA compile dans une gigantesque base de données appelée « Lessons Learned » l’ensemble des connaissances qu’elle a tirées de ses missions passées. Constamment mise à jour, l’agence spatiale s’appuie sur cette base pour planifier les futurs projets et expéditions dans l’espace.

Cette base contient des informations détaillées de chaque mission remontant jusqu’aux années 1950 et chaque archive est révisée et validée avant d’être intégrée. Outre le personnel de la NASA, des milliers de scientifiques, d’ingénieurs, d’enseignants et d’analystes du secteur privé et du secteur public accèdent chaque mois à cette base de données. Sa taille s’étant amplifiée, l’interface utilisée en interne pour interroger le jeu de données - une recherche par mots clés basée sur un algorithme de type PageRank - devenait peu maniable.

 

Par exemple, lorsqu’un ingénieur essayait d’effectuer une recherche à partir de 23 mots clés dans cette base de données de près de 10 millions de documents, les archives positionnées en premières lignes des résultats se trouvaient là parce qu’elles étaient le plus souvent consultées, non parce qu’elles contenaient la bonne information. En outre, après une telle recherche, l’ingénieur se retrouvait avec plus de 1 000 documents qu’il aurait fallu consulter individuellement pour savoir s’ils contenaient les informations nécessaires.

 

Passer des données à la Connaissance, le bénéfice de la base de données de graphes

La NASA est partie d’un principe simple : l’information n’est pas le pouvoir. C’est la connaissance qui l’est. Ainsi, peut importe le volume d’informations qu’une entreprise ou une organisation peut détenir, si elle ne sait pas la convertir en connaissance exploitable, alors, dans les faits, elle n’a rien.

 

C’est sur ce principe que l’équipe de David Meza, Chief Knowledge Architect de la NASA, a entrepris le développement de cette nouvelle base de données, en combinant gestion des connaissances, maîtrise de l’informatique et de la science de la donnée. La gestion des connaissances est utilisée pour la stratégie, l’informatique pour automatiser le traitement des données et la science de la donnée fournit, quant à elle, les algorithmes et les méthodologies permettant de convertir ces données en connaissances exploitables pour les utilisateurs finaux.

 

Transformer les données en graphes pour accéder à la connaissance

Dans un premier temps, la NASA a donc importé l’ensemble de ses données dans Neo4j pour bâtir cette nouvelle base.

 

La NASA a pris les métadonnées directement dans le fichier source et les a converties en une base de données documentaire. Les données sont présentées par une visualisation naturelle qui permet au cerveau de mieux saisir les schémas.

 

 

Au delà des données elles-mêmes, la NASA a pris tous les textes issus des apprentissages des projets et les a soumis à un algorithme de modélisation des sujets, l’allocation de Dirichlet latente qui a renvoyé près de 27 sujets. Ce qui a alors permis de disposer d’un nouvel élément de métadonnées qui a pu être ajouté aux apprentissages afin d’améliorer la recommandation : le sujet.

Dans la mesure où de nombreuses métadonnées étaient associées à ce type d’apprentissages, l’Agence spatiale a pu interconnecter les sujets par leurs catégories respectives. Elle a pu ainsi non seulement disposer des apprentissages avec leur sujet, mais aussi des corrélations entre les différents sujets.

La création de cette base de données a ainsi permis d’offrir à la NASA une visualisation interactive des données qui montre tous les différents sujets générés, ainsi que les termes au sein de ces sujets. Ce qui est particulièrement utile pour un analyste, mais peu utile pour les utilisateurs finaux.

Il restait donc à l’agence spatiale à développer un modèle lui permettant de présenter les données à ses utilisateurs finaux.

Il s’agit d’un modèle de données de graphes simple basé sur des référentiels spécifiques sur lesquels la NASA s’est concentré parce qu’elle a de très nombreux groupes et que chacun détient son propre jeu de données d’intérêt. Les collaborateurs peuvent ainsi voir un apprentissage (nœud violet) qui a été écrit par celui qui l’a soumis (nœud rouge) dans un centre donné (nœud vert). Il se trouve dans une certaine catégorie (nœud jaune) et correspond à un sujet (nœud orange) lui même corrélé à un autre sujet qui contient plusieurs termes (nœud bleu).

 

 

 

David Meza, Chief Knowledge Architect à la NASA, se félicite : « Neo4j nous a permis de gagner 2 ans de travail et de faire économiser 1 million de dollars d’argent public à l’Etat »

Prochaine étape pour la NASA : réformer sa base de données des 90000 commentaires des cosmonautes sur les missions dans la station spatiale internationale des 15 dernières années.