MATHWORKS

Gilles GUILLEMAIN

Directeur Commercial

+ 33(0)1 41 14 87 00

fr.mathworks.com

Analytique

API

Applications

Dataviz

Infrastructure

Institutionnels

Consultants/SSII

Intégrateurs

Freightos réalise du Big Data pour la logistique de fret en ligne avec MATLAB et Google BigQuery

 

Freightos a développé un marché de fret en ligne, soutenu par un puissant système d’itinéraire et de tarification en ligne qui remplace les processus et les outils manuels lourds, éliminant bon nombre des inefficiences et des erreurs qui contribuent à des pertes estimées à 650 millions de dollars chaque année pour l’industrie. Le système Freightos software-as-a-service (SaaS) utilise Google® BigQuery pour gérer et stocker plusieurs bases de données pour des milliers de contrats de fret, des millions de devis de fret et un large éventail d’autres données d’expédition de certains des plus grands fournisseurs de logistique au monde.

 

Défi : Avec des millions de lignes de données stockées dans plusieurs bases de données sur le cloud, les analystes de Freightos ont constaté que réaliser leurs analyses était laborieux, rendant les idées clés pour les tâches opérationnelles et de marketing difficiles à identifier. Bien qu’ils puissent exécuter des requêtes sur les données dans le cloud pour les rapports statiques, ils ont besoin d’explorer et d’analyser de façon interactive les données en temps réel pour en extraire des idées. Comme la plupart des grands jeux de données, celui de Freightos était trop important pour être télécharger pour un traitement en local.

 

Solution : Freightos a travaillé avec le service Consulting de MathWorks pour développer une approche automatisée pour extraire des données de BigQuery et les importer dans MATLAB. Parce que Freightos s’appuie sur des sources externes pour une grande partie de ses données, les analystes doivent nettoyer les résultats de la requête avant de les analyser. L’équipe a développé des scripts MATLAB qui identifient et corrigent les valeurs aberrantes dans les données. Ils ont utilisé la Statistics and Machine Learning Toolbox™ pour effectuer une analyse statistique complexe des données nettoyées. En travaillant avec MATLAB, Freightos et les consultants MathWorks ont généré des diagrammes de dispersion, des arborescences et d’autres visualisations pour mieux comprendre les résultats de l’analyse. Ils ont également utilisé les résultats analytiques pour créer des rapports qui aident les cadres exécutifs Freightos à prendre des décisions et à définir des stratégies marketing.

 

Résultats : Les analyses sont effectuées en quelques minutes au lieu de quelques heures. « Avec notre intégration de MATLAB et de BigQuery, les plus gros rapports, tels que les rapports trimestriels sur un jeu de données complet, peuvent être générés en 10 minutes », explique Leonid Hatskin, Data Analyst chez Freightos. « Dans le passé, cela aurait pris au moins une journée complète de travail. MATLAB a libéré au moins une journée par mois du temps de travail de notre équipe données. L’intégration de BigQuery a été rapidement implémentée : « Lorsque nous avons demandé au service Consulting de MathWorks d’avoir une assistance pour l’intégration de BigQuery, nous avons obtenu un support rapide d’une personne réelle » note Eytan Buchman, Vice President of Marketing chez Freightos. « Ce soutien a transformé MATLAB d’outil puissant à outil irremplaçable ». Des informations acquises 20 fois plus rapidement. « Par rapport à notre approche précédente, notre temps pour obtenir des informations depuis les données est 20 fois meilleur avec MATLAB et BigQuery », a déclaré Eytan Buchman. « L’amélioration du délai de mise sur le marché réalisée n’a pas de prix ».

 

 

Baker Hughes, une société de GE (BHGE), développe un logiciel de maintenance prédictive pour des équipements d’extraction de gaz et de pétrole à l’aide du data analytics et du machine learning

 

Les camions BHGE sont équipés de pompes à déplacement positif qui injectent un mélange d’eau et de sable à des pressions élevées profondément dans les puits forés. Avec des pompes représentant 100 000 dollars du coût total des 1,5 millions de dollars du camion, Baker Hughes devait déterminer quand une pompe devait tomber en panne.

 

Défi : Si un camion sur un site actif a une panne de pompe, BHGE doit immédiatement remplacer le camion pour assurer un fonctionnement continu. L’envoi de camions de rechange sur chaque site coûte à l’entreprise des dizaines de millions de dollars de son revenu que ces camions pourraient générer s’ils étaient utilisés activement sur un autre site. L’incapacité à prédire avec précision quand les soupapes et les pompes nécessiteront une maintenance étaye les autres coûts. Une maintenance trop fréquente gaspille les efforts et entraîne le remplacement de pièces encore utilisables, et une maintenance trop rare risque de nuire aux pompes au-delà de la réparation.

 

Solution : En travaillant avec MATLAB, les ingénieurs de BHGE ont développé un logiciel de surveillance du bon fonctionnement des pompes qui applique des techniques de machine learning en temps réel pour prédire l’instant idéal pour effectuer la maintenance. Ils ont traité et analysé jusqu’à un téraoctet de données collectées à plus de 50 000 échantillons par seconde à partir de capteurs installés sur 10 camions opérant sur le terrain, identifié les paramètres utiles pour prédire les pannes et créé et entrainé un réseau de neurones pour utiliser les données des capteurs afin de prédire les pannes de pompe.

 

Résultats : Des économies de plus de 10 millions de dollars ont été projetées : « En une seule année, nous pouvons consacrer une quantité importante de nos revenus uniquement à la maintenance et au remplacement des composants internes de la pompe, tels que les soupapes, les sièges de soupape, les pistons et les joints », explique Thomas Jaeger, responsable produit senior chez BHGE. « Nous estimons que le logiciel que nous avons développé avec MATLAB réduira les coûts globaux de 30 à 40%, ce qui s’ajoute aux économies que nous verrons en éliminant le besoin de camions supplémentaires. » Des temps de développement réduit par dix : « MATLAB nous a permis d’effectuer nos analyses et traitements souhaités, y compris du machine learning », selon Gulshan Singh, Reliability principal and team lead for drilling services chez BHGE. « Avec un langage de plus bas niveau, vous ne pouvez pas toujours trouver les bibliothèques dont vous avez besoin et réaliser le projet dans un délai alloué de quelques semaines. Si nous devions écrire notre propre code en utilisant des bibliothèques avec un langage de bas niveau pour toutes les fonctionnalités déjà intégrées dans MATLAB dont nous avions besoin, il aurait probablement fallu bien plus de temps pour compléter ce projet. » Plusieurs types de données accessibles facilement :
« MATLAB a facilité la combinaison de plusieurs types de données en une seule application d’analyse », explique Gulshan Singh. « Nows avons même pu utiliser des données de capteurs utilisant un format de fichier propriétaire ».

MathWorks

Seth

Deland

Technical Marketing Manager

interview

Quelles sont les fonctionnalités offertes par les plateformes de data sciences et quels sont les avantages de l’utilisation de ce type de plateforme ?

 

Les plateformes de data sciences rendent les outils de data sciences accessibles à un plus grand nombre d’utilisateurs. Elles comportent des outils pour se connecter à des sources de données, de prétraiter ces données, de combiner des données provenant de diverses sources, d’appliquer des techniques de machine learning et de déployer des analyses dans des systèmes de production. Traditionnellement, ces outils n’ont été accessibles qu’à ceux qui possèdent de solides compétences en programmation informatique et n’ont pas été conçus pour être facilement intégrés dans des environnements plus larges. En fournissant ces outils dans un package facile à utiliser, ces plateformes offrent un accès aux data sciences à un public plus large. Elles aident les organisations à faire face aux difficultés liées au recrutement de data scientists. Les plateformes de data sciences servent également de norme interne pour les processus de développement de data sciences, facilitant la collaboration entre les équipes sur ces projets.

 

Quels types d’entreprises pourraient utiliser une plateforme de data sciences ?

 

Nous observons un intérêt pour les data sciences dans de nombreuses industries, depuis les entreprises spécialisées en équipements industriels qui cherchent à utiliser les data sciences pour faire de la maintenance prédictive, jusqu’aux entreprises du secteur des services financiers qui utilisent les data sciences pour développer de nouvelles stratégies commerciales. Dans chacune de ces applications, les données sont disponibles ou peuvent être collectées pour résoudre des problèmes de longue date. Par exemple, dans le cas de la maintenance prédictive, les opérateurs d’équipements industriels coûteux ont constaté qu’ils peuvent prédire de manière fiable la durée de vie utile restante d’un équipement et optimiser les horaires de service en appliquant des techniques de machine learning sur les données générées par les capteurs. Les plateformes de data sciences permettent aux équipes d’ingénieurs qui développent et maintiennent ces équipements de tirer parti de la richesse de leurs connaissances sur la façon dont l’équipement devrait fonctionner. Cette idée de monter en compétence les ingénieurs, ou « experts domaine », est souvent plus attrayante que le recrutement de data scientists qui ont peu de connaissances sur le fonctionnement de l’équipement.

 

Dans quels cas les plateformes de data sciences sont appropriées, et dans quels cas ne le sont-elles pas ?

 

Les plateformes de data sciences sont adaptées aux analyses de données exploratoires telles que la compréhension des tendances, la suppression des valeurs aberrantes, l’analyse statistique, ainsi qu’à la construction de modèles de machine learning. Pour offrir un processus complet, certaines plateformes de data sciences incluent des fonctionnalités permettant de développer un algorithme complet contenant un modèle de machine learning comme composant important. Par ailleurs, les plateformes de data sciences peuvent fournir des outils spécifiques au type de données utilisées - par exemple, des techniques de traitement d’image pour les données image, des techniques de traitement du signal pour les données issues de capteurs et des analyses de traitement de texte pour les données textuelles.

Les plateformes de data sciences ne conviennent pas à la création de code de production pour des applications telles que l’infrastructure de réseau ou le développement web. Même si certaines plateformes de data sciences peuvent s’en rapprocher, elles n’ont pas pour vocation de remplacer pleinement les environnements de développement intégrés au niveau du développeur.

 

Selon quels critères les entreprises devraient-elles choisir une plateforme de data sciences ?

 

Les entreprises devraient considérer qui, dans l’organisation, utilisera la plateforme de data sciences. Les business units auront une expertise dans leurs secteurs d’activité respectifs, mais auront probablement besoin d’un outil plus facile à utiliser par rapport à une équipe de data sciences centralisée. Les organisations devraient également tenir compte des types de données qu’elles utiliseront. Beaucoup de plateformes de data sciences ont été conçues pour travailler avec des données de marketing et de vente, et ne s’adaptent pas aux sources de données plus récentes telles que les images, les vidéos, l’audio et les données capteurs. Un autre facteur à considérer est l’importance, pour l’organisation, de se différencier par ses programmes de data sciences. Dans les marchés concurrentiels, les organisations devraient chercher à adopter des outils qui offrent plus de flexibilité pour personnaliser l’analyse afin qu’elles ne finissent pas à être en concurrence avec les données seules.

 

Qu’est-ce qui distingue votre plateforme de data sciences et qu’est-ce ce qui la rend différente de la concurrence ?

 

MATLAB fournit une grande variété de façons d’accéder aux données provenant de plusieurs sources, y compris les données commerciales issues de bases de données, d’entrepôts de données et d’Hadoop, mais aussi les données d’ingénierie provenant de capteurs, de logiciels historiens et suivant des protocoles spécifiques à l’industrie. L’innovation se produit souvent lorsque diverses sources de données sont combinées. La connexion aux données, quel que soit le format, devient donc très importante. Nous mettons également l’accent sur l’accessibilité des outils utilisés par les data scientists aux experts domaine. Nous rendons ceci possible en mettant à disposition des fonctions et applications faciles à utiliser pour le machine learning, le deep learning, la vision par ordinateur, le traitement du signal, l’optimisation numérique et autres technologies d’analyses avancées. Enfin, MATLAB propose plusieurs solutions de déploiement pour l’exécution des analyses déployées sur des dispositifs embarqués, ainsi que sur une infrastructure informatique ou un cloud. La possibilité de choisir entre plusieurs solutions de déploiement continue de gagner en importance, car de nouvelles tendances comme l’internet des objets entraînent les équipes à réévaluer les processus afin de déterminer si le traitement doit être embarqué au niveau de l’objet, ou réalisé dans le cloud ou de façon hybride.