PROVALIS RESEARCH

Normand PELADEAU

CEO

 

(+1)514 899 1672

Analytique

API

Applications

Dataviz

Infrastructure

Institutionnels

Consultants/SSII

Intégrateurs

Interview

 

Normand Péladeau

Expert en Text Mining

 

Normand Péladeau est expert en Text Mining. Il cumule plus de 20 ans d’expérience dans la recherche en traitement automatique des langues. Il intervient à titre de consultant auprès d’universités, d’entreprises et d’agences gouvernementales à travers le monde.

 

Pourquoi les logiciels d’analyse sémantique devraient-ils faire partie des outils du Big Data ?

L’analyse des données textuelles offre un réel avantage concurrentiel et sera monnaie courante dans quelques années. Encore aujourd’hui, maintes compagnies se contentent d’analyser les données quantifiées, déployant pour les traiter une foule de ressources logicielles, matérielles et humaines. Elles négligent cependant les données textuelles non structurées disponibles en interne ou sur le web — commentaires clients, réclamations de garanties, retours d’expérience, gestion des talents, contrats, offres de services, médias sociaux.... Ces données, riches en informations et souvent disponibles en format électronique, sont rarement exploitées faute de savoir comment. L’analyse sémantique et l’intelligence artificielle permettent d’extraire rapidement des renseignements cruciaux capables d’améliorer les services et les produits, le climat d’entreprise et l’expérience client. Adopter cette stratégie dès à présent permettra d’anticiper sur les changements.

 

Quelles solutions existent actuellement sur le marché ?

D’une part les solutions clés en main, souvent sous forme de tableaux de bord. Ces solutions sont généralement installées et configurées par le fournisseur selon les besoins de l’entreprise. Bien pensées, elles fournissent des informations utiles en temps réel. Outre un coût élevé, on peut leur reprocher un manque de flexibilité, si les besoins de l’entreprise changent, et l’inaccessibilité au fonctionnement interne de ces « boîtes noires ». À l’autre bout du spectre figurent les langages et librairies « open source », que l’on pense à R ou Python. Très flexible, cette approche peut être adaptée aux moindres besoins de l’entreprise. Son utilité pâtit néanmoins de l’absence d’une interface utilisateur conviviale et de la nécessité de recourir aux programmeurs au moindre changement. On doit tenir compte également des délais et coûts associés aux développement et déploiement d’une telle solution, notamment l’embauche de programmeurs qualifiés. Entre ces deux extrêmes on trouve des logiciels installés ou des solutions cloud destinés aux data scientists, qu’ils soient programmeurs ou non. Bien que plus flexibles et abordables, nombre de ces solutions sont des « boîtes noires » ou facturent au volume, ce qui peut s’avérer onéreux si la quantité de données à traiter est importante.

Provalis a choisi d’offrir une solution logicielle installée destinée aux analystes qui désirent avoir le plein contrôle sur le traitement des données textuelles, sans limites de volume. Notre plus chère ambition est d’aider toute organisation à tirer parti des derniers progrès en matière d’IA et de text mining. Nous offrons aussi un SDK permettant d’intégrer les modèles de traitement sémantique au système de cueillette et de gestion des données de l’entreprise.

 

Quels sont les défis que rencontre l’analyse sémantique ?

Le premier est l’extrême variabilité avec laquelle les individus expriment une même idée ou émotion. Ceci oblige l’analyste à traiter des corpus composés de dizaines, voire de centaines de milliers de mots différents, difficulté souvent amplifiée par les fautes d’orthographe et le fait qu’un même mot peut renvoyer à des sens très variés et que le sens dépend du contexte autant que la position du mot dans la phrase. L’IA, dans le cas du traitement des langues naturelles, en est encore à ses premiers balbutiements et, malgré certaines rumeurs, le traitement automatisé des données non structurées n’est pas pour demain. Cela dit, on peut extraire des informations fort utiles de données massives en combinant les approches statistiques et linguistiques et des techniques d’apprentissage machine. L’utilisation de ressources lexicales comportant des règles de désambiguïsation atténue en partie le problème de la polysémie. L’utilité de l’analyse sémantique pour l’entreprise ne fait donc aucun doute. Cependant, nous n’en sommes pas encore au point où cette analyse peut s’effectuer sans l’intervention humaine. S’il y a un domaine en data science où la boîte noire n’a pas sa place, c’est bien en analyse sémantique.

 

Comment conseillez-vous de démarrer un projet d’analyse sémantique ?

Mon premier conseil serait : commencez petit et progressez en vous appuyant sur l’expérience acquise. Je ne suggère pas ici de débuter par un petit corpus, mais plutôt par une problématique pour laquelle vous êtes en mesure de produire des résultats tangibles. Par exemple, si vous désirez réduire votre taux d’attrition de 10 %, ne cherchez pas la réponse parfaite. Tentez plutôt d’identifier les raisons qui poussent les clients vers la concurrence. Identifiez les sources de données appropriées. J’examinerais en premier les données disponibles en interne, mais n’hésitez pas à y ajouter, notamment, les médias sociaux ou encore des données structurées telles que la date, le lieu, l’âge ou le profil de consommation pour une vue d’ensemble. Plus de données n’est pas forcément une bonne chose si ces données ne sont pas pertinentes. En choisissant un outil d’analyse, vous devez tenir compte de plusieurs facteurs. Certains outils nécessitent de grands volumes de texte pour qu’on puisse en extraire des résultats intéressants, alors que d’autres conviennent mieux à des corpus plus petits. Choisissez également des outils correspondant au degré d’expertise au sein de votre équipe et à votre budget. J’éviterais les solutions complexes exigeant l’embauche d’un nouveau spécialiste. Cependant, il serait sage de prévoir du temps et un budget pour une formation au besoin. Privilégiez les outils flexibles et polyvalents. Cela vous permettra de déployer l’outil à l’échelle de l’entreprise et de répartir les coûts entre divers départements. Une fois vos analyses complétées, traduisez vos résultats en recommandations claires et réalistes susceptibles de générer rapidement des retombées concrètes.