OVH

Carington Lucas SAINT GEORGE

Sales BigData

1007

www.ovh.com

Analytique

API

Applications

Dataviz

Infrastructure

Institutionnels

Consultants/SSII

Intégrateurs

Prédire l’issue d’une action en justice grâce au Big Data

Fondée par deux élèves avocats technophiles et deux ingénieurs en informatique, la startup française Predictice exploite les techniques du machine learning pour prédire les chances de succès d’une procédure judiciaire et optimiser la stratégie contentieuse des avocats, en s’appuyant notamment sur les décisions de justice antérieures.

Zoom sur ce projet soutenu par OVH, qui convainc de plus en plus de cabinets d’avocats et services juridiques d’entreprise, et vaut à Predictice d’être considéré comme la startup phare de la legaltech française.

 

De bonnes décisions de justice grâce au traitement massif des données

Dans le cadre d’une politique globale en faveur de l’open data, depuis quelques années environ les juridictions sont incitées à mettre à disposition du public les décisions judiciaires devenues définitives, dans le respect de la vie privée des personnes concernées.

 

La base de données de Predictice comprend aujourd’hui un million de lignes, sans compter les différents codes (les articles de loi) et les textes de doctrine (les commentaires de codes et de décisions judiciaires par les universitaires) sur lesquels s’appuie l’entreprise et qu’il lui faut traiter.

 

Le droit utilise un langage très normé, ce qui représente ici un atout ; il y a peu de synonymes et les tournures de phrase utilisées pour rendre un jugement à Lille ou à Marseille sont similaires. En conséquence, il est possible d’indexer et d’enrichir les données de façon automatisée, en y ajoutant des métadonnées.

 

Ces métadonnées rendent compte des caractéristiques du litige : quelle a été l’indemnité réclamée et celle effectivement obtenue ? S’agissait-il d’un recours ou du jugement de première instance ? Et bien d’autres éléments encore. Cela permet à Predictice de proposer à ses utilisateurs un moteur de recherche capable de fournir toutes les informations utiles à propos d’un litige (textes de loi, jurisprudences, doctrine…).

 

Comment analyser cette masse de données ?

À partir de cette base documentaire, des algorithmes entrent en jeu. Deux litiges n’étant jamais identiques, l’objectif est d’identifier la corrélation entre un facteur ou une combinaison de facteurs (analyse multivariée) et la résolution d’une affaire. Pour cela, Preditice exploite l’algorithme SyntaxNet, développé par Google et rendu open source le 12 mai 2016. Cet outil d’analyse aide les machines à comprendre le langage humain et permet, dans le cas de l’entreprise, de repérer les dépendances entre les mots pour en extraire du sens. Le texte ainsi enrichi est soumis à des algorithmes de classification/régression (Vapnik’s SVM) et des règles d’association pour créer des modèles prédictifs complexes. En appliquant ces modèles aux caractéristiques de son litige, l’avocat est ainsi capable d’évaluer les probabilités de succès.

Viennent ensuite l’évaluation et la comparaison de plusieurs stratégies contentieuses pour que l’avocat puisse construire, en fonction des caractéristiques variables de l’affaire, l’argumentation qui a statistiquement le plus de chances de réussir.

 

Predictice s’appuie sur les solutions OVH

Les fondateurs de Predictice ont choisi dès le départ d’appuyer leur activité sur un serveur dédié OVH virtualisé avec un hyperviseur ESXi de VMware pour isoler leurs différents services (frontaux web, bases de données MySQL et ElasticSearch, back office, monitoring) au sein de plusieurs machines virtuelles.

 

Predictice a rejoint le Digital Launch Pad, le programme d’accompagnement de startups d’OVH, pour bénéficier de conseils approfondis sur l’infrastructure et accéder aux serveurs GPU (processeurs graphiques permettant de réaliser des traitement massivements parallèles) parfaitement adaptées aux traitements de type deep learning. Cela permet d’améliorer la vitesse d’apprentissage des algorithmes de Predictice en déployant une architecture CUDA (Computer Unified Device Architecture) utilisant un processeur graphique pour effectuer les calculs à la place du CPU.

 

Les principaux défis à relever pour l’entreprise

Le premier défi à relever tient à la « scalabilité » de l’infrastructure, qui doit supporter une croissance rapide du nombre d’utilisateurs, ainsi qu’une charge importante car l’usage de l’application est intensif. Lorsqu’un avocat travaille sur un dossier, il va effectuer des recherches pendant parfois plus d’une heure en lançant des requêtes gourmandes en ressources.

 

Grâce à la virtualisation du vRack (réseau privé d’OVH), il sera par la suite assez facile de répartir les machines virtuelles sur plusieurs serveurs dédiés interconnectés pour augmenter la capacité de traitement et constituer une architecture n-tiers plus résiliente.

 

 

En savoir plus : https://predictice.com et OVH.com