BIG DATA, IA… REVUE DE CONCEPTS

Qu’est-ce que l’Intelligence Artificielle ?

 

Selon l’un de ses créateurs, Marvin Lee Minsky en 1956, l’Intelligence Artificielle serait une forme dégénérée d’intelligence humaine, ou – à tout le moins – une pâle copie encore inaboutie du cerveau humain. Voici ce qu’il déclarait :

 

« L’IA correspond à la construction de programmes informatiques qui s’adonnent à des tâches qui sont, pour l’instant, accomplies de façon plus satisfaisante par des êtres humains car elles demandent des processus mentaux de haut niveau tels que : l’apprentissage perceptuel, l’organisation de la mémoire et le raisonnement critique ».

 

Par la suite, les outils algorithmiques et informatiques ayant évolué vers davantage de performance, la définition de l’IA supprime la notion de suprématie du cerveau humain sur ces tâches :

 

« L’IA se définit traditionnellement comme la capacité des ordinateurs à effectuer des tâches cognitives habituellement associées au cerveau humain, telles que la perception, le raisonnement, l’apprentissage, l’interaction avec l’environnement, la résolution de problèmes et même la pratique créative. » (Mc Kinsey 2018, An Executive’s Guide to AI)

 

 

3 niveaux d’Intelligence Artificielle

 

  • Artificial Narrow Intelligence (ANI) ou « IA faible » = Capacité de l’IA à traiter des problèmes ciblés sur certains domaines. Les fonctions du système sont limitées à l’exécution d’un segment de tâches complexes mais prédéfinies. C’est aujourd’hui l’état de l’art en matière d’IA : moteur de recherche, assistants vocaux, véhicules autonomes, etc.

 

  • Artificial General Intelligence (AGI) ou « IA forte » = Capacité de l’IA à exécuter toutes les tâches intellectuelles effectuées par le cerveau humain. Dans son récent livre « Superintelligence :
    Paths, Dangers, Strategies », le philosophe Nick Bostrom affirme qu’il y aurait 50% de chances pour que cette étape de l’AGI soit franchie avant 2050.

 

  • Artificial Super Intelligence (ASI) ou « Superintelligence » = Capacité de l’IA à exécuter des tâches qui sont inatteignables pour le cerveau humain. Les chercheurs estiment que l’ASI devrait advenir dans la foulée de l’AGI.

 

 

 

 

Un test simple si vous voulez vérifier que votre robot AGI fonctionne bien :

 

LE TEST DU CAFE (PAR STEVE WOZNIAK)

« Dites à votre machine d’entrer dans n’importe quelle maison et de comprendre comment y faire du café : trouver la machine à café, trouver le café, ajouter de l’eau, trouver une tasse et faire couler le café en pressant les bons boutons ».

Facile pour une AGI !

 

Interview

Interview DE
Cyrille Chausson,

LeMagIT

« Le Big Data a été la rampe de lancement de l’IA »

 

1/ Ça intéresse toujours autant de lecteurs le Big Data ?

Plus que jamais ! Avant on parlait surtout des technologies, maintenant on a suffisamment de cas concrets avancés (pas seulement des PoC) pour parler d’usages… c’est tout de même plus captivant ! C’est intéressant d’ailleurs de noter que le terme Hadoop a quasiment disparu des articles ou événements liés au Big Data (ex : le Hadoop Summit a laissé place au DataWorks Summit) : désormais les technologies sont devenues assez abstraites, on se concentre sur les cas d’usage et sur la façon d’aborder concrètement les problématiques data.

 

2/ Avec un peu de recul, est-ce qu’on n’a pas forcé le trait sur l’impact du Big Data ? L’analyse de données, ce n’était pas si nouveau…

L’analyse de données a toujours existé mais pas l’interconnexion entre autant de sources différentes d’informations. Avant, on privilégiait une approche structurée, en classifiant les données pour pouvoir les traiter.

 

Le Big Data a sorti de l’ombre toutes ces données qui étaient jusque-là inutilisées ou invisibles car non structurées, et il a su en tirer une mine d’informations. Donc, oui, il y a eu un effet de buzz marketing avec le Big Data mais son impact a été réel sur le décryptage et la création de valeur.

 

3/Aujourd’hui, où en est-on du data deluge ?

Ce qui est intéressant, c’est le mouvement inverse que l’on observe actuellement : après avoir réuni ces marécages de données non structurées, on veut désormais structurer le traitement, c’est-à-dire repasser au langage SQL et à la classification de données en catalogues pour permettre aux métiers d’interroger les data lake et d’en tirer la valeur. C’est ce pavé qui manque encore bien souvent dans la stratégie des entreprises ; avec pour conséquence le phénomène des dark data, ces données qu’on a stockées mais qu’on n’utilise pas. Seules 20% des données sont utilisées en entreprise actuellement.

 

4/ Le Big Data, l’IA… ce sont des concepts concurrents ou c’est la même chose ?

Je dirais que le premier a été la rampe de lancement du second. Pendant des années, j’ai vu des entreprises s’équiper au pas de course avec des technologies complexes… sans forcément y voir d’autre objectif que de ne pas perdre du terrain sur leurs concurrents. Désormais, avec la vague d’algorithmes et d’automatisations issus de l’IA, elles y trouvent enfin un sens : on va pouvoir enfin faire parler toutes ces données accumulées ! Ce qui est sûr, c’est que l’IA n’aurait eu aucune chance d’être adoptée sans le Big Data : il a permis de développer la culture data au sein de l’entreprise et d’insuffler la conduite du changement.

 

Repasser le Big Data au langage SQL, un des défis à venir pour garantir l’appropriation par les métiers

5/ Justement, l’IA, vous la voyez où dans dix ans ?

Difficile à dire car on est encore aux prémices : on voit beaucoup d’idées mais peu de projets de grande ampleur. Ce qui est sûr, c’est qu’à l’image du Big Data, les fournisseurs vont progressivement adapter leur offre technologique pour qu’elle colle aux usages. Et puis, en France, l’écosystème est en train de se structurer : pour l’instant il est difficile de mesurer vraiment l’impact de chaque acteur car les start-ups sont beaucoup mises en avant, mais on ne sait pas concrètement le poids économique que cela représente - au-delà des encouragements des pouvoirs publics. Et puis, il y a toujours les GAFA qui portent l’innovation sur ces sujets depuis dix ans et qui ne vont pas s’arrêter là… c’est clairement de ce côté là que se jouera l’avenir de l’IA dans les cinq ans à venir.

 

6/ Et côté usages… ?

Coté usages BtoB, je pense que les deux principales utilisations de l’IA seront celles liées à l’automatisation des tâches et à la reconnaissance vocale. Dans l’industrie mais aussi dans la banque, le retail, on aura besoin de processus automatisés et intelligents capables de répondre dynamiquement à une panne ou une situation exceptionnelle. Cela changera l’expérience opérationnelle en interne mais aussi l’expérience client.

Et puis il y a la reconnaissance vocale… Pour l’instant, elle se limite à des chatbots mais elle porte en elle un enjeu primordial, celui de l’interface entre l’homme et la machine. Toutes les fonctions du langage pourraient bientôt être analysées. Sur ce terrain, les progrès technologiques sont immenses, il y a beaucoup à faire dans les dix prochaines années.

 

 

Le lien entre Big Data et IA

 

3 ingrédients fondamentaux constituent le cœur de l’intelligence artificielle :

 

L’ingrédient Algorithmique

L’ingrédient Algorithmique (« le cerveau »), soit les modèles de suites mathématiques incluant calculs et règles opératoires itératives qui permettront de répondre à un problème donné de

manière stable - c’est-à-dire sans erreur possible dans le résultat final quelles que soient les caractéristiques du problème à chaque étape de calcul.

 

 

L’ingrédient Data

L’ingrédient Data (« la matière »), soit l’ensemble des données qui entrent en ligne de compte dans le problème donné et qui irrigueront les algorithmes pour aboutir à la résolution du problème et valider la stabilité du modèle. A défaut, elles permettront d’affiner les modes opératoires de ces algorithmes pour les amener vers le « zéro erreur ». Plus les données sont volumineuses et diversifiées, plus elles rendent compte d’une réalité complexe et tendent à rendre le modèle stable.

 

L’ingrédient Informatique

L’ingrédient Informatique (« le moteur »), soit l’ensemble des outils de stockage et de traitement qui s’exécutent automatiquement sur une machine (ordinateur, capteurs, etc). Ils permettront à l’algorithme d’extraire les données cibles et d’effectuer tous les calculs de manière lisse, rapide et reproductible. La performance de ces outils (temps d’exécution, énergie disponible, volume induit) est dès lors un critère essentiel.

 

 

Si le développement algorithmique s’est imposé dès les années 50 (ingrédient 1), c’est grâce à l’explosion des données (ingrédient 2) et le renforcement des outils informatiques (ingrédient 3) induits par la révolution Big Data que l’intelligence artificielle a pu se généraliser. En ce sens, le Big Data constitue non seulement le contributeur numéro 1 de l’Intelligence Artificielle (puisqu’il recouvre deux ingrédients sur trois) mais aussi son catalyseur principal.

 

 

 

Mc Kinsey établit à 2009 la première date historique de réunion de ces trois ingrédients avec l’expérimentation d’Andrew Ng, chercheur en informatique à l’université de Stanford : celui-ci démontre qu’en appliquant 100 millions de paramètres (data) à des modèles de deep learning (algorithmes) et en les exécutant sur des processeurs graphiques GPU (informatique), il gagne de façon exponentielle en vélocité (jusqu’à 70 fois le temps de traitement nécessaire auparavant avec des processeurs CPU).

 

 

 

Le lien entre Big Data et IA

 

LE MACHINE LEARNING (ou Apprentissage Automatique)

Techniques de traitement de larges segments de données qui permettent d’identifier des comportements et des règles généralisables à une population exogène aux données initiales (« patterns »), à des fins de prédictions et de recommandations. Ces patterns s’affinent et s’enrichissent au fur et à mesure qu’on les alimente de nouvelles données.

 

 

 

Le Deep Learning (ou Apprentissage Profond)

Type de Machine Learning faisant intervenir de plus grands volumes de données et des techniques de traitement faisant appel à des architectures complexes de données (données interconnectées de type « réseau de neurones » et traitées par couches successives). Le Deep Learning est particulièrement efficace dans les applications de reconnaissance vocale, faciale ou sémantique.

 

 

Machine Learning et Deep Learning sont donc des implémentations spécifiques de traitements Big Data destinées à servir la création d’applications d’Intelligence Artificielle.

Interview

INTERVIEW DE ZYED ZALILA

PDG-Fondateur Intellitech
Professeur à l’UTC

« La variété est au cœur de la problématique data »

 

Zyed Zalila est professeur à l’UTC où il enseigne un type spécifique d’intelligence artificielle : l’IA floue augmentée.

Avec son équipe d’une quinzaine d’ingénieurs de recherche au sein de sa société Intellitech, il a mis au point xtractis, un automate intelligent universel capable de raisonner sur un ensemble d’observations qu’il reçoit pour découvrir les modèles prédictifs expliquant de manière robuste le phénomène étudié.

 

1/ Le Big Data est-il un ingrédient fondamental de l’Intelligence Artificielle ?

Je n’aime pas le terme de Big Data car il a tendance à survaloriser la question des volumes de données, une question qui a plutôt trait à l’informatique (stockage, accès). Or, en mathématiques, je peux vous garantir qu’on peut créer des modèles robustes d’IA sans forcément passer par des volumes importants de données : ce qui compte, c’est la largeur de la base de données, soit le nombre de variables disponibles pour créer le modèle. Vous n’aurez pas les mêmes besoins en algorithmie IA si votre base de données contient 26 000 colonnes (ce qui est le cas pour la médecine prédictive épigénétique) au lieu de 10… Encore plus si ces variables sont liées entre elles. Mathématiquement, les algorithmes d’IA doivent pouvoir résoudre de tels problèmes complexes non-linéaires. Pour moi, c’est donc la variété qui est au cœur de la problématique data.

 

2/ Pourtant, avec xtractis, vous n’utilisez que des données structurées…

Disons que les données que j’injecte dans le système vont toutes être présentées sous un format lignes/colonnes, d’où la notion de données structurées. C’est un prérequis : le problème doit toujours être posé de la même façon si l’on veut que l’automate puisse résoudre n’importe quel problème prédictif quel que soit le secteur d’application. Mais la nature des données est, elle, très variable : qualitative/quantitative, objective/subjective, certaine/incertaine, précise/imprécise, mesurée/manquante… c’est l’un des avantages que nous apportent les mathématiques du flou. D’ailleurs, nous intégrons de plus en plus des images et des signaux - qui sont des données non structurées - après une phase de prétraitement.

 

3/ A l’issue du traitement par xtractis, vous prétendez obtenir des modèles explicables… que voulez-vous dire ?

Lorsque xtractis découvre des connaissances à partir d’une base de données, il va pouvoir formuler le modèle prédictif sous forme de règles ou d’équations accessibles à l’entendement humain (de type « si… alors… »). Cela signifie que les personnes qui utiliseront ensuite les résultats de ces travaux pour prendre des décisions pourront toujours justifier de leur démarche : elles pourront toujours expliquer, au régulateur ou au juge, les règles du modèle et prouver qu’il est à la fois neutre (sans biais) et robuste (prédictions fiables en situations inconnues). Ce n’est pas le cas avec la plupart des modèles « boîte noire », de type Deep Learning/réseaux de neurones ou forêts aléatoires, car ceux-ci ne sont pas accessibles à l’entendement humain. On doit donc se fier à une décision automatisée, dont on ne peut expliquer le schéma décisionnel, qui pose la question de la responsabilité juridique.

 

Le Robot xtractis détermine des zones de décisions plus ou moins satisfaisantes pour un problème donné. Ici, les solutions les plus satisfaisantes sont en marron, les moins satisfaisantes en bleu

 

Le RGPD rend ce point d’autant plus crucial qu’il impose un « droit à l’explication » pour toute

décision issue d’un traitement automatisé. Pour être audité et certifié, un système IA se doit donc d’être intelligible et explicable.

 

4/ Vous concentrez vos travaux sur un genre particulier d’IA, l’IA floue augmentée… Pouvez-vous nous expliquer ce que cette discipline recouvre ?

L’IA floue ou IA nuancée / graduelle, c’est une logique quantique qui s’oppose à la modélisation traditionnelle binaire du monde sous l’angle Vrai/Faux, comme nous l’appliquons depuis Aristote.

 

 

On peut considérer qu’il y a une infinité de degrés de vérités différentes dans une assertion et qu’il faudrait pouvoir toutes les modéliser. Prenons un exemple : nous considérons que la majorité juridique d’une personne s’établit à 18 ans. Cela signifie que la règle de droit ne va pas être la même entre un individu qui commet un délit à 17 ans et 364 jours et un autre qui commet ce même délit à 18 ans et 1 jour. Or, vous conviendrez que ces deux réalités sont extrêmement proches… Avec l’IA floue, nous essayons de modéliser ces réalités proches au sein des data, avec pour objectif de proposer à nos clients des systèmes continus d’aide à la décision insensibles aux effets de seuil.

Par comparaison… Que disait-on du Big Data en 2013 ? (Extrait du Guide du Big Data 2013/14)

Selon IDC, le marché du Big Data s’établirait à 24 milliards de dollars en 2016

Avec un taux de croissance annuel de 31,7%

En juillet 2013, McKinsey estimait que le PIB des Etats-Unis pourrait croître de 1,7% d’ici 2020 en s’appuyant sur le Big Data

 

retour au sommaire