retour au sommaire

Nozha

BOUJEMAA

Directrice de recherche

Conseillère du président de l’INRIA
sur le Big Data

INRIA

De l’éthique des algorithmes

 

Qu’est-ce qu’un algorithme ?Plusieurs communautés essayent d’en donner des définitions, néanmoins nous retiendrons la définition d’Interstices.Un algorithme est défini comme une suite finie et non ambiguë d’opérations ou d’instructions permettant de résoudre un problème ou d’obtenir un résultat.La vertu essentielle des algorithmes est de permettre l’exécution optimisée de procédés répétitifs, essentiellement grâce à la formalisation et à la description des enchaînements logiques à un niveau plus abstrait. L’algorithme est le squelette abstrait du programme informatique, sa substantifique moelle, indépendante du mode de codage particulier qui permettra sa mise en œuvre effective au sein d’un ordinateur ou d’une machine mécanique.

 

Référentiel du Big Data et de l’Intelligence Artificielle

 

Le Big Data est une chance, une véritable opportunité. Il s’agit d’une avancée technologique significative qui améliore la vie des citoyens, des sociétés, des entreprises et qui génère de la valeur. Les choses évoluent très vite. Il y a deux-trois ans, on a beaucoup parlé de Big Data, parce qu’on s’est rendu compte que les données étaient partout, dans la sphère personnelle et dans le milieu professionnel. On a donc mis le Big Data au premier plan mais parce que les données sont partout, les algorithmes le sont également pour en assurer leur gestion, leur traitement et leur analyse. Il y a en ce moment une prise de conscience de l’aspect diffus et pervasif des algorithmes.

 

Dans l’inconscient collectif, le Big Data représente uniquement un grand volume de données. Pourtant, quand on prend la définition du Big Data avec tous les V possibles, un seul V concerne le volume, or tous les autres, vélocité, véracité etc… concernent des actions algorithmiques. Considérer uniquement le volume est extrêmement limitatif.

 

Savoir s’il s’agit de Big Data, de Small Data ou encore de Smart Data n’est pas le plus important. Il est en revanche essentiel de prendre en compte la dualité des données et algorithmes. Les données brutes sans algorithmes sont une masse inerte et les algorithmes sans données sont des processus creux. Données et algorithmes sont vraiment deux faces de la même pièce.

 

Le Big Data, c’est tout ce qui peut générer de la valeur à partir des données : c’est l’exploitation des données, la génération de connaissances avec le traitement de l’information, les algorithmes de protection de données mais c’est également comprendre et faire comprendre à travers la dataviz. à partir de ces socles technologiques, il est possible d’atteindre le stade de l’Intelligence Artificielle opérant comme des services logiciels dans les domaines applicatifs métiers.

L’engouement actuel pour l’Intelligence Artificielle, le séparant des technologies Big Data, est surprenant car celles-ci sont naturellement liées à l’apprentissage, la génération de connaissances et de décisions à partir des données. L’IA, dans son essor actuel, repose principalement sur les technologies qui exploitent les données. L’IA est orientée vers des services dans des domaines applicatifs particuliers. Les technologies Big Data en tant que telles sont agnostiques au domaine applicatif. Quand on parle d’apprentissage, de moteur de recherche d’information, cela peut avoir plusieurs domaines d’application.

La reconnaissance d’objet, la reconnaissance du langage naturel exploitent essentiellement des technologies Big Data.

 

En revanche, les agents conversationnels utilisés pour des applications particulières dans le domaine de la santé, des services publics ou encore les algorithmes d’identification visuelle par ordinateur pour la détection d’humains, d’obstacles, d’autres véhicules, de signaux routiers mis à profit des véhicules autonomes relèvent de l’Intelligence Artificielle.

 

Il est important de voir ce continuum, entre d’une part les technologies socles Big Data et d’autre part l’Intelligence Artificielle qui est orientée vers des domaines applicatifs métiers. Le Big Data permet l’essor des services applicatifs de l’Intelligence Artificielle.

 

L’IA dans son cadre général peut dépasser l’aspect data. Mais ce qui fait aujourd’hui l’émergence de cette vague IA actuelle, c’est le Deep Learning, ce sont les technologies d’apprentissage, les capacités avancées qu’offrent les algorithmes d’analyse de contenus selon leurs secteurs respectifs.

 

 

Pourquoi l’éthique des algorithmes est-elle actuellement en question ?

 

La compréhension de l’écosystème de la donnée évolue et on se rend compte que les données sont partout et que de facto les algorithmes sont partout. Plus on déploie les technologies Big Data, plus on est impacté par les algorithmes. La première vague était plutôt optimiste et utopiste vis-à-vis des technologies Big Data. On pensait que le Big Data allait tout permettre (une sorte de baguette magique qui permet de tout résoudre) mais c’est le déploiement à large échelle qui a généré cette prise de conscience qu’il pourrait y avoir des effets de bord pas toujours maîtrisable.

 

Ce ne sont pas les algorithmes dans l’absolu qui sont à remettre en question, il s’agit d’une véritable évolution technologique. L’analyse des données n’est pas une nouvelle discipline mais elle est en train d’évoluer de la description du passé vers l’analyse prédictive et de plus en plus vers une analyse prescriptive qui elle doit être questionnée en particulier dans les contextes à fort impact sur l’individu et la société.

 

 

Comment l’Europe se positionne-t-elle par rapport aux autres continents en matière de réflexion éthique ?

 

Comprendre le positionnement vis à vis des algorithmes et de l’éthique dépend beaucoup des sphères culturelles diverses dans une géopolitique variable à travers le monde.

 

La naissance d’un questionnement éthique aux États-Unis

En France et en Europe, nous sommes toujours dans une posture ou l’humain doit rester maître des décisions. Ce n’est pas le cas aux Etats Unis où la frontière du prescriptif a été franchie il y a peu. On peut désormais faire une consultation chez le
« docteur Watson » sans médecin. Le prescriptif envahie peu à peu la société, dans les services privés comme publics, dans des domaines comme la Justice Prédictive, les décisions d’octroi de prêts ou encore le recrutement.

 

La première vague de questionnement, d’ailleurs, vient des Etats-Unis, notamment au travers des ouvrages The Black Box Society – The Secret Algorithms That Control Money and Information (Frank Pasquale) et Weapons of Math Destruction (Cathy O’Neil, Crown Publishers). La Commission fédérale du commerce a également produit un rapport sur « Les Big Data : une chance pour l’inclusion ou une source d’exclusion » sur plusieurs pans de la société. L’office scientifique et technologique de la Maison Blanche a enfin publié en 2016 un rapport sur les opportunités du Big Data en lien avec les droits civiques.

 

Le domaine privé s’empare également de ces questions éthiques. Amazon, Apple, DeepMind, Google, Facebook, IBM et Microsoft ont récemment initié un « Partnership on AI to benefit people and society » qui consiste en une plateforme ouverte visant à étudier et formuler les meilleures pratiques sur les technologies de l’IA, faire progresser la compréhension par le public de l’IA et servir de plate-forme ouverte de discussion et d’engagement sur l’IA et ses influences sur les personnes et la société. Ces acteurs réunis souhaitent développer une politique concertée sur l’éthique, la transparence des algorithmes et des études sur l’impact de l’AI sur la société et les individus. Cette initiative récente, portée par le business, souhaite ainsi lever les verrous et les freins des citoyens sur ces thématiques éthiques. Aucune loi ne les y oblige, c’est plutôt le marché qui les y oblige et les motive à donner des garanties et à offrir de la confiance aux citoyens. Ils sont en effet bien conscients qu’à service égal, celui qui sera le plus transparent et responsable sera celui qui remportera la course.

 

Quand les gens n’ont plus confiance ou ont des doutes, ils peuvent ne pas adhérer aux offres technologiques même si elles sont innovantes. Fournir des garanties de confiance et de transparence peut être extrêmement favorable au business.

 

Des réflexions initiales orientées vers la protection des données personnelles en Europe

En Europe, les réflexions ont surtout été orientées vers la protection des données personnelles. La CNIL a été très active et maintenant le RGDP vient encadrer l’utilisation des données au niveau européen. Le RGDP est clairement une bonne avancée concernant la garantie des droits des citoyens par contre il ne garantit pas nécessairement l’explicabilité et la transparence des services numériques.

La démarche européenne, plus généralement, s’oriente davantage vers la protection, d’une part car les algorithmes n’ont pas encore franchi ce caractère prescriptif et, d’autre part, car les grandes plateformes comme Google ou Facebook qui se nourrissent de données européennes ne sont, elles, pas européennes. L’Europe a donc été naturellement dans une réaction défensive, de contrôle et de régulation des données personnelles, carburant de ces plateformes.

 

Le respect de la protection des données peut cependant donner des chances aux acteurs européens et leur donner des arguments compétitifs vis-à-vis d’acteurs américains. Naturellement, il ne faut pas que la régulation freine les fournisseurs de technologies européens vis-à-vis d’acteurs qui n’ont pas cette réglementation qui pèse sur eux et qui de fait ont plus de marge de manœuvre.

 

Dans tous les cas, le déploiement de services numériques, incluant des algorithmes de traitement de contenus, faisant de la proposition de décision, en soutien aux décisions humaines ou remplaçant même l’intervention humaine, impose de définir des garanties éthiques et c’est ce qui a motivé l’émergence de TransAlgo.

La Commission Européenne a, par ailleurs, récemment sorti un appel d’offres sur 18 mois, une étude sur la transparence et la redevabilité, ce que l’on appelle « accountability » des algorithmes. Il y a donc une vraie prise de conscience de cette nécessité pour les entreprises de rendre compte et de pouvoir disposer d’algorithmes auditables. Il s’agit là, désormais, de la responsabilité sociale et juridique des entreprises. Ce volet a des implications sur la nécessité d’adaptation et d’évolution des formations des étudiants et ingénieurs en science des données. Le concept essentiel derrière ces initiatives est l’asymétrie informationnelle. Par exemple, quand on nous recommande un bien ou un service, est-ce que la recommandation est vraiment en fonction des traces laissées par le citoyen et au bénéfice du citoyen, au sens de la personnalisation du service, ou est-ce que c’est au bénéfice de l’entreprise qui cherche à vendre ce bien ou ce service plutôt qu’un autre ? Est-ce que le livre que l’on me recommande est celui qui est fait pour moi ou est-ce le produit que l’industriel cherche à écouler ? Est-ce que l’algorithme est loyal pour celui qui consomme le service ou est-ce qu’il est loyal pour son concepteur ?

 

 

 

 

Quelle est l’origine de TransAlgo ?

 

La Loi pour une République Numérique consiste en une véritable avancée par rapport aux autres pays européens et c’est elle qui a été le déclencheur de l’initiative TransAlgo. Le précédent gouvernement, via Axelle Lemaire, avait missionné le Conseil Général de l’Économie pour établir un rapport nommé « Modalités de régulation des algorithmes de traitement des contenus ». La mission était clairement orientée vers la

régulation des algorithmes. Il y a eu une très large consultation, réunissant académiques, industriels, associatifs… qui a abouti à 5 recommandations prioritaires. La première recommandation opérationnelle de ce rapport était de lancer une plateforme scientifique pour l’éthique des algorithmes. Une fois énoncé par la loi que le citoyen a le droit à l’explication des décisions algorithmiques dans le cadre des services numériques publiques, comment aller plus loin et appliquer cette loi ? Dans les faits, tous les algorithmes ne sont pas explicables scientifiquement et techniquement aux citoyens, et il est particulièrement difficile d’appliquer cette loi. INRIA a donc proposé TransAlgo en tant que plateforme pour le développement de la transparence et de la responsabilité des systèmes algorithmiques. Inria s’est vu confier le rôle d’opérateur de TransAlgo, avec le soutien du Conseil national du numérique (CNNum) et de l’Institut Mines Télécom (IMT), et est chargé de jouer le rôle de catalyseur de la dynamique scientifique avec d’autres partenaires académiques, notamment le CNRS. Outre l’expertise scientifique, Inria apportera l’aide au développement logiciel.

 

 

Les missions de TransAlgo ?

 

TransAlgo aura pour mission d’améliorer la prise de conscience collective des enjeux liés aux algorithmes, ce que la Commission Européenne définit par la « Transparency Awarness Rising ». Ces questions sont souvent orientées citoyens et grand public, mais les mêmes questions se posent dans un contexte inter-entreprises. Certaines interrogations peuvent même se transformer en question de souveraineté nationale. Dans le domaine de la sécurité intérieure, les entreprises qui travaillent sur toutes les données sensibles ont intérêt à avoir toutes les garanties de transparence et d’auditabilité.

 

TransAlgo a pour vocation de développer des recherches sur la neutralité du classement, l’explication des méthodes d’apprentissage, les algorithmes de recommandation, les biais des données et des algorithmes d’apprentissage. Développer des recherches autour de ces sujets renforce la maîtrise des technologies.

 

 

Quels enjeux pour des algorithmes éthiques ?

 

Un algorithme peut être très puissant mais s’il est entraîné avec des données biaisées ou des données non à jour, pas assez représentatives, bruitées, il ne sera pas digne de confiance. De même un algorithme d’apprentissage est un système à réaction positive car il apprend les données du passé et a tendance à perpétuer le passé à travers la projection ou la généralisation construite par le modèle. On parle alors de bulle filtrante car le passé peut renforcer l’avenir, c’est une source de risque et d’exclusion. La Justice Prédictive est très critiquée pour ce risque.

Il y a donc de nombreuses sources de questionnement, non sur les algorithmes eux même, mais sur la manière dont ils sont déployés et utilisés.

 

Une raison supplémentaire de vigilance réside dans le nombre croissant d’algorithmes de Big Data et d’IA en open source de plus en plus déployés comme TenserFlow. Celui qui déploie ces technologies n’en est pas le concepteur et les données d’apprentissage, de paramétrage ne peuvent donc pas être maîtrisées.

Il est donc primordial de bien former les futurs Data Scientists sur la réutilisation de codes et sur la responsabilité de la réutilisation de codes. Une étude (Mobilitics) a été menée, par la CNIL et une équipe de recherche de l’INRIA, autour d’une application sur un appareil mobile.

Cette application demandait le consentement de l’utilisateur pour partager ou non sa position GPS mais l’étude a mesuré les informations entrantes et sortantes et

a été ainsi en mesure de prouver que l’application mobile outrepassait le consentement de l’utilisateur en communiquant sa

position GPS quelque-soit la réponse de l’utilisateur. En l’occurrence, les responsables n’étaient pas au courant et ont dû diligenter une enquête interne pour comprendre d’où venait le problème. L’application avait été développée par réutilisation de code open source mais ses fuites informationnelles n’avaient pas été maîtrisées. Cela interpelle sur la nécessité de former les Data Scientists à l’économie et au droit des données ainsi qu’à l’éthique des données. Cela responsabilisera les ingénieurs et ne pourra qu’alléger la responsabilité des dirigeants. Il est également nécessaire de construire des algorithmes auditables par construction et non de faire appel à du rétro engineering par exemple.

 

Il est important de distinguer la fiabilité et l’éthique d’un algorithme. La fiabilité d’un algorithme peut être vérifiée sur le plan informatique pour vérifier qu’il n’y a pas de bugs. La vérification d’un code source est plutôt bien développée depuis des années mais en étudier la transparence et le comportement est très différent. Un code source peut être fiable et vérifiable et pour autant n’être ni responsable ni éthique. Quand on parle de transparence des algorithmes, cela ne veut en aucun cas dire qu’il faut mettre à disposition le code source. Les acteurs industriels étaient inquiets de la démarche TransAlgo, car ils pensaient qu’on allait les obliger à publier leur code source. La démarche de TransAlgo n’est pas de violer les secrets industriels mais de comprendre le comportement des algorithmes. C’est une approche véritablement win-win pour les industriels.

 

 

Peut-on contraindre les acteurs business à respecter les aspects éthiques des algorithmes ?

 

Je ne suis pas en faveur de la régulation des algorithmes par TransAlgo. La mission de TransAlgo est de mettre à disposition des outils d’auditabilité des algorithmes afin d’élaguer ceux qui ne posent pas de questions et d’identifier rapidement ceux qui demandent plus d’investigations. Il reviendra ensuite au régulateur de faire son travail dans le cadre des lois existantes.

 

 

Les différentes phases de développement de TransAlgo

 

1 Dans un premier temps, notre objectif est de créer un centre de ressources dont l’ouverture est prévue dans le courant de l’automne 2017 à destination du grand public. Nous avons donc constitué un comité scientifique et éditorial pluridisciplinaire, réunissant informaticiens, mathématiciens, sociologues, économistes, juristes… pour clarifier, conceptualiser et définir un référentiel des terminologies utilisées telles que la transparence, la loyauté, la responsabilité, la non-discrimination des algorithmes.

 

Nous souhaitons répondre à un certain nombre de questions telles que :

- Quand dit-on d’un algorithme qu’il est loyal et par rapport à qui ?

- L’équité d’un algorithme est-elle absolue ? Ou l’équité individuelle peut-elle s’opposer à l’équité collective ?

- La non-discrimination d’un algorithme peut-elle être remise en cause par la discrimination positive au bénéfice du citoyen ?

- Quelle distinction fait-on entre explicable et éthique, juridiquement responsable et éthique ?

 

Par exemple, les algorithmes dans le domaine du marketing politique ne sont pas interdits par la loi. Pourtant l’impact du marketing politique sur le Brexit ainsi que sur les élections américaines divise (Cambridge Analytica), on peut se poser la question de l’éthique de ces algorithmes qui ont pour but explicite d’influencer les opinions. Ce n’est pourtant pas illégal dans l’absolu même s’il peut être utile en permettant d’atteindre des cibles qui ne l’étaient pas auparavant.

L’effet indésirable, c’est quand un algorithme peut changer l’opinion d’une personne et a fortiori son vote qui aura un impact durable sur la vie politique d’un pays.

 

Afin d’étayer ces questionnements éthiques, nous collectons des ressources, des livres blancs, des rapports, des articles scientifiques et grand public, des jeux de données et enfin des algorithmes en open source, avec trois points d’entrée :

- Domaines applicatifs : police, justice, médecine, finance…

- Typologie des systèmes analytiques : algorithmes de classement, de recommandation etc…

- Questions éthiques et juridiques : responsabilité, redevabilité, opacité, discrimination, loyauté, asymétrie informationnelle etc.

 

Nous travaillons également sur un accès facile et libre à ces ressources grâce à un moteur de recherche pour devenir un véritable centre de référence online sur les sujets, de manière totalement ouverte. Afin que tous puissent échanger sur le comportement des algorithmes, ce centre sera ouvert à l’enrichissement par la communauté scientifique, les professionnels mais également le grand public au travers d’un débat modéré.

 

2 TransAlgo souhaite également organiser des challenges pour encourager le développement de la recherche et répondre à des problématiques clairement exprimées par la DGCCRF telles que la discrimination des prix ou la neutralité de classement et qui émanent directement de problématiques citoyennes.

 

3 Nous souhaitons enfin créer des Moocs pour différents publics : grand public, scientifique mais également pour les autorités de régulation et pouvoirs publics afin d’aider à la montée en compétences. Il est primordial de fournir aux autorités de régulation du numérique comme l’Autorité de la concurrence, la répression des fraudes des outils afin de leur permettre de s’approprier les enjeux de la transformation numérique.

 

Nozha Boujemaa dirige l’institut DATAIA (Données, Intelligence Artificielle et Société) récemment accepté par l’état comme Institut Convergence. Elle est coordonnatrice du projet de plate-forme scientifique nationale TransAlgo, dédiée au développement d’outils et de méthodes pour la transparence et la responsabilité des systèmes algorithmiques.

 

Elle est également conseillère internationale du programme « Advanced Core Technologies for Big Data Integration » pour la JST (Japan Science and Technology Agency) et est par ailleurs membre du conseil d’administration de la BDVA (Big Data Value Association) et General-Chair du European Big Data Value Forum 2017.