Matthieu Cord

L’intelligence artificielle est en ébullition. Entre prophéties apocalyptiques, complexité du sujet et fantasmes de SF; pas évident de s’y retrouver ! Matthieu, chercheur, nous explique comment apprendre à une IA, ses applications concrètes & les impacts qu’elle aura.

Bonjour Matthieu, peux-tu nous dire qui tu es et ce que tu fais ?

Je m’appelle Matthieu Cord. Je suis professeur à l’université Pierre et Marie Curie, dans un laboratoire d’informatique au sein du département de traitement des données et d’intelligence artificielle. Mon expertise, c’est le traitement des images et la vision artificielle. Mon domaine de recherche actuel — celui sur lequel je suis le plus concentré — c’est l’interprétation d’images : extraire des informations sémantiques à partir d’une image de départ. Il s’agit de comprendre les mécanismes qui permettraient à une machine d’extraire cette information automatiquement.

Matthieur Cord Université Pierre & Marie Curie.jpgComment tu en es arrivé là ?
Vaste question. Il y a toujours une grande part de hasard dans la vie, mais disons que j’ai toujours été intéressé par l’image, aussi bien du point de vue artistique que du point de vue scientifique. J’ai fait des études scientifiques, et mon envie de faire de la recherche en traitement du signal — images, son… — est venue relativement tôt. Ce qui m’a fasciné, c’est de voir comment derrière chaque signal il peut y avoir une formule mathématique qui décode ce signal pour le rendre intelligible. Il m’est arrivé de traiter des images qui n’étaient pas directement compréhensibles, obtenues par exemple par des mesures radars. En opérant une transformation mathématique simple mais évidemment bien choisie sur ce signal, on obtient une image qui devient interprétable par nous, humains.

L’idée que le sens est là, mais qu’il est caché et qu’il nécessite la bonne transformation, pour offrir la bonne interprétation du signal ; ça a été une forme de déclic pour moi. Ça m’a donné envie de mieux comprendre tous ces mécanismes, en me plongeant dans cette discipline scientifique que l’on appelle « Traitement du signal et des images ». C’est au sein de cette discipline que j’ai fait ma thèse, et une fois que je suis tombé dans le bain de la recherche, je ne l’ai plus lâché.

Avant de rentrer dans les détails, j’aimerais comprendre dans quelles « grandes catégories » se situent les chercheurs en intelligence artificielle. En effet, quand on regarde vos travaux, on s’aperçoit que vous compilez des compétences dans des domaines très variés : il y a des maths, de l’ingénierie informatique, du développement, du traitement, de l’analyse de données etc. Mais au final, quelle étiquette mettrais-tu sur ton travail ?

C’est une très bonne question parce ce que le traitement du signal et des images n’est pas une science en soi. Même si depuis cinquante ans, petit à petit, comme discipline elle a acquis ses lettres de noblesse. Elle comporte en effet des mathématiques (algèbre et analyse) pour créer des modèles qui correspondent bien à la compréhension/description des phénomènes que l’on observe. On y trouve bien sûr des statistiques, comme tu le disais, liées au traitement des données. On en a besoin lorsque l’on traite des images, et à plus forte raison dans l’intelligence artificielle. On se sert en particulier de l’apprentissage statistique : elle offre un cadre théorique extrêmement riche pour le développement des algorithmes d’IA ultra performants qui arrivent aujourd’hui.

Quand on veut expérimenter, on le fait via des programmes informatiques pour mettre en œuvre nos modèles. Bien évidemment, cela passe par du codage, mais on a aussi besoin d’outils informatiques pour stocker les données, les représenter, les manipuler, etc. L’informatique est donc très présente aussi.

Tu ne l’as pas mentionné, mais il peut aussi y avoir de la physique, comme par exemple de l’optique pour la capture des images, de la mécanique, et de l’électronique, en particulier pour des applications robotiques.
Donc oui, clairement, un certain nombre de disciplines entrent en jeu. Mais en ce qui me concerne, je travaille surtout sur la partie Math-Info.

Citation-Matthieu-Cord-A

Qu’est-ce que Visiir ?
C’est un projet de recherche en classification d’images avec une application spécifique autour du « Computational Cooking ». L’objectif de l’application Visiir est d’exploiter une base de données multimédia (images et textes) pour proposer des recettes de cuisine à partir de la photo d’un plat cuisiné fournie par l’utilisateur. Pour que la machine reconnaisse automatiquement un plat cuisiné, on va travailler à partir d’un certain nombre de plats dont on a une image et la recette. L’objectif, c’est de faire en sorte que la machine puisse reconnaître par la suite un plat inconnu à partir d’une photo nouvelle. C’est le but de ce qu’on appelle l’entraînement. En outre, on a couplé ce principe à un service pour proposer des recettes associées au plat reconnu.

Je vends l’application Visiir comme un outil qui peut permettre de lutter contre la malbouffe en ramenant les gens à la cuisine. Car il répond aux deux objections que l’on entend couramment : « j’ai pas d’idées » et « je sais pas faire ». Avec Visiir, on peut faire des propositions de recettes facilement réalisables chez soi. Imaginons : tu es au restaurant ou chez un ami, tu manges un plat super bon, mais tu te sens incapable de le refaire. Eh bien tu n’as qu’à prendre une photo avec Visiir, et hop ! L’application te donne la recette. Le service avec lequel on a couplé notre intelligence artificielle s’appelle Youmiam. On les a choisis parce qu’ils offrent des mises en scène du déroulé de la recette, c’est très visuel, ludique et ergonomique — tu peux par exemple te déplacer dans la recette par la voix : pratique quand tu as les mains pleine de farine ! Coupler les deux permet de se décomplexer, de se dire que faire la cuisine ce n’est pas si compliqué !

Et comment ça marche ?

Comme je le disais tout à l’heure, le cœur c’est l’apprentissage machine. Il y a plein de façons de le modéliser. Moi, je développe des méthodes d’apprentissage statistique (Machine Learning, Deep Learning) très à la mode en ce moment.

Comment cela se passe pour la classification d’images ? On fait rentrer l’image dans la machine — un peu comme une grosse boîte noire — qui l’analyse de plein de façons différentes. Cette analyse va dépendre de nombreux petits coefficients — des paramètres — et à la sortie de la boite on va avoir une catégorie, comme par exemple « ratatouille » ou « fondue ». Il reste à fixer les paramètres de la machine. Tout le principe de l’apprentissage sera de déterminer le bon jeu de paramètres pour que la machine maximise ensuite ses chances de donner la bonne réponse, c’est-à-dire la bonne recette !

Macbook ligne de code.jpg

Le mot que tu utilises dans tes recherches c’est fine tuning, c’est ça ?
Oui, on tune, on règle ces paramètres, on les fait apprendre par la machine. Comment ? Pour le dire très grossièrement, c’est un processus qui consiste à analyser si l’ordinateur se trompe : pour chaque image, si l’ordinateur indique la bonne catégorie, c’est bon et on passe à l’image suivante, mais si ce n’est pas la bonne catégorie, on va adapter un peu les paramètres pour qu’il essaye de proposer la bonne catégorie.

C’est toi qui changes les paramètres de l’ordinateur ?
Non, on dit à l’ordinateur qu’il faut changer les paramètres à partir d’exemples pour lesquels on connaît la catégorie. C’est ce que l’on appelle « l’apprentissage supervisé ». La supervision vient du fait que pour une image d’entrée, on connaît la sortie.

Les images de la base de données utilisées pour entraîner le système sont étiquetées. Tu as X images de ratatouille qui ont l’étiquette « Ratatouille », Y de blanquettes de veau avec l’étiquette « Blanquette de veau », etc. Au final, l’ensemble constitue la base d’apprentissage supervisée. Après, tu prends ta base de donnée, tu la donnes à l’ordinateur, tu fais tourner une grosse moulinette algorithmique, de sorte de fixer (tuner) les paramètres de la machine pour qu’elle ne commette plus aucune erreur sur les ratatouilles et autres blanquettes proposées. Il y a là tout un ensemble d’outils mathématiques et algorithmiques passionnants pour s’assurer que l’apprentissage va bien se passer. Et c’est essentiel ! Car enfin, si à chaque fois qu’on change les paramètres pour une image on défait ce qu’on a appris auparavant, on risque de ne rien apprendre du tout à la fin !

Tout l’art de l’apprentissage repose sur l’adaptation fine, le changement habile de ces paramètres. Une fois cette étape terminée, notre boîte est réglée, notre machine est « intelligente ». On va pouvoir lui donner une image nouvelle, inconnue, à laquelle elle va associer automatiquement une catégorie.

On peut bien-sûr faire plein d’autres choses, comme trier les images, retrouver des images parmi d’autres, etc. C’est aussi ce que l’on propose dans l’application Visiir, où la machine est entraînée pour renvoyer les clichés qui « ressemblent » le plus à la tienne. Ici, c’est un autre protocole de traitement de l’image qui consiste à faire une recherche par similarité d’images sur de très grandes bases de données.

Matthieu Cord AI reconnaissance image

Citation-Matthieu-Cord-2

Oui, on le voit très bien quand on teste l’application : les résultats sont parfois un peu à côté de la plaque, mais il faut reconnaitre qu’ils sont similaires visuellement. C’est d’ailleurs surprenant : nous — humains — savons que ce n’est pas la même chose, pour autant l’ordinateur ne s’est pas complètement trompé puisque l’image qu’il nous présente ressemble à l’originale.

Bien sûr, le point que tu soulèves c’est la différence entre une ressemblance purement visuelle et une ressemblance sémantique. C’est-à-dire que si tu donnes à la machine l’image d’un steak cramé et un peu rond, elle va analyser cela comme un gros cercle marron foncé et elle peut donner comme réponse un cake au chocolat. C’est que ce que l’on appelle le « fossé sémantique » entre ce que l’on peut calculer à partir des pixels, des mélanges de couleur, des textures… Bref, de l’apparence visuelle ; et « l’étiquette sémantique », c’est-à-dire une catégorie précise attendue par l’utilisateur, comme un certain type de plat. Avec l’apprentissage, on essaye de réduire ce fossé. On met de l’intelligence, du sémantique (images + étiquettes), dans la machine.

Si je comprends bien, à l’inverse d’un être humain qui pourrait apprendre à reconnaître une pomme sans jamais une seule fois avoir appris le mot pomme, un ordinateur a besoin des deux pour se repérer.
Oui, pour le moment. Mais il y a un champ de recherche très actif autour de l’apprentissage sans supervision (dit non-supervisé). On n’apprend effectivement pas aux bébés la vision en leur montrant des images avec des étiquettes. Cela nécessite de définir des protocoles d’apprentissage nouveaux dans ce cadre. Il y a une troisième modalité d’apprentissage très prisée en ce moment : l’apprentissage « par renforcement ». C’est ce qu’on utilise pour apprendre aux machines à jouer aux jeux comme les échecs ou le Go. On est un peu entre les deux autres modalités d’apprentissage, car la machine doit attendre la fin de la partie pour savoir si l’ensemble des coups joués jusque-là étaient bons (partie gagnée) ou mauvais (partie perdue). C’est ce qui a permis à la machine de DeepMind (Google) de vaincre l’un des meilleurs joueurs au monde de Go en 2016. L’apprentissage par renforcement a fait faire des avancées spectaculaires à l’IA ces derniers temps.

AI friendly robot

En préparant ton interview je regardais une conférence où le mec expliquait qu’entre l’évolution de la puissance des machines et l’évolution de la recherche, à part une catastrophe rien ne pourra arrêter l’intelligence artificielle d’atteindre la singularité. La seule question est de savoir quand est-ce qu’elle y arrivera. Mais elle y arrivera.
Je pense qu’il faut définir la singularité avant de répondre. En mathématiques, cela sert à décrire un phénomène exceptionnel. Par exemple, si sur une courbe on a créé un pli très marqué, l’endroit exact de ce pli correspond à une singularité car le point du pli va avoir des propriétés mathématiques particulières qui ne se retrouvent pas ailleurs sur la courbe.

En IA, la singularité technologique correspondrait au moment (particulier) où les machines deviendraient plus intelligentes que les hommes. Ce serait un point de rupture, de bascule dans un monde inconnu. L’une des possibilités serait que les machines nous considèrent alors comme un problème et se débarrassent de nous. Ce serait la fin de l’humanité. Mon collègue Jean Gabriel Ganascia développe dans son livre Le Mythe de la Singularité une réflexion argumentée sur cette question. Son point de vue est de dire que nous en sommes actuellement très loin, que c’est un mythe véhiculé depuis longtemps, et surtout qu’il n’y a aucun argument scientifique qui tienne vraiment pour défendre cette notion de singularité technologique. Ce sont pour l’instant les élucubrations des promoteurs de cette singularité.

Beaucoup de chercheurs en IA pensent que l’évolution va être très progressive ; je pense par exemple à Yann LeCun — sommité mondiale en Deep Learning qui dirige le laboratoire d’Intelligence artificielle de Facebook —. Pour lui, on va s’habituer aux machines au fur et à mesure des évolutions, et cohabiter avec elles sans problème.

​Il y a un dernier argument contre la possibilité de la singularité technologique, que l’on peut trouver par exemple dans le livre de Luc Ferry, La révolution transhumaniste : l’intelligence humaine ne peut se réduire à du calcul sur silicium. Nous avons une partie biologique qui crée une différence fondamentale avec une machine. C’est une défense de la spécificité de la conscience humaine, intrinsèquement liée au fait que l’on est des êtres biologiques. Il y aurait donc une partie de l’intelligence humaine qui échapperait à la machine (en tout cas, tant que la machine ne sera pas hybridée avec du biologique).

J’ai tendance à penser comme beaucoup de mes collègues chercheurs en IA que l’on arrivera bien à mimer tôt ou tard complètement le processus de pensée humaine.

Pour mettre ma question précédente en perspective, notre conversation nous a montré que nous étions encore très loin d’atteindre le point de singularité et que nous pouvions descendre de nos grands chevaux pour nous rendre compte que même si l’intelligence artificielle progresse, elle est très loin d’être aussi puissante que l’intelligence humaine et à plus forte raison de la dépasser.

Tout dépend de ce que l’on appelle « intelligence artificielle ». Là où les machines sont très loin de ce que peut faire l’homme, c’est dans ce que l’on appelle l’autonomie. L’autonomie, au sens où nous sommes capables de redéfinir constamment nos buts, de changer, de nous adapter et d’apprendre en continu. On est capable de conduire une voiture, puis en sortant de la voiture de consulter son iPhone, faire une blague au téléphone, résoudre un problème, etc. On va réaliser des tâches très différentes avec des objectifs qui changent, qui s’adaptent, que l’on modifie et avec lesquels on interagit. Aujourd’hui, la machine n’a absolument pas la capacité d’être aussi agile et flexible pour aborder autant de domaines.

En revanche, si l’on parle de capacité cognitive sur une tâche donnée dans un secteur bien défini, comme le jeu de Go par exemple, la machine est capable d’être bien meilleure que l’homme. Ce qui est intéressant aujourd’hui, c’est que la machine vient de gagner dans une compétition de poker, là où le facteur humain est carrément partie prenante du jeu ! Il faut intégrer dans l’IA une stratégie de bluff — j’y vais alors que je n’ai rien, je n’y vais pas alors que j’ai un jeu pas mal, etc. — et la machine a réussi à battre les humains à ce petit jeu de bluff. Comme quoi, ça aussi ça peut se programmer ! Bien sûr, ce n’est pas la même machine qui a joué au Go et au poker, mais certains mécanismes d’apprentissage identiques ont été appliqués dans les deux cas. De fait, on se rapproche un peu plus de ce qui serait une intelligence artificielle générale (proche de l’intelligence humaine). Un jour, une machine pourra simultanément jouer aux échecs, au poker et répondre à tes questions ! Petit à petit, on va arriver à quelque chose de beaucoup plus évolué qu’aujourd’hui.

En revanche, si la singularité technologique ne présente pas un danger imminent, il y a plusieurs aspects de l’IA qui peuvent se révéler des menaces pour nos sociétés et dès maintenant ! Notamment en ce qui concerne la sécurité informatique (cyber-attaques sur des sites sensibles, stratégies de diffusion d’informations – vraies ou fausses – sur les réseaux sociaux qui visent à perturber le bon déroulement d’élections démocratiques). On mesure malheureusement les effets souvent trop tard !

Barack Obama semblait très conscient de ces problématiques. Dans sa dernière interview de président au magazine Wired fin 2016, il évoque non seulement les problèmes de sécurité, mais aussi les conséquences des mutations à venir dans le domaine du travail. D’ailleurs, ce n’est pas sans lien que Benoit Hamon, le candidat du PS, parle du revenu universel dans sa campagne. On constate une mutation du travail en cours. Des révolutions industrielles, il y en a eu d’autres ; mais la spécificité de celle-ci est que les technologies que l’on est train de créer visent à effectuer des tâches à haute valeur cognitive, jusque-là réservées aux humains. Pour le moment, les machines ne remplacent que les jobs dont les tâches sont assez répétitives et qui ne nécessitent pas de qualifications très importantes ; mais certains emplois à haute qualification vont aussi disparaître parce que ça fait aussi partie des tâches qui sont très bien maîtrisées par l’IA. C’est le cas de certains diagnostics de radiologie, de tâches juridiques (la machine est très bonne pour parcourir des milliers de documents en peu de temps et trouver la bonne jurisprudence). Les traders également sont sur la sellette, une banque suisse vient de virer 600 de ses traders il y a une semaine parce qu’un algorithme fait aussi bien qu’eux

Bref, des mutations importantes du travail sont en cours, laissant possiblement beaucoup de gens sur le carreau. Il va donc falloir nous adapter à ces changements et envisager collectivement des solutions afin de redistribuer (ou pas) ces nouvelles richesses !

Citation-Matthieu-Cord-3

C’est quoi la suite pour toi ?

Je suis au cœur de cette révolution technologique qui n’en est qu’à ses balbutiements. Je suis dans ce grand fourneau, ça me passionne, et sans avoir une idée claire de là où cela va, j’y fonce ! Il y a des tas de questions de recherche passionnantes sur lesquelles je voudrais avancer, afin de mieux comprendre les mécanismes de l’apprentissage machine. Au-delà du sujet de la cuisine computationnelle — qui est mon dada — un des sujets qui m’intéresse beaucoup concerne les liens entre vision et langage. Comment par exemple approfondir la description d’une image non plus par un ou deux mots clés, mais en suggérant des phrases entières. La dimension artistique qui émerge autour de l’image aujourd’hui est également une chose qui me fascine. On peut utiliser de l’IA pour modifier la façon de dessiner ou styliser une image. Bien que je ne fasse pas de recherche directement sur ces aspects, je suis ces développements de près.

Qu’est-ce que tu espères apporter à demain ?

Les enjeux éthiques et scientifiques sont nombreux par rapport aux dangers que j’évoquais précédemment. Alors si je peux prendre ma part pour contribuer à ce que l’intelligence artificielle soit l’affaire de tous, que les codes restent ouverts et à disposition afin qu’elle ne soit pas sous l’emprise de quelques-uns ou de quelques entreprises, je serais content.
Reconnaissance d’image par IA

Et pour ça, il faudra que l’intelligence artificielle soit disponible largement et pour tout le monde.

Voilà. Mieux elle sera diffusée, mieux elle sera comprise, mieux ce sera pour tout le monde. Ouvert, c’est vraiment l’idée. Pour le moment cette idée-là n’est pas remise en question : un certain nombre d’initiatives comme l’Open AI ou la publication des recherches ont été prises, mais il faut rester vigilant. Mon métier c’est aussi de former des étudiants à posséder ces technologies, et des docteurs à les diffuser. Conserver cet esprit d’ouverture et de liberté me semble extrêmement important. Les technologies de l’IA vont avoir un impact immense sur la société dans les décennies à venir, et l’on peut souhaiter que cela soit pour l’amélioration du bien-être de tous. Quand je parlais de lutter contre la malbouffe au début de notre conversation, c’était l’idée que l’on pourra avoir des IA qui nous aident à cuisiner de façon plus simple, plus agréable, en nous prenant par la main si nécessaire, afin d’accompagner ou même d’encourager notre créativité !


Approfondir la conversation

A propos de la conversation

  • Réalisée le 17 février 2017
  • Publiée le 26 mars 2017
  • Interview, transcription : Rémi Henessy Wayne
%d blogueurs aiment cette page :