Damien Nouvel

Damien Nouvel, enseignant chercheur à l’INALCO nous explique comment utiliser la technologie pour mieux comprendre et servir les langues naturelles afin que chacun, quelle que soit sa langue profite pleinement d’internet et des outils numériques.

Bonjour Damien, peux-tu nous dire qui tu es et ce que tu fais ?
Je m’appelle Damien Nouvel. Je suis enseignant chercheur à l’INALCO — l’Institut National des Langues & des Civilisations Orientales —. Je m’occupe principalement de Traitement Automatique des Langues (TAL). C’est une discipline qui est au croisement de l’informatique et de la linguistique. L’idée est de se demander comment se servir d’un ordinateur pour comprendre le contenu d’un texte.

Mon travail est réparti à 50/50 entre la recherche et l’enseignement ; il y a beaucoup de complémentarité entre les deux métiers. Je donne des cours aux étudiants, je les suis dans leur cursus et je vais voir ce qu’ils font quand ils sont en stage. Le reste du temps je me consacre à des projets de recherche en traitement automatique des langues. Cette discipline est importante à l’INALCO, où la dimension linguistique — au sens de traiter la langue mais aussi les langues, l’INALCO dispense des cours sur une centaine de langues — est première. J’y travaille sur certaines langues orientales.

Css JQuery book side.jpgComment tu en es arrivé là ?
Au départ, je me suis inscrit à la fac dans un cursus de mathématiques et d’informatique. Je me destinais plutôt à faire des sites internet, c’était ce qui m’intéressait. À la fin de ma maîtrise, je suis parti en échange universitaire au Canada, à Québec. Dans cette université québécoise, j’ai découvert un certain nombre de choses qui m’ont ouvert à d’autres domaines en informatique, notamment ce que l’on appelle aujourd’hui l’apprentissage automatique ou l’intelligence artificielle. Ça m’a beaucoup intéressé, je suis resté un peu plus longtemps d’ailleurs pour suivre des cours de master et faire un stage, pour apprendre des techniques spécifiques d’apprentissage automatique pour le traitement automatique des langues.

Quand je suis revenu en France, j’ai terminé ma maîtrise et je me suis inscrit en DEA. Là, je me suis spécialisé dans le traitement automatique des langues avec une ouverture sur des disciplines plus linguistiques et aussi plus liées aux sciences cognitives. Les sciences cognitives m’intéressaient déjà mais je n’avais jamais eu l’occasion d’étudier cela dans le cadre des cours ; le DEA a donc été l’occasion de me pencher sur ce domaine, sur l’intelligence artificielle, sur la manière dont on peut programmer des ordinateurs pour comprendre le sens des données que l’on stocke.

Pour tout avouer, sur la fin, le DEA ne s’est pas très bien passé. Pour le dire tel que c’était à l’époque, — et peut-être que c’est encore le cas aujourd’hui —, il y avait des chapelles universitaires qui, parfois, n’étaient pas ouvertes à certaines disciplines. J’avais une orientation mathématiques et apprentissage automatique, c’est ce que j’ai essayé d’expliquer aux personnes en charge du DEA à La Sorbonne. Ce à quoi ils m’ont répondu qu’ils ne voulaient pas entendre parler d’apprentissage automatique, qu’ils faisaient de la linguistique, à la rigueur un peu d’informatique mais surtout pas en utilisant des mathématiques. Ça m’a un peu coupé dans mon élan. Ah ah ah.

À l’époque, j’étais de toute façon intéressé par le web et j’en faisais à côté de mes études ; je me suis professionnalisé là-dedans. J’ai trouvé 3 boulots successifs dans des agences web. Le premier à Paris dans une petite start-up qui faisait des jeux en rapport avec le langage. Par la suite, je suis parti au Luxembourg ou j’ai fait du web pur. J’y suis resté 2 ans. Puis je suis revenu à Paris pour bosser dans une SSII*. Puis j’ai trouvé un boulot d’ingénieur dans un laboratoire d’informatique et technologie du CEA**, c’était un CDD qui avait pour mission de faire de l’analyse syntaxique. Ce CDD m’a permis de faire le lien avec mon DEA.
*Société de Service en Ingénierie Informatique.
**Commissariat à l’Énergie Atomique.

C’est là que j’ai trouvé une offre de thèse à Tours en traitement automatique des langues, sur les « entités nommées ». Pour le dire rapidement les entités nommées, ce sont essentiellement les noms propres. Pour prendre une application concrète, les moteurs de recherche vont beaucoup s’intéresser aux noms propres : si je parle de Washington, est-ce que je parle de la ville ou de la personne ? Si je dis : « Washington était vraiment quelqu’un d’exceptionnel » tout le monde aura compris que je parle de la personne, mais c’est moins évident à comprendre pour un ordinateur. C’était mon sujet de thèse : arriver à trouver les noms propres et surtout quelle est la bonne entité qui correspond à ce nom propre. Ma thèse a aussi contribué à créer un logiciel — qui est en ligne d’ailleurs — qui s’appelle mXS. Ce logiciel sert à identifier les entités nommées et à dire dans un texte donné, là y’a une personne, là y’a un lieu, là une organisation etc. Ça ne fonctionne pas parfaitement, mais ça donne quelques résultats.

Après, j’ai poursuivi en post-doctorat —ce sont des contrats d’ingénieur ou de chercheur après la thèse. J’en ai fait un premier sur la détection des néologismes. L’idée est de les reconnaître, comprendre leur sens et leurs origines d’un point de vue linguistique. Le second portait à nouveau sur les entités nommées, mais cette fois un peu plus technique, et aussi sur l’extraction d’informations : prendre des documents et découvrir de quoi ils parlent, essayer d’en dégager la structure pour en faire un résumé pour in fine les indexer dans les moteurs de recherche.

À la suite de cela, j’ai passé les concours pour devenir maître de conférences ; je les ai passé deux fois. La première année je n’ai pas trouvé de poste puis la seconde fois j’ai trouvé mon poste actuel à l’INALCO. Je travaille au sein du laboratoire ERTIM, — Équipe de Recherche Texte, Informatique et Multilinguisme — on essaye de savoir quel type de traitement informatique on peut appliquer à quel type de langue. C’est un petit labo.

À l’INALCO chaque équipe de recherche va s’intéresser à une langue ou une culture et va fonctionner avec des moyens informatiques assez traditionnels de type bureautique : suite Office, internet etc. Nous essayons de leur apporter des outils plus informatiques qui vont les aider à faire des exercices en ligne, créer des corpus, des gros volumes de données textuelles qu’ils peuvent comprendre et organiser, voir comment les textes évoluent dans le temps, voir les liens entre les civilisations. Et des choses beaucoup plus linguistiques : comment sont structurées les langues ? Pourquoi est-ce que telle langue met d’abord le sujet et ensuite le verbe, ou vice-versa ? Quelles sont les langues qui vont fonctionner avec des conjugaisons ? Quelles sont celles qui fonctionnent sur d’autres modes d’agencement des mots, mais sans utiliser le principe des conjugaisons ? Pourquoi certaines langues s’écrivent de droite à gauche ? Pourquoi certaines langues sont découpées en mot, et d’autres pas ? Etc.

On ne s’en rend pas compte vu d’ici mais lorsqu’on va à l’étranger en voit bien qu’il y a des fossés linguistiques qu’il est important de comprendre afin d’identifier les points sur lesquels les langues convergent et ceux sur lesquels elles divergent pour avoir des traitements numériques opérationnels dans toutes les langues.

Enfin, pour être complet, dans notre labo il y a une dimension certes multilingue mais il y aussi une dimension qui concerne la fouille de texte et la sémantique. Là, on va s’intéresser — quelle que soit la langue — à voir si on arrive à extraire le sens, d’un point de vue linguistique. Par exemple, en ce moment on s’intéresse aux mécanismes de nominations. Pourquoi certains vont parler de « migrants » quand d’autres vont parler de « réfugiés ». Pourquoi certains parlent de « sans-emplois » et d’autres d’« assistés ». Ce sont des clivages, des modes d’expression qui diffèrent selon des caractéristiques socioculturelles. Nous on ne s’intéresse pas à la sociologie, on essaye juste de voir comment ça fonctionne dans les textes et comment cela évolue dans le temps.

Ton domaine de recherche c’est le traitement automatique des langues, est-ce que tu peux nous expliquer ce que c’est ?
Je peux te donner la définition que je donne à mes étudiants : c’est une science qui permet aux humains de manipuler du langage, par d’autres moyens et à une autre échelle. Le premier aspect concerne les moyens technologiques, moyens qui n’existaient pas auparavant : smartphones, emails, etc. L’autre aspect concerne l’échelle : avec l’informatique on va pouvoir traiter de gros volumes de données, il faut pouvoir comprendre ces données pour avoir des logiciels qui fonctionnent correctement.

Le traitement automatique des langues va permettre de savoir qu’il y a des mots dans les textes — encore faut-il savoir ce qu’est un mot, mais je ne vais pas m’étendre là-dessus — mais pas uniquement, il permet aussi d’agréger ces mots pour pouvoir dire : tel site parle de politique, tel autre parle de sports, etc. Si quelqu’un fait une recherche sur internet sur le prix des loyers, il va tomber sur des sites qui parlent d’habitation, de logement, etc. Parfois on va faire des recherches ultra précises et parmi les milliards de documents présents en ligne il faut pouvoir trouver le bon document, et si possible, mettre tout en haut de la page le résultat que cherche l’utilisateur.

Une autre chose que je dis souvent à mes étudiants pour retracer un peu l’historique de ces technologies : si on remonte un peu dans la généalogie de l’informatique, on se rend compte que c’est un domaine issu de travaux théoriques du début du XXème siècle, qui se sont matérialisés sous forme de dispositifs électroniques juste après la guerre — auparavant c’était mécanique — qui permettent de faire des calculs mathématiques. À partir des années 70, il y a eu l’émergence des télécommunications électroniques. On a commencé à faire transiter les messages via les lignes téléphoniques puis via les câbles, les ondes etc. La réunion de ces deux technologies a donné naissance à ce que l’on connaît aujourd’hui sous le nom d’informatique. Ce que je veux dire, c’est qu’on ne peut pas parler d’informatique aujourd’hui sans parler de télécommunications.

L’ordinateur était destiné à faire du calcul au départ, il est aujourd’hui utilisé pour communiquer. C’est un outil majoritairement de communication. À une époque, il aidait les chercheurs ou les grandes entreprises à faire des calculs, de la comptabilité. Aujourd’hui il permet à tout un chacun d’envoyer un texto, d’aller sur internet, d’envoyer/recevoir des mails. Cette utilisation s’est popularisée : les machines, initialement conçues pour manipuler des chiffres et des symboles, se sont révélées des outils incomparables pour stocker et transmettre du langage et des connaissance, c’est la révolution numérique.

Citation-Damien-Nouvel-1

Tu n’as pas développé ce point dans la question précédente mais qu’est-ce qu’un mot ?
Excellente question. Tout dépend de quelle langue on parle. Dans le monde, on considère qu’il y a entre 6 000 et 8 000 langues orales. Parmi ces langues orales, il y a entre 150 et 200 qui sont aussi écrites. Un mot peut être relié à la dimension orale, mais c’est un peu compliqué, alors on va plutôt le relier à la dimension écrite

Dans le traitement automatique des langues, on va plutôt parler de « token ». Ce sont des suites de caractères exploitables par la machine pour caractériser des documents. Un token n’est pas forcément un mot d’un point de vue linguistique. On peut avoir un token qui serait une URL, une adresse mail ou un chiffre, 118 par exemple, peut être un token mais sans pour autant être un mot, ou bien ce serait plutôt trois mots : cent, dix, huit (« cent dix-huit »). D’un point de vue linguistique un « mot » est une unité qui doit faire sens. On parle souvent de lemme, une notion qui essaie d’unifier le mot pour le relier à une unité de signification. Par exemple lorsque l’on prend le verbe «marcher », on sait qu’il peut apparaître sous de nombreuses formes dans un texte, par conjugaison : « tu marcheras », « nous marchons », etc., cependant, on a l’intuition que malgré les variations, c’est le même « mot ». Mais à vrai dire on parle assez peu de « mot » en linguistique, car ça reste une notion indéfinie et assez peu précise.

La recherche des mots est bien plus facile à établir dans les langues occidentales. En revanche, certaines langues orientales — essentiellement le chinois — ne sont pas segmentées ; la langue telle qu’elle s’écrit ne comporte pas d’espace. On peut lire la langue, cependant lorsque l’on veut déterminer les mots qui composent une phrase, il va falloir arriver à découper la phrase en unités minimales que seront les mots, ce qui n’est pas trivial.

Les sinogrammes sont des caractères qui permettent d’écrire les mots en chinois. Mais les mots chinois peuvent être composés de 1, 2, 3 sinogrammes. Donc, pour le traitement automatique du chinois, le « mot » est moins utilisé car plus difficile à définir. C’est une tâche qui n’est toujours pas résolue, et une problématique de recherche très active.

Pour chaque langue on va avoir des mécanismes différents. Pour le français on a les déclinaisons des conjugaisons, pour les mots arabes on va avoir les racines ou les schèmes, pour le chinois les sinogrammes. En définitive, chaque langue va avoir sa manière de définir le mot.

Est-ce que tu peux nous expliquer, de manière un peu plus généraliste, sur quoi portent tes recherches ?
Elles ont tendance à être éclatées sur différents projets, ce n’est donc pas évident de te donner un fil directeur.

En traitement automatique des langues on va s’appuyer sur les données que sont les corpus. On collecte le plus de documents possible et à partir de ces documents on essaye de faire des observations que l’on peut vérifier, par exemple avec des méthodes de calcul statistique. Ces observations vont nous permettre de modéliser des théories linguistiques qui vont être opérationnelles et même parfois applicatives puisque que l’on retrouve dans les moteurs de recherche des processus développés grâce au traitement automatique des langues.

Mes recherches vont essayer de trouver des régularités dans les données, d’isoler de nouvelles observations que nous n’aurions pas faites auparavant, ou de confirmer l’intérêt de méthodes d’une langue à une autre. D’un point de vue plus appliqué, l’un de mes projets traite le Bambara, une langue du Mali parlée par une dizaine de millions de locuteurs, un peu plus si on compte la diaspora. Mine de rien c’est une langue conséquente, mais qui ne dispose d’aucun atout de l’outil informatique. Les sites internet dans cette langue sont très rares. Nous allons donc leur apporter des moyens pour qu’ils puissent mettre en ligne plus de contenus, afin que le bambara puisse exister sur internet, et que de notre côté les linguistes puissent étudier la langue.

Ligne de code.jpg

Oui, rappelons que vous vous servez beaucoup d’internet et des corpus de texte que l’on peut y trouver pour extraire et exploiter des données.

Tout à fait. Ce qui existe sur internet, il faut l’exploiter. On a donc des logiciels qui vont aider à extraire le texte sous sa forme brute. Si on travaille sur un site, il faut pouvoir enlever toutes les balises et la mise en forme du site (le code informatique de la page). Il faut arriver aussi à extraire des documents pdf, des documents audio sous forme de texte.

Pour le bambara c’est ce qui a été fait. Les linguistes ont récupéré des magazines, sur Internet ou en pdf et aussi des contes qu’ils ont ensuite transcrit, majoritairement à la main et quelque fois à l’aide de logiciels. Ils ont constitué un corpus et ont ensuite réalisé un travail d’annotation linguistique. C’est un travail qui consiste à regarder les textes et à assigner à chaque mot un type : ça c’est un verbe, ça c’est un sujet, ça un nom propre etc. C’est un travail de longue haleine, effectué sur plusieurs années. Ils ont réussi à constituer un volume de données suffisant. Pour donner un ordre de grandeur, cela représente presque 4 millions de mots. La partie qui a été annotée manuellement représente actuellement 700 000 mots. Si on fait des approximations, cela représente 60 000 phrases éclatées entre 1 000 et 10 000 documents. C’est donc un boulot énorme même pour une équipe d’une dizaine de personnes.

À partir de là, ils ont effectué un travail manuel que nous, informaticiens, pouvons reproduire, on reprend ce mécanisme en utilisant l’outil informatique. Sur tel mot, l’équipe a mis telle annotation, notre travail c’est de faire en sorte que l’ordinateur soit capable de mettre la même annotation que le chercheur, sur le même mot. On l’a vu, sur un nom propre c’est un peu compliqué ; selon le contexte, le même mot peut être utilisé mais avec des sens différents. Il faut donc avoir des logiciels un peu plus élaborés qui vont analyser les mots mais aussi tenir compte de la phrase pour essayer de déterminer quelle annotation mettre dans tel contexte. Pour les noms propres ou les verbes, on arrive à le faire avec un taux de réussite qui va chercher dans les 90%.

Donc avec les méthodes d’apprentissage automatique, on arrive à automatiser ce travail avec un taux d’erreur de 10%. Ce taux d’erreur semble faible, mais il est en réalité assez problématique. Si on considère que chaque phrase comporte en moyenne 10 mots, toutes les phrases peuvent potentiellement comporter une erreur. Nous avons donc un problème, car nous voulons avoir des phrases correctement annotées pour qu’on puisse utiliser les logiciels à un niveau sémantique. On essaye donc d’améliorer ce taux ; ceci étant ce n’est quand même pas si mal et on peut en être satisfait.

Citation-Damien-Nouvel-2

Quelles sont les applications concrètes de tes travaux, à la fois pour les locuteurs de cette langue et les chercheurs de l’INALCO ?
Pour le chercheur ça va être de vérifier sa théorie linguistique. C’est-à-dire qu’il va considérer que la langue est généralement structurée de telle manière. Avec un corpus annoté on va pouvoir vérifier cela et dire : Oui, dans 90 % des cas les phrases sont structurées ainsi.

Concernant les applications grand public cela va permettre de construire des outils. Des outils d’indexation, comme un moteur de recherche par exemple. Il faut que les bambarophones puissent se servir de leur langue sur internet. Puisque l’on arrive — dans une certaine mesure à faire de la traduction automatique du français vers l’anglais — pourquoi ne pas faire de la traduction du bambara vers le français ?

Du point de vue des cultures et civilisations, on peut aussi envisager de déterminer quels sont les sujets évoqués dans la tradition populaire bambarophone, quelles sont les différences de culture entre le bambara et la malinka etc.

Il y a d’autres applications également, par exemple sur un autre projet, l’idée consistait à récupérer les proverbes — que les chercheurs appellent énoncés sapientiels — dans des textes historiques et voir comment ceux-ci se sont propagés dans les autres cultures autour du bassin méditerranéen. C’est un projet avec lequel on fait le lien entre plusieurs langues : espagnol, hébreu, arabe, latin, catalan. La difficulté consiste à rapprocher des textes écrits dans une langue différente mais en plus dans des alphabets différents.

Calligraphie Orientale

J’en profite pour faire le lien avec d’autres travaux que je conduis avec des entreprises privées. Cette problématique multilingue consiste à simplement retranscrire d’un alphabet à un autre : comment écrire le chinois avec des caractères latins ? C’est quelque chose qui a été très étudié, donc on va avoir des mécanismes et des automatismes. Tel mot en chinois va s’écrire de telle manière en français. Mais ce sont des mécanismes ambigus. Prenons l’exemple de Pékin, que l’on peut aussi écrire Beijing. En fait, Pékin est une première translittération qui a été faite par les français pour des raisons historiques, Beijing par les anglais pour des raisons historiques également et aujourd’hui d’une certaine manière il est plus simple d’écrire Beijing — même si cela peut se discuter. Ces deux translittérations de langues sont donc différentes. Ce mécanisme existe pour beaucoup de domaines, ce qui pose des difficultés, pour la translittération de la langue arabe notamment. Cela a des applications dans le domaine de la sécurité parce que quand on veut faire des applications qui vont surveiller — il faut le dire tel que c’est — ce qui se passe sur les réseaux, il faut savoir comment s’écrivent les termes que l’on surveille. Par exemple comment écrit-on Al Qaeda, Kadhafi etc. Il existe au moins 5, peut-être plus, translittération pour Kadhafi. Les anglais disent Gadahfi, en français on utilise le K et dans d’autres langues il y a plusieurs variations selon la présence du H ou pas. Si quelqu’un veut savoir ce qu’il se dit à propos de Kadahfi, Al Qaeda, ou Daesh, il va falloir connaître toutes les écritures possibles de ces mots. J’ai donc pas mal travaillé sur la translittération automatique de l’arabe, qui fonctionne plus ou moins bien et que l’on essaye d’améliorer. On s’appuie sur la façon dont les mots se disent à l’oral et aussi sur la manière dont les utilisateurs le font spontanément.

Toujours dans les pays arabes, on a aussi le problème de la translittération inversée. Je m’explique : comme le monde entier, ces pays ont bénéficié de l’apport des nouvelles technologies et utilisent bien évidemment les smartphones comme outil de communication privilégié. Or les smartphones ont été initialement conçus pour fonctionner sur des langues occidentales. Dans un pays arabophone, l’Algérie par exemple, lorsque les gens achetaient un smartphone, ils le recevaient configuré par défaut pour un alphabet latin. Ils ont alors du communiquer en utilisant un clavier occidental. Ils ont donc dû apprendre à écrire leur langue dans un alphabet qui n’est pas le leur ; c’est cela le phénomène de translittération inversée : des gens qui veulent se parler entre eux en arabe mais qui écrivent leurs messages avec des caractères latin. Or le problème, c’est qu’en traitement automatique des langues, nous avons des logiciels qui fonctionnent bien pour l’arabe, donc avec une écriture arabe, sauf que là les messages sont écrits en arabe, mais avec des caractères latins. Nous devons donc être capables de les remettre en caractères arabes pour ensuite faire les processus habituels de traitement automatique des langues.

On parle de cet usage comme d’une langue, qui s’appelle l’arabizi qui est très utilisée dans les pays arabes et notamment sur Facebook et Twitter, et qui va intéresser beaucoup de monde, notamment pour les problématiques de surveillance mais aussi d’indexation et de recherche. Typiquement Facebook : si un utilisateur arabophone tape « tabib » qui veut dire docteur, Facebook va devoir retrouver tous les « tabib » dans sa base de données en langue arabe, mais aussi en arabizi pour être complet sur ce genre de recherche.

Citation-Damien-Nouvel-3

C’est quoi la suite pour toi ?
Mes travaux se poursuivent sur ce dont j’ai déjà parlé. Je vais reprendre le fil sur les entités nommées que j’avais un peu laissé de côté en arrivant à l’INALCO. Je compte poursuivre aussi les questions multilingues et de translittération. On a aussi des projets avec des personnes qui font de l’analyse de discours donc plutôt des linguistes, des personnes qui sont moins dans une perspective de conception de logiciels et plus dans une perspective d’observation. Ils vont analyser des discours politiques, que ce soit des discours institutionnels ou citoyens. On essaye de récupérer un maximum de corpus sur les réseaux sociaux, forum etc. et on essaye de comprendre quelles sont les divergences qu’il peut y avoir entre les discours des partis et des citoyens, les attentes des citoyens par rapport aux propositions des gouvernements et institutions, et essayer de répondre à ces questions en utilisant essentiellement l’observation. C’est un sujet que je vais approfondir, d’autant plus qu’on a tout intérêt à faire le lien entre les gens qui travaillent sur l’analyse du discours et ceux qui travaillent sur le traitement automatique des langues. Nous allons leur apporter plus d’outils, plus de logiciels et eux vont nous apporter des problématiques et des données textuelles plus tournées vers la linguistique et la sémantique. De ce point de vue-là, il y aura donc un enrichissement mutuel.

Parmi les perspectives plus immédiates, il y en a une qui se décline en deux éléments : dans le traitement automatique on a une conférence pour laquelle on organise un hackaton pour le traitement automatique des langues et cette année, le HackaTAL aura lieu en juin sur des questions du traitement automatique appliqué au résumé automatique de commentaires, au juridique et au droit des brevets.

Je suis également impliqué dans la société savante qui fédère les travaux scientifiques en traitement automatique des langues l’ATALA.

Une autre perspective un peu plus lointaine sur laquelle j’aimerais bien me pencher sur ce qui concerne le « data journalism » pour lequel le traitement automatique des langues aurait beaucoup à apporter. Notamment en regardant les discours des différentes mouvances qui peuvent exister sur internet et voir si on arrive à vérifier des informations d’un point de vue plus factuel pour aider tout un chacun à avoir plus de discernement.

Ça ne va pas être facile.
Oui, c’est quelque chose sur quoi certains de mes collègues travaillent déjà. On a déjà organisé un séminaire l’année dernière avec des intervenants de l’AFP, du Monde et des collègues du LIMSI et de l’IRISA de Rennes.

Les derniers événements — comme tous citoyens — nous interrogent et on veut pouvoir apporter quelque chose. On ressent de plus en plus tout le phénomène des bulles d’informations, qui fait que les réseaux sociaux ne nous apportent qu’une vision partielle de ce qui se passe dans la société et dans le monde. Ce biais-là existe sur un tas de plateformes en ligne que soit Facebook, Twitter — dans une moindre mesure —, Google et toutes les autres plateformes qui utilisent des recommandations qui ont certes des avantages mais aussi des inconvénients et probablement des dangers liés à ce biais informationnel. Par rapport à cela il faut avoir une réflexion plus générale ; et nous en tant que scientifiques nous devons nous demander quelle est la réalité des observations que nous faisons et quelle est la réalité des observations qu’un citoyen peut faire par rapport à l’environnement qui l’entoure.

Sur ces questions-là, les moteurs de recherche vont s’appuyer sur le langage, les requêtes précédemment formulées, sur le contenu textuel des docs que l’on a déjà vus, les messages que l’on lit sur Facebook, les vidéos que l’on peut regarder etc. Le principe de personnalisation de recherche a commencé parce que l’on est tous intéressé à trouver des résultats dans notre langue natale. À partir du moment où je vais taper un terme, je vais préférer trouver des résultats en français. C’est incontestable, l’utilisateur préfère avoir des résultats dans sa langue natale. Il faut poser les bases du débat et admettre que la recommandation est utile mais à partir du moment où on fait cela, ça veut dire que le moteur va fournir des résultats différents si on tape le même mot, par exemple « smartphone », que l’on soit en France, en Angleterre, aux US ou autres. Il faudrait avoir une forme de transparence ou de contrôle sur chaque critère qui nous est appliqué sans que l’on s’en rende compte.

Ces recommandations personnalisées doivent faire partie d’une réflexion plus générale qui consisterait à apporter au citoyen une vision plus claire et un discernement sur le biais des résultats de ses recherches. Peu d’entre nous iraient dire au moteur de recherche d’arrêter la recommandation : elle est extrêmement utile. Mais si on pouvait faire un pas vers une plus grande transparence pour l’utilisateur, c’est-à-dire lui indiquer qu’on a recommandé telle ou telle page parce que dans ses recherches précédentes il a indiqué qu’il était intéressé par tel sujet, là on aurait un début de solution. On pourrait même imaginer que le moteur de recherche propose de supprimer ce biais, même temporairement !

Je pense que le data journalisme peut participer à cela, en disant que telle information n’est pas suffisamment vérifiée où que telle ou telle info est mise en avant parce que l’utilisateur est identifié comme étant de tel parti politique ou qu’il s’intéresse à telle ou telle thématique.

Qu’est-ce que tu espères apporter à demain ?
Par rapport à mon métier j’espère apporter en premier lieu aux étudiants, j’ai une responsabilité pédagogique et je veux qu’ils fassent le métier qu’ils aiment, qu’ils trouvent du boulot et qu’ils soient orientés correctement afin qu’ils soient heureux dans leur profession.

J’aimerais aussi apporter de meilleurs outils qui permettent de mieux manipuler la langue par d’autres moyens et à une autre échelle. Enfin, ce que je disais à l’instant, apporter plus de discernement à tout un chacun par rapport aux documents textuels qui peuvent être exploités informatiquement et sur toutes les plateformes sur lesquels ils sont disponibles.


Approfondir la conversation

A propos de la conversation

  • Réalisée le 15 mars 2017
  • Publiée le 14 mai 2017
  • Interview, transcription : Rémi Henessy Wayne
%d blogueurs aiment cette page :