A Paris, les chercheurs de Facebook traduisent grâce à des similitudes mathématiques entre les langues

74
World Economic Forum, WEF, in Davos, Switzerland - 20 Jan 2017
Mandatory Credit: Photo by GIAN EHRENZELLER/EPA/REX/Shutterstock (7916860az) The facebook logo inside the facebook Chalet on the sideline of the 47th annual meeting of the World Economic Forum, WEF, in Davos, Switzerland, 20 January 2017. The meeting brings together enterpreneurs, scientists, chief executive and political leaders in Davos January 17 to 20. World Economic Forum, WEF, in Davos, Switzerland - 20 Jan 2017

Traduire un texte dans une langue étrangère sans aucun dictionnaire, en s’appuyant sur des similitudes mathématiques entre les langues: à Paris, les chercheurs en intelligence artificielle de Facebook ont réussi une prouesse riche de promesses. Disposer d’outils de traduction automatique performants constitue une priorité pour les grands opérateurs internet mondiaux, qui cherchent à pouvoir mettre en relation un maximum d’habitants de la planète et ainsi générer davantage d’activité économique autour de leur plate-forme. Facebook, Google ou Microsoft, mais aussi le Russe Yandex, le chinois Baidu et d’autres cherchent sans cesse à améliorer la qualité de ces outils. De «150 à 200 langues» sont aujourd’hui parlées sur Facebook, rappelle ainsi Antoine Bordes, le codirecteur de la recherche fondamentale en intelligence artificielle du réseau social en Europe. Mais il n’existe pas forcément de dictionnaires, ou de pierre de Rosette (qui a permis de déchiffrer les hiéroglyphes égyptiens) pour chaque paire de langues, d’où l’intérêt de trouver un système qui permette à une machine de passer d’une langue à une autre sans ces passerelles fondamentales. Le coeur du système développé par de jeunes chercheurs du laboratoire parisien de Facebook repose sur des représentations mathématiques des mots. Dans chaque langue, les mots se retrouvent figurés sous la forme d’un vecteur, dans un espace de plusieurs centaines de dimensions. Chaque vecteur est plus ou moins proche des autres mots, en fonction de ses associations avec eux dans la langue courante. Ainsi, dans toutes les langues, «le mot «chat» et le mot «chien» auront des vecteurs assez proches (…)», explique Guillaume Lample, un doctorant de l’université Pierre et Marie-Curie en résidence à Facebook, et l’un des pères du système. Puisque les vecteurs-mots ont tendance à s’organiser de manière similaire dans chaque langue, il est dès lors possible de les associer d’une langue à l’autre, au début de façon assez grossière, puis de façon de plus en plus fine, jusqu’à parvenir à associer des phrases entières d’une langue à l’autre sans trop d’erreurs. Pour l’instant, cette méthode de traduction est encore au stade du développement. Mais les résultats sont prometteurs, explique Guillaume Lample. Sur la paire anglais-roumain par exemple, les systèmes de traduction automatique actuellement utilisés par Facebook ont des performances «égales, voire un peu moins bonnes» que la nouvelle méthode développée par le laboratoire parisien. Sur la paire anglais-ourdou, la méthode parisienne est meilleure que les systèmes traditionnels, parce que ceux-ci manquent de textes bilingues anglais-ourdou pour s’entraîner, affirme-t-il. La méthode pourrait-elle permettre de traduire du basque à la langue d’une tribu amazonienne? Sur le principe, oui, répond, Guillaume Lample. Sauf que pour fonctionner, pour décortiquer une langue en vecteurs, la machine a besoin de disposer d’un énorme corpus écrit… qui n’existe pas pour les langues amazoniennes. «Si vous avez juste une dizaine de milliers de phrases, ça ne fonctionnera pas. Il en faudra quelques centaines de milliers», estime-t-il.  Deux spécialistes du CNRS ont salué le travail de Guillaume Lample et de Facebook, même s’ils pensent que la méthode ne permettra sans doute pas de faire des traductions parfaites dans tous les cas. «Traduire sans données parallèles», c’est à dire sans dictionnaires ou texte bilingue, «c’est un peu le Graal» de la traduction automatique, explique Thierry Poibeau, du laboratoire Lattice (ENS). «Mais la question, c’est quel niveau de performance on peut en attendre», poursuit-il. La méthode «peut donner une idée du texte d’origine», mais la possibilité de donner «une bonne traduction» dans tous les cas reste encore à établir, explique-t-il.