Scarlett Johansson/ OpenAI : la question brûlante de la génération de voix par l’IA sur toutes les lèvres

96

Comment sont générées les voix des applications d’intelligence artificielle (IA) ? La question se fait brûlante après que l’actrice américaine Scarlett Johansson a accusé l’entreprise OpenAI d’avoir copié son timbre sans son consentement pour ChatGPT. Sam Altman, directeur général du groupe, a présenté ses excuses à la comédienne la semaine dernière et annoncé la suspension de Sky, la voix incriminée. Approchée par l’entreprise en septembre dernier, Scarlett Johansson, qui a prêté sa voix à un système d’intelligence artificielle dans le film «Her» il y a une dizaine d’années, avait refusé qu’elle serve à la nouvelle version de ChatGPT.

OpenAI a, de son côté, nié avoir imité la voix de Mme Johansson, assurant avoir développé son outil avec celle d’une autre actrice professionnelle. Trucages audio hyperréalistes, risque de fraude, désinformation: la capacité des systèmes d’IA à imiter des voix humaines défraie régulièrement la chronique. L’année dernière, la start-up Eleven Labs, qui développe un outil de clonage de voix grâce à l’intelligence artificielle, avait ainsi alerté contre l’utilisation abusive de son logiciel. Des utilisateurs du forum anonyme 4Chan avaient notamment partagé des messages imitant la voix de célébrités pour leur faire prononcer des textes à caractère raciste, sexiste et homophobe. Dans l’un d’eux, une «fausse» Emma Watson lisait un passage de «Mein Kampf». Cette technologie s’est développée en grande partie grâce à un programme en source ouverte baptisé Tortoise, lancé il y a deux ans, a expliqué l’entrepreneur danois Victor Riparbelli, directeur de la start-up Synthesia. Son entreprise permet de transformer du texte en une vidéo avec un avatar générée par une IA. Elle embauche des acteurs dont la voix et l’apparence font l’objet d’un contrat pour deux ans, avec une option de renouvellement, détaille M. Riparbelli, rencontré en marge du salon sur les nouvelles technologies VivaTech à Paris la semaine dernière.

Le programme d’apprentissage automatique Tortoise a analysé des milliers d’heures d’enregistrements audio et servi de base à l’application d’Eleven Labs. «Ca a été un changement de paradigme important», poursuit M. Riparbelli. OpenAI utilise des programmes similaires, même s’il n’en divulgue pas les détails. Avec ChatGPT 4.0, un utilisateur peut ainsi souffler quelques phrases en français à l’application qui pourra en quelques minutes reproduire cette voix et l’utiliser pour narrer une courte vidéo et, ce, dans cinq langues différentes, comme l’a montré OpenAI lors d’une démonstration à Paris. Comme la start-up américaine, des centaines d’entreprises proposent désormais le clonage de voix, qui devient de plus en plus réaliste et nuancé. Parmi elles, TALKR.ai est un éditeur français d’assistants vocaux virtuels créés par l’intelligence artificielle. Ce service pourrait gérer de 25% à 30% des appels à un service client sans aucune intervention humaine, selon sa patronne Katya Lainé, croisée à VivaTech. Pour elle comme pour Victor Riparbelli, l’usage de voix d’acteurs sans leur consentement est une ligne rouge. Dans le cas de Scarlett Johansson, «s’ils ont imité sa voix sans qu’elle le sache, alors c’est vraiment mal», a réagi M. Riparbelli. Mais «s’ils n’ont pas le droit d’utiliser (la voix) de quelqu’un qui lui ressemble beaucoup, ça crée un précédent très étrange» a-t-il tempéré.