Microsoft travaille sur une IA qui transforme une photo de visage et un échantillon de voix en une vidéo ultra réaliste d’un «visage en train de parler»

Par

24/04/2024

Des chercheurs de Microsoft ont mis au point une technologie d’intelligence artificielle (IA) qui permettra de transformer une photo de visage et un échantillon de voix en une vidéo ultra réaliste d’un «visage en train de parler», selon un document publié par le géant informatique cette semaine.

«L’objectif n’est pas de créer un contenu destiné à induire en erreur ou à tromper», précise l’entreprise, mais elle reconnaît qu’à l’instar «d’autres techniques de génération de contenu, elle pourrait être utilisée à mauvais escient pour usurper l’identité d’un être humain».

L’essor rapide de l’IA générative, qui permet de produire facilement toutes sortes de contenus (textes, images, sons…) de qualité bluffante, suscite en effet de nombreuses inquiétudes, notamment en termes d’exploitation à des fins de fraude et de désinformation.

«Notre recherche se concentre sur (…) des avatars virtuels, en vue d’applications positives», assure Microsoft.

«Nous sommes opposés à tout comportement visant à créer des contenus trompeurs ou dommageables de personnes réelles». La firme informatique, principal investisseur d’OpenAI (ChatGPT), ne prévoit donc pas de rendre le nouvel outil disponible ou de donner des informations techniques «tant que nous ne sommes pas certains que la technologie sera utilisée de manière responsable et conformément aux réglementations en vigueur».

Baptisé VASA-1, le programme informatique prend une simple photo de portrait et un fichier audio et les convertit en une vidéo où le visage s’anime et parle de façon hyperréaliste.

Sur les exemples mis en ligne – des aperçus réalisés à partir d’images de personnages virtuels – le mouvement des lèvres est synchronisé, les traits du visage convaincants et les mouvements de la tête, un peu saccadés mais quand même impressionnants.

D’autres entreprises travaillent sur cette technologie, comme Runway, une des spécialistes de l’IA générative pour la vidéo.

Des chercheurs de Google ont aussi créé un modèle d’IA, Vlogger, qui peut générer des vidéos réalistes de têtes parlantes.

Selon Microsoft, les avantages à développer cette technologie «tels que le renforcement de l’équité en matière d’éducation, l’amélioration de l’accessibilité pour les personnes ayant des difficultés de communication, le soutien thérapeutique aux personnes qui en ont besoin, entre autres» justifient de mener ces recherches. De nombreuses autorités réfléchissent à encadrer l’IA générative.

L’Union européenne s’est entendue en décembre sur une législation inédite pour réguler l’intelligence artificielle, cherchant à favoriser l’innovation tout en limitant les possibles dérives.

Résidence Annecy Festival 2026 : appel à candidatures

Paramount Pictures et Domain Entertainment présentent «Running Man», le 5 novembre…

Annecy Festival : changement de dates

Groupe UGC/ Deluxe : événement spécial pour le film «Certains l’aiment…

RMC BFM : Jacques Esnous nommé membre du Comité d’éthique

France Télévisions: Delphine Ernotte lance la renégociation d’un grand accord social,…

Le football français lance sa propre chaîne Ligue 1+

TF1 : la matinale «Bonjour!» va être allongée, l’avenir de «Téléshopping»…

Un nouveau nom et un nouveau comité directeur pour le SPI

Banijay renouvelle son engagement auprès de la Cité européenne des scénaristes

Mathieu Gallet prend la tête de la nouvelle société de production…

Le producteur Gabriel Dang crée son propre label de production, Latitude,…

Le Festival du Monde : Le Monde ouvrira ses portes du…

Groupe Bayard: nominations au Conseil de Surveillance

20 Minutes: les journalistes ont voté une motion de défiance contre…

Chambéry BD 2025 : la 49ème édition dévoile son affiche

Jean-François Achilli va conduire l’interview politique de Sud Radio

Nathan Devers rejoint France Culture pour une nouvelle émission «Sans préjuger»

ICI : «2 minutes pour être en forme» tous les jours,…

FMM/ «Un invité, un parcours» : l’art marocain à l’honneur sur…

WPP dévisse à la Bourse de Londres

Lidl condamné à verser 43 millions d’euros à Intermarché pour publicités…

L’Autorité française de la concurrence ouvre une procédure contre Meta pour…

Les Schtroumpfs : mascottes de la nouvelle campagne de l’ONU et…

Bouygues Telecom et NRJ Group annoncent la poursuite de leur accord

Cameroun : l’ART inflige des sanctions aux géants Orange et MTN

Le groupe CMA CGM, en négociation exclusive pour racheter Brut

La commercialisation d’Amazon Kuiper prévue en Europe et aux Etats-Unis en…

Quantique : Thales réinvente le champ de bataille

Ai-Da : le robot artiste qui n’entend pas remplacer les humains

TikTok : l’UE ouvre une enquête sur le stockage de données…

L’UE dévoile plusieurs pistes pour encadrer l’IA

H. RONY (Scam) : «Les Étoiles 2025 confirme l’importance des chaînes…

G. VAUGEOIS (Prix Jean Vigo) : «Nous ne recevons pas de…

S. SITBON-GOMEZ (France Télévisions) : « Le 20h est notre plus grand…

E. DUVAL-BARREAU (Médiamétrie) : «Nous avons déjà baissé de 14% nos…

Microsoft travaille sur une IA qui transforme une photo de visage et un échantillon de voix en une vidéo ultra réaliste d’un «visage en train de parler»