Spotify et Librinova misent sur le clonage vocal pour développer les livres audio 

Faire lire intégralement un livre en vue de sa version audio coûte cher, trop cher pour certains promoteurs de ce format. Alors ils investissent dans le clonage de voix et les voix de synthèse, un phénomène mis en évidence au Festival du livre de Paris. D’anciens chefs d’Etat s’y sont mis: l’ex-président français Nicolas Sarkozy, par exemple, a enregistré en 2021 plus de 13 heures de ses mémoires de président, «Le Temps des tempêtes». L’Américain Barack Obama a fait plus fort avec «Une terre promise» en 2020: 29 heures. D’autres livres sont lus par des comédiens. En France, l’acteur Denis Podalydès a prêté sa voix à «Martin Eden», roman de Jack London. La narratrice du prix Goncourt 2024, plus haute récompense littéraire nationale, «Houris» de Kamel Daoud, est incarnée par Lola Naymark, moins connue. Mais des productions de ce genre, assez ou très onéreuses, ont un avenir incertain parmi les livres audio, qui font désormais de plus en plus souvent appel à l’intelligence artificielle (IA). Le Festival du livre de Paris, qui s’est tenu du 11 au 13 avril, a été l’occasion de deux annonces en ce sens. Librinova, numéro un français de l’auto-édition, a ainsi dit adopter «la technologie de clonage vocal, qui permet d’obtenir une qualité largement supérieure à celle des voix synthétiques, souvent trop robotiques». Un auteur enregistre la lecture d’une petite partie seulement de son livre et l’IA va extrapoler l’autre partie. 

«Il faut de tout» : Spotify, le numéro un mondial du streaming, a lui indiqué qu’il investissait un million d’euros pour «des livres narrés par la voix de synthèse», autrement dit une machine qui imite, de plus en plus fidèlement, la voix humaine. Et d’expliquer: «Les coûts importants de production et l’adoption encore naissante de l’usage du livre audio ont eu pour conséquences de limiter l’offre et le catalogue existant en français». Spotify indique clairement à ses utilisateurs quelle voix leur fait la lecture. À eux de savoir s’ils acceptent qu’elle soit artificielle. La plateforme suédoise n’abandonne pas les livres intégralement lus par un humain. «Ils viennent aider les éditeurs en finançant une partie de la production. Pour qu’un marché se développe et soit mature, il faut de tout», souligne le directeur général de Hugo Publishing, Arthur de Saint-Vincent. Cet éditeur, qui s’est imposé comme le numéro un de la romance en France, a pour sa part annoncé une offensive dans le livre audio, sans IA de son côté. Avec sa maison mère Glénat, il proposera 200 nouveaux titres dans les trois ans à venir. «Nous en sommes à un stade de développement où nous pouvons investir dans une production de qualité. Donc on veut choisir les voix, travailler avec des comédiens» «être intransigeants à chaque fois», avance le patron de Hugo. 

Monotonie : Tout le monde n’a toutefois pas la trésorerie pour suivre. En 2021, le numéro un du livre audio dans le monde, Audible, filiale d’Amazon, écrivait sur son site internet français: «Au départ, les livres audio utilisaient la synthèse vocale, c’est-à-dire une voix générée par ordinateur. Aujourd’hui, la voix humaine est privilégiée, car elle permet une plus grande proximité avec le lecteur, plus de chaleur et une meilleure intonation». Quatre ans plus tard, la recherche «virtual voice» («voix artificielle») sur son catalogue anglophone donne «plus de 50.000 résultats». L’immense majorité des titres sont signés d’auteurs mal ou pas connus. La qualité de cette lecture laisse des appréciations contrastées, tantôt enthousiastes sur les progrès rapides de cette technologie, tantôt sceptiques sur ses limitations. «Je ne pense pas que la narration par IA soit bonne avec les émotions des personnages, hélas», a par exemple commenté sur X Alisanya, autrice anglophone de romans «fantasy» autoédités sur Amazon.