Qu'y a-t-il dans la tête de C3PO ?
C3PO, ne l'oublions pas, est souvent celui qui aide les héros à se faire comprendre. Que ce soit entre eux ou par le biais d'une langue étrangère.
Sur Terre, on parle 6 à 7000 langues. Beaucoup ne sont même pas retranscrites par écrit et au moins la moitié sont menacées de disparition dans les décennies à venir.
C'est vraiment peu pour un droïde comme C3PO qui déclare pouvoir parler "six millions de formes de communication" !
Je pratique couramment six millions de formes de communication...
Est-il possible d'avoir un robot qui traduit pour nous :
- pendant des conférences,
- pendant des visites guidées dans un tout petit musée (n'ayant pas les moyens de prendre quelqu'un de bilingue),
- pendant un voyage à l'autre bout de la planète, dans une langue locale parlée uniquement sur place.
Un tel compagnon serait une aide à la mobilité, à l'ouverture culturelle et au voyage.
Le 27/05/2014, Microsoft a dévoilé son projet de traduction instantanée : Skype Translator. Ce n'est pas le premier du genre, mais c'était l'un des plus abouti si l'on en croit leur vidéo.
En seulement quelques clics et à des milliers de kilomètres de distance, un anglophone peut communiquer avec une germanophone. Rien de neuf me direz-vous, sauf qu'ils ont parlé chacun dans leur propre langue.
L'interlocuteur s'exprime, puis, à peine une seconde ou deux plus tard, la traduction est faite et lue en temps réel par un logiciel de lecture vocale. De plus, les sous-titres s'affichent aussi en bas de l'écran.
La démonstration a été concluante, même si le procédé n'est pas encore parfait.
Créer un traducteur universel, c'est combiner deux technologies en développement depuis des décennies : la traduction et la reconnaissance vocale. Skype Translator est un grand bon en avant vers la traduction simplifiée et c'est surtout une façon de ne pas se laisser dépasser par la concurrence (très active dans ce domaine).
Le PDG de Microsoft, Satya NADELLA, met en avant les 300 millions d'utilisateurs de Skype et les 2 milliards de minutes de conversations quotidiennes. Il décrit la barrière de la langue comme un obstacle à la connectivité et la productivité humaine. Confiant, le PDG explique que ce ne sont là que les débuts prometteurs et qu'avec ce type de projet, Microsoft fait de la recherche fondamentale.
Dès mai 2014 le Traducteur Skype était disponible sous forme d'application pour Windows 8, dans sa version bêta. Une nouvelle évolution (disponible à partir de Windows 10) avec Skype Preview était la possibilité d'émettre un appel traduit sans que le destinataire ne possède Skype.
10 ans plus tard, il est difficile de trouver un équivalent exact de cette technique. Mais il existe quelques applications mobiles de qualité permettant d'approcher ce genre de conversation comme nous allons le voir.
L'intelligence artificielle comme outil ?
Traduire et ajouter une voix par dessus l'original, c'est déjà beaucoup. Mais est-il possible d'aller encore plus loin ?
Le "Machine Learning", les "réseaux de neurones" et le "Deep Learning" sont progressivement chassés du vocabulaire populaire actuel par les "intelligences artificielles (IA)". Ce terme, beaucoup plus générique, est couramment employé pour évoquer toutes les nouveautés ; un peu comme lorsque tout était "quantique". Au-delà d'un simple concept à la mode, l'informatique fait de réels progrès avec certains "robots informatiques". Le grand modèle de langage (LLM) popularisé par ChatGPT est un transformateur génératif pré-entrainé. C'est-à-dire qu'il est basé sur un ensemble massif de données qui donne la possibilité de détecter le langage humain. L'architecture de ce réseau de neuronnes est elle-même fondée sur un Deep Learning de type transformateur qui permet une efficacité prédictive grâce à des tâches effectuées en parallèles les unes des autres. C'est pourquoi on parle de "grand" modèle de langage (le "large" de LLM).
Pour résumer, le LLM qu'est ChatGPT parvient à comprendre comment s'articulent ensemble chaque caractère, mot et phrase en se basant sur des ressources colossales de texte. Ces données d'apprentissage permettent d'analyser du texte afin d'y apporter une "réponse", le tout en très peu de temps.
Ce qui est possible pour du texte, l'est aussi pour de l'image, du son ou de la vidéo.
La société HeyGen propose effectivement d'aller plus loin grâce à une ou plusieurs IA. Pratiquement tout est possible par le croisement des technologies disponibles.
Par exemple, il est possible de faire parler une image dans n'importe quelle langue. Il suffit de sélectionner une image et un texte à lire.
Le résultat global (ci-dessous) est plutôt réussi. Malgré cela, certains mouvements des lèvres sont lents ou approximatifs et on sent bien que l'audio n'est pas naturel et provient d'un logiciel. Cela n'en demeure pas moins une prouesse tout à fait nouvelle dans sa simplicité et sa rapidité de mise en œuvre, gratuitement. Des versions de voix plus naturelles existent, et les meilleures sont bien sûr payantes.
Image d'origine | Le résultat en vidéo |
Notons qu'il existe déjà des logiciels d'apprentissage du timbre de la voix par intelligence artificielle. Ces derniers permettent d'explorer encore d'autres pistes. Sans doute qu'HeyGen intègre justement cet "imitateur de voix", car il est également possible de traduire une vidéo. Là où le résultat se différencie de Skype Translator, par exemple, c'est que ce n'est pas seulement l'audio qui est traduit, mais aussi les mouvements des lèvres qui s'adaptent à la nouvelle langue parlée. De plus, la voix originale ne change que très peu.
J'ai donc demandé à HeyGen de traduire en anglais (avec accent américain) et en japonais la version française d'Ahsoka (Olivia Luccioni est la comédienne qui double en français Rosario Dawson).
Voici le résultat :
En "américain" | En japonais |
La plupart des retours (des gens dont c'est la langue maternelle) sont positifs. Rappelons que l'on part d'une simple image au départ !
Je reconnais que je ne peux pas vous parler du japonais sur le fond. En tout cas, dans les deux cas, on reconnaît le timbre de voix d'Olivia Luccioni. La tonalité, le rythme et les accents toniques des langues sont respectés alors que c'est sans doute ce qui est le plus dur à reproduire. Ici, le texte est lu comme un comédien le lirait dans sa propre langue. Cependant, on peut noter qu'avec toutes ces manipulations on s'éloigne légèrement de la qualité visuelle de la première image fixe (j'ai également compressé les vidéos).
Comment font-ils ? Concrètement, l'IA ajoute un masque sur la vidéo originale afin d'intégrer de nouveaux mouvements de lèvres et de perfectionner la synchronisation labiale. Un peu comme un deepfake qui respecterait l'image d'origine. Il n'est donc pas possible de faire entrer dans cette zone quelque chose d'étranger (une main, un verre d'eau, etc), au risque de voir apparaître une pixellisation aux abords du détourage automatique.
Bien sûr, tout n'est pas parfait dans son ensemble. En revanche, c'est amplement suffisant pour faire passer un message publicitaire s'adressant à l'international. Selon HeyGen, les entreprises et startups feraient partie de leurs premières cibles commerciales.
Les "créateurs de contenus" sur YouTube, Instagram, TikTok, Facebook, etc, sont directement visés par HeyGen qui leur propose des solutions de mise en ligne simplifiées pour leurs contenus et la création de nombreux produits : avatars, modèles de vidéo, vidéos complètes, etc.
Pour envoyer une vidéo à traduire chez HeyGen, c'est gratuit et très rapide, en revanche c'est beaucoup plus long pour recevoir le résultat. Au moment de faire ces tests, il existait une file d'attente de plus de 75 000 personnes... C'était une catastrophe. Bien sûr, la startup a bien conscience de cette longue attente et propose d'ailleurs des tarifs "creator", "business", "enterprise" afin de réduire le délai (entre autres options). C'est son modèle économique. Lorsque vous êtes en gratuit, vous observez donc la file d'attente faire un yoyo interminable dans l'avancement de votre position quasi stagnante... les membres payants vous passent régulièrement devant. Il m'a fallu pas moins de 7 jours pour obtenir une seule vidéo... Cela convaincra probablement les plus impatients de payer et découragera les simples curieux.
Au-delà de la possibilité de faire briller sa communication d'entreprise, il n'est pas difficile de se rendre compte du véritable problème que peut poser ce même outil dans d'autres cas de figure.
Le travail fantastique accompli par les comédiens de doublage est clairement menacé. De plus, la technique du doublage n'est pas utilisée partout dans le monde. Si demain, les voix d'origine des acteurs sont conservées mais traduite à l'écran de cette façon, c'est tout le marché du cinéma qui pourrait changer... et le comédien de doublage n'aurait plus de travail. Forcément, le résultat parfois brouillon n'a pas de quoi faire trembler les comédiens de doublage, pour l'instant, mais... dans quelques années ? L'IA sera t-elle capable de reproduire fidèlement les émotions... et les trémolos dans la voix ? Ce que vous avez sous les yeux n'est que le début d'une révolution plus ou moins silencieuse. Les films et les séries seront-ils traduits de cette façon ? Ou peut-être que ce logiciel viendra compléter le travail des comédiens de doublage, main dans la main...?
Ce bouleversement arrive, que ce soit dans le cas d'un film ou d'une série, on l'a vu, mais sans doute, plus rapidement, dans le monde du jeu vidéo. Là où une voix n'est pas clairement associée à une personne physique réelle ou un personnage iconnique (comme les PNJ), il suffira de donner un texte à faire lire dans toutes les langues. Aucun comédien n'aura à lire le texte car l'IA est capable de tout gérer, de la lecture naturelle à la traduction. Idem avec les dessins animés et les "voix off" (dans les documentaires par exemple), l'IA ira chercher une voix dans sa banque de donnée et n'aura plus qu'à lire le texte.
D'un autre côté, certains films, séries et jeux vidéo disponibles uniquement en version originale et/ou version originale sous-titrée pourront enfin être traduits à l'image.
TOUS les films pourraient être repris pour avoir un labial qui correspondrait à la langue doublée... de la création du cinéma jusqu'à aujourd'hui ! Mais aussi des documentaires, des interviews, des vidéos d'archives... Il sera même possible un jour d'écouter une chanson étrangère dans sa voix "d'origine" mais traduite dans la langue que l'on souhaite.
Il reste à régler les rares erreurs de traductions qui peuvent être liées aux expressions idiomatiques ou aux problèmes culturels. Elles sont plus complexes à être détectées mais elles finiront probablement par être éliminées les unes après les autres. Si la puissance de calcul analytique le permet, d'ici quelques années, il serait même possible d'obtenir le résultat de la vidéo ou simplement de l'audio en quasi-direct. Cette fois, C3PO et tous les traducteurs de la planète seraient menacés.
Certaines applications mobiles comme le très célèbre Google Traduction (ou son équivalent Apple Translate) possèdent l'option "conversation". Avec cette application, il est déjà possible de parler dans une langue étrangère avec un simple décalage de quelques secondes (comme Skype Translator). La réponse de l'interlocuteur est également détectée et traduite en retour. Mais les résultats peuvent être médiocres pour plusieurs raison : langue de traduction peu utilisée, mauvaise articulation, mot-à-mot, phrases incomplètes, patois, etc. L'outil de traduction ne pourra pas faire de miracle. L'étape de la reconnaissance vocale, de plus en plus développée, reste incontournable. Pour l'améliorer, il existe des logiciels permettant d'éduquer individuellement cette reconnaissance vocale (depuis 1997 dans le commerce). Simple d'utilisation, ce procédé pourrait être un préalable à l'utilisation d'un traducteur plus puissant. La future puissance de traitement et les progrès qu'elle génèrera permettront de démocratiser l'accès à la traduction. Vous pourrez sans problème imaginer faire un tour du Monde à pied avec un simple micro serre-tête.
En parallèle, les diplomates continueront probablement pendant de nombreuses années à faire appel à un traducteur en chair et en os, ne serait-ce que pour éviter de funestes conséquences.
Mais que penser de la possibilité de faire dire ce que l'on veut à n'importe quelle photo ou vidéo ? Il sufit de choisir un texte, une langue, un timbre de voix et une vidéo ou une image... le tour est joué. Que penser de la multiplication des "deepfakes" ? Utiliser la voix ou l'image de personnes vivantes ou décédées pose aussi de nouvelles questions.
Il faut donc rapidement déterminer quel sera le cadre légal, s'il sera internationnal, s'il pourra permettre d'éviter les abus et s'il déterminera clairement les droits de chacun.