Créez votre avatar pour vous libérer d’un studio de montage! Traduisez le contenu de toutes vos vidéos sans la ré-enregistrer! … Les promesses de l’intelligence artificielle (IA) dans l’univers de la vidéo sont nombreuses et surtout attirantes. Mais qu’en est-il vraiment ? Derrière leurs belles promesses, les IA sont-elles au rendez-vous pour produire des vidéos de qualité ?
Notre expert Lotfi décrypte pour vous un nouveau cas d’usage autour de l’IA : Est-il vraiment possible de créer des vidéos dans différentes langues en quelques clics seulement, et comment faire ?
Dans une ère où de nouvelles solutions basées sur l'intelligence artificielle émergent quotidiennement, l'intérêt pour la production automatisée de vidéos s'avère crucial.
Face à cela, recourir à la création d’avatars numériques et au clonage vocal dans la création de vidéos représente une solution intéressante. Que je pense être une innovation technologique qui risque de transformer radicalement l'engagement du spectateur.
Je trouve que le fait de pouvoir créer des vidéos super personnalisées, qui s'adressent directement aux spectateurs dans leur propre langue et de manière adaptée ouvre un nouveau champ de possibilités. Cela signifie que la communication peut devenir incroyablement ciblée, permettant de toucher les gens de manière plus efficace et personnelle.
D'un point de vue pratique, pour les médias et les entreprises, l'attrait de réduire les coûts et le temps de production tout en augmentant la capacité à produire du contenu en masse est indéniable. La capacité à tisser des liens plus étroits avec l'audience est aussi cruciale.
Imaginez pouvoir vous exprimer, non seulement à travers des mots ou des images, mais aussi au moyen d'une version virtuelle de vous-même ou de votre marque. Une version capable de parler, d'interagir, et même de susciter des émotions.
C’est justement ce que les avatars numériques offrent comme possibilité, marquant le début d'une ère où votre présence numérique peut être aussi riche et nuancée que votre présence physique.
Heygen a attiré mon attention pendant que je cherchais des outils pour créer des avatars, suite à la découverte de son potentiel à travers des vidéos YouTube. La synchronisation entre la voix et la vidéo, à la fois réaliste et divertissante, m'a persuadé de le tester.
Pour créer son avatar sur HeyGen, il faut tout d’abord se filmer en train de parler face à la caméra pendant au moins deux minutes. Les instructions données doivent être suivies avec précision : il faut utiliser une caméra de haute résolution et enregistrer dans un endroit calme et bien éclairé. Il est important de regarder directement dans la caméra, de faire des pauses entre les phrases, et d'éviter tout mouvement des mains au-dessus du torse.
Il est aussi conseillé d'éviter toutes coupures dans la vidéo, les bruits de fond, les ombres sur le visage. Le processus cherche à capturer au mieux les expressions pour un avatar expressif et naturel.
Un consentement sera requis via l'enregistrement de votre webcam et de votre microphone. Une fois donné, HeyGen créera votre avatar numérique en quelques minutes.
Votre avatar pourra ensuite être utilisé directement dans le studio de l'outil. Celui-ci peut générer la voix à partir d'un texte que vous fournirez ou cloner la voix à partir d'un fichier audio ou vidéo.
Cependant, certains ajustements ont été nécessaires. Il arrive que l'avatar exagère certains mouvements de tête ou détourne son regard, nécessitant ainsi des retouches pour assurer une continuité visuelle optimale. Sur le plan vocal, la synthèse à partir de texte produit un rendu moins naturel comparé à celui obtenu à partir d'un enregistrement audio direct.
La qualité de la synthèse vocale offerte par Heygen ne répondait pas pleinement à mes attentes, ce qui m'a encouragé à chercher d'autres solutions pour la duplication vocale. Après avoir exploré différentes options, j'ai découvert ElevenLabs, un service de synthèse vocale. Pour l'utiliser, il m'a suffi de fournir quelques extraits audio où je discutais de sujets variés, afin qu'ils puissent analyser et reproduire fidèlement le son de ma voix.
Le processus chez ElevenLabs implique l'utilisation de ces extraits pour générer une imitation numérique de ma voix, capable de verbaliser n'importe quel texte que je propose. Cette innovation simplifie grandement mes projets, en particulier dans la production de vidéos ou de tutoriels, en éliminant le besoin d'enregistrer ma voix pour chaque nouveau contenu.
ElevenLabs offre deux méthodes de génération vocale : une option instantanée, qui requiert juste un peu plus d'une minute d'échantillons vocaux, et une option plus élaborée, demandant jusqu'à un mois de développement pour un résultat impeccable.
J'ai opté pour la solution instantanée et j'ai été impressionné par la qualité du résultat : une prononciation claire, une voix naturelle et proche de la mienne.
Le petit plus, c’est que ElevenLabs s’intègre nativement à HeyGen ce qui fait qu’on peut générer des vidéos de soi avec une voix très proche de la sienne.
Yuzzit s'adresse à une clientèle diversifiée, y compris un nombre significatif de personnes parlant espagnol. Notre défi étant de créer des ressources qui puissent être compris de cette clientèle sans pour autant devoir trouver des locuteurs natifs pour les réaliser.
Dans cet esprit, nous avons envisagé d'intégrer le processus antérieur de génération de contenu, en y ajoutant un élément supplémentaire : le doublage vocal, qui sera également effectué par ElevenLabs.
Le processus est simple, on fournit une piste audio ou vidéo et l’intelligence artificielle derrière la solution analyse le fichier, traduit le discours et synthétise le texte traduit en une nouvelle piste audio qui conserve le ton et le style de voix originaux. Le résultat est une version doublée de votre vidéo qui sonne de manière naturelle et authentique.
Cependant, la création de contenu en espagnol a révélé un défi majeur : la traduction et la prononciation correctes des termes techniques spécifiques à notre domaine, tels que "RTMP". Ces mots, cruciaux pour la compréhension de nos tutoriels et contenus, ne se prêtent pas aisément à une traduction directe.
La phase finale du processus de traduction impliquait de synchroniser la vidéo avec la narration en espagnol produite. Cela nécessite simplement de revenir sur la plateforme HeyGen, d'y télécharger notre vidéo et d'y appliquer notre fichier audio.
Le logiciel ajuste la narration espagnole afin qu'elle corresponde aux mouvements des lèvres dans la vidéo. Quel en est le résultat ? Une vidéo qui donne l'impression d'avoir été initialement créée en espagnol, rendant son contenu clair et accessible à nos utilisateurs hispanophones.
Après ce test complet pour la création d’un avatar et la traduction automatique de mes vidéos, je reste très enthousiasmé par les possibilités que les IA offrent pour la création de contenu.
Dans notre cas de figure, je constate une réelle utilité de mon avatar dans mes projets. Tout particulièrement de la fonctionnalité vocale qui pourra me servir dans l’amélioration et la traduction de mes voix off et de mes vidéos tutorielles.
Cependant, malgré les résultats encourageants, les IA ne sont pas exemptes de défis et d’axes d’améliorations.
Mon premier point d’attention concerne les coûts que peuvent représenter ces outils, surtout si comme ici, s’il faut cumuler plusieurs services payants pour un seul projet, et avec des résultats encore limités.
En effet, et c’est mon second point, au-delà de la qualité qui varie suivant le niveau des projets, je suis encore mitigée sur la promesse d’une création simplifiée pour un résultat professionnel. Le workflow a impliqué l’utilisation et la synchronisation de plusieurs intelligences artificielles différentes (HeyGen et Eleven Labs), ce qui finalement rend le processus complexe et pourrait décourager certains utilisateurs.