MetaVoice, une startup, a lancé un nouveau modèle de clonage vocal et de synthèse vocale appelé MetaVoice 1B. Ce modèle se distingue par le fait qu’il est disponible en code source ouvert sous licence Apache, ce qui permet une expérimentation et une modification à grande échelle. Le modèle est construit sur une base solide, comprenant 1,2 milliard de paramètres et entraîné sur un corpus significatif de 100 000 heures de données vocales.
Il est doté de capacités de clonage zéro pour les accents américains et britanniques en utilisant seulement 30 secondes d’audio de référence, et les futures mises à jour devraient permettre un réglage fin pour le clonage de voix à travers différents accents et langues. Le modèle met également l’accent sur la capacité à transmettre un discours émotionnel sans générer de mots hallucinés, un problème observé dans certains autres modèles.
L’architecture de MetaVoice 1B comprend des transformateurs causaux et non causaux, des processus de diffusion multibande et un réseau de filtres profonds pour affiner la sortie. Malgré quelques problèmes de stabilité de la démo, le modèle est disponible pour être testé via un dépôt GitHub et un cahier Colab.
Clonage vocal par IA
L’ère numérique a donné lieu à une pléthore d’avancées, mais peu d’entre elles sont aussi fascinantes que le développement de voix synthétiques presque impossibles à distinguer de celles des humains. La dernière percée dans ce domaine a été réalisée par MetaVoice, une équipe d’innovateurs qui a dévoilé MetaVoice 1B, une technologie de pointe de synthèse vocale et de clonage de la voix. Ce nouveau modèle n’est pas seulement un pas en avant dans la synthèse vocale, c’est un bond en avant qui nous rapproche d’un avenir où les voix numériques seront aussi riches et authentiques que celles des humains.
MetaVoice 1B se distingue par son cadre impressionnant, doté de 1,2 milliard de paramètres qui lui permettent de produire des voix très nuancées et réalistes. La technologie a été affinée grâce à un entraînement sur un vaste ensemble de données vocales, qui s’étend sur plus de 100 000 heures. Ce vaste ensemble de données permet à MetaVoice 1B de capturer un large éventail de subtilités vocales. L’une de ses caractéristiques les plus remarquables est sa capacité à cloner des voix avec des accents américains et britanniques avec précision, en ne nécessitant qu’un échantillon audio de 30 secondes. Cette capacité de clonage à zéro coup démontre la précision du modèle et l’efficacité de sa conception.
MetaVoice-1B est un modèle de base à 1,2 milliard de paramètres pour la synthèse vocale. Il a été conçu en fonction des priorités suivantes
- Rythme et tonalité émotionnels de la parole en anglais.
- Prise en charge du clonage de la voix avec réglage fin.
- Nous avons obtenu de bons résultats avec des données d’entraînement d’une minute seulement pour les locuteurs indiens.
- Clonage zéro pour les voix américaines et britanniques, avec des données audio de référence de 30 secondes.
- Prise en charge de la synthèse de longue durée.
Création de voix synthétiques à l’aide de l’intelligence artificielle
Ce qui distingue MetaVoice 1B de ses prédécesseurs est sa capacité à insuffler de l’émotion dans la parole. Cette intelligence émotionnelle apporte un nouveau niveau de profondeur et d’authenticité aux voix synthétisées, rendant les interactions avec l’IA plus naturelles et engageantes. Le modèle vise également à minimiser l’apparition de mots hallucinés, qui sont des mots absurdes ou déplacés générés par les systèmes TTS, améliorant ainsi la clarté et la fiabilité du résultat.
Les fondations techniques de MetaVoice 1B sont robustes, avec une combinaison de transformateurs causaux et non causaux, une diffusion multibande et un réseau de filtres profonds. Ces composants sont méticuleusement intégrés pour produire un son net et remarquablement fidèle à la réalité. Cette synergie de technologies établit une nouvelle norme pour les systèmes de synthèse vocale, repoussant les limites de ce qui est possible en matière de synthèse vocale.
MetaVoice 1B n’est pas seulement un outil pour les créateurs, c’est une ressource pour la communauté. Le modèle est disponible sous une licence Apache à code source ouvert, ce qui permet aux passionnés et aux professionnels de l’explorer et de le développer. Il peut être trouvé sur GitHub et est également fourni par le biais d’un cahier Colab, offrant un moyen pratique pour les utilisateurs d’expérimenter ses capacités et de contribuer à son développement continu.
L’équipe à l’origine de MetaVoice se consacre à l’amélioration continue du modèle. Les prochaines mises à jour devraient étendre les capacités de réglage fin du modèle, permettant un clonage vocal plus personnalisé. Ces améliorations incluront probablement la prise en charge d’une plus grande variété d’accents et de langues, ce qui rendra la technologie encore plus polyvalente et inclusive.
MetaVoice 1B est une plateforme qui favorise la créativité et la collaboration. Elle invite les développeurs, les chercheurs et les passionnés de technologie à se plonger dans l’avenir de la synthèse vocale. Avec MetaVoice 1B, les possibilités de créer et d’affiner des voix numériques sont vastes, ouvrant de nouvelles voies d’interaction et d’expression dans le domaine numérique. Que vous cherchiez à développer des applications, à mener des recherches ou simplement à satisfaire votre curiosité sur l’avenir de la technologie vocale, MetaVoice 1B vous offre une opportunité passionnante d’être à l’avant-garde de ce paysage en pleine évolution.
Lire plus Guide:
- Comment cloner votre voix à l’aide de moteurs vocaux d’IA
- Offres : Jott Pro AI Text & Speech Toolkit Lifetime License, économisez 80%.
- Comment affiner l’IA vocale Whisper d’OpenAI pour les transcriptions
- Doublage vidéo AI et traduction audio avec ElevenLabs
- Comment cloner votre voix à l’aide de l’IA et pourquoi vous le feriez ?
- Comment utiliser ChatGPT Voice sur iPhone et Android