Meta a dévoilé ce mois-ci un nouveau générateur de sons IA appelé AudioBox, qui devrait transformer la façon dont nous interagissons avec le son. Cet outil innovant permet aux utilisateurs de convertir du texte en parole, de composer de la musique et de créer des effets sonores en toute simplicité, à l’aide de simples invites textuelles. L’introduction de l’AudioBox marque une avancée significative en rendant la création de contenu audio personnalisé plus accessible à un large éventail d’utilisateurs.
Le système de création audio texte-son Audiobox de Meta est le successeur de Voicebox. Il fait progresser l’IA générative pour l’audio en unifiant les capacités de génération et d’édition pour la parole, les effets sonores (sons courts et discrets comme l’aboiement d’un chien, le klaxon d’une voiture, un coup de tonnerre, etc.) et les paysages sonores, avec une variété de mécanismes d’entrée pour maximiser la contrôlabilité pour chaque cas d’utilisation.
L’AudioBox est doté d’un grand nombre de fonctionnalités qui répondent à un large éventail de besoins en matière de génération audio. Par exemple, sa fonction de synthèse vocale permet aux utilisateurs de transformer un texte écrit en un discours réaliste, en offrant une gamme d’options vocales au choix. Les personnes intéressées par la musique peuvent utiliser AudioBox pour créer des pistes musicales sans avoir besoin de maîtriser des instruments traditionnels ou des logiciels complexes. En outre, l’outil est capable de produire des effets sonores personnalisés, ce qui peut s’avérer particulièrement utile pour les jeux, les films et d’autres projets multimédias. Les utilisateurs peuvent personnaliser les sorties audio en fonction de leurs besoins spécifiques à l’aide d’un texte intuitif ou d’invites audio.
Génération d’effets sonores à partir de textes
Meta a conçu Audiobox pour permettre aux utilisateurs de créer des sons en utilisant des invites en langage naturel pour décrire le son ou le type de discours qu’ils souhaitent créer. Par exemple, si vous souhaitez créer un nouveau son, il vous suffit d’entrer un texte comme « Une rivière qui coule et des oiseaux qui gazouillent » dans le modèle d’IA. La vidéo ci-dessous présente une vue d’ensemble et une démonstration des capacités actuelles de l’IA.
En outre, AudioBox n’est pas seulement un générateur de sons de base ; il comprend des fonctions avancées qui repoussent les limites de l’audio généré par l’IA. L’une de ces fonctions est le clonage de voix, qui permet de reproduire n’importe quelle voix à partir d’un échantillon, offrant ainsi une expérience de création audio personnalisée. L’outil peut également remodeler le son existant pour l’adapter à différents contextes et éditer ou remplacer des segments de son de manière transparente par du contenu généré par l’IA, un processus connu sous le nom d’inpainting audio.
« Audiobox démontre une contrôlabilité de pointe en matière de génération de discours et d’effets sonores. Nos propres tests montrent qu’il surpasse de manière significative les meilleurs modèles précédents (AudioLDM2, VoiceLDM et TANGO) en termes de qualité et de pertinence (fidélité à la description du texte) dans les évaluations subjectives. Audiobox surpasse Voicebox en termes de similarité de style de plus de 30 % sur une variété de styles de discours.
Disponibilité et prix
Meta met actuellement Audiobox à la disposition d’un groupe de chercheurs et d’institutions universitaires triés sur le volet et ayant fait leurs preuves dans le domaine de la recherche sur la parole, afin de contribuer à faire progresser l’état de l’art dans ce domaine de recherche. La société s’engage à garantir que l’AudioBox est utilisé de manière éthique et responsable. Elle a mis en place des mesures de protection pour éviter toute utilisation abusive et s’assurer que l’IA respecte les règles morales. Cet engagement en faveur d’une utilisation éthique est également démontré par une demande de subvention qui soutient la recherche sur l’application sûre de l’AudioBox.
Une autre caractéristique intéressante de l’AudioBox est l’AudioBox Maker, qui permet aux utilisateurs de construire des scènes audio complexes en superposant des sons et de la musique. Cela permet de créer des paysages sonores sophistiqués et immersifs qui peuvent améliorer n’importe quelle expérience audio. La démo interactive et le document de recherche Audiobox de Meta sont désormais disponibles, ce qui vous permet de tester le nouveau modèle de recherche de base pour la génération audio.
L’AudioBox est sur le point d’avoir un impact significatif sur l’industrie de la production audio. Grâce à ses fonctionnalités complètes et à son engagement en faveur d’une utilisation éthique, les créateurs de contenu, les musiciens et les développeurs peuvent s’attendre à un nouveau champ de possibilités. Dans l’attente de nouvelles informations sur l’AudioBox, notamment sur son éventuelle mise à disposition en code source ouvert et sur les résultats des recherches en cours en matière de sécurité et de responsabilité, il est clair que cet outil est appelé à devenir un atout indispensable dans le monde de la production audio.
Lire plus Guide:
- 7 outils audio IA étonnants pour améliorer et générer des sons, des voix et de la musique
- 25+ Outils d’IA gratuits pour améliorer votre productivité et vos flux de travail
- 10 fonctionnalités du générateur de vidéos OpenAI SORA AI que vous avez peut-être manquées
- Meta présente un nouvel accélérateur de formation et d’inférence pour l’IA de nouvelle génération
- Feelbelt : une expérience audio haptique à porter sur soi
- Comment modifier les sons de notification de l’iPhone dans iOS 17.2