Qu'est-ce que la boîte vocale ? L'IA génératrice de parole multilingue de Meta

Méta a introduit un nouveau modèle d’IA appelé Voicebox qui peut générer de la parole dans de nombreuses langues et dialectes, et agir ‘comme une gomme pour l’édition audio‘ pour nettoyer les enregistrements qui seraient autrement gâchés par des bruits de fond ou des erreurs d’élocution. La société a tout investi dans l’IA, avec des plans pour intégrer la technologie dans son écosystème d’applications sociales. En mai, Meta a partagé une démonstration d’un modèle d’IA appelé ImageBind qui peut générer des résultats en utilisant plusieurs types de données à la fois, comme l’audio, l’imagerie et le texte.

FILM VIDÉO DU JOURFAITES DÉFILER POUR CONTINUER AVEC LE CONTENU

Voicebox est un modèle d’IA génératif pour la parole. Dans un article de blog, Meta montre comment il peut transformer des invites de texte en audio parlé dans différentes voix et styles de parole. Selon la société, il peut recevoir un court échantillon audio et faire correspondre cette voix dans ses résultats. Il est actuellement capable de lire du texte en six langues – anglais, français, allemand, espagnol, polonais et portugais – et peut prendre des invites d’une langue et les prononcer à haute voix dans une autre. Voicebox est encore au stade de la recherche, mais le PDG de Meta, Mark Zuckerberg, dit déjà que c’est « probablement le modèle générateur de parole le plus polyvalent.”

En relation: La nouvelle IA Open Source de Meta peut traduire 200 langues

À quoi pourrait servir Voicebox AI

Un diagramme montrant une entrée de texte et cinq clips audio générés par l'IA

Dans un exemple de ses capacités d’édition audio, Meta utilise Voicebox pour éditer le son d’un chien qui aboie à partir d’un échantillon de parole enregistré. L’outil ne se contente pas de supprimer le bruit de fond, mais peut régénérer les composants parlés affectés pour des résultats homogènes. Si quelqu’un trébuche sur ses mots dans un enregistrement, Voicebox peut être utilisé pour échanger une version corrigée sans nécessiter que le discours soit réenregistré. Meta dit que l’outil peut imiter le style de parole d’une personne en utilisant seulement deux secondes d’audio de référence.

« Ce type de technologie pourrait être utilisé à l’avenir pour aider les créateurs à éditer facilement des pistes audio, permettre aux personnes malvoyantes d’entendre les messages écrits d’amis dans leur voix et permettre aux gens de parler n’importe quelle langue étrangère avec leur propre voix.», note le billet de blog. Meta indique également que Voicebox pourrait être utilisé pour améliorer les voix des assistants virtuels et des PNJ de jeux vidéo (personnages non joueurs), en les aidant à paraître plus réalistes. Grâce à ses capacités de traduction, il pourrait également aider les gens à communiquer au-delà des barrières linguistiques.

Cependant, il existe des préoccupations évidentes liées à un modèle d’IA qui peut potentiellement imiter la voix d’une personne. Ainsi, bien que Meta rende souvent ses projets de recherche sur l’IA open source, il ne publie pas publiquement le code de Voicebox. Au lieu de cela, nous devrons simplement attendre et voir ce que Méta a en réserve pour cela.

Source : Méta 1, 2