Voix intelligentes : Acapela Group Research Lab innove avec la création de voix basées sur le Deep Learning.

29 juin 2017

Découvrez comment Acapela Group crée une version synthétique de n’importe quelle voix en se basant seulement sur quelques minutes d’enregistrements de la parole.

Les réseaux de neurones ont révolutionné la vision artificielle et la reconnaissance automatique de la parole. Cette révolution de l’apprentissage automatique (machine learning) est également en train de tenir ses promesses dans le domaine de la synthèse vocale.

Chez Acapela Group, nous travaillons activement sur les DNN (Deep Neural Networks) et nous sommes très enthousiastes et très fiers de présenter ici les premiers résultats de notre recherche dans ce domaine fascinant et d’ouvrir la voie à de nouvelles possibilités pour les interfaces vocales.

Notre Laboratoire R&D a développé Acapela DNN, un moteur capable de créer une voix en utilisant un nombre limité d’enregistrements vocaux, existants ou nouveaux.

“Acapela DNN est ‘la machine parlante par excellence’. Elle bénéficie de notre expertise vocale et apprend de notre vaste base de langues et de voix pour modéliser les identités vocales et reproduire la parole dans de multiples langues. Cela va au-delà de la simple concaténation de fichiers vocaux réalisés en studio comme nous avons eu l’habitude de le faire avec la sélection d’unités. Dans le cas qui nous occupe il est question de créer un signal et une personnalité vocale en partant de rien et c’est possible dès aujourd’hui ! En une semaine, nous livrons une nouvelle voix basée sur seulement quelques minutes d’enregistrements vocaux’ précise Vincent Pagel, Directeur R&D et Linguistique d’Acapela Group.

Alors que la création de voix synthétiques était généralement basée sur une quantité importante de matériel audio, enregistré par un locuteur professionnel, dans un studio professionnel et sous la supervision d’un expert linguistique, Acapela est maintenant capable de créer une voix en se basant sur 10 à 15 minutes d’enregistrements audio de bonne qualité accompagnés de leur transcription.

Les voix peuvent être créées sur la base de quelques minutes ou quelques heures d’enregistrements vocaux, en fonction de l’utilisation prévue pour la voix créée. Dans certains cas spécifiques comme les voix de remplacement pour des patients, Acapela DNN peut travailler sur seulement quelques minutes d’enregistrements. Pour un usage professionnel, tel que créer une voix pour un jeu vidéo ou pour un système d’information voyageur, Acapela DNN aura besoin de plus d’enregistrements. Pour résumer, plus il y a de données, plus Acapela DNN peut apprendre sur les habitudes du locuteur et créer une voix qui correspond à l’original.

Les premiers résultats de voix créées en utilisant cette approche sont impressionnants.

Nous avons travaillé sur des enregistrements vocaux de personnes connues. Nous avons aussi créé des voix pour des personnes qui ne peuvent plus parler correctement suite à une opération chirurgicale ou à cause d’une maladie. Ces dernières seront les premières à parler avec des voix créées avec Acapela DNN.

Ecoutez quelques exemples :

Les fichiers vocaux ci-dessous ont été créés avec seulement quelques minutes de parole. En se basant sur les fichiers vocaux fournis, Acapela DNN a défini l’identité vocale de chacun et après entrainement a fourni des voix qui sont très proches.

John, US English

Acapela DNN US English - John

Original Voice

00:00 / 00:00
Acapela DNN US English - John

TTS

00:00 / 00:00

Stephen, US English

Acapela DNN US English - Stephen

Original Voice

00:00 / 00:00
Acapela DNN US English - Stephen

TTS

00:00 / 00:00

Utilisateur Anonyme, French

Acapela DNN French

Original Voice

00:00 / 00:00
Acapela DNN French

TTS

00:00 / 00:00

D’autres développements sont en cours et incluent entre autres des voix pour les jeux vidéo ou les robots. La création de voix basées sur Acapela DNN est sans limite. Avec cette nouvelle approche, Acapela repousse les limites de la technologie en permettant à chacun d’avoir une voix.

Matériel nécessaire : 10 à 15 minutes d’enregistrements vocaux de bonne qualité + leur transcription textuelle

Acapela DNN est entraîné au préalable avec les nombreuses voix de notre catalogue. Nous l’alimentons avec toutes les données texte et voix que nous possédons dans nos bases. Cela permet à Acapela DNN d’apprendre un nombre de choses considérable sur la voix humaine. Pour autant, il ne sait encore rien des spécificités de la voix d’une personne en particulier et va devoir écouter cette voix pendant quelque temps et s’entraîner avant de pouvoir la reproduire.

> 1ère passe de l’algorithme : Identification des paramètres de la voix cible – ‘Voice ID’- pour définir la signature acoustique (ou sonorité) du conduit vocal du locuteur.

> 2ème passe de l’algorithme : Entrainement supplémentaire de Acapela DNN pour coller à l’empreinte de la voix et à ses petites particularités (accent, habitudes de langage, etc.)

>> Création d’une nouvelle voix basée sur une quantité limitée de données audio

Dernières actualités

News

29 juin 2026

Voix IA en Arabe : redécouvrez Leila, optimisée par l’IA

News

06 mai 2026

Les voix IA Acapela prennent la route avec Trucker Path

News

24 février 2026

Préservation de la voix : Acapela Group accompagne Charles Biétry avec My-Own-Voice

News

USB key extension - My_Own-Voice by Acapela Group

29 janvier 2026

Voix intelligentes : Acapela Group Research Lab innove avec la création de voix basées sur le Deep Learning.

Ecoutez quelques exemples :

Matériel nécessaire : 10 à 15 minutes d’enregistrements vocaux de bonne qualité + leur transcription textuelle

Dernières actualités

Voix IA en Arabe : redécouvrez Leila, optimisée par l’IA

Les voix IA Acapela prennent la route avec Trucker Path

Préservation de la voix : Acapela Group accompagne Charles Biétry avec My-Own-Voice

Préservation de la voix : protéger votre voix digitale grâce à une solution USB sécurisée