comment ça marche?

How does text to speech work?

  • Pour reproduire le son naturel de chaque langue, un narrateur enregistre une série de textes (poésie, politique, résultats sportifs, cours boursiers, etc.) qui contiennent tous les sons possibles de cette langue.
  • Les enregistrements sont ensuite découpés et organisés en une base de données acoustiques.
  • Pour reproduire des mots à partir d’un texte, le système TTS (Text To Speech/synthèse de la parole) commence par faire une analyse linguistique sophistiquée, qui transpose le texte écrit en écriture phonétique.
  • Une analyse grammaticale et syntaxique des phrases permet ensuite au système de définir comment prononcer chaque mot pour en restituer le sens. C’est ce qu’on appelle la prosodie: elle donne le rythme et l’intonation de la phrase.
  • Au bout de cette chaîne d’analyse, le système produit un flot d’information associant l’écriture phonétique au timbre et à la durée de prononciation requis.
  • La dernière étape consiste à générer le son. Ceci est fait en sélectionnant les meilleures unités stockées dans les bases acoustiques.


imprimer imprimer