hur fungerar det?

How does text to speech work?

  • För att kunna återge ett språks naturliga klang spelar en talare i en studio in en korpus av texter hämtade från olika områden (poesi, politiska nyheter, sportresultat, finansiell information o.s.v.) vilka innehåller alla de olika ljud som förekommer i det aktuella språket.
  • Inspelningarna spaltas sedan upp i mindre delar som fördelas i någon eller samtliga av följande kategorier: difoner, stavelser, morfem, ord, fraser, meningar. Dessa organiseras och sparas i en akustisk databas.
  • För att kunna återge ord utifrån en text börjar TTS-systemet med att göra en lingvistisk analys och en fonetisk transkription av de ortografiskt skrivna orden (d.v.s. texten).
  • När systemet ska läsa upp en text gör det en avancerad grammatisk och syntaktisk analys för att avgöra hur varje ord ska uttalas i den aktuella kontexten och ge rätt betydelse. Det är det som kallas prosodi: meningens rytm och betoning.
  • I slutet av den här kedjan producerar systemet en mängd information som associerar den fonetiska skriften med betoning och uttalslängd.
  • Slutligen genereras det syntetiska talet genom att de lämpligaste enheterna i ljuddatabasen väljs ut.


skriv ut skriv ut