Diferencia entre revisiones de «Síntesis de habla»

Contenido eliminado Contenido añadido
Isha (discusión · contribs.)
m Revertidos los cambios de 190.144.139.227 a la última edición de 217.127.243.146
Línea 7:
*Su ''naturalidad'': ¿en qué medida se asemeja a la voz ''real'' de un humano?
 
== Visión general de la tecnología de síntesis de voz ==
el colegio champagnat es un asco
Un sistema '''texto a voz''' se compone de dos partes: un '''front-end''' y un '''back-end'''. A grandes rasgos, el front-end toma como entrada texto y produce una [[representación lingüística fonética]]. El back-end toma como entrada la representación lingüística simbólica y produce una forma de onda sintetizada.
 
El front-end desempeña dos tareas principales. Primero, toma el texto y convierte partes problemáticas como números y abreviaturas en palabras equivalentes. Este proceso se llama a menudo ''normalización de texto'' o ''preprocesado''. Entonces asigna una [[transcripción fonética]] a cada palabra, y divide y marca el texto en varias [[unidad prosódica|unidades prosódicas]], como frases y oraciones. El proceso de asignar transcripciones fonéticas a las palabras recibe el nombre de conversión ''texto a fonema'' (TTP en inglés) o ''[[grafema]] a [[fonema]]'' (GTP en inglés). La combinación de transcripciones fonéticas e información prosódica constituye la ''representación lingüística fonética''.
 
La otra parte, el back-end, toma la representación lingüística simbólica y la convierte en sonido. El back-end se llama a menudo '''sintetizador'''.
 
== Historia ==