Diferencia entre revisiones de «Síntesis de habla»
Contenido eliminado Contenido añadido
m Revertidos los cambios de 190.144.139.227 a la última edición de 217.127.243.146 |
|||
Línea 7:
*Su ''naturalidad'': ¿en qué medida se asemeja a la voz ''real'' de un humano?
== Visión general de la tecnología de síntesis de voz ==
Un sistema '''texto a voz''' se compone de dos partes: un '''front-end''' y un '''back-end'''. A grandes rasgos, el front-end toma como entrada texto y produce una [[representación lingüística fonética]]. El back-end toma como entrada la representación lingüística simbólica y produce una forma de onda sintetizada.
El front-end desempeña dos tareas principales. Primero, toma el texto y convierte partes problemáticas como números y abreviaturas en palabras equivalentes. Este proceso se llama a menudo ''normalización de texto'' o ''preprocesado''. Entonces asigna una [[transcripción fonética]] a cada palabra, y divide y marca el texto en varias [[unidad prosódica|unidades prosódicas]], como frases y oraciones. El proceso de asignar transcripciones fonéticas a las palabras recibe el nombre de conversión ''texto a fonema'' (TTP en inglés) o ''[[grafema]] a [[fonema]]'' (GTP en inglés). La combinación de transcripciones fonéticas e información prosódica constituye la ''representación lingüística fonética''.
La otra parte, el back-end, toma la representación lingüística simbólica y la convierte en sonido. El back-end se llama a menudo '''sintetizador'''.
== Historia ==
|