Revisión del 16:32 7 may 2009 editar 190.144.139.227 (discusión) →‎Visión general de la tecnología de síntesis de voz ← Ir a diferencia anterior		Revisión del 16:33 7 may 2009 editar deshacer Isha (discusión · contribs.) 50 915 ediciones m Revertidos los cambios de 190.144.139.227 a la última edición de 217.127.243.146 Ir a siguiente diferencia →
Línea 7: *Su ''naturalidad'': ¿en qué medida se asemeja a la voz ''real'' de un humano? == Visión general de la tecnología de síntesis de voz == ~~el colegio champagnat es un asco~~ Un sistema '''texto a voz''' se compone de dos partes: un '''front-end''' y un '''back-end'''. A grandes rasgos, el front-end toma como entrada texto y produce una [[representación lingüística fonética]]. El back-end toma como entrada la representación lingüística simbólica y produce una forma de onda sintetizada. El front-end desempeña dos tareas principales. Primero, toma el texto y convierte partes problemáticas como números y abreviaturas en palabras equivalentes. Este proceso se llama a menudo ''normalización de texto'' o ''preprocesado''. Entonces asigna una [[transcripción fonética]] a cada palabra, y divide y marca el texto en varias [[unidad prosódica\|unidades prosódicas]], como frases y oraciones. El proceso de asignar transcripciones fonéticas a las palabras recibe el nombre de conversión ''texto a fonema'' (TTP en inglés) o ''[[grafema]] a [[fonema]]'' (GTP en inglés). La combinación de transcripciones fonéticas e información prosódica constituye la ''representación lingüística fonética''. La otra parte, el back-end, toma la representación lingüística simbólica y la convierte en sonido. El back-end se llama a menudo '''sintetizador'''. == Historia ==

Diferencia entre revisiones de «Síntesis de habla»