Diferencia entre revisiones de «Adaptive Transform Acoustic Coding»

Contenido eliminado Contenido añadido
Drinibot (discusión · contribs.)
m Robot: Reemplazo automático de texto (-([Pp])er([íi])odo de tiempo +\1eríodo); cambios triviales
m Revertidos los cambios de Drinibot (disc.) a la última edición de TXiKiBoT
Línea 46:
 
Este bloque de longitud adaptable escoge la longitud de las ventanas de acuerdo con las características de la señal. Hay dos modos:
* 1. '''Modo corto''' (short mode): Usa ventanas de 1.45 ms en la banda de alta frecuencia y 2.9 ms en las otras.
* 2. '''Modo largo''' (long mode): Usa ventanas de 11.6 ms. Este modo normalmente se usa para proporcionar buenas resoluciones espectrales.
 
Sin embargo, el hecho de usar ventanas de longitud adaptable no hace inmune el sistema de lo que se denomina [[pre-eco]] y que resulta ser uno de los principales problemas en la mayoría de los códecs de audio con pérdidas. El '''pre-eco''' es fruto de transiciones abruptas de audio, como por ejemplo el ruido de un vaso rompiéndose, esto crea un ruido que se extiende por todas las muestras de la ventana. No obstante, si la longitud de la ventana es suficientemente pequeña, el [[enmascaramiento temporal]] puede oscurecer el ruido añadido antes y después de la transición. Los efectos del eco son más preocupantes antes de la transición ya que los efectos del enmascaramiento temporal afectan mucha más las zonas posteriores al tono que las anteriores.
 
=== ¿Cómo soluciona ATRAC este problema? ===
Para prevenir el "pre-eco" ATRAC cambia a modo corto de ventana (short mode) cuando detecta una señal de ataque (transición abrupta). Así, solo hay un pequeño segmento de ruido antes del ataque y el resto se disimula gracias al post-enmascaramiento temporal. Sin embargo, si el cambio de ventana no se llevase a cabo a causa de un error del bloque adaptativo y siguiéramos en modo largo, el enmascaramiento temporal posterior (post-enmascaramiento) no tendría los efectos deseados porque el ruido quedaría enmascarado durante un períodoperiodo de tiempo muy pequeño y bastante inferior a la longitud de la ventana.
 
=== Cuantificación espectral ===
Línea 59:
El factor de escalado se escoge de una lista fija de posibilidades y refleja la magnitud de los coeficientes espectrales de cada unidad. La longitud de palabra se determina con el algoritmo de asignación de bits.
Para cada trama de sonido (correspondiente a 512 muestras de la señal de entrada), se almacena la siguiente información:
* 1. Longitud de la ventana MDCT (corta o larga).
* 2. Longitud de palabra de cada unidad.
* 3. Factor de escala de cada unidad.
* 4. Coeficientes espectrales cuantificados.
Para garantizar la correcta reconstrucción de la señal, la información más relevante se guarda de forma redundante. Como también se guarda información sobre la cantidad de datos redundantes.
Línea 79:
 
Divide la señal en 4 partes:
* 1. Inferior a 2.75625 kHz
* 2. De 2.75625 a 5.5125 kHz
* 3. De 5.5125 a 11.025 kHz
* 4. Superior a 11.025 kHz dentro de las audiofrecuencias
 
[[Archivo:Señal_audio.PNG|center|frame|Análisis señal de audio en 4 bandas]]
Línea 98:
Presenta dos modos: LP2 y LP4
 
* 1. '''LP2''': Este modo usa una tasa de bits de 132 kbit/s obteniendo una calidad similar al MP3 codificado a la misma tasa.
 
* 2. '''LP4''': Este modo reduce la tasa de bits a la mitad de LP2 (66 kbit/s), al utilizar principios similares a la codificación [[joint stereo]] o un filtro paso bajo alrededor de 13,5 kHz.
 
Ambas técnicas permiten minimizar el efecto del pre-eco con mejores resultados que en la anterior versión.