Full-HD Voice

Full-HD Voice, también conocido como "Full-band", es un servicio de calidad Full HD para el audio en diferentes aplicaciones multimedia. Aumenta el rango de frecuencias de las señales de audio hasta el máximo perceptible para el Sistema Auditivo Humano (SAH). Su rango de frecuencias va desde los 20 Hz hasta los 20KHz.

Antecedentes editar

Hasta ahora, existían dos tipos principales de servicios de audio para la telefonía móvil: el primer servicio fue el "Voiceband" (servicio regular de llamadas) que limitaba las señales de audio entre los 300 Hz y los 3’4 kHz, basado en el trabajo de los laboratorios Bell en los años veinte.

El 1988 la ITU (Unión Internacional de Telecomunicaciones), aprobó la estándar G.722 por el servicio de HD Voice ("Wideband") con el cual se limitaban las frecuencias desde 50 Hz a 7 kHz, este servicio se acercaba al rango de frecuencias de la voz humana (80Hz a 14KHz).

Aunque el servicio soportaba frecuencias hasta los 7 kHz, solo se utilizaba hasta los 3,4 kHz, puesto que requerían una mejora de infraestructuras telefónicas y, debido a ello, llegaba a tener menos calidad que el estándar normal.

El nuevo Full-HD Voice comprende todo el espectro audible que el oído humano puede percibir, es decir aporta cuatro veces más espectro de audio que las llamadas telefónicas regulares y dos veces más que las llamadas HD pero con una tasa de bits similar.

Evolución sobre el Full-HD Voice editar

Las primeras pruebas que se llevaron a cabo sobre la implementación de este servicio para teléfonos inteligentes (en inglés smartphones) se les atribuye al instituto de circuitos integrados (Instituto für Integrierte Schaltungen) Fraunhofer, una cadena de 66 centros repartidos por toda Alemania dedicada a la enseñanza e investigación en temas tecnológicos de compresión de audio desde hace más de 20 años, en el “Mobile World Congress” del 2012, en los cuales ya llevaban integrado el códec AAC-ELD y trabajaban sobre una red LTE hecho por el propio instituto.

El siguiente paso consistía en llevar este servicio a otros tipos de apoyos visuales, por este motivo quisieron dar el salto hacia televisiones inteligentes (SmartTVs) en el congreso de la IFA (International Fiscal Association) de Berlín del 31 de agosto hasta el 5 de septiembre de 2012 sin alterar el software AAC-ELD, implementado ya en dispositivos móviles.

A partir de estos dos hitos, el instituto fue contemplando diferentes formas por donde poder hacer funcionar este servicio. En primer lugar, lo incorporaron en las aplicaciones de voz sobre IP (VoIP) con el objetivo que el usuario destinatario pudiera recibir la misma calidad que el emisor en una comunicación en Internet, el cual lo han dejado en la librería del códec FDK de Fraunhofer (Fraunhofer FDK Codec Library) en Android desde la versión 4.1 y en iOS desde la versión 4.0.

A continuación, se hicieron diferentes pruebas en sistemas de videoconferencia por la red social por instituciones portuguesas SAPO Campus con éxito el julio de 2013 con la colaboración del proyecto europeo Vconect y con el fin de implementarlo pasados dos meses en diferentes escuelas para mostrar su eficacia. El servicio se presentaba con forma de plug-in del navegador donde se encontraban las dos cosas necesarias para hacerlo funcionar, desde herramientas para hacer fiable la transmisión de señales de audio hasta el algoritmo del propio códec AAC-ELD.

Finalmente los resultados de todas las pruebas mencionades se presentaron en el congreso IFA celebrado en Berlín, pudiendo llegar a concluir que la mayoría de personas entre 17 y 30 años eran las que más participaron, que el modo de visión en baldosa o Tiled fue lo más usado dentro del campus, que dentro de este modo los parámetros que más se usaban eran los de seguimiento (Keep Track) y el natural (LifeLike) en pantalla completa (Hoja Screen) y el que menos era el modo por silencios usado en tipo Hangout (Utilizado por gente mayor de 30 años que lo usa por videoconferencias en su trabajo).

El último paso de Fraunhofer en la investigación de futuros sistemas de calidad por móviles que funcionen en concreto sobre una red de voz sobre LTE (Cerque) y voz sobre Wifi (VoWifi) es la creación del primero códec EVS que trabaja en comunicaciones 3GPP presentado al Mobile World Congress del año 2015. Gracias a este códec se gana más eficiencia respecto al còdec anterior AAC-ELD haciendo que las llamadas sean mucho más cómodas.

Para demostrar su nueva implementación, Fraunhofer hacía una llamada desde un móvil hasta unos auriculares.

Códecs editar

El EVS es el primer códec sobre 3rd Generation Partnership Project (3GPP) con banda super ancha, capaz de codificar la voz con una tasa de bits muy baja. Además, puede codificar música o contenido mixto con una calidad equiparable a los códecs actuales, porque combina dos modas de codificación: codificación especializada en voz y codificación de música.

El códec utilizado por el EVS de voz es una variante mejorada del Algebraico Code-Excited Linear Prediction (ACELP) y utiliza una codificación de dominio frecuencial (MDCT) para el audio.

Se desarrolló conjuntamente, por algunas de las compañías más importantes en cuestión de codificación de audio y voz.

El códec fue estandarizado en septiembre de 2014 por 3GPP a partir de los siguientes puntos:

Diagrama de bloques del codificador y decodificador EVS
Mejora de la calidad y eficiencia de los servicios de voz, tanto de banda estrechada, como de banda ancha.
Mejora de calidad gracias a la implementación a los servicios de voz de banda super ancha.
Mejora de calidad de contenido mixto con música y voz.
Robustez frente a la pérdida de paquetes y retrasos de jitter.
Retrocompatibilidad con el códec AMR-WB.

Además de esto se implementaron mejoras para sistemas de comunicaciones, como por ejemplo la detección de actividad de voz, la transmisión discontinua, el generador de ruido de confort o el gestor de buffer del jitter, entre otros.

El primer códec que tenía la característica de decidir en el momento si la señal recibida era de voz o de audio combinando dos codificadores diferentes fue el USAC, pero tenía el inconveniente que el retraso era de más de 100 ms. El EVS consigue, a partir de unos algoritmos, decidir al momento qué codificador utilizar con un retraso de solo 32 ms. Esta rapidez es el gran avance del EVS.

AAC-ELD editar

El códec AAC-ELD trabaja tanto en mono, en estéreo, cómo en multicanal y está optimizado para tener un retraso muy pequeño, esencial para las comunicaciones en tiempo real. Su aplicación práctica, aparte de las conferencias, es la de transmitir música u otros tipos de ruido ambiente, puesto que este códec comprende todo el espectro audible humano. Hay que decir que este códec se utiliza básicamente sobre redes basadas en comunicaciones IP.

AAC-ELD v1 editar

La primera versión del códec AAC-ELD puede ser utilizado en tres tipos de modas de funcionamiento:

Modo AAC-ELD core: Este modo de funcionamiento puede ser utilizado en cualquier aplicación donde sus tasas de bits sean grandes. Está optimizado para tener un retraso menor que el códec AAC-LD (HD voice) gracias a una serie de filtros.
Modo AAC-ELD con SBR: Es el modo más flexible del códec AAC-ELD. Cuenta con una amplia variedad de tasas de bits disponibles (de 32 a 64 kbits/canal) con retraso constante. El LD-SBR codifica la parte más alta del espectro, mientras que el AAC-ELD core codifica la parte más baja de este. Este modo de funcionamiento es perfecto por aplicaciones que requieren una tasa de bits de entre 32-64 kbits/canal.

AAC-ELD con DUAL RATE SBR: Este modo de funcionamiento se utiliza para aplicaciones que requieran tasas de bits bajas como, por ejemplo, las emisiones en directo. Este modo puede llegar a ofrecer tasas de bits por debajo de los 24 kbits/canal, aunque introduce algo más de retraso que los dos modos anteriores. Al igual que el modo anterior, el LD-SBR codifica las frecuencias más altas, pero el AAC-ELD core codifica las frecuencias más bajas con la mitad de la frecuencia de muestreo, el resultado de esta operación es la de obtener la mejor calidad posible de audio a una tasa de bits baja.

Diagrama de bloques del codificador AAC-ELD v2

Diagrama de bloques del decodificador AAC-ELD v2

AAC-ELD v2 editar

El AAC-ELD v2, para obtener un rendimiento parecido en un canal monofónico en cuanto a bit-rate, añade una extensión paramétrica basada en Low Delay MPEG Surround (LD-MPS). Esta extensión extrae los parámetros espaciales de la señal para activar la reconstrucción de la señal original en estéreo al descodificador.

Diferencias entre los códecs editar

La principal diferencia es que la familia AAC-ELD no está preparada para habilitar el servicio Hoja-HD Voice a los operadores de las principales redes de telefonía móvil a causa de que las tasas de bits utilizadas son demasiado bajas. En cambio, con el nuevo códec de EVS dentro del 3GPP se consiguió un cambio muy significativo en la eficiencia del audio en la telefonía móvil disponible en la actualidad.

Enlaces externos editar

«Pàgina de l'Institut Fraunhofer sobre el Full-HD Voice».
«Institut Fraunhofer (Còdecs) - lloc web oficial».
«Resultats Experiments SAPOCampus». Archivado desde el original el 17 de noviembre de 2015.
«Notícies projecte VConect on apareix la noticia sobre el IFA 2012». Archivado desde el original el 17 de noviembre de 2015.
«Technical Paper».
«IEEE Spectrum».
«Xatakaon - Article sobre el servei».
«EDN - Article sobre el servei».