Reconocimiento de locutores

El reconocimiento de locutores pertenece a la rama de la inteligencia artificial y consiste en la identificación automática de una persona a través de su voz. El hecho de poder distinguir un locutor de otro está relacionado mayoritariamente con las características fisiológicas y los hábitos lingüísticos de cada uno de ellos. El reconocimiento conlleva un procesado de audio que permite extraer este conjunto de rasgos inherentes al locutor y la posterior búsqueda de posibles coincidencias mediante un proceso de reconocimiento de patrones.

Verificación vs. Identificación

Los dos campos de aplicación más importantes del reconocimiento de locutores son la verificación y la identificación de hablantes. Si el locutor afirma tener una determinada identidad y el sistema debe corroborarla, el sistema está realizando verificación de locutores. Si en cambio el sistema sólo recibe características de una voz y debe determinar su identidad, por ej. dentro de un conjunto de posibles identidades, estamos en ese caso ante un sistema de identificación.

En la verificación de locutores el sistema de reconocimiento verifica si las características extraídas de la voz de un locutor se corresponden con la identidad que afirma tener el mismo. La decisión es binaria; el sistema recibe una grabación con la voz del locutor y la identidad proclamada por este y luego el sistema da como salida el éxito o fracaso de esta verificación. La verificación de locutores se utiliza típicamente en seguridad (por ej. para dar acceso a una puerta).

En un sistema de identificación el sistema suele recibir una o varias muestras de voz y las contrasta con una base de datos con voces cuyas identidades son conocidas. Luego, el sistema asigna una puntuación de semejanza a cada una de estas identidades, obteniendo puntajes más altos los de aquellas personas cuyas voces tienen mayor coincidencia con la muestra con la que se están comparando.

En aplicaciones forenses (por ej. en investigaciones policiales o evaluación de evidencias en la justicia), es común llevar a cabo primeramente un proceso de identificación para crear una lista de identidades con alta probabilidad de coincidencia. Luego, un proceso de verificación permite llegar a un resultado final, con una única identidad definida.

Arquitectura del sistema

Arquitectura de un sistema de reconocimiento de locutor

Un sistema de reconocimiento de locutor está formado por dos secciones: entrenamiento y test. A pesar de compartir una estructura similar en cuanto a los módulos que las conforman tienen una función bien diferenciada.

La sección de entrenamiento tiene la finalidad de registrar locutores mediante un micrófono para extraer sus características y guardarlas en la base de datos.
La sección de test se centra en registrar a un locutor y extraer las características para poder compararlas con las que se encuentran almacenadas en la base de datos. Finalmente, después de obtener posibles coincidencias, el sistema presenta al locutor susceptible de ser el buscado.

Adquisición de datos

La adquisición de datos es esencial tanto para la parte de entrenamiento como para la de test. Para poder introducir locutores al sistema es necesario un transductor acústico-eléctrico, ya que la voz se propaga en forma de ondas y para poder extraer características es necesario transformar la presión sonora en un señal eléctrica y así poder proceder a su digitalización.

El tipo de micrófono, la frecuencia de muestreo y la cuantización realizada en la captación del audio deberá adecuarse a la ancho de banda de la voz y sus características. Hay factores externos al locutor como la elección de los parámetros anteriores, la relación señal ruido (SNR) de las muestras grabadas o la utilización de micrófonos con diferentes curvas de respuesta frecuencial que pueden influir negativamente en el resultado.

Extracción de características

Potencia media cuadrática de audio con MPEG-7

Una vez digitalizado, el audio se procesa para extraer el listado de características elegidas, las cuales se llaman descriptores de audio. Estos descriptores contienen las características acústicas de la señal que utilizará el clasificador para compararlos con el listado almacenado en la base de datos. Las características a analizar pueden ser diversas pero se suelen utilizar los descriptores de audio de bajo nivel debido a la naturaleza de la fuente. Estos descriptores presentan un bajo nivel de abstracción y se limitan a describir características espectrales, paramétricas y temporales de la señal de audio.

Para poder asociar las características de los descriptores a los archivos de audio correspondientes se utilizan los metadatos, datos sobre datos. Uno de los standards utilizados para esta tarea es el estándar MPEG-7, el cual permite la gestión de estos metadatos, facilitando así el acceso a esta información en el momento de la búsqueda.

Clasificación

El módulo clasificador tiene acceso tanto a la parte de entrenamiento como a la de test. Este módulo hace de puente entre ambas partes encargándose de comparar los vectores de características a buscar con los vectores de los modelos de locutor que contiene la base de datos. Su tarea computacional consiste en encontrar coincidencias y como resultado extrae una serie de probabilidades de los locutores en la base de datos susceptibles de ser el buscado. La decisión puede ser diferente dependiendo de la configuración del sistema.

Sistema de reconocimiento abierto vs cerrado

Sistema cerrado

Un sistema cerrado da por supuesto que el locutor que se quiere identificar se encuentra ya almacenado en la base de datos. El locutor con más probabilidades a la salida del clasificador, que comparte más características con el locutor a buscar, será la salida resultante del sistema.

Sistema abierto

Un sistema abierto es más complejo, ya que el locutor que se quiere identificar no está necesariamente en la base de datos. El clasificador debe tener en cuenta no sólo la más alta probabilidad, sino que también debe establecer si la semejanza es suficiente para dar un positivo. Si las probabilidades de un modelo de locutor se consideran suficientes como para suponer una coincidencia se presenta al candidato como resultado de la búsqueda, en caso contrario la salida es "locutor desconocido".

Aplicaciones

El desarrollo de tecnologías encargadas de reconocer automáticamente a una persona mediante su voz ha experimentado un creciente interés en los últimos años debido a sus múltiples aplicaciones.

Campo	Ejemplos
Control de acceso	Acceso a instalaciones físicas Acceso a un ordenador
Transacciones de autenticación	Comercio electrónico Transacciones bancarias
Servicio personalizado	Aplicaciones de domótica
Gestión de audio	Indexación automática de contenidos de audio
Refuerzo de la ley	Comprobación de que se cumple la libertad condicional
Forense	Identificación de personas a través de grabaciones para validar pruebas

Farrús, Mireia (2008). «Fusing prosodic and acoustic information for speaker recognition». Thesis. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).

Identificación o autenticación

La identificación de locutor consiste en encontrar su identidad. Debido a que el locutor a buscar puede estar registrado en la base de datos o no estarlo, se suele utilizar un sistema abierto, pues en caso de no estar en la base de datos la identificación no sería posible y el locutor debería considerarse desconocido.

En el caso de la autenticación se utiliza un sistema cerrado, pues en este caso el locutor da su identidad y para verificarlo es necesario acceder a su modelo de voz guardado en la base de datos . Hay dos posibles salidas para este sistema, la correspondencia entre el locutor y quien dice ser o la no correspondencia.

Dependientes o independientes del texto

Los sistemas dependientes del texto utilizan la misma palabra o frase tanto en la parte de entrenamiento como en la de test. Estas palabras suelen ser contraseñas privadas en aplicaciones de seguridad.

Los sistemas independientes del texto no se basan en ninguna palabra o frase en concreto y no necesitan ningún tipo de cooperación por parte del locutor a buscar, pues con la voz ya es suficiente. Estos sistemas se utilizan a menudo en campos de investigación forense o judicial, para identificar a locutores o verificar alguna identidad.

Véase también

Enlaces externos

Datos: Q1145189