Indexación audiovisual

La indización de contenidos audiovisuales (indización audiovisual) consiste en la generación de etiquetas descriptivas del material audiovisual que se basan en unos contenidos creados previamente. Utilizando el etiquetado de información (metadatos), esta indización permite hacer buscas de material de manera rápida y eficaz.

Introducción

editar

Actualmente, el desarrollo tecnológico ha propiciado la creación de grandes cantidades de bases de datos de tipología diversa. Los datos audiovisuales se tienen que poder indexar en las nuevas "bibliotecas digitales".

De la misma forma que en las bibliotecas tradicionales, los datos audiovisuales estarán ordenados y clasificados según diferentes criterios, como por ejemplo: tipo de información, materias, orden alfabético, etc. Este orden tendrá que mantenerse con el paso del tiempo para las futuras búsquedas que se puedan realizar. Por lo tanto, podemos entender también la indización como una forma de catalogación y clasificación.

Paralelamente al avance de la tecnología audiovisual ha acontecido un gran aumento de información de este sector. Esto ha provocado una masificación de información (lo que en el mundo de la archivística y la documentación se conoce como inflación documental) en los últimos años, y por consecuencia, cada vez es más necesaria una indización correcta del material del que se dispone.

Indización Audiovisual

editar

En los últimos años se han desarrollado una serie de técnicas que cuales permiten el etiquetaje de la información, pero para poder hacer más efectiva la descripción es necesario articular mejor la información contenida en los metadatos.

Actualmente se están investigando numerosos procesos que generan un gran número de errores. Una vez solucionados, podríamos tener grandes contenedores de información audiovisual que al ser consultados proporcionaran el material de forma rápida y eficaz. Un ejemplo de estos contenedores es el estándar MPEG-7, que mediante el uso del lenguaje XML permite añadir los metadatos a los ficheros audiovisuales.

Con esto también se intenta combatir el paso de los años en los documentos digitales. Esta información se ve afectada por el paso del tiempo porque el desarrollo de nuevas tecnologías y la aparición de nuevos programas y nuevos formatos y la sustitución del Hardware puede dejar obsoletos los programas y los formatos de los documentos y no permite el acceso de los más antiguos. Por tanto se tiene que procurar que toda la información sea accesible.

Este etiquetaje se puede realizar de diferentes maneras y puede aportar diferentes tipos de metadatos.

Formas de indización

editar

Definimos diferentes tipos de indización depenendiendo de quien la lleve a cabo: una persona, un colectivo o un programa informático.

Indización manual

editar

Es el método más sencillo però el que requiere más tiempo. Lo realiza una persona de forma manual. Ésta procesa toda la información y encuentra las características más importantes para definir el contenido y etiquetarlo manualmente partiendo de una base de datos.

Indización social

editar

Es una evolución del método de indización manual. Lo llevan a cabo diferentes personas de forma colectiva, y no de forma individual como en el caso anterior. La información que tiene que ser indexada es procesada por cualquier usuario con acceso a la base de datos y entre todos se encuentran las características más importantes y la etiquetan. La cooperación entre todos estos usuarios permite una mejor calidad de la indización.

Este método está ganando popularidad gracias a la implementación a nivel mundial de Internet en la última década y a la aparición de comunidades virtuales.

Indización automática

editar

Es el método más complicado y el más rápido en el tiempo, pero también es el menos fiable. Este método consiste en la indización de los contenidos mediante un programa informático. Esta indización se puede hacer a medida que los contenidos son registrados, o mediante un procesado de datos que utilice técnicas informáticas capaces de extraer las características diferenciadoras del contenido.

Tabla comparativa de los diferentes métodes de indización

editar
Indización Manual Indización Social Indización Automática
Complejidad Baja Mediana Alta
Inversión de tiempo Alta Mediana Baja
Fiabilidad Mediana Alta Baja

Tipos de metadatos

editar

Existen diferentes tipos de metadatos dependiendo de si estos describen el contenido de la información o de quien lo ha creado.

Descriptores de contenido audiovisual

editar

Son los más importantes, ya que hacen referencia a la información que aparece o que sucede en el material audiovisual registrado.

Depeniendo del tipo de descriptores que se tengan, se puede diferenciar entre descriptores de bajo nivel y descriptores de alto nivel.

Descriptores de contenido de bajo nivel

editar

Los descriptores de contenido de bajo nivel hacen referencia a la información más básica del material audiovisual. Esta información puede ser de características visuales (color, textura, forma, movimiento...) o sonoras (ruido, música, voz humana...).

Se establece como categoría de bajo nivel porque extrae del material las características más básicas. Además, se considera que lo puede hacer un programa informático diseñado para esta tarea sin cometer demasiados errores.

Actualmente, estos descriptores están programados de modo que funcionen de manera eficiente y con un alto grado de fiabilidad.

Descriptores de contenido de alto nivel

editar

Los descriptores de contenido de alto nivel son los más importantes a la hora de indexar, ya que son los que describen directamente el contenido (acción, tiempo, espacio...).

Son considerados de categoría de alto nivel porque requieren una inteligencia humana para ser desarrollados correctamente.

Actualmente no existe ningún programa informático capaz de hacer una indización de contenido audiovisual de alto nivel, ya que requeriría una programación demasiado complicada, y por este motivo estas tareas se encargan a personas. De todos modos, se está investigando para conseguir descriptores de alto nivel eficientes y con poca probabilidad de errores. Por ejemplo, una de las ideas sobre las que se investiga es la obtención de etiquetaje de alto nivel a partir de descriptores de bajo nivel.

En Internet existen diferentes comunidades donde se realiza esta indización. Un ejemplo muy claro sería el de YouTube, un portal donde la gente puede publicar material audiovisual. En esta comunidad son los propios usuarios que proporcionan el material los que adjudican las etiquetas de información que facilitan la búsqueda de contenido audiovisual.

Descriptores externos al contenido

editar

No son tan importantes a priori. Son los que informan sobre el autor del material audiovisual, la fecha de creación y de incorporación a la base de datos, el tipo de software utilitzado para su creación, su tamaño, etc.

Aplicaciones y futuro de la indización

editar

Actualmente, con la creciente demanda de contenidos multimedia, la indización está ganando popularidad. Este fenómeno, en buena parte, se debe a Internet y a su uso cotidiano. La descarga de grandes cantidades de información a través de la red y la necesidad de almacenarla y catalogarla para poder acceder fácilmente, han puesto de manifiesto la importancia de la gestión de contenidos.

Con la entrada de la nueva televisión digital e interactiva, se dispone de una mayor cantidad de canales, y por tanto también de contenidos. Llegados a este punto es necesario un método para seleccionar lo que se quiere visualizar. Este método debe ser capaz de reconocer el contenido de cada canal en cada momento, convirtiendo la indización más en una necesidad que en una posibilidad.

Dentro de poco, en la era digital, la indización de información se utilitzará en los contenidos inteligentes, en la personalización y en la automatización. Actualmente el proyecto i3media trabaja en la búsqueda de nuevas tecnologías que lo hagan posible.

Véase también

editar

Enlaces externos

editar

• Multimedia Content Analysis Using both Audio and Video Clues (en inglés)

• i3media Archivado el 3 de agosto de 2011 en Wayback Machine.