Extracción de la información

tipo de recuperación de la información

La extracción de la información (de sus siglas en inglés IE, Information Extraction) es un tipo de recuperación de la información cuyo objetivo es extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora.

Una aplicación típica de IE es el escaneado de una serie de documentos escritos en una lengua natural y rellenar una base de datos con la información extraída. Estos textos pueden estar en forma semiestructurada o desestructurada. Estos documentos pueden ser muy variopintos desde artículos de prensa hasta informes científicos que en general están escritos en un lenguaje humano. Las tendencias actuales en relación con la IE utilizan técnicas de procesamiento de lenguaje natural que se centran en áreas muy restringidas.

El objetivo es procesar estos documentos con un software de procesamiento de lenguaje natural (NLP) para extraer información útil de ellos. Esta tarea es muy compleja ya que estos programas suelen operar con unos dominios muy restringidos. Lo que dificulta extraer la información de textos con un lenguaje poco formal o imágenes.

Por ejemplo, la Message Understanding Conference (MUC), o Conferencia para la Comprensión de Mensajes es una competición que se ha centrado en los siguientes aspectos durante los últimos años:

  • MUC-1 1987, MUC-2 1989: Mensajes para operaciones navales.
  • MUC-3 1991: Terrorismo en países latinoamericanos.
  • MUC-5 1993: Microelectrónica.
  • MUC-6 1995: Nuevos artículos a cerca de los cambios en la gerencia.
  • MUC-7 1998: Informes de lanzamiento de satélites.

Tareas típicas de la IE editar

  • Reconocimiento de nombres de entidades (NER, por sus siglas en inglés). Buscar, localizar y clasificar elementos atómicos en texto sobre categorías predefinidas como nombres de personas, organizaciones, lugares, expresiones de horas, cantidades, valores monetarios, porcentajes, etc. Empleando el conocimiento del dominio o información otras sentencias. Para llevar a cabo esta localización e identificación es necesario asignar un identificador único a la entidad extraída. Cuando no se conoce nada sobre las instancias de las entidades, se usa una técnica llamada detección de nombres de entidades. Por ejemplo si tenemos este texto: “Luis disfruta paseando en bicicleta”. La tarea de detección sacaría del texto el nombre Luis para referirlo a una persona. Que probablemente sea el sujeto en el texto.
  • Resolución de la correferencia (CR, por sus siglas en inglés).: tiene como objetivo detectar la correferencia de los vínculos entre las entidades del texto. Esta tarea está restringida a encontrar vínculos entre las entidades de nombres que se han extraído previamente. Por ejemplo Sociedad Española de Automóviles de Turismo y SEAT hacen referencia a la misma entidad. La anáfora es un tipo de correferencialidad.
  • Extracción de terminología. Identifica y extrae candidatos a términos de los textos explorados. consiste en analizar un texto para detectar los argumentos semánticos asociados con los predicados o verbos de una sentencia y así poder clasificarlos conforme a los roles específicos. Por ejemplo: Luis compró un ordenador a Juan. En este caso “Luis” representa al agente comprador y “Juan” al agente vendedor, “un ordenador” representa el objeto de la sentencia y el verbo de la frase es comprar.
  • Extracción de relaciones. Requiere la detección y clasificación de las menciones a relaciones semánticas (como el número de oficina de un cliente o la dirección de un cliente). Para saber si por ejemplo el cliente Jorge tiene como número de teléfono 94220033 y el cliente Luis tiene el número 911230001.

Véase también editar

Enlaces externos editar