TALLER
*QUE SON LAS TECNICAS DE EXTRACCION DE LA INFORMACION? La Extracción de la información (de sus siglas en inglés IE, Information Extraction) es un tipo de recuperación de la información cuyo objetivo es extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora.Una aplicación típica de IE es el escaneado de una serie de documentos escritos en una lengua natural y rellenar una base de datos con la información extraída. Las tendencias actuales en relación con la IE utilizan técnicas de procesamiento de lenguaje natural que se centran en áreas muy restringidas. Por ejemplo, la Message Understanding Conference (MUC), o Conferencia para la Comprensión de Mensajes es una competición que se ha centrado en los siguientes aspectos durante los últimos años:
- MUC-1 1987, MUC-2 1989: Mensajes para operaciones navales.
- MUC-3 1991: Terrorismo en países latinoamericanos.
- MUC-5 1993: Microelectrónica.
- MUC-6 1995: Nuevos artículos a cerca de los cambios en la gerencia.
- MUC-7 1998: Informes de lanzamiento de satélites.
Un SEI (Sistema de Extracción de Información), típicamente extrae informaciones sobre entidades, relaciones y eventos a partir de los documentos existentes en un dominio restringido.
- Modelo oculto de Markov (HMM): Es un modelo estadístico en el que se asume que el sistema a modelar es un proceso de Markov de parámetros desconocidos. El objetivo es determinar los parámetros ocultos a partir de los parámetros observables.
- Árboles de decisión: Algoritmo de clasificación y regresión basado en la construcción de un árbol, en el que se parte de la raíz y a partir de los valores de la entrada se profundiza hacia los nodos hoja, eligiendo un camino u otro dependiendo de los valores de la entrada. Cada nodo hoja representa una clase de la clasificación.
Redes de cuantización vectorial (LVQ): Caso especial de una red de neuronas artificial, con más precisión, en el que se aplica un winner-take-all basado en la teoría de Hebbian.
La filosofía de trabajo de los SEI se basa en la aplicación de un conjunto de reglas construidas, tanto manual como automáticamente, para identificar las referencias a la información que nos interesa dentro de una serie de textos y proporcionar una representación simbólica de la misma. Estas reglas están basadas en aspectos del vocabulario, de la semántica y del estilo de escritura propios de cada dominio [Soderland, 1997]. Por esto la utilización de técnicas para el procesamiento del lenguaje natural y el uso de conocimiento relacionado con el dominio en que se está trabajando son de vital importancia para la construcción de un SEI.
Los sistemas de extracción de información pueden dotar de contenido semántico toda aquella información que existe hoy en día en ficheros en formato digital. Esto significa una verdadera revolución para todas las tecnologías de la información tal y como los conocemos. Hoy por hoy la información publicada está totalmente vacía de un segundo sentido. Es decir, es el mismo usuario que utiliza la información el que la dota de sentido. Con los SEI, podemos hacer que la información cobre sentido y pueda ser extraida aquella parte de la información que nos interesa.
Por ejemplo, encontramos una aplicación de un SEI para el envío de asistencia médica. El sistema de extracción de información fue diseñado para resumir el historial médico de cada paciente, extrayendo los diagnósticos, síntomas, análisis realizados y tratamientos recibidos. Este tipo de sistemas se pueden utilizar para asistir a los médicos, o bien para las compañías de seguros, para el cálculo de reembolsos que debe dar a cada paciente asegurado.
Otro ejemplo de la utilización de sistemas de extracción de información se aplica al campo de la inspección literaria científica o técnica. Existen sistemas de EI para capturar información relevante de artículos técnicos o científicos, por ejemplo la captura de las propiedades de un producto farmacéutico.
Por último, encontramos una aplicación de extracción de información que sirve para recabar información publicada en periódicos digitales e incluso en noticias radiofónicas.
No hay comentarios:
Publicar un comentario