ANA MILENA GAMBOA: ACTIVIDAD 6

TALLER

*QUE SON LAS TECNICAS DE EXTRACCION DE LA INFORMACION? La Extracción de la información (de sus siglas en inglés IE, Information Extraction) es un tipo de recuperación de la información cuyo objetivo es extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora.

Una aplicación típica de IE es el escaneado de una serie de documentos escritos en una lengua natural y rellenar una base de datos con la información extraída. Las tendencias actuales en relación con la IE utilizan técnicas de procesamiento de lenguaje natural que se centran en áreas muy restringidas. Por ejemplo, la Message Understanding Conference (MUC), o Conferencia para la Comprensión de Mensajes es una competición que se ha centrado en los siguientes aspectos durante los últimos años:

MUC-1 1987, MUC-2 1989: Mensajes para operaciones navales.
MUC-3 1991: Terrorismo en países latinoamericanos.
MUC-5 1993: Microelectrónica.
MUC-6 1995: Nuevos artículos a cerca de los cambios en la gerencia.
MUC-7 1998: Informes de lanzamiento de satélites.

Un SEI (Sistema de Extracción de Información), típicamente extrae informaciones sobre entidades, relaciones y eventos a partir de los documentos existentes en un dominio restringido.

*CUALES SON? A continuación se describen los distintos métodos utilizados para la extracción y recuperación de la información de una manera supervisada:

Modelo oculto de Markov (HMM): Es un modelo estadístico en el que se asume que el sistema a modelar es un proceso de Markov de parámetros desconocidos. El objetivo es determinar los parámetros ocultos a partir de los parámetros observables.
Árboles de decisión: Algoritmo de clasificación y regresión basado en la construcción de un árbol, en el que se parte de la raíz y a partir de los valores de la entrada se profundiza hacia los nodos hoja, eligiendo un camino u otro dependiendo de los valores de la entrada. Cada nodo hoja representa una clase de la clasificación.

Redes de cuantización vectorial (LVQ): Caso especial de una red de neuronas artificial, con más precisión, en el que se aplica un winner-take-all basado en la teoría de Hebbian.

La filosofía de trabajo de los SEI se basa en la aplicación de un conjunto de reglas construidas, tanto manual como automáticamente, para identificar las referencias a la información que nos interesa dentro de una serie de textos y proporcionar una representación simbólica de la misma. Estas reglas están basadas en aspectos del vocabulario, de la semántica y del estilo de escritura propios de cada dominio [Soderland, 1997]. Por esto la utilización de técnicas para el procesamiento del lenguaje natural y el uso de conocimiento relacionado con el dominio en que se está trabajando son de vital importancia para la construcción de un SEI.

*COMO SE APLICAN AL DESARROLLO DE SISTEMAS DE INFORMACION? Las aplicaciones de los sistemas de extracción de información es un campo muy amplio dado que en toda área profesional donde se maneje información (industrias, empresas, organismos públicos, etc.) pueden resultar muy útiles.

Los sistemas de extracción de información pueden dotar de contenido semántico toda aquella información que existe hoy en día en ficheros en formato digital. Esto significa una verdadera revolución para todas las tecnologías de la información tal y como los conocemos. Hoy por hoy la información publicada está totalmente vacía de un segundo sentido. Es decir, es el mismo usuario que utiliza la información el que la dota de sentido. Con los SEI, podemos hacer que la información cobre sentido y pueda ser extraida aquella parte de la información que nos interesa.

Por ejemplo, encontramos una aplicación de un SEI para el envío de asistencia médica. El sistema de extracción de información fue diseñado para resumir el historial médico de cada paciente, extrayendo los diagnósticos, síntomas, análisis realizados y tratamientos recibidos. Este tipo de sistemas se pueden utilizar para asistir a los médicos, o bien para las compañías de seguros, para el cálculo de reembolsos que debe dar a cada paciente asegurado.

Otro ejemplo de la utilización de sistemas de extracción de información se aplica al campo de la inspección literaria científica o técnica. Existen sistemas de EI para capturar información relevante de artículos técnicos o científicos, por ejemplo la captura de las propiedades de un producto farmacéutico.

Por último, encontramos una aplicación de extracción de información que sirve para recabar información publicada en periódicos digitales e incluso en noticias radiofónicas.

miércoles, 24 de noviembre de 2010

ACTIVIDAD 6

No hay comentarios:

Publicar un comentario