INFORME FINAL PROYECTO FONDECYT REGULAR 6/3/07 6/3/07 6/3/07 6/3/2007. 1040469 3 años MERO PROYECTO DL) JOHN ATKINSON ABUTRIDY

Documentos relacionados

Programa FRIDA INFORME DE FINAL

ITBA - UPM MAGISTER EN INGENIERIA DEL SOFTWARE ANTEPROYECTO DE TESIS

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

Elementos requeridos para crearlos (ejemplo: el compilador)

Manual para evaluadores

Serie Casos de Estudio: Edición El Impacto del Desarrollo de Capacidades en la GIRH en América Latina:

Gestión y Desarrollo de Requisitos en Proyectos Software

CURSO COORDINADOR INNOVADOR

)/^ INFORME FINAL PROYECTO FONDECYT REGULAR CONTENIDO X X. Firma Investigador Responsable. 12 años. ovcrn CARLOS PIZARRO WILSON RUT

ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE

CMMI (Capability Maturity Model Integrated)

forma de entrenar a la nuerona en su aprendizaje.

PROPUESTA E IMPLEMENTACIÓN DE UN CURSO PARA ESTUDIANTES DE INFORMÁTICA CON VISTA A LA PRESENTACIÓN DE TRABAJOS CIENTÍFICOS.

3. Procedimiento administrativo para la realización de auditorías a sistemas de medición de la calidad del aire.

CAPÍTUL07 SISTEMAS DE FILOSOFÍA HÍBRIDA EN BIOMEDICINA. Alejandro Pazos, Nieves Pedreira, Ana B. Porto, María D. López-Seijo

COMPILACION BIBLIOGRAFICA PMBOK, OPM3 JHON FREDY GIRALDO. Docente: Carlos Hernán Gomez Asignatura: Auditoria de Sistemas

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

activuspaper Text Mining and BI Abstract

Usos de los Mapas Conceptuales en Educación

Ventajas del software del SIGOB para las instituciones

REGLAMENTO INTERNO DE TRABAJO DE GRADUACIÓN GRADO DE LICENCIADO EN CONTABILIDAD Y AUDITORIA

DE VIDA PARA EL DESARROLLO DE SISTEMAS

Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos

Manual para autores

Análisis tiempo de graduación y condiciones de inserción laboral estudiantes de doctorado en Chile y en el extranjero

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

CARACTERÍSTICAS DEL TRABAJO FIN DE MÁSTER

Administración de Proyectos de Software - PMI. Tema: Cierre de Proyectos. Autor: Mario Hernández

MANUAL DE SEGUIMIENTO Y EVALUACIÓN

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Guía breve para la. administración de la capacitación en las. entidades públicas. Versión abreviada del Manual para la. entidades públicas

INSTITUCIÓN UNIVERSITARIA POLITÉCNICO GRANCOLOMBIANO RECTORÍA POSGRADOS, INVESTIGACIÓN Y BIBLIOTECAS INVESTIGACIÓN, DESARROLLO E INNOVACIÓN

PLAN DE MEJORAS. Herramienta de trabajo. Agencia Nacional de Evaluación de la Calidad y Acreditación

SÍNTESIS Y PERSPECTIVAS

Experiencias de la Televisión Digital Interactiva en Colombia - ARTICA

Metodología básica de gestión de proyectos. Octubre de 2003

Cómo preguntarle a Internet? (tutorial)

Figure 7-1: Phase A: Architecture Vision

Hay que tener en cuenta que muchos aspectos el autoinforme se ve complementando con la información que aparece en la memoria anual del Título.

3. GESTIÓN DE CONFIGURACIÓN DE SOFTWARE

Plan de Seguimiento y Evaluación. CEET Centro de Estudios Económicos Tomillo

BASES ESPECÍFICAS PUESTO DE TRABAJO: GESTOR DEL PROYECTO CATAPULTA CATEGORÍA PROFESIONAL: TECNÓLOGO ÁREA DE ADSCRIPCIÓN EN PLOCAN: CIENTIFICO-TÉCNICA

Modelos de Ciclo de Vida de Desarrollo de Software en el Contexto de la Industria Colombiana de Software

-OPS/CEPIS/01.61(AIRE) Original: español Página Estructura del programa de evaluación con personal externo

SIMULACIÓN DE SISTEMAS (I. ELÉCTRICA/I. ELECTRÓNICA)

Implementando un ERP La Gestión del Cambio

Informe final de evaluación del seguimiento de la implantación de títulos oficiales

Criterios de revisión de un curso que utiliza PBL ING. y CB.

Gestión de la Configuración

INSTRODUCCION. Toda organización puede mejorar su manera de trabajar, lo cual significa un

Administración del conocimiento y aprendizaje organizacional.

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

CoNaIISI do Congreso Nacional de Ingeniería Informática / Sistemas de Información

REVISTA CIENTIFICA. 2. Deben exhibir coherencia conceptual, profundidad en el dominio de la problemática abordada.

BASES. PROYECTOS DE INNOVACIÓN CENTRO DE INNOVACIÓN EN INGENIERÍA (CII) Tercera Convocatoria

Reglamento Interno. Programa de Magíster

Tesina. Considerada también un texto recepcional, la tesina es un informe científico breve y original con

LINEAMIENTOS DE RENDICIÓN DE CUENTAS DE LA CREG

PROGRAMA DE TUTORÍAS Y ASESORÍAS

DICTAMEN DE ACREDITACIÓN N

REGLAMENTO DE CONVALIDACIONES

REDU deberán atenerse a las. Los autores que deseen colaborar en la revista siguientes normas e indicaciones:

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

PROCEDIMIENTO PARA LA GESTIÓN DE DOCUMENTOS Y EVIDENCIAS

Sistema de Administración de Documentos (SIAD)

UNIVERSIDAD NACIONAL ABIERTA VICE-RECTORADO ACADÉMICO

1.- DATOS DE LA ASIGNATURA. Nombre de la asignatura: Fundamentos de Ingeniería de Software. Ingeniería en Sistemas Computacionales.

Introducción. Metadatos

Análisis y síntesis El proceso documental Lenguajes documentales El proceso de indización El resumen documental

IMPACTO DEL DESARROLLO TECNOLOGICO EN LA AUDITORIA

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

MANUAL DEL TRABAJO FIN DE GRADO EN FISIOTERAPIA GUÍA PARA LOS TUTORES

Universidad Tecnológica de Tlaxcala Propuesta del Programa Educativo T.S.U. en Tecnologías de la Información y Comunicación Área Multimedia y

REGLAMENTO INTERNO DEL PROGRAMA: Magíster en Ciencias de la Ingeniería Informática

Doctorado en Ingeniería Informática

CRITERIOS OBLIGATORIOS PARA POSTULAR UNA REVISTA A SCIELO CHILE

Describir una metodología sistemática de análisis de los procesos organizacionales y cómo estos pueden ser apoyados por las TI.

MASTER EN DIRECCIÓN DE EMPRESAS (MBA)

Suplemento Metodológico: Análisis de Involucrados

PRODUCTIVIDAD DE PROYECTOS DE DESARROLLO DE SOFTWARE: FACTORES DETERMINANTES E INDICADORES

Acerca de esté Catálogo

CONVOCATORIA. Los artículos deben ser enviados con sus respectivos anexos, Currículo Vitae, a la siguiente dirección:

PROYECTO GESTIÓN POR PROCESOS: INFORME DE AUTOEVALUACIÓN MEDIANTE CUESTIONARIO

Guía para carga del proyecto

GUÍA PARA LA PRESENTACIÓN DE PROPUESTAS UIS INGENIUM 2015

Estándares de Seguridad

Desarrollo científico en Chile Resumen del Estudio elaborado por la Academia Chilena de Ciencias 2005

Parte I: Introducción

EXPERTOS EN DESARROLLO WEB

Guía Docente del Trabajo de Fin de Grado

Data Mining Técnicas y herramientas

RESUMEN CUADRO DE MANDO

Introducción. Enfoque de Control de CobiT Los Procesos del Modelo Mapeo de los Procesos

MARCO DE REFERENCIA SISTEMAS DE INFORMACIÓN PARA LA GESTIÓN DE TI EN EL ESTADO COLOMBIANO

INFORME Nº1 PROPUESTA METODOLÓGICA Y PLAN DE TRABAJO DESARROLLO DE UN SISTEMA INTEGRADO DE GESTIÓN PARA EL GOBIERNO REGIONAL DE ATACAMA

Buenos Aires, 02 de agosto de Carrera Nº /10

Transcripción:

1 INFORME FINAL GOBIERNO DE CHILE CONICYT FONDE(YT PROYECTO FONDECYT REGULAR 1040469 3 años MERO PROYECTO DL) 1 JOHN ATKINSON ABUTRIDY INVESTIGADOR RESPONSABLE RUT Departamento de Ingeniería Informática, Universidad de Concepción 041-2204305 DIRECCION FONO atkinson@inf.udec.cl E-mail Informe Final (en formulario) CONTENIDO (MARQUE EL CASILLERO QUE CORRESPONDA) FUE ENVIADO NO HAY ADJUNTO (FECHA) X 6/3/07 Publicaciones X 6/3/07 Resumen de Tesis de Grado X 6/3/07 Información acerca de inventos y patentes Otros (especificar) Informe Incentivo Coop. Internacional (Si corresponde) Firma Coi nvestigadores SERA ENVIADO (FECHA) X X X Firma Investigador Responsable r:<'f'echa: 6/3/2007

CONTENIDO DEL INFORME FINAL I. CUMPLIMIENTO DE LOS OBJETIVOS PLANTEADOS EN EL PROYECTO. Objetivos 1 Desarrollar un X esquema formal basado en modelos de discurso y métodos empíricos para análisis sintáctico/semántico que permitan la representación parcial y explicativa de documentos en lenguaje natural. Cumplido? Si Parcial No Fundamentar el cumplimiento parcial o incumplimiento 2 Desarrollar un o o mecanismo para la captura x de datos de entrenamiento del modelo de minería en base a la información de representación anterior, y datos estocásticos que reflejen tendencias de la información léxica, semántica y retórica de un corpus de documentos. 3 Desarrollar un modelo X o D basado en técnicas de computación evolutiva y por tanto un set de operadores genéticos adecuados al manejo textual que permitan que la evolución y creación de patrones explicativos mediante la búsqueda de hipótesis en un espacio guiado semánticamente.

4 Desarrollar estrategias x Cl O independientes del dominio que permitan emular la plausibilidad y calidad de los patrones (hipótesis) descubiertos por el modelo. 5 Desarrollar una X o o metodología que permita la evaluación humana de la efectividad del modelo evolucionario de minería textual Otro(s) aspecto(s) que Ud. considere importante(s) en la evaluación del cumplimiento de los objetivos planteados en la propuesta original o en las modificaciones autorizadas por el Consejo.

II. RESULTADOS OBTENIDOS Describa brevemente los resultados obtenidos en el proyecto en un máximo de cinco páginas, tamaño carta, espacio seguido. Para cada uno de los objetivos específicos, describa o resuma los resultados. Relacione las publicaciones y/o manuscritos enviados a publicación con los objetivos específicos. Incluya en anexos, la información de apoyo que estime pertinente y necesaria para la evaluación. Para el objetivo no. 1 (ter año) se desarrolló un esquema formal para representación parcial de documentos en lenguaje natural basado en un modelo lingüístico-computacional apoyado por estrategias estadísticas. Este esquema consistió de una definición de conocimiento a nivel de discurso validado por evaluaciones experimentales. Para esto se tomo muestras de diferentes corpus de textos científicos y técnicos electrónicos de diferentes especialidades. Fundamentalmente, se definió conocimiento parcial en tres niveles: semántico léxico, sintético y retórico. A partir de la formalización y establecimiento de estrategias para obtener ese conocimiento de textos electrónicos, se diseño, implementó y evaluó un primer prototipo de un sistema de extracción de información que es capaz de extraer información clave descrita anteriormente y de modo de representar el conocimiento básico de cada documento. El modelo y sistema de extracción de información se diseñó utilizando patrones de extracción definidos manualmente. Esto tiene como objetivo el disponer de un feedback rápido y cuantitativo de que tipo de información básica se extrae antes de llevar a cabo el proceso de descubrimiento de conocimiento. Es importante notar que como objetivo principal en esta primera etapa del proyecto, no se persigue el desarrollo del modelo de minería de textos, sino de los mecanismos formales y estrategias que permitan obtener información y conocimiento inicial que alimentará posteriormente dicho proceso de minado. El paper titulado "Semantically-dri ven Explanatory Text Mining: beyond keywords" publicado en Lecture Notes in Artificial Intelligence describe los avances logrados en el modelamiento y evaluación empírica de esta primera fase de la investigación. Aquí se muestra que el modelo en esta fase es capaz de extraer información relevante de textos en lenguaje natural para ser usada en el proceso de minería de textos, de manera efectiva y comparable al rendimiento que tendrían expertos humanos en tareas similares. Un logro adicional que permitirá evaluar las hipótesis de la investigación y que se discute en el artículo mencionado es que la formalización, modelamiento y construcción del sistema de extracción de información cuya salida alimentará el proceso posterior de descubrimiento de conocimiento, ha sido conceptualizado de forma tal que las estrategias son totalmente independiente de recursos electrónicos externos (tesauros, ontologías, WordNet). Esta capacidad contribuirá a que el producto de la investigación sea adaptable y flexible de modo de disponer de un modelo computacional de descubrimiento de conocimiento que sea robusto y trabaje en una variedad de dominios técnicos sin necesidad de realizar modificaciones estructurales a dicho modelo. 4

En la investigación preliminar discutida en el artículo, también se discuten los primeros intentos por avanzar en la definición de los criterios (métricas) que se utilizarán en la segunda fase del proyecto, en la evaluación automática de los patrones descubiertos por el modelo de minería de textos que se comenzará a desarrollar. En un primer enfoque, los artículos en cuestión establecen que la información básica extraída desde documentos para el uso en el proceso de descubrimiento posterior, será efectivamente útil y suficiente para la evaluación de los patrones que se descubren. Otro de los resultados obtenidos, es la evaluación del esquema y modelo de extracción de información planteado para su utilización parcial y contribución en otras aplicaciones de impacto tecnológico. Esto se esta desarrollando a través del trabajo de memoria de título (Ingeniería civil Informática) "Diseño e Implementación de un clasificador de textos anti-spam mediante LSA" del Sr. Julio Godoy. Este trabajo persigue validar y evaluar la utilización de conocimiento lingüístico adicional en la toma de decisiones en tareas como clasificación de textos y su eficiencia cuando se procesan grandes cantidades de textos, similarmente a sistemas de minería de texto. Por otro lado, el modelo que se desarrolla en la investigación explora características del género técnico y científico de documentos en lenguaje natural que alimentan un proceso de descubrimiento de conocimiento. En este sentido un segundo resultado del trabajo es que la información lingüística adicional, por ejemplo a nivel de semántica-léxica (tipo LSA) puede ser potencialmente extrapolable al procesamiento de textos electrónicos del tipo spam. De hecho, los documentos que fueron utilizados actualmente para entrenar al sistema anti-spam corresponden a los mismos documentos que se utilizarán en el modelo de minado de la presente investigación. Si los resultados del trabajo son satisfactorios, el impacto en la investigación será relevante considerando que el modelo, métodos desarrollados y las estrategias podrían ser extensibles al manejo de dominios variados para minado de textos, incluso ante textos de contenido tan variado como spam. La tesis de magíster en desarrollo titulada "Estudio y Modelamiento de un Shallow Parser de Textos en Lenguaje Natural utilizando Técnicas de Computación Evolutiva" del candidato Sr. Juan Matamala, representa un avance significativo en la automatización de algunas fases claves del modelo en la primera etapa de la investigación. Algunas tareas del modelo de extracción de información desarrollado y que será usado como entrada al proceso de descubrimiento de conocimiento, emplea patrones de extracción (Information Extraction Patterns) que han sido definidos manualmente con fines de prototipado rápido. Sin embargo, en desarrollos futuros, su robustez y efectividad podría no ser tan alta. Por esta razón, este trabajo modela un parser superficial adaptivo que sea capaz previo entrenamiento, de definir por sí mismo los patrones de extracción y obtener la información de interés (ej. relaciones predicativas, relaciones retóricas) directamente desde los textos, evitando la necesidad de modificar los 5

patrones manuales cada vez que existan cambios en el conocimiento lingüístico subyacente de los documentos electrónicos en lenguaje natural. Para el objetivo no. 2 y 3 (2do año), se modeló e implementó diversas técnicas de preprocesa miento y extracción de información y se propuso un nuevo esquema de Análisis Semántico Latente (LSA) estructurado el cual a diferencia de LSA clásico, considera ciertas componentes sintácticas presentes de obtener en el corpus de entrenamiento. Específicamente se diseño un modelo y prototipo basado en el lenguaje Prolog que realiza labores de preprocesamiento. Además se desarrollo un enfoque basado en cadenas de Markov capaz de establecer asociaciones entre información de discurso. La entrada al modelo de minería de texto en esta etapa de preprocesamiento entonces nos ha permitido específicamente generar los siguientes tipos de información que guia la búsqueda: Vectores Semánticos, cadenas de Markov de relaciones retóricas, relaciones predicativas, redes ba yesian os. A partir de la información de preprocesa miento y la componente de extracción de información diseñada en la etapa no. 1 del proyecto (año 2004) se desarrolló un primer prototipo de un modelo de minería de textos utilizando Algoritmos Genéticos. Para ello, se diseñó estrategias capaces de generar combinaciones iniciales válidas de buenas hipótesis a partir de la información de entrenamiento y de las asociaciones detectadas. A diferencia de otros trabajos en el área, se diseño el primer enfoque multi-objetivo para Algoritmos Genéticos en text mining. Se diseñó nuevos operadores genéticos (adecuados para manejar información proveniente de textos) y varios métodos para evaluación automática de los patrones obtenidos por el modelo. Las métricas de evaluación se modelaron siguiendo varios criterios deseable en patrones generados de un sistema de minería de datos pero que, a diferencia de otros enfoques, se han combinado y finalmente operado utilizando estrategias de optimización multi-criterio basadas en los principios de Pareto. Hasta ahora se ha propuesto métricas de evaluación para 7 criterios para la calidad de una hipótesis que va generando el modelo que incluyen: relevancia, novedad, interés, Coherencia, cohesión, cobertura y simplicidad. El paper titulado "A Domain-independent Approach to Discourse-level Knowledge Discovery from Texts" publicado en Springer Lecture Notes in Artificial Intelligence, describe los avances en las técnicas descritas, en la etapa de preprocesamiento y la concepción del primer prototipo del modelo. Además se consideran los primeros experimentos utilizando el modelo en base a algoritmos genéticos. A diferencia de otros trabajos, en este artículo también se destaca las estrategias de evaluación que hacen posible generar patrones independientes del dominio. Es decir, el modelo en su primera versión, no requiere recursos electrónicos adicionales aparte del corpus de textos propiamente tal, que en este caso ha sido extraído desde información científico/técnica del área de Agronomía. rol

Esta contribución hace posible disponer de un enfoque adaptable y flexible de modo de disponer de un modelo computacional de descubrimiento de conocimiento que sea robusto y trabaje en una variedad de dominios técnicos sin necesidad de realizar modificaciones estructurales mayores. Mayores detalles de las nuevas estrategias propuestas, de las métricas de evaluación y de los resultados preliminares del modelo son resumidos en el capítulo "Evo/ving Explanatory Novel Patterns for Semantically-based Text Mining" de Springer series on Text Mm/ng and Natural Language Processing (2006). Aquí se exponen los primeros resultados de los nuevos operadores genéticos diseñados para generar patrones explicativos y la forma en que las métricas ayudan al algoritmo genético a filtrar y orientar la búsqueda de asociaciones novedosas del punto de vista de la minería de datos. Una de las debilidades, sin embargo, en la fase de preprocesa miento del modelo es la definición manual de algunos patrones a extraer desde los documentos. Por esta razón, otro de los resultados que se espera obtener con la tesis de magíster en desarrollo "Clasificación adaptiva para la identificación de información retórica desde textos en lenguaje natural" (E/vis Aravena) es la detección automática de relaciones retóricas de los textos electrónicos del corpus, de modo de disponer de un método más robusto y aumentar la precisión de las asociaciones detectadas. En este contexto, el proceso de identificación y extracción de información a nivel de discurso puede pensarse como un proceso de "clasificación" en el cual, en base a cierto corpus de textos de entrenamiento, el modelo puede aprender a identificar determinados roles a nivel de discurso. El objetivo fue desarrollar un modelo de clasificación en base a técnicas de aprendizaje computacional y de técnicas de extracción de información, que permitan la captura de conocimiento retórico de textos en lenguaje natural en Español. Resultados preliminares de la aplicación del modelo y las métricas de evaluación indican la presencia de ciertos patrones más frecuentes que otros, y que a pesar de ello, la primera versión del modelo no los considera en forma especial. De aquí que por ejemplo, asociaciones detectadas del tipo objetivo-procedimiento poseen el mismo tratamiento que las de causa-efecto. Para apoyar al modelo en este aspecto, la tesis de magíster "Descubrimiento de Re/aciones Causa-Efecto desde Documentos en Lenguaje Natural del Área Biomédica" (Alejandro Rivas) considera la definición de criterios y un modelo prototipo de una estrategia basada en Redes Bayesianas que permita pre-filtrar relaciones causa-efecto obtenidas desde textos científicos. El modelo pretende además investigar si la utilización de ontologías tales como UMLS podrían tener algún impacto sobre la calidad de las relaciones obtenidas. Para el objetivo no. 4 y 5 (3er año) se implementó el set de estrategias previamente descritas para la evaluación de patrones descubiertos desde bases de datos textuales. Dicho desarrollo consideró cada estrategia o métrica como un módulo independiente que pudo ser evaluado por separado. Para los 7

experimentos de validación, cada métrica fue analizada respecto a prototipos simples implementados y que operaban sobre textos en lenguaje natural en "bruto" (sin etiquetaje HTML o XML). Los diferentes resultados experimentales permitieron observar las tendencias de cada una de las métricas en la evolución del algoritmo genético implementado. En general, después de varias configuraciones evaluadas, el algoritmo de aprendizaje fue ejecutado un poco más de mil generaciones, en cada una de las cuales se analizó las mejoras de los patrones descubiertos según el cómputo automático de cada una de las métricas. Una de estas evaluaciones individuales ha dado lugar al desarrollo de la tesis de magíster "Evaluación de reglas de asociación en text mm/ng utilizando análisis semántico latente" del Sr. Claudio Pérez. En este trabajo se explora la utilización de análisis semántico latente y grafos conceptuales de generalización (ej. Lattice Galois) para la evaluación del grado de interés de reglas de asociación generadas por un sistema de text mining. El objetivo fue evaluar y comparar las posibles mejoras de la evaluación semántica y conceptual de patrones versus las medidas estadísticas tradicionales de medición. Por otro lado, una vez generados todos los patrones más interesantes a través de las diversas fases del modelo, se utilizó experiencia de expertos humanos con el fin de analizar el poder predictivo del sistema implementado en este proyecto. El desarrollo del trabajo para cumplir los dos últimos objetivos del proyecto, involucró la investigación de variadas métricas de evaluación y comparación de patrones. Algunas de estas corresponden a mecanismos de alineación de que fueron utilizados experimentalmente en la extracción de respuestas desde la Web utilizando preguntas en lenguaje natural. Este tipo de tarea se caracteriza por su gran complejidad para realizar minado de textos sobre toda la información disponible en la Web que contenga respuestas directa o indirectas candidatas. Los diferentes mecanismos desarrollados, los experimentos y los resultados e implicaciones obtenidos para los sistemas de minería de textos son descritos en detalle en dos artículos publicados: "Using Svntactic Distributional Patterns for Data-Driven Answer Extraction from the Web" (Springer Lecture Notes in Artificial Intelligence, 2006) "Molecular Sequence Aiignrnent for Extracting Answers for Where-Typed Questions from Google Snippets" (Springer Lecture Notes in Artificial Intelligence, 2006) 8

III. PRODUCTOS GENERADOS POR EL PROYECTO En esta sección debe incluir todo documento o material cuyo contenido corresponda substancialmente a los objetivos del proyecto que se informa y en los que se explicite el N del proyecto FONDECYT. Aténgase a los formatos que se incluyen para cada tipo de producto generado. Sólo adjunte copia de los documentos no enviados previamente a FONDECYT. Si Ud. tiene un proyecto de Incentivo a la Cooperación Internacional, destaque con (*) las publicaciones aeneradas como producto del mismo a continuación de las aue corresponden al Recular 1. Artículos en revistas científicas nacionales o extranjeras con Comité Editorial. Título del Artículo Semantically-driven Expianatory Text Mining: Beyond keywords Nombre Completo de la Revista. Lecture Notes in Artificial Intelligence (ISI) Ref. bibliográfica Año:-2004 Vol. N 3315 Pág. 275-285 Estado de la publicación a la fecha.* Otras fuentes de finan c i a mi ento, si las hay X Publicada D En Prensa O Aceptada O Enviada Título del Artículo Nombre Completo de la Revista. A Doma n-independent Approach to Discourse-level Knowledge Discovery from Texts Springer Lecture Notes in Artificial Intelligence (ISI) Ref. bibliográfica Año:-2005 Vol. N 3533 Pág. 470-479 Estado de la publicación a la fecha.* Otras fuentes de fin a nciamiento, si las hay X Publicada El En Prensa O Aceptada Cl Enviada Título del Artículo Using Syntactic Distributional Patterns for Data-Driven Answer Extraction from the Web Nombre Completo de la Revista. Alejandro Figueroa, Springer Lecture Notes in Artificial Intelligence (ISI) Ref. bibliográfica Año: 2006_ Vol. N 4293 Pág. 985-995 ii

Estado de la publicación a la fecha.* Otras fuentes de financiamiento, si las hay nensa ublicada/en D Aceptada O Enviada O En preparación Título del Artículo Molecular Sequence Alignment for Extracting Answers for Where-Typed Questions from Google Snippets Nombre Completo de la Revista Alejandro Figueroa, Springer Lecture Notes in Artificial Intelligence (ISI) Reí bibliográfica Año: 2006_ Vol. N 4251 Pág. 1190-1197 Estado de la publicación a lublicada/en O Aceptada O Enviada O En preparación la fecha.* X ensa Otras fuentes de financiamiento, si las hay

2. Otras publicaciones/productos. Título Evolving Explanatory Novel Patterns for Semantically-based Text Mining Tipo de publicación o Monografía X Seminario/Taller/Curso producto [] Libro LIII Informe Técnico X Capítulo de Libro L Software Marque con una "X" lo que Li Mapa Patente corresponda Exposición de Arte Otro. Especificar: Editor(es) (Libros o Capítulos de Libros) Nombre de la Editorial! Organización Anne Kao Springer series on "Text Mining and Natural Language Processing Lugar y Fecha de Publicación País: Alemania Fecha: 2006 Título Minería de Texto y Procesamiento del Lenguaje Natural Tipo de publicación o LI Monografía x Seminario/Taller/Curso producto [1] Libro LI Informe Técnico Li Capítulo de Libro LI Software Marque con una "X" lo que LI Mapa Li Patente corresponda LI Exposición de Arte Otro. Especificar: Editor(es) (Libros o Capítulos de Libros) Nombre de la Editorial! Organización Conferencista Invitado: Congreso Binacional de Tecnologías Izfrmátiis: Inteligencia Artificial Aplicada a la Ingeniería, Universidad Francisco de Paula Santander Lugar y Fecha de Publicación País: Colombia Cucuta Fecha: Septiembre 2004

Título Minería de Textos y Descubrimiento de Conocimiento Tipo de publicación o E Monografía x Seminario/Taller/Curso producto E Libro E Informe Técnico Capítulo de Libro [1] Software Marque con una "X" lo que E Mapa E Patente corresponda VI Exposición de Arte Otro. Especificar: Editor(es) (Libros o Capítulos de Libros) Nombre de la Editorial! Organización Lugar y Fecha de Publicación Instituto de Computación (INCO), Facultad de Ingeniería, Universidad de la República País: Montevideo Ciudad: Uruguay Fecha: Diciembre 2004 Título Sistemas Multi-Agente Tipo de publicación o Monografía x Seminario/Taller/Curso producto Libro E Informe Técnico Capítulo de Libro LII Software Mas-que con una 'X" lo que Mapa E Patente corresponda E Exposición de Arte Otro. Especificar: Editor(es) (Libros o Capítulos de Libros) Nombre de la Editorial! Organización Lugar y Fecha de Publicación Tutorial Invitado: Jornadas Chilenas de Computación País: Chile Ciudad: Valdivia Fecha: Noviembre 2005 Título Tecnologías del Lenguaje Tipo de publicación o E Monografía X Seminario/Taller/Curso producto E Libro E Informe Técnico E Capítulo de Libro E Software Mas-que con una "X" lo que E Mapa E Patente corresponda E Exposición de Arte 12

Otro. Especificar: Editor(es) (Libros o Capítulos de Libros) Nombre de la Editorial! Organización Lugar y Fecha de Publicación Tutorial Invitado: Jornadas Chilenas de Computación País: Chile Ciudad: Anca Fecha: Noviembre 2004 Título Minería de textos y Descubrimiento de Conocimiento Tipo de publicación o EJ Monografía x Seminario/Taller/Curso producto EJ Libro LI Informe Técnico EJ Capítulo de Libro [ji] Software Marque con una X"Ioque EJ Mapa E] Patente corresponda EJ Exposición de Arte Otro. Especificar: Editor(es) (Libros o Capítulos de Libros) Nombre de la Editorial! Organización Lugar y Fecha de Publicación Conferencista Invitado, Jornadas Chilenas de Computación País: Chile Ciudad: Chillán Fecha: Noviembre 2004 Título Computación basada en Agentes Tipo de publicación o LI Monografía x Seminario/Taller/Curso producto EJ Libro E] Informe Técnico EJ Capítulo de Libro EJ Software Marque con una "X" lo que E] Mapa EJ Patente corresponda EJ Exposición de Arte Otro. Especificar: Editor(es) (Libros o Capítulos de Libros) Nombre de la Editorial/ Organización Tutorial Invitado: IX Congreso Sudamericano Internacional de Ingeniería de Sistemas e Informática 13

Lugar y Fecha de Publicación País: Perú Ciudad: Cuzco Fecha: Diciembre 2005 Título Artificial Intelligence and Intelligent Systems in Chile: past and future Tipo de publicación o EJ Monografía x Seminario/Taller/Curso producto LjJ Libro EJ Informe Técnico [_I] Capítulo de Libro EJ Software Marque con una 'X" lo que El Mapa EJ Patente corresponda EJ Exposición de Arte Otro. Especificar: Editor(es) (Libros o Capítulos de Libros) Nombre de la Editorial/ Organización Lugar y Fecha de Publicación Invited Speaker: World Computer Congress País: Chile Ciudad: Santiago Fecha: Agosto 2005 Título Introducción a la Minería de Textos Tipo de publicación o EJ Monografía x Seminario/Taller/Curso producto EJ Libro EJ Informe Técnico EJ Capítulo de Libro EJ Software Marque con una X" lo que EJ Mapa EJ Patente corresponda LI] Exposición de Arte Otro. Especificar: Editor(es) (Libros o Capítulos de Libros) Nombre de la Editorial/ Organización Lugar y Fecha de Publicación Profesor Invitado: Escuela de Ciencias Informáticas País: Argentina Ciudad: Buenos Aires Fecha: Julio 2006 Título Evolutionary Text Mining 14

Tipo de publicación o 1] Monografía x Seminario/Taller/Curso producto [ Libro n Informe Técnico [j Capítulo de Libro E] Software Marque con una "X" lo que EJ Mapa E] Patente corresponda [j] Exposición de Arte Otro. Especificar: Editor(es) (Libros o Capítulos de Libros) Nombre de la Editorial/ Organización Lugar y Fecha de Publicación Profesor Invitado: IBM Ti Watson Research País: USA Ciudad: New York Fecha: Diciembre 2006 15

3. Presentaciones a Congresos Nacionales e Internacionales. Adjunte copia del resumen o texto de la ponencia y de la tapa de/libro de Resúmenes, si no la ha enviado previamente. Título de la Ponencia Nombre del Congreso Semantically-driven Explanatory Text Mining: Beyond keywords IBERAMIA: Iberoamerian Conference on Artificial Intelligence Lugar y Fecha País: México Ciudad: Puebla Fecha: November Título de la Ponencia A Doma n-independent Approach to Discourse-level Knowledge Discovery from Texts Nombre del Congreso 18th International Conference on Industrial and Engineering Applications of Artificial Intelligence and Expert Systems, lea/ale 2005 Lugar y Fecha País: Italia Ciudad: Bar Fecha: Junio 2005 Título de la Ponencia Nombre del Congreso Using Syntactic Distributional Patterns for Data-Driven Answer Extraction from the Web Alejandro Figueroa, Mexican International Conference on Artificial Intelligence Lugar y Fecha País: México Ciudad: Cuidad de México Fecha: Noviembre 2006 Título de la Ponencia Molecular Sequence Alignment for Extracting Answers for Where-Typed Questions from Google Snippets Alejandro Figueroa, Nombre del Congreso International Confererice on Knowledge-based Intelligent Information & Engineering Systems Lugar y Fecha País: Reino Unido Ciudad: Bournemouth Fecha: Diciembre 2006 no

4. Tesis y/o Memorias en ejecución y/o terminadas en el marco del proyecto. Adjunte copia del resumen no informado anteriormente y certificación de aprobación, si corresponde. Título de la Tesis Nombre y Apellidos del/de los Alumno(s) Y Tutor Título/Grado alcanzado Institución, Facultad, Departamento Lugar y Fecha Diseño e Implementación de un Clasificador de Textos anti-spam mediante LS A julio Godoy Tutor: Ingeniero Civil Informático Universidad de Concepción/Facultad de Ingeniería/Departamento de Ingeniería Informática País: Chile Ciudad: Concepción Fecha de Inicio: 17/Agosto/2004 Fecha de Término: 2005 Título de la Tesis Nombre y Apellidos del/de los Alumno(s) Y Tutor Título/Grado alcanzado Institución, Facultad, Departamento Lugar y Fecha Estudio y Modelamiento de un Shallow Parser de Textos en Lenguaje Natural utilizando técnicas de Computación Evolutiva Juan Matamala Magíster en Ciencias de la Computación ( en proceso Universidad de Concepción/Facultad de Ingeniería/Departamento de Ingeniería Informática País: Chile Ciudad: Concepción Fecha de Inicio: 17/Agosto/2004 Fecha de Término: Título de la Tesis Nombre y Apellidos del/de los Alumno(s) Y Tutor Título/Grado alcanzado Institución, Facultad, Departamento Lugar y Fecha Descubrimiento de Relaciones Causa-Efecto desde Documentos en Lenguaje Natural del Área Biomédica Alejandro Rivas Tutor: Magíster en Ciencias de la Computación (en proceso) Universidad de Concepción/Facultad de Ingeniería/Departamento de Ingeniería Informática País: Chile Ciudad: Concepción Fecha de Inicio: 17/Agosto/2005 Fecha de Término: 17

Título de la Tesis Nombre y Apellidos del/de los Alumno(s) Y Tutor Título/Grado alcanzado Institución, Facultad, Departamento Lugar y Fecha Clasificación adaptiva para la identificación de información retórica desde textos en lenguaje natural Elvis Aravena Tutor: Magíster en Ciencias de la Computación ( en proceso Universidad de Concepción/Facultad de Ingeniería/Departamento de Ingeniería Informática País: Chile Ciudad: Concepción Fecha de Inicio: 5/agosto/2005 Fecha de Término: Título de la Tesis Nombre y Apellidos del/de los Alumno(s) Y Tutor Título/Grado alcanzado Institución, Facultad, Departamento Lugar y Fecha Evaluación de reglas de asociación en text mining utilizando análisis semántico latente Claudio Pérez Tutor: Magíster en Ciencias de la Computación ( en proceso Universidad de Concepción/Facultad de Ingeniería/Departamento de Ingeniería Informática País: Chile Ciudad: Concepción Fecha de Inicio: Diciembre/2006 Fecha de Término: 18

IV. OTROS LOGROS DEL PROYECTO. Describa, si las hay, actividades tales como: Estadías de investigación Formación de recursos humanos exceptuando lo reportado en el ítem 4. Cualquier otro logro no contemplado en los ítem anteriores y que Ud. quiera destacar Estadías de Investigación: Enero y Febrero del 2005 dos estadías de investigación. La primera se llevó a cabo en Reino Unido, en el ('entre fr Inle/ligent S ystems and TheirApplications de la University of Edinhurgh, y la segunda fue en el 1NIST-CNRS de Nancy, Francia. En Edinhurgh, el investigador realizó una conferencia en el tema de Minería de Textos, y actualizó vínculos para la realización de papers y proyectos de colaboración conjunta. El foco principal se encontrará en el desarrollo de herramientas de minería de textos para aplicaciones en hioinformática e ingeniería ontológica utilizando recursos electrónicos desarrollados por dicho centro. En Nancy, se establecieron las bases para colaboración en minería de textos y representación de conocimientos de beneficio mutuo, tanto con grupos de investigación del INRIA-LOR1A como del INIST-CNRS en la misma ciudad. Diciembre del 2006 estadía de investigación (profesor visitante) en IBM TJ Watson Research en New Cork. USA en donde el investigador dio la conferencia "Evolutionary Text Mining" y trabajó en la elaboración de futuros proyectos de colaboración. Formación de recursos humanos: Diseño y puesta en marcha de cursos de postgrado únicos en Chile. A partir del año 2004, y en forma sucesiva se iniciaron los siguientes cursos para el programa (acreditado) de Magíster en Ciencias de la Computación de la Universidad de Concepción: - "Fundamentos de Minería de Textos y el Descubrimiento de Conocimiento - "Introducción al Procesamiento Automático del Lenguaje Natural - "Introducción a la Minería de Textos". - "Principios de Sistemas Mu/ti-Agente" Es importante destacar que como resultado en la formación de postgrado con estos cursos, los actuales tesis de magíster del proyecto corresponde a estudiantes que cursaron dichas asignaturas. Curso Intensivo "Método Simbólicos y Empíricos en el Tratamiento del Lenguaje Natural", Programa de Doctorado en Lingüística, Universidad Católica de Valparaíso (2tb0 Semestre 2004). Otros: Comisión tesis doctoral "Aplicación de Técnicas de Negociación en la Arquitectura ARTIS", Patricia Maldonado, Universidad Politécnica de Valencia, España, Junio 2005. 19

Debido al impacto en la comunidad de publicaciones previas y actuales de la investigación en la temática de Minería de Textos y Procesamiento del Lenguaje Natural, el investigador principal fue nombrado revisor científico del journal ACM Cornputing Reviews, y a servido desde el 2004 como revisor de los siguientes journals: IEEE Transactions on Evolucionary Computation, Joumal of Computational Intelligence,, International Journal of hitclligent Systems, International Journal of Multi-Valued Logic and Solt ('omuting, leeetransactions on Systems, Man, and Cyhernetics. 20

V. RESUMEN (NO DEBE EXCEDER ESTE ESPACIO EN LETRA ARIAL 10) Describa en forma precisa y breve el tópico general del proyecto, sus metas y objetivos y los resultados alcanzados. Utilice un lenguaje apropiado para la comprensión del público no especialista en el tema. Esta información podrá ser difundida. Esta investigación propone un nuevo enfoque basado en técnicas de computación evolutiva y altamente guiado por información semántica para el descubrimiento de patrones interesantes y novedosos de grandes bases de datos textuales electrónicas. El modelo considera tanto el proceso de minado de patrones plausibles que relacionen conocimiento no visto previamente, como la evaluación automática de las soluciones producidas en base a una estrategia que utiliza varias métricas objetivas para evaluar automáticamente la calidad de los patrones generados. El trabajo integra varias tecnologías incluyendo tratamiento automático del lenguaje natural, análisis semántico basado en corpus, técnicas de aprendizaje automático, etc. Con el fin de evaluar la efectividad del enfoque, los diferentes resultados obtenidos fueron correlacionados con expertos humanos. El enfoque muestra promesa en su correlación con el juicio humano y el nivel predictivo lo cual permite la generación de enfoques multi-estrategia para aplicaciones en minería de textos e implicaciones para el análisis de inteligencia. La investigación se caracteriza por ser la primera en considerar tres aspectos claves en el desarrollo de modelos de minería de textos: La representación inicial de los documentos que se lleva a cabo usando tecnología empírica para procesamiento de lenguaje natural para extraer información implícita desde documentos, modelos de discurso en dominios científico/técnicos, y el uso de Latent Semantic Análisis (LSA) mejorado con información predicativa. El producto de la representación es un marco formal para expresar en forma explicativa el contenido de los documentos. Una característica clave del modelo es que a diferencia de otros enfoques, y dada su independencia de recursos externos, es que se utiliza información basada en géneros científico/técnicos, lo cual permite capturar conocimiento retórico clave común entre diversos dominios técnicos. El minado de conocimiento se lleva a cabo utilizando la información textual representada anteriormente y diseñando un método de aprendizaje evolucionario. Se modelará un nuevo tipo de Algoritmo Genético guiado semánticamente a partir de información de entrenamiento capturada desde documentos científico/técnicos. El objetivo es generar patrones que representen conocimiento novedoso y de utilidad. Un marco formal de criterios o métricas de calidad de los patrones generados de modo de lograr un proceso efectivo de minado textual, Dado la multiplicidad de objetivos de calidad (novedad, interés, utilidad, etc), se diseñó una estrategia de optimización multi-objetivo que permite evaluar individualmente las soluciones descubiertas. 21