Programa FRIDA INFORME DE FINAL Identificación del Proyecto: Título: Sistema Inteligente de Vigilancia Tecnológica sobre Patentes y Documentación Científico-Técnica utilizando técnicas de Minería de Datos con impacto en Instituciones Privadas y Públicas de América Latina Organización Universidad de Concepción, Chile Proponente Jefe de Proyecto Período Informado Dirección del Proyecto Investigadores participantes Dr. John Atkinson Mes/ año Sitio Web Octubre/2009 Dr. John Atkinson Dr. Anita Ferreira Ingenieros REUNA, Santiago No. B10 1. Contenido Índice 2. Actividades Realizadas (Resumen de los avances) Síntesis de la fundamentación, de ser necesaria. Los textos más largos se agregan en los Anexos Síntesis de la información institucional y de contexto, de ser necesaria. Los textos más largos se agregan en los Anexos 3. Objetivo general Desarrollar un sistema inteligente integrado de minería de datos textual para el análisis automático de información científico-técnica de grandes bases documentales.
4. Objetivos específicos: 1) Investigar y evaluar técnicas y modelos robustos para minería de textos sobre bases de datos textuales electrónicas 2) Diseñar e Implementar un Sistema de Minería de datos textuales 3) Implantar, evaluar y difundir una plataforma Web para vigilancia tecnológica utilizando las técnicas de minería de datos textuales. Fecha de inicio según propuesta inicial: Diciembre 2007 Fecha de inicio real del proyecto: Marzo 2008 (el atraso se debe principalmente al período de vacaciones entre Enero y Febrero) Indique únicamente los objetivos específicos que debieron cumplirse con el período de actividades del presente informe. Objetivo específico 3 Implantar una plataforma web de uso masivo para organizaciones de latinoamérica para hacer uso de facilidades de análisis de información científico-técnica a través de minado de datos. Actividades del período mes/año mes/año: Resumen de lo anterior Las tareas a desarrollar en todo este proyecto de dos años se pueden resumir en dos temas generales: - Realizar análisis inteligente de datos textuales que pueda servir para toma de decisiones en instituciones públicas. - Llevar a cabo análisis de datos a nivel de documentación técnica (ej. Patentes) para fines de vigilancia tecnológica. - Implementar prototipo de análisis disponible en la Web. En esta segunda etapa, se han desarrollado actividades para cumplir el objetivo 3, tales como las siguientes: - Se desarrollaron los prototipos para diferentes funcionalidades de la aplicación: 1. Análisis de emociones sobre opiniones de usuarios de las instituciones. 2. Análisis de información técnica de patentes/artículos científicotécnicos.
- Se implementó las diversas técnicas de minado de textos, generando aplicaciones únicas en el país de acceso público. - Se prepararon además bases de datos documentales en diferentes dominios técnicos para evaluar la potencialidad de la herramienta en diferentes áreas. - Toda esta tecnología desarrollada es única en Chile y su impacto no solo trasciende al ámbito de instituciones públicas sino a tareas del área de análisis de opiniones de usuarios de la Web y análisis de inteligencia de patentes. - Se publicó y difundió uno de los resultados del proyecto en el Workshop Nacional de Inteligencia Artificial (Noviembre 2008) con el trabajo Análisis de Emociones Sobre la Web Basado en Técnicas de Procesamiento Automático de Textos (J. González, J. Atkinson). - El Dr. Atkinson difundió el tema de este proyecto y sus alcances en la conferencia internacional: Natural Language Processing and Text Mining en el marco del Workshop on Complexity, Computing and the Humanities realizado en la University of Western Ontario, London, Canadá (Junio 2008). Estas actividades han sido desarrolladas a través de la ejecución de tres trabajos de Ingenieros Informáticos (se adjuntan documentos de las propuestas): - Sr. Diego Caro, Análisis automático de opiniones para sistemas de microblogging - Sr. Eberth Sáez, Desarrollo de un Prototipo de Análisis Conceptual de Documentos para Fines de Vigilancia Tecnológica. Los prototipos de las herramientas desarrolladas se encuentran aquí: http://demos.ia.udec.cl/sentiment http://demos.ia.udec.cl/vigilancia Avance de Actividades al mes/año (presente informe) Cuadros por actividades Actividades para el cumplimiento del Objetivo Específico Nº 3 Implementar y evaluar plataforma web de análisis inteligente y vigilancia Plazo de ejecución planificado Mes/Año Dic/2009 Plazo de ejecución realizado Mes/Año Nov/2009
5. Indicadores de Avance: Verificación de Resultados Se recomienda crear un sitio Web del Proyecto, de ser posible, a fin de acceder a Indicadores y Medios de Verificación. Los indicadores deben estar muy precisados y los medios de verificación deben ser verificables. Nº Actividad Nº Resultado Indicador 3.1 3. Reportes de trabajo de Ingenieros (formales) Medio de Verificación Documentos adjuntos 3.1 3. Publicación en eventos nacionales/internacionales. a) Evento Nacional: b) Evento Internacional 3.1 3. Plataforma de vigilancia. Plataforma de análisis de opiniones públicas http://lahuen.dcc.uchile.cl/~jcc2008/es/trabajos.html/ http://www.hispanicbaroque.c a/complexity.html http://demos.ia.udec.cl/ vigilancia http://demos.ia.udec.cl/ sentiment 6. Participación efectiva de todos los intervinientes en el proyecto. Dos ingenieros (descritos previamente) han participado en el estudio, desarrollo e implantación de prototipos en la web. La investigadora Dra. Anita Ferreira ha apoyado la preparación de corpus lingüísticos, y análisis de datos. El investigador Dr. John Atkinson ha liderado y coordinado el proyecto, preparando datos para el desarrollo, guiando los trabajos de ingenieros y coordinando la implementación/evaluación. Nuestro socio REUNA ha apoyado activamente las labores de difusión y en la etapa final, el desarrollo de interfaces de las aplicaciones desarrolladas.
7. Reuniones de Coordinación Se realizan reuniones semanales (obligatorias) con los Ingenieros del proyecto y quincenales con los investigadores para realizar el seguimiento y desarrollo de las actividades. Se ha realizado visitas a instituciones en Chile y fuera del país para recopilar bases de datos, como así también colaborar en el desarrollo de métodos de análisis de datos utilizados. 8. Actividades de Difusión Se realizaron exposiciones de los trabajos del proyecto en eventos tanto dentro como fuera del país. 9. Referencias En documentos anexos junto con las propuestas de los trabajos de los Ingenieros y los papers. 10. Anexos Fundamentación: textos completos Diseño de encuestas. Encuestas Diseño de entrevistas. Entrevistas. Descripción extensa de talleres. Memorias, fotos Modelos tecnológicos de lo que se realiza: Matriz de información Instructivos para la búsqueda de información Organización e interpretación de la información generada por la aplicación de instrumentos
Indicaciones Generales Algunos criterios para permitir el seguimiento a distancia de Proyectos En términos generales cada informe debe tener una estructura de contenido que se autoabastezca y permita ser auditado conforme a lo que se va informando cada vez (puede incorporarse la información como Anexos, en el texto debe hacerse una referencia más sintética de la misma, si esto es posible). 1. Deben existir constancias de que el trabajo ha sido realizado, aunque sea una breve referencia al contenido del Indicador / Medio de Verificación acordado. Por ejemplo, si se prometen documentos, no puede ser suficiente decir documentos producidos sino que hay que anexar el documento o referenciar la página web donde se puede ubicar. Otro ejemplo insuficiente es cuando se mencionan piezas en el siguiente estilo: informes previos presentados o documentación variada relacionada al proyecto, etc. Tiene que existir alguna evidencia de que esas actividades y esos productos existieron. Esta carencia produce la dificultad de un acceso razonable de indicios que evidencien si el trabajo se hizo o no. Deben utilizarse todos los medios disponibles para acreditar la existencia de las actividades, resultados, etc. mencionados acorde al tipo de actividad que se realiza 2. Lo mismo sucede con encuestas o entrevistas. En el cuerpo del informe debe existir algún resumen. Y en el Anexo debe incorporarse material que de cuenta del contenido del procesamiento de las encuestas y de las entrevistas. Un criterio interesante es acompañar muy breve resumen de las entrevistas, con las preguntas dirigidas a cada uno de los entrevistados, por ejemplo. Otro criterio interesante es hacer un resumen de contenidos sobre cada información estadística conseguida. Son maneras de constatar que se ha trabajado en esas direcciones. 3. Otro de los temas es que debe establecerse con mucha claridad cuáles fases han cumplido y sus actividades correspondientes. Se sugiere la utilización de las tablas de la presentación del proyecto, referenciando su cumplimiento a las mismas, de una manera visualmente inteligible. 4. Bibliografía. En el texto se debe mencionar las fuentes y las referencias bibliográficas (que irán al final). Dichas referencias deben estar completas. Cuando se menciona una fuente surgida de un sitio web, debe mencionarse la fecha en la que fue ubicada. Las reglas APA son sumamente útiles como guías de organización para la redacción de la bibliografía y el referenciamiento de la misma dentro del texto principal. 5. Cuando se realizan las entrevistas o encuestas propuestas, la cantidad y profundidad de las mismas debe ser lo suficientemente significativa como para que puedan dar cuenta del universo que se pretende relevar.