, Departmento de Computación Universidad de A Coruña : Recuperación de noticias en la Web con técnicas avanzadas de IR http://www.dc.fi.udc.es/ir
Contenido Quiénes somos Qué hacemos Arquitectura Tecnologías. Coruña Corpus Tool
Quiénes somos Qué hacemos Somos... Information Retrieval Lab, Laboratorio 4.2, Fac. Informática. http://www.dc.fi.udc.es/ir Expertos en recuperación de información. Pertenecemos a la Red Gallega de NLP e IR. Proyectos recientes: Recuperación de sentencias relevantes y noveles usando modelos y técnicas de IR, MEC TIN 2005-08521-C02-02, (Xunta Galicia PGIDT06PXI10501PN). Implementación y evaluación en grandes colecciones de documentos del modelo lógico de IR IR-PLBR, MCT TIC 2002-00947, (Xunta Galicia PGIDIT03PXIC10501PN).
Quiénes somos Qué hacemos Nuestros sistemas En estas jornadas pretendemos presentar los productos sobre los que estamos trabajando actualmente para la transferencia de tecnología. Nos centraremos sobre todo en: : sistema de recuperación de noticias (Reg. SW C-403-2007) The Coruña Corpus Tool: sistema de gestión y consulta de corpus textuales. Finalizaremos esta presentación comentando las diversas ĺıneas de investigación que mantenemos abiertas en el laboratorio.
IR, NewsIR,? Qué es? (I) Las noticias online son uno de los servicios más usados. Multitud de fuentes actualizándose constantemente. Uso de técnicas de IR para resolver los problemas de acceso: eficiencia en la búsqueda y correcta representación de contenidos al usuario. es un sistema de News-IR que obtiene los artículos de múltiples medios online. Proporciona capacidad de búsqueda, detección y filtrado de redundancia y generación de resúmenes. Es usado como una plataforma de I+D y basado en nuestras soluciones e estudios previos.
IR, NewsIR,? Qué es como producto? Es un producto flexible y con un diseño adaptable a las necesidades y ámbitos de los potenciales usuarios. Un servicio web que les ofrece las noticias sobre su área de interés. Desarrollado pensando en la escalabilidad del sistema. Posee un diseño por componentes que lo hace integrable en soluciones existentes fácilmente. Una solución tecnológica eficiente en el consumo de recursos y eficaz en la calidad de los resultados Una herramienta ideal para los áreas de comunicación de instituciones y corporaciones. Pensamos que puede ser adaptado para otros ámbitos: vigilancia tecnológica, búsqueda en dominios específicos.
Capturas (I) Arquitectura Tecnologías.
Capturas (y II) Arquitectura Tecnologías.
Características Arquitectura Tecnologías. Qué ofrece? Lanzamiento de crawling programable. Poĺıtica de índices incrementales. Algoritmo de extracción de artículos multifuente. Búsqueda de artículos sobre los sitios indexados. Estrategia de detección de redundancia y de agrupación de noticias. Generación de resúmenes query biased. Múltiples formatos de salida y versiones móviles: PDF, RSS, Atom,etc. Opciones de personalización como selección de fuentes.
Visión General Arquitectura Tecnologías. Principalmente MVC RELEVANT NEWS SUMMARIES QUERY USER Soccer? NOW INDEX MANAGER INCREMENTAL INDEX COMPOSITION CRAWLER (NUTCH) + INDEXER (LUCENE) WWW Basada en componentes Aplicación web NOW SUMMARIZER SUMMARY GENERATION RETRIEVAL MODEL INCREMENTAL INDEX WITH TEMPORAL WINDOW High Perfomance NOW GROUPING NEWS GROUPING BASED ON REDUNDANCY (VECTOR SPACE MODEL) NOW EXTRACTOR NEWS CONTENT EXTRACTION
Tecnologías Arquitectura Tecnologías. Productos y soluciones Lucene: un API de indexación y búsqueda, un producto de la Apache Foundation. Nutch: el web-crawler. Java EE 5: usado para el desarrollo de la aplicación web. AJAX: para mejorar la experiencia del usuario y optimizar el consumo de ancho de banda. Rome, RSS, JDOM: para los servicios de sindicación. FOP y PDF: para generar los informes de noticias.
Trabajos existentes Soluciones e investigación Soluciones comerciales : Google News, Yahoo News or MSN Newsbot. Gran capacidad de cómputo, muchas fuentes. No son productos adaptables, son para un público generalista. Clusteres representados por títulos y links a las noticias originales. No producen resúmenes, acceso incómodo a la información. Trabajos académicos limitados: NewsInEssence es un sistema para búsqueda de clusteres de noticias y generación de resúmenes de los mismos de la Michigan University. NewsBlaster un desarrollo de la Columbia University que provee resúmenes multidocumentales sobre eventos.
stración Coruña Corpus Tool
El Coruña Corpus Tool Coruña Corpus Tool
El Coruña Corpus Tool Coruña Corpus Tool
El Coruña Corpus Tool Coruña Corpus Tool Qué ofrece el CCT? Gestión de corpus lingüísticos, información y renderizado de documentos, autores. Tratamieto y validación de documentos TEI con soporte para caracteres especiales. Búsqueda intradocumental y de colección básica por términos. Generación de concordancias y posicionamiento en texto. Búsqueda por sufijos, prefijos y expresiones regulares. Búsqueda por frases y por distancia. Generación de listas de términos: tokens y types.
Líneas de investigación Además de lo expuesto trabajamos en: Temas fundamentales de IR: modelos de recuperación, crawling, indexación, etc. Evaluación en IR: colecciones, metodologías, significancia estadística, etc. Eficiencia en IR: construcción y compresión de índices, pruning estático y dinámico, procesado eficiente de consultas, etc. Clasificación de documentos: bayesiana, K-NN, SVM, etc. Multimedia IR: Video IR, Audio IR. IR distribuida.
- Podemos concluir: Nuestro sistema,, se ha convertido en una aplicación web completa para la búsqueda de noticias y generación de resúmenes de prensa, diseñada para poder ser adaptada a otros ámbitos específicos. Continuamos desarrollando. Mejoras arquitecturales para incrementar la eficiencia. Almacenamiento y minería sobre las consultas de los usuarios. Mantenemos abiertas otras lineas de I+D de las que estamos consiguiendo resultados satisfactorios como el ejemplo presentado del CCT.
, Departmento de Computación Universidad de A Coruña : Recuperación de noticias en la Web con técnicas avanzadas de IR http://www.dc.fi.udc.es/ir Santiago, 26 octubre 2007