NowOnWeb: Recuperación de noticias en la Web con técnicas avanzadas de IR



Documentos relacionados
Colección de Tesis Digitales Universidad de las Américas Puebla. Morales Salcedo, Raúl

catálogo de servicios

Toda nuestra Experiencia a tu alcance

Gestión de Datos en Sistemas de Información Web Programación Distribuida y en Tiempo Real. csv:

SEO: Optimización en motores de búsqueda.

1) Menciona al menos herramientas de búsqueda en internet

Tecnología Educativa Herramientas informáticas

Centralizador de contenidos multimedia basados en RSS

Documento de Arquitectura de Software. KunaySoft. Autores: Juan Camilo González Vargas. Javier Leonardo Parra Laguna

Propuesta de proyecto de investigación: desarrollo de un rastreador web capaz de aprender a identificar la información más relevante

PRESENTACIÓN DE COMPAÑÍA.

Formación en TIC del profesorado universitario en España

IFCD05 Desarrollo de Aplicaciones Móviles Java ME

Curso Online en Redes Sociales 3.0

Requerimientos básicos: Conocimientos básicos de medios de transmisión, redes de datos, telefonía, red telefónica publica, medios de matemáticas.

Metodología y Servicios de Vigilancia Tecnológica en Galicia

Capítulo 4: Requerimientos.

Contenidos multimedia para la formación profesional. Autora: Isabel Mª Medina López. Resumen:

Contenido. Curso: Cómo vender por Internet

PRESENTACIÓN CORPORATIVA

Aprende a programar en Java

IFCD07 Desarrollo de Aplicaciones Web Java: Webservices con J2EE

Administración de Servicios de Transferencia de Archivos y Contenidos Multimedia (Online)

MODULO 4: Uso y desarrollo de aplicaciones educativas de la web 2.0 UNIDAD 3: Suites Online ACTIVIDAD 6. Tabla comparativa

Manual básico de identidad corporativa

Escuela de Negocios de Telefónica Learning Services

IFCD04 Desarrollo de Aplicaciones Java: componentes web y aplicaciones de base de datos (JSP y JPA)

LAS NUEVAS TECNOLOGÍAS DE LA INFORMACIÓN Y DE LA COMUNICACIÓN (TIC) EN LA EDUCACIÓN.

Portaflio de Productos

Web+Plus. Nuestro Servicio

Gestión Documental con Microsoft Office SharePoint Server 2007 (MOSS) Ignacio López - Ingeniero en Informática Software Architect en Alhambra-Eidos

un nuevo concepto de información corporativa

INFORMACIÓN ACADÉMICO PROFESIONAL INGENIERÍA DE SOFTWARE CURSO

Análisis de tu sitio web: posicionamiento y marketing online

CURSOS DEXEUS Ecografía del útero y su patología. (Tercer curso online) GUÍA DIDÁCTICA. Del 7 de octubre al 21 de noviembre

Tecnología para el Community Management

FORMACIÓN UNIVERSITARIA DEMANDAS EMPRESARIALES

IFCD07 Desarrollo de Aplicaciones Web Java: Webservices con J2EE

PLATAFORMA DE INTERCAMBIO Y CONSULTA DE INFORMACIÓN SOBRE ADAPTACIÓN AL CAMBIO CLIMÁTICO. Valsaín, Segovia 31 de octubre de 2014

Técnico en Java EE Struts 2: Desarrollo de una Aplicación Web

Nueva generación de materiales. Sincronismo video/web

Temática: Experiencias de incorporación de las nuevas tecnologías en la formación del profesorado. Modalidad: Presencial

CAPITULO I INTRODUCCION. Conforme la informática avanza, las imágenes se han convertido en un área muy

Siendo pioneros en la formación e-learning Iniciativas Empresariales y CursosOnlineLatinoamérica, junto a su coach y tutores, presentan este curso.

CITAS SOBRE LA IMPORTANCIA DE LA COMUNICACIÓN EN INGENIERÍA

Plataforma de Formación Online con Moodle!

Sistema de gestión de calidad en bibliotecas: implantación y mejora

Caso práctico de Cuadro de Mando con Tablas Dinámicas

Qué es lo que su empresa necesita? Productividad? Organización? Eficiencia? Ahorro? Control? Seguridad?

FICHA PÚBLICA DEL PROYECTO WINTER FORENSICS

CENTRO PANAMERICANO DE ESTUDIOS SUPERIORES

Máster Universitario en Ingeniería Informática

Solinsoft S.A.S. Portafolio de servicios

Actualmente, las Nuevas Tecnologías de la Información y Comunicación han

MÁSTER TÍTULO PROPIO EN SISTEMAS DE INFORMACIÓN GEOGRÁFICA CON ARCGIS.

FP Grado Medio Cocina y Gastronomía. La mejor formación al mejor precio! Más información en: agorastur.es

La Charca. Soluciones para Pymes

SIGAN 1.0 SISTEMA DE INFORMACIÓN DE GESTIÓN ADMINISTRATIVA DE NÓMINA

LA WEB 2.0 Y SU APLICACION PROFESIONAL (parte I)

Técnico en Prevención de Riesgos Laborales en Empresas de Perfumería y Cosmética

TITULACIÓN DE FORMACIÓN CONTINUA BONIFICADA EXPEDIDA POR EL INSTITUTO EUROPEO DE ESTUDIOS EMPRESARIALES

Elementos clave de un ambiente universitario virtual Abstracto

PRESUPUESTO DE DESARROLLO Y MANTENIMIENTO DE PAGINA WEB DE COMERCIO ELECTRONICO

Curso Online en Claves de Éxito para tu Estrategia Móvil

Posicionamiento internacional

social e-commerce for deco lovers

Orientaciones para documentar experiencias y proyectos innovadores 1

Interfaces de Usuario Inteligentes:

Vicerrectorado de Ordenación Académica, Innovación Docente y Profesorado Secretariado de Innovación Docente

Oficina de Planeamiento y Presupuesto (OPP) División Cooperación Internacional. Base Beca. Ofrecimiento N : Curso: OPORTUNIDADES DE BECAS OEA - UNIR

TUTORIAL. Edición de contenido y creación de entradas y páginas Wordpress

SOLUCIONES DE MEDICIÓN 3D PARA EDUCACION

MF0497_3 Administración de Servicios de Transferencia de Archivos y Contenidos Multimedia

Oferta tecnológica: Auditoría de rendimiento en Redes IP

Gestión Bolsa de Empleo

Producción de documentos digitales con Acrobat 9

Curso Universitario de SEO + 4 Créditos ECTS

CARACTERÍSTICAS DEL ENTORNO MULTIMEDIA Y TELEMÁTICO PRODUCIDO

NAV16: Curso de Almacenes en Microsoft Dynamics NAV

Curso Universitario de Inteligencia Artificial para Desarrolladores + 4 Créditos ECTS

Acceso y participación de las PyME en la Normalización

TECNOLOGÍA EDUCATIVA. A continuación, tres posibilidades de producto educativo para escoger tu propio camino con la seguridad del equipo de Entornos.

Guía basada en conceptos de usabilidad web

Catálogo de Productos

CURSO SUPERIOR DE COMMUNITY MANAGER

PROYECTO PROPIO Ciclo Formativo Grado Superior en Desarrollo de Aplicaciones Multiplataforma y Programación de Juegos para Dispositivos Móviles

La Competencia Digital. Creación de Contenidos Didácticos en Internet

IFCD06 Desarrollo de Aplicaciones Web con PHP y MySQL

Hemeroteca para la Universidad de Extremadura (UEX)

Introducción: Centros y alumnos en la Comunidad de Madrid.

LA REVOLUCIÓN DE LOS SISTEMAS DE INFORMACIÓN (S.I.) Introducción PORQUÉ SISTEMAS DE INFORMACIÓN? El Competitivo Entorno de los Negocios

NAV07: Curso de Ventas (Básico) para Microsoft Dynamics NAV

Inbound Marketing en la Industria Farmacéutica Alicia Moder Gerente de Producto Abbott

INTrodUCCIÓN El museo Como recurso EdUCATIvo

Ecografía del útero y su patología. Tercer curso online Del 7 de octubre al 21 de noviembre CURSOS DEXEUS

Su Centro de Formación a medida

Experto en Videovigilancia, Protección de Datos y Seguridad Privada (Online)

INFORME DE EXPECTATIVAS DE LOS ESTUDIANTES DE NUEVO INGRESO EN LOS ESTUDIOS OFICIALES DE POSGRADO

Diseño y desarrollo de una aplicación informática para la gestión de laboratorios

Quieres. casarte. conmigo? Plan C diseño + comunicación

Transcripción:

, Departmento de Computación Universidad de A Coruña : Recuperación de noticias en la Web con técnicas avanzadas de IR http://www.dc.fi.udc.es/ir

Contenido Quiénes somos Qué hacemos Arquitectura Tecnologías. Coruña Corpus Tool

Quiénes somos Qué hacemos Somos... Information Retrieval Lab, Laboratorio 4.2, Fac. Informática. http://www.dc.fi.udc.es/ir Expertos en recuperación de información. Pertenecemos a la Red Gallega de NLP e IR. Proyectos recientes: Recuperación de sentencias relevantes y noveles usando modelos y técnicas de IR, MEC TIN 2005-08521-C02-02, (Xunta Galicia PGIDT06PXI10501PN). Implementación y evaluación en grandes colecciones de documentos del modelo lógico de IR IR-PLBR, MCT TIC 2002-00947, (Xunta Galicia PGIDIT03PXIC10501PN).

Quiénes somos Qué hacemos Nuestros sistemas En estas jornadas pretendemos presentar los productos sobre los que estamos trabajando actualmente para la transferencia de tecnología. Nos centraremos sobre todo en: : sistema de recuperación de noticias (Reg. SW C-403-2007) The Coruña Corpus Tool: sistema de gestión y consulta de corpus textuales. Finalizaremos esta presentación comentando las diversas ĺıneas de investigación que mantenemos abiertas en el laboratorio.

IR, NewsIR,? Qué es? (I) Las noticias online son uno de los servicios más usados. Multitud de fuentes actualizándose constantemente. Uso de técnicas de IR para resolver los problemas de acceso: eficiencia en la búsqueda y correcta representación de contenidos al usuario. es un sistema de News-IR que obtiene los artículos de múltiples medios online. Proporciona capacidad de búsqueda, detección y filtrado de redundancia y generación de resúmenes. Es usado como una plataforma de I+D y basado en nuestras soluciones e estudios previos.

IR, NewsIR,? Qué es como producto? Es un producto flexible y con un diseño adaptable a las necesidades y ámbitos de los potenciales usuarios. Un servicio web que les ofrece las noticias sobre su área de interés. Desarrollado pensando en la escalabilidad del sistema. Posee un diseño por componentes que lo hace integrable en soluciones existentes fácilmente. Una solución tecnológica eficiente en el consumo de recursos y eficaz en la calidad de los resultados Una herramienta ideal para los áreas de comunicación de instituciones y corporaciones. Pensamos que puede ser adaptado para otros ámbitos: vigilancia tecnológica, búsqueda en dominios específicos.

Capturas (I) Arquitectura Tecnologías.

Capturas (y II) Arquitectura Tecnologías.

Características Arquitectura Tecnologías. Qué ofrece? Lanzamiento de crawling programable. Poĺıtica de índices incrementales. Algoritmo de extracción de artículos multifuente. Búsqueda de artículos sobre los sitios indexados. Estrategia de detección de redundancia y de agrupación de noticias. Generación de resúmenes query biased. Múltiples formatos de salida y versiones móviles: PDF, RSS, Atom,etc. Opciones de personalización como selección de fuentes.

Visión General Arquitectura Tecnologías. Principalmente MVC RELEVANT NEWS SUMMARIES QUERY USER Soccer? NOW INDEX MANAGER INCREMENTAL INDEX COMPOSITION CRAWLER (NUTCH) + INDEXER (LUCENE) WWW Basada en componentes Aplicación web NOW SUMMARIZER SUMMARY GENERATION RETRIEVAL MODEL INCREMENTAL INDEX WITH TEMPORAL WINDOW High Perfomance NOW GROUPING NEWS GROUPING BASED ON REDUNDANCY (VECTOR SPACE MODEL) NOW EXTRACTOR NEWS CONTENT EXTRACTION

Tecnologías Arquitectura Tecnologías. Productos y soluciones Lucene: un API de indexación y búsqueda, un producto de la Apache Foundation. Nutch: el web-crawler. Java EE 5: usado para el desarrollo de la aplicación web. AJAX: para mejorar la experiencia del usuario y optimizar el consumo de ancho de banda. Rome, RSS, JDOM: para los servicios de sindicación. FOP y PDF: para generar los informes de noticias.

Trabajos existentes Soluciones e investigación Soluciones comerciales : Google News, Yahoo News or MSN Newsbot. Gran capacidad de cómputo, muchas fuentes. No son productos adaptables, son para un público generalista. Clusteres representados por títulos y links a las noticias originales. No producen resúmenes, acceso incómodo a la información. Trabajos académicos limitados: NewsInEssence es un sistema para búsqueda de clusteres de noticias y generación de resúmenes de los mismos de la Michigan University. NewsBlaster un desarrollo de la Columbia University que provee resúmenes multidocumentales sobre eventos.

stración Coruña Corpus Tool

El Coruña Corpus Tool Coruña Corpus Tool

El Coruña Corpus Tool Coruña Corpus Tool

El Coruña Corpus Tool Coruña Corpus Tool Qué ofrece el CCT? Gestión de corpus lingüísticos, información y renderizado de documentos, autores. Tratamieto y validación de documentos TEI con soporte para caracteres especiales. Búsqueda intradocumental y de colección básica por términos. Generación de concordancias y posicionamiento en texto. Búsqueda por sufijos, prefijos y expresiones regulares. Búsqueda por frases y por distancia. Generación de listas de términos: tokens y types.

Líneas de investigación Además de lo expuesto trabajamos en: Temas fundamentales de IR: modelos de recuperación, crawling, indexación, etc. Evaluación en IR: colecciones, metodologías, significancia estadística, etc. Eficiencia en IR: construcción y compresión de índices, pruning estático y dinámico, procesado eficiente de consultas, etc. Clasificación de documentos: bayesiana, K-NN, SVM, etc. Multimedia IR: Video IR, Audio IR. IR distribuida.

- Podemos concluir: Nuestro sistema,, se ha convertido en una aplicación web completa para la búsqueda de noticias y generación de resúmenes de prensa, diseñada para poder ser adaptada a otros ámbitos específicos. Continuamos desarrollando. Mejoras arquitecturales para incrementar la eficiencia. Almacenamiento y minería sobre las consultas de los usuarios. Mantenemos abiertas otras lineas de I+D de las que estamos consiguiendo resultados satisfactorios como el ejemplo presentado del CCT.

, Departmento de Computación Universidad de A Coruña : Recuperación de noticias en la Web con técnicas avanzadas de IR http://www.dc.fi.udc.es/ir Santiago, 26 octubre 2007