Propuesta de proyecto de investigación: desarrollo de un rastreador web capaz de aprender a identificar la información más relevante



Documentos relacionados
PROCEDIMIENTO REALIZACIÓN ESTUDIOS ECONÓMICOS CONTENIDO

LA PLANIFICACIÓN ESTRATÉGICA EN MATERIA TIC EN EL ÁMBITO DE LA AGE

COPPEL MANUAL TÉCNICO MCC DE SISTEMAS PROGRAMACIÓN DESCRIPCIÓN DEL PROCESO DE ARQUITECTURA DE SOFTWARE

Línea Base Juan Carlos Bajo Albarracín Qué es una línea base Cómo implantar la Ley 29783: El concepto sistema de gestión en la Ley 29783

Carrera: Clave de la asignatura: SATCA: 2-2-4

Web Crawler en eva.fing.edu.uy

PROCEDIMIENTO OPERATIVO DESARROLLAR SISTEMAS INFORMÁTICOS PDO-COCTI-DTIN-04

Los motores de búsqueda.

5.3.2 APTI - Administración de proyectos de TIC Objetivos del proceso

Dirección General de Educación Superior Tecnológica

GERENCIA DE INTEGRACIÓN

SISTEMA DE GESTIÓN DE LA CALIDAD

Reglamento Interior en Materia de Informática y Computación del Municipio de Sayula, Jalisco.

DIPLOMADO CÓMO ARTICULAR TECNOLOGÍAS DE INFORMACIÓN Y COMUNICACIÓN PARA DESARROLLAR COMPETENCIAS EN ESTUDIANTES DE EDUCACIÓN BÁSICA.

Máster Universitario en Ingeniería Informática

COMO REALIZAR UN DIAGNÓSTICO INICIAL Y DEFINIR LA POLITICA DE SEGURIDAD PARA EL SISTEMA DE GESTIÓN EN CONTROL Y SEGURIDAD BASC

DEFINICIÓN PROYECTO INTEGRADOR PROYECTO INTEGRADOR PRIMER SEMESTRE TECNOLOGÍA EN DESARROLLO DE SOFTWARE

CAPITULO III: METODOLOGIA DE ESTUDIO DE CASO

Manual FuturaDISC y FuturaDIAV. (Aplicación práctica) FuturaDISC

PROCEDIMIENTO ACTUALIZACIÓN PAGINA WEB

MANUAL DE USUARIO CONTROL LOGÍSTICO DE TIEMPOS

Capítulo 11. Conclusiones y trabajo futuro

1.- DATOS DE LA ASIGNATURA

POLÍTICAS PARA EL DESARROLLO DE SISTEMAS INFORMÁTICOS.

Asignación de Procesadores

INDUSTRIAL. Dirección electrónica: OBJETIVO GENERAL

PROCEDIMIENTO VERSION: 03 ELABORACION Y CONTROL DE DOCUMENTOS PROCESO DE PLANIFICACION DEL SISTEMA INTEGRADO DE GESTION

PROCEDIMIENTO PLANEACION DE PROYECTOS PROCESO GESTION DE PROGRAMAS Y PROYECTOS

FUNDACIÓN DÉDALO PARA LA SOCIEDAD DE LA INFORMACIÓN. - Acompañamiento TIC -

Plan de estudios Maestría en Sistemas de Información y Tecnologías de Gestión de Datos

GESTIÓN DEL CONOCIMIENTO Y EVALUACIÓN. CONSIGUIENDO EVALUACIONES MÁS INFLUYENTES, UTILIZABLES Y UTILIZADAS.

C A P Í T U L O C U A T R O : P R O P U E S T A E P C

Colección de Tesis Digitales Universidad de las Américas Puebla. Morales Salcedo, Raúl

Verificación de la Calidad en los Productos de Software Desarrollados

El Auditor y la organización

Unidad 9. Implementación. M.C. Martín Olguín

1.2 Qué es un Sistemas de Información Geográfica?

EL PROYECTO CREA TU PLAN DE NEGOCIO DEL MINISTERIO DE CULTURA

I. DESARROLLO DE LA REUNIÓN

CREACIÓN DE UNA REVISTA INFORMATIVA JUVENIL VIRTUAL DIRIGIDA PARA LOS JÓVENES ESTUDIANTES UNIVERSITARIOS DE LA ZONA METROPOLITANA DE SAN SALVADOR

1-9 August 2003, Berlin

1.1. Instala gestores de contenidos, identificando sus aplicaciones y configurándolos según requerimientos.

CAPÍTULO III MARCO TEÓRICO. Cada día cambian las condiciones de los mercados debido a diferentes factores como: el

Servicio de Firma Electrónica Remota sobre Dispositivo Seguro Centralizado (SSCD)

Investigación Cualitativa: Una Reflexión

Gestión de proyectos en CMMI

ANEXO. PROCESOS PARA MANEJAR EL COSTO DE LO VENDIDO EN ASPEL-SAE

FACULTAD DE CIENCIAS EMPRESARIALES PROYECTO INTEGRADOR TEC. GESTION EMPRESARIAL

GUÍA PARA LA ELABORACIÓN, FORMULACIÓN Y EVALUACIÓN DE LICENCIAMIENTO DE SOFTWARE DE LAS EMPRESAS PARA EL AÑO 2015

Guía de Gestión de Software Educativo

Nivel 1 Este es el nivel de soporte inicial, responsable de las incidencias básicas del cliente. El principal trabajo de un especialista de Nivel 1

Diferencias entre nivel 2 y nivel 3 y una estrategia de implantación

Boletín Asesoría Gerencial*

Sistema de Administración de la Calidad ISO 9001:2008

FORMATO 2 INFORME CONTROL Y EVALUACIÓN AUDITORIA INTERNA DE GESTIÓN. Código: CYE03-FOR-02

Instalación y configuración inicial del sistema SIU-Kolla Versión 3.0.0

Capítulo 4. GESTIÓN DE LA INTEGRACIÓN DEL PROYECTO

1) Menciona al menos herramientas de búsqueda en internet

AYUNTAMIENTO DE MIERES

Los objetivos, al igual que las metas, deben estar directamente relacionados con la ejecución, monitoreo y plan de evaluación del proyecto.

DIPLOMADO: LA DOCENCIA EN INTERNET

LICENCIATURA EN INFORMÁTICA

Mesa de Ayuda Interna

La Administración Municipal publicó en su página web, el Plan Anticorrupción y de Atención al ciudadano 2013.

1. Introducción al evaluación de proyectos

Capitulo V Administración de memoria

PROCEDIMIENTO ADMINISTRACIÓN REDES SOCIALES

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS

PLAN DE EFICIENCIA ADMINISTRATIVA Y CERO PAPEL

SECRETARIA GENERAL GRUPO DE GESTIÓN DEL TALENTO HUMANO PLAN ESTRATÉGICO GESTIÓN DEL TALENTO HUMANO

Proyectos Finales. Redes de Computadoras Proyecto 1. Sistema de almacenamiento virtual sobre una plataforma P2P utilizando JXTA.

Instructivo: Diagnóstico Interno y Externo por análisis FODA

Figure 16-1: Phase H: Architecture Change Management

PROCEDIMIENTO DE AUDITORIA INTERNA

Programa de Criminología UOC

Programa 47 Formación continua para egresados

Guía para la elaboración de la Planeación didáctica argumentada

3. GESTIÓN DE CONFIGURACIÓN DE SOFTWARE

Versión Fecha de última actualización: Enero

DIPLOMADO DE FORMACIÓN DE TUTORES TELEMÁTICOS

Licenciatura en Computación

MANTENIMIENTO Y SOPORTE

GUÍAS. Módulo de Diseño de software SABER PRO

OFICINA DE CONTROL INTERNO INSTITUCIÒN TECNOLOGICA COLEGIO MAYOR DE BOLIVAR

Actualización de versión a Bizagi 10.x

Sistema de Mensajería Empresarial para generación Masiva de DTE

Guía del sitio web Intranet para el equipo de trabajo

PROCESO DIRECCIONAMIENTO ESTRATÉGICO PROCEDIMIENTO GESTIÓN DE PROYECTOS DE INVERSIÓN

Cómo posicionar su sitio web a través de buscadores de Internet

Curso de implantación 2010/2011

Reseñas. de desarrollo social. 6. Transparencia en el presupuesto asignado a los programas estatales

Descripción de las asignaturas del Diploma en Seguridad y Salud Ocupacional. Descripción del contenido y objetivos de aprendizaje de la asignatura

Crisis? En juego la credibilidad IZASKUN MARTÍNEZ ARAICO

CARACTERIZACIÓN DE USUARIOS MUNICIPIO DE GACHANCIPA, CUNDINAMARCA

PRÁCTICAS ADMINISTRATIVAS

Guía breve para la. Versión abreviada del Manual para la. evaluación de desempeño y potencial

PLAN DE MANTENIMIENTO PREVENTIVO Y CORRECTIVO. GESTIÓN DE RECURSOS TECNOLÓGICOS Versión: 00

Informe de Servicio Social. actividades tienen en la población meta y acerca del aprendizaje obtenido por el prestador de

PLAN DE MÉTRICAS EN OCHO PASOS

Transcripción:

Propuesta de proyecto de investigación: desarrollo de un rastreador web capaz de aprender a identificar la información más relevante 30 de enero de 2016 Responsables Dr. Ricardo Marcelín Jiménez y M. en C. Orlando Muñoz Texzocotetla Perfil deseable del alumno El alumno(a) participante en este proyecto debe tener conocimientos de redes de computadoras y sistemas distribuidos. Debe mostrar facilidad para la programación de algoritmos distribuidos y la lectura de artículos en inglés. Presentación del contexto e identificación de la problemática Un rastreador o explorador web (también llamado araña o robot) es un programa que permite descargar y clasificar el contenido de páginas en la web. Entre sus múltiples aplicaciones, se les usa como el componente principal de los motores de búsqueda en la web, sistemas que reúnen un corpus de páginas electrónicas, las indexan y permiten las consultas de un amplio contenido temático. Una segunda aplicación es para el archivado de la web [2], que consiste en la descarga de páginas que son guardadas para la posteridad. Una tercera aplicación es para la minería de datos de la web, en la que se analizan estadísticamente las páginas descargadas. Finalmente, podemos mencionar los servicios de monitoreo en la web, en los que se disparan alarmas cuando la búsqueda empata con cierto contenido disponible en la red. Actualmente la investigación de los algoritmos de rastreo web (crawling algorithms) es de gran importancia debido al enorme crecimiento de la información contenida en la web, y a que ésta no se encuentra almacenada en un servidor centralizado, sino en una 1

federación de cientos de millones de repositorios articulados mediante un conjunto de protocolos, reglas de acceso y formatos de datos [3]. Algunos de los trabajos sobre esta temática son: El diseño e implementación de algoritmos para rastreo web conlleva una serie de retos entre los que destacan: 1. Recolectar solo la más valiosa de las páginas web visitadas. Debido al crecimiento de la información disponible en Internet, este proceso es importante para mejorar el rendimiento de los programas de minería de datos, análisis semántico, y análisis estadístico, los cuales son aplicados a la información recolectada por los rastreadores. 2. Optimizar el número de visitas que el rastreador hace a cada página web para mantener la información actualizada (Page update y freshing). 3. Al recolectar la información de los diferentes sitios Web visitados, los rastreadores consumen recursos de diferentes organizaciones (recursos de cómputo, de red, etc.). Por esto debe minimizarse el impacto que los rastreadores imponen sobre estos recursos. 4. Paralelizar del proceso de rastreo. Ya que la información que buscan los rastreadores se encuentra distribuida en cientos de millones de computadoras a lo largo y ancho de la Web, los rastreadores deben ser ejecutados en paralelo. Este proceso de paralelización no es trivial e implica que el rastreo se deba llevar a cabo en un tiempo razonable y de manera coordinada. En este proyecto se desea la construcción de un rastreador web enfocado (focused crawler). Este tipo de rastreadores buscan información relevante a un tema específico. Como se mencionó anteriormente esto es importante para mejorar el rendimiento de las aplicaciones que procesarán las grandes cantidades de información recolectada (minería de datos, aprendizaje maquinal, web semántica, etc.). Algunas implementaciones de este tipo de rastreadores son: A Genre-Aware Approach to Focused Crawling [1], el cual es un rastreador que toma en cuenta la información de género para guiar el proceso de rastreo. En [4] se propone un rastreador enfocado para hiperenlaces el cual utiliza una técnica adaptativa formulada en términos del problema llamado multi-armed bandit - MAB. El MAB es un problema para asignar uno o más recursos por medio de diversas alternativas. También se han propuesto métodos para el rastreo de información en la llamada deep web como el presentado en [6]. Otro ejemplo de rastreadores enfocados lo encontramos en [5], el cual le da importancia a los metadatos para encontrar información relevante en los documentos y que estos puedan ser clasificados. 2

Objetivos Objetivo general: Construir un rastreador o explorador web capaz de aprender a identificar la información más relevante en las páginas web Objetivos particulares: 1. Estudiar las arquitectura y características básicas de un rastreador Web. 2. Estudiar las técnicas de aprendizaje maquinal (que serán utilizadas por el rastreador que será construido). 3. Diseñar el rastreador web (incluyendo las técnicas de aprendizaje maquinal estudiadas). 4. Implementar el rastreador propuesto y evaluar sus prestaciones. Metodología propuesta 1. Revisión del estado del arte de las actuales propuestas de aplicación de técnicas de aprendizaje maquinal en rastreadores. 2. Creación del protocolo de investigación. 3. Definición de la arquitectura. 4. Implementación del rastreador. 5. Evaluación del rastreador con distintos casos de uso. 6. Interpretación de resultados y comparación con otros rastreadores que usan aprendizaje maquinal para la identificación de la información más importante en las páginas Web. 7. Elaboración de conclusiones. 8. Elaboración de la idónea comunicación de resultados. 3

Resultados esperados Al finalizar el proyecto el alumno habrá diseñado e implantado un sistema para realizar búsquedas de documentos sobre un conjunto de servidores web en Internet. Asimismo, habrá completado un conjunto de pruebas de funcionamiento que le permitirán validar su propuesta. Dicho sistema será capaz de aprender a reconocer la información más importante contenida en las páginas web. Al término del primer trimestre el alumno entregará al coordinador el protocolo de investigación que, al menos, contendrá una descripción del estado del conocimiento, la problemática que se aborda y la metodología. Este protocolo se presentará en el seminario de avances organizado al cierre del trimestre. Al término del segundo trimestre el alumno entregará al coordinador un reporte de avance en forma de artículo. Éste contendrá los primeros resultados de su investigación. Dicho reporte se presentará en el seminario de avances. Al finalizar el tercer trimestre el alumno entregará al coordinador un primer borrador de su idónea comunicación de resultados. De igual forma, el alumno presentará por última vez en el seminario de avances, el resultado de su trabajo. En el curso del cuarto trimestre el alumno entregará la versión final de su idónea comunicación de resultados. Calendarización de actividades Infraestructura necesaria y disponible Una computadora personal, herramientas para simulaciones dirigidas por eventos, intérprete y librerías del lenguaje Python, Mik -TeX ó LaTex. 4

Lugar de realización Laboratorio de Análisis de Rendimiento de Teleservicios (ARTe) / T327bis Referencias [1] G. T. De Assis, A. H. Laender, M. A. Gonçalves, and A. S. Da Silva, A genre-aware approach to focused crawling, World Wide Web, 12 (2009), pp. 285 319. [2] J. Masanès, Web archiving, Springer, 2006. [3] C. Olston and M. Najork, Web crawling: Foundations and trends in information retrieval, 2010. [4] A. Pechnikov and D. Chernobrovkin, Adaptive crawler for external hyperlinks search and acquisition, Automation and Remote Control, 75 (2014), pp. 587 593. [5] L. Rajesh, V. Shanthi, and V. Varadhan, Enhanced web crawler design to classify web documents using contextual metadata, in Proceedings of Fourth International Conference on Soft Computing for Problem Solving, Springer, 2015, pp. 509 516. [6] Z. Zhang, G. Dong, Z. Peng, and Z. Yan, A framework for incremental deep web crawler based on url classification, in Web Information Systems and Mining, Springer, 2011, pp. 302 310. 5