Crawling the Web. Presentado por

Documentos relacionados

Alfredo Hidalgo Limbrick. Inteligencia de Redes de Datos

Web Crawler en eva.fing.edu.uy

PROYECTO CALIDAD DE DATOS CURSO 2011

Crawlers - Arañas. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Propuesta de proyecto de investigación: desarrollo de un rastreador web capaz de aprender a identificar la información más relevante

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

1. Solicitando una cuenta de correo a nuestro proveedor de Internet. 2. Adquiriendo una cuenta de correo a través de la web (webmail).

Base de datos relacional

PRODUCCIÓN DIGITAL I. 13 de Junio de Wenceslao Zavala

Capitulo V Administración de memoria

Inteligencia Artificial II. Razonamiento con ontologías

Lección 24: Lenguaje algebraico y sustituciones

Programa por Clase. 8. CSS3 9. Ejercicio Práctico 10. Examen

BANCOS. Manejo de Bancos. Como crear una ficha de Banco? Como modificar los datos de una ficha de Banco? Como borrar una ficha de Banco?

Sistemas de Recuperación de Información

MOTORES VERSUS DIRECTORIOS: EL DILEMA DE LA BÚSQUEDA

MODELOS DE RECUPERACION

GENERAR DOCUMENTOS HTML USANDO LENGUAJE PHP. EJERCICIO RESUELTO EJEMPLO SENCILLO. (CU00733B)

3.1 Introducción a Wireshark

GUÍA PARA PUBLICACIÓN DE CONTENIDO

ANEXOS. Algoritmo que genera un valor hash de algún dato, como una clave de. mensaje o de sesión. Con un buen algoritmo de hash, los cambios que se

Tutorial Servicios Web

CÓMO CREAR UNA PÁGINA WEB v.1

Elastix Web Services (WSDL) Manual de Usuario

**NOTA** las partes tachadas todavía no están escritas, se ira actualizando poco a poco el documento

Posicionamiento en buscadores. Ebert Bardales Castro Especialista de Marketing Digital

Inteligencia. Primeramente, es necesario que conozca su espacio de exposición y sus implicaciones para que pueda aprovecharlo al máximo:

EXTENSIÓN DE UML PARA APLICACIONES WEB

Instructivo: Diagnóstico Interno y Externo por análisis FODA

Línea Base Juan Carlos Bajo Albarracín Qué es una línea base Cómo implantar la Ley 29783: El concepto sistema de gestión en la Ley 29783

2. ABRIR UN NUEVO DOCUMENTO DE TRABAJO

CAPÍTULO 5 GRACILEWeb: Traductor Japonés-Inglés en Internet

SIFAC II Respuesta a Consultas de las Empresas Sanitarias

Web institucional Edición de contenidos en idiomas

TEMA 3 PROFESOR: M.C. ALEJANDRO GUTIÉRREZ DÍAZ 2 3. PROCESAMIENTO DE CONSULTAS DISTRIBUIDAS

EL MODELO DE ESTRATIFICACIÓN POR CAPAS DE TCP/IP DE INTERNET

Evaluación Adaptativa de Inglés en el Sistema Educativo uruguayo, Resumen Ejecutivo

PONTE A PRUEBA CON PISA 2015

5.2.1 La Página Principal

ALGORITMO HILL CLIMBING

Ingeniería de Software I

Respuestas a Preguntas Recibidas Referentes a la Convocatoria No.61 Microcrédito Agropecuario

Bienvenido al sistema de Curriculum Digital CVDigital

El palacio de la Alhambra: La primera expansión. El favor de los visires

PROYECTO DE RECOPILACIÓN E INDEXACIÓN DE METADATOS PARA FACILITAR EL DESCUBRIMIENTO Y UTILIZACIÓN DE SERVICIOS GEOGRÁFICOS ESTÁNDARES

Mapas colaborativos en línea

DNS IPLAN ABM DE REGISTROS DNS EN IPLAN CONTROL

MANUAL DE USUARIOS DEL MODULO DE EVALUACIÓN DE DESEMPEÑO SISTEMA DE ADMINISTRACIÓN DE SERVIDORES PÚBLICOS (SASP)

Como buscar información en Internet sin naufragar en el intento

Unidad 9.- PLUGIN YOAST SEO PARA WORDPRESS

Sistema categorizador de ofertas de empleo informáticas

AHORRO ENERGÉTICO DOMÉSTICO. NIVEL DE IMPLANTACIÓN.

1. Introducción al evaluación de proyectos

RECOMENDACIONES INICIALES

Introducción al SEO. José Cristóbal García

Guía 1: Sistemas de referencia y coordenadas ArcGIS 10 o ArcGis 10.1

Análisis y cuantificación del Riesgo

LEYES DE CONSERVACIÓN: ENERGÍA Y MOMENTO

Planeación y evaluación: desarrollo de Indicadores

CAPÍTULO 6 SIMULACIONES Y RESULTADOS

Pueden Mortadelo y un niño innovar? Sí, gracias a la Innocooperación. 7 de octubre, Tres Cantos

1. LA EVALUACION DEL DESEMPEÑO LABORAL. 1.2 Objetivos de la evaluación del desempeño laboral.

Estimado usuario. Tabla de Contenidos

Centro de Capacitación en Informática

Testing. Tipos, Planificación y Ejecución de Pruebas

PROBLEMAS RESUELTOS SELECTIVIDAD ANDALUCÍA 2012 MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES TEMA 5: PROBABILIDAD

EL DESARROLLO DEL JUEGO Y EL USO DEL JUGUETE

3.1 Definir objetivos y contenidos de la página web

ESCUELA DE CIENCIAS BASICAS TECNOLOGIA E INGENIERIA Programación de sitios web Act 11: Reconocimiento de la unidad 3

Manejar documentos. Crear nuevo documento

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información

RESOLUCIÓN DE ERRORES EN MOODLE CAMPUS VIRTUAL-BIRTUALA UPV-EHU

PROBLEMAS RESUELTOS DE TEORÍA DE COLAS. (M/M/1: Un servidor con llegadas de Poisson y tiempos de servicio Exponenciales)

Para examinar una señal se usa la ventana de edición. Esto se hace marcando el botón EDIT

SISTEMA DE GESTIÓN DE BASE DE DATOS (Database Management System (DBMS))

Cámara Chilena del Libro. Manual administración sitio web

Escrito por Administrator Miércoles, 06 de Agosto de :28 - Actualizado Sábado, 08 de Mayo de :24

Preguntas Frecuentes.

Contabilidad Orientada a los Negocios

Soluciones de los ejercicios de Selectividad sobre Probabilidad de Matemáticas Aplicadas a las Ciencias Sociales II

Buscadores Web. Referencias: Curso: Recuperación de Información 2002/1.

POSICIONAMIENTO EN LA WEB (SEM Y SEO) Sesión 2: Long Tail

Antes de construir tu base de datos es conveniente saber que tipos de datos vas a almacenar y como distribuirlos.

Conciliación bancaria en CheqPAQ Cargado de estado de cuenta

PROCEDIMIENTO DE AUDITORIA INTERNA

Manual de adminitración web

QUÉ ES UNA BASE DE DATOS Y CUÁLES SON LOS PRINCIPALES TIPOS? EJEMPLOS: MYSQL, SQLSERVER, ORACLE, POSTGRESQL, INFORMIX (DV00204A)

Manual de USO de la Web CLUBTIENDAS.COM

Proceso de Gestión de la Información Sectorial. Manual de Usuario - Herramienta de cargue de Archivos - SIUST. Elaborado por:

P9: ENSAYO DE VACÍO Y CORTOCIRCUITO DEL TRANSFORMADOR MONOFÁSICO FUNDAMENTOS DE TECNOLOGÍA ELÉCTRICA

Informe de Servicio Social. actividades tienen en la población meta y acerca del aprendizaje obtenido por el prestador de

INSTRUCTIVO PLATAFORMA ITM VIRTUAL itmvirtual.itm.edu.co

Servicio de estadísticas de Alojamiento Fecha de revisión: 19/09/2005

[webcrawlers] Introducción Un poco de historia Implementación Características Arquitectura Políticas de amabilidad

Ejercicio 1. Desarrollar un pequeño juego para practicar mecanografía.

Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web Universidad de Educación a Distancia Marzo 2013

Solución al Reto Hacking v2.0 de Informática 64

Un Navegador es un programa que nos conecta a Internet y nos permite organizar nuestro

Instalación SuperADMINISTRADOR.

INYECCIóN DE CóDIGO EN APLICACIONES PHP. Autor: Iñaki Rodriguez (2005)

Transcripción:

Crawling the Web Presentado por Rocío o Luján n Cecchini 1

Introducción Qué es un crawler? Infraestructura Algunos algoritmos Métricas de evaluación 2

Qué es un web crawler? www... www... www... www... www... www... www... Básicamente es un algoritmo que aprovecha la estructura de la red para moverse de página a página. Motivación abastecer un repositorio local. 3

Algunas cuestiones Tendría sentido si la web fuera una entidad de carácter estático? Tipos de crawlers Exhaustivos. Preferenciales. Diseño de crawlers Cómo lograr la selectividad? Cómo llevar a cabo el crawling? Hay distintas características que pueden conducir a distintos diseños e implementaciones. Ej.: criterios de entrada utilizados, características deseadas en las páginas. Si encontramos un óptimo puede haber otro mejor? 4

Infraestructura de un crawler Cómo trabaja un crawler? START Inicializar con URLs seeds Chequear terminación Listo FIN No listo Frontera Elegir URL de la frontera URL No URL Traer páginap Repositorio Parsing Agregar URLs a la lista 5

Infraestructura de un crawler Cómo trabaja un crawler? START Inicializar con URLs seeds Chequear terminación Listo FIN No listo Frontera Elegir URL de la frontera URL No URL Traer páginap Repositorio Parsing Agregar URLs a la lista 6

La frontera Tamaño o máximo? m Frontera Que podemos hacer una vez alcanzado este límite? Implementación? n? Trampas 7

Historial (url 1,t 1 ) (url 2,t 2 ) (url 3,t 3 ) (url 4,t 4 ) (url 5,t 5 ) Utilidad? Análisis post-crawler Marcar ciertos sitios de interés. Disco o memoria? Ambas, en memoria nos puede servir para hacer una búsqueda rápida de links visitados. 8

Repositorio Cómo se puede implementar el repositorio? La forma más simple es guardar cada página como un archivo separado, esto implica que cada página sea mapeada a un único nombre de archivo. Cómo se puede lograr esto? Hash. Ejemplo: MD5 traduce cada URL en un código de 128 bits, el cual se transforma en un string de 32 caracteres hexadecimales. //www.uiowa.edu/ se traduce en 160766577426e1d01fcb7735091ec584 9

Fetching START Inicializar con URLs seeds Chequear terminación Listo FIN No listo Elegir URL No URL de la frontera Frontera URL Traer páginap Repositorio Parsing Agregar URLs a la lista 10

Fetching Cómo se obtiene la página? Por medio de una comunicación de un Cliente HTTP con un Servidor HTTP Cosas a tener en cuenta Timeouts Información que se trae Análisis de la respuesta Chequeo de errores Robot Exclusion Protocol 11

Parsing START Inicializar con URLs seeds Chequear terminación Listo FIN No listo Elegir URL No URL de la frontera Frontera URL Traer páginap Repositorio Parsing Agregar URLs a la lista 12

Parsing Una vez que tenemos la página qué hacemos?? www.bla.bla..... Extracción y forma canónica de URLs Para extracción Parsers Cuestiones una vez que obtenemos un URL: URLs relativos Diferentes URLs que conducen a la misma página forma canónica ( pasos?). Stoplisting y steeming. Tag tree HTML Tidyng. 13

Crawlers multi-hilados Cuál l es el problema del crawler monohilado? Cómo sería a un crawler multi-hilado? Frontier add get add get Fin? Fin? Listo Fin? Listo No Listo No Listo Elegir URL Elegir URL Lock Traer páginap Traer páginap Parsing Unlock Parsing Agregar URL Agregar URL 14

Algoritmos Primero el mejor Ingenuo Usa similaridad por coseno. Se calcula el valor de similaridad de la página de la cual extrae los URLs con la consulta: sim( q, p) = v v q q v p v p Donde q es la consulta, p es la página de la cual extraje los URLs, v q y v p son las representaciones vectoriales de las frecuencias de los términos, para la consulta y la página respectivamente. sim(q,p) es puntaje que se le da a los nuevos URLs. 15

Algoritmos Shark search Usa un medida de similaridad que tiene en cuenta el anchor text, el texto que rodea al link y es influenciada por el puntaje de los ancestros de la página de la cual sacamos los nuevos URLs. Tiene un límite de profundidad a recorrer sin encontrar info importante. Requiere de la especificación de varios parámetros: d: la profundidad a recorrer. γ y δ: factores de peso para el puntaje heredado. β: factor de peso para el anchor text. 16

Algoritmos Shark seach formulerío score( URL) = γ herencia ( URL) + (1 γ ) vecindad ( URL) δ sim( q, p) δ herencia ( p) si sim( q, p) > 0 en otro caso β anchor ( URL ) + (1 β ) contexto ( URL )} 1 sim( q, contexto _ aum) si anchor( URL) > 0 en otro caso Valores sugeridos: δ = 0.5, γ = 0, β = 0.8. 17

Algoritmos Crawlers enfocados FER La idea básica de estos crawlers es clasificar las páginas en una taxonomía de temas. El usuario puede ir agregando nuevas categorías e ir marcando algunas como buenas. Además se deben dar unos URLs ejemplo que el crawler usa para construir un clasificador capaz de encontrar la probabilidad de que una pagina pertenezca a cierta categoría. Se calcula un puntaje de relevancia de a cuerdo a que tan buena es la categoría en la cual cae la página. 18

Algoritmos Crawlers enfocados en el contexto Es un poco más elaborado que el anterior, usa también clasificadores, pero no descarta inmediatamente las páginas que no le parecen importantes. Espera unos links más, con la esperanza de que haya algo importante unos pasos más allá en la red. 19

Métricas de Evaluación Cómo hacemos para determinar que crawler es mejor? En base a su habilidad de devolver buenas páginas. Cómo hacemos para saber que una página es buena? Métricas de evaluación: Se enfocan en dos dimensiones: Importancia de las páginas. Performance 20

Métricas de evaluación Importancia de las páginas Palabras claves en el documento. Similaridad con la consulta. Similaridad con páginas semillas. Clasificador Retrieval system rank. Popularidad basada en links. 21

Métricas de evaluación Performance Analogía con RI Precisión fracción de páginas recuperadas (crawleadas) que son relevantes Recall (cobertura) fracción de páginas relevantes que son recuperadas (crawleadas) Qué problema se nos presenta? NO conocemos la totalidad de las páginas relevantes presentes en toda la web. 22

Métricas de evaluación Para aproximar precisión Tasa de adquisición Promedio de importancia Para aproximar recall Target recall URLs relevantes t _ recall = Pt P t P c URLs targets URLs seeds 23

Métricas de evaluación Pt P c P c P t Pr P c P r Robustez: Se separa el conjunto de seeds anterior en dos, y se da c/u como seeds de entrada para dos instancias del mismo crawler. Luego se mide la superposición de las páginas resultantes en las dos instancias. Mayor superposición implica mayor robustez. 24

Métricas de Evaluación Ejemplo Average target recall (%) 25 20 15 10 5 0 Breadth-First Naive Best-Fisrt 0 2000 4000 6000 8000 0 10000 Paged crawled Average precision 25 20 15 10 5 Breadth-First Naive Best-Fisrt 0 0 2000 4000 6000 8000 0 10000 Paged crawled 25