Algoritmos y Estructuras de Datos 2. Web Mining Esteban Meneses



Documentos relacionados
Modulo I. Introducción a la Programación Web. 1.1 Servidor Web.

Alfredo Hidalgo Limbrick. Inteligencia de Redes de Datos

Reflexión. Inicio. Contenido

Los servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc.

Similaridad y Clustering

PROYECTO JAGUAR-SEO. SEO Tico. Carlos Vargas Rodríguez

Trabajo final de Ingeniería

Buscadores Web. Referencias: Curso: Recuperación de Información 2002/1.

Evolución de la Web Chilena

CONSIDERACIONES GENERALES DEL WEB MINING

Introducción a Internet

Minería de Datos Web. 1 er Cuatrimestre Página Web. Prof. Dra. Daniela Godoy.

Planeta Matemático, un repositorio web 2.0 para contenidos matemáticos

Proyecto Piloto sobre Viabilidad de Internet como Fuente de Datos. Resultados del Proyecto

Experto en Diseño Web y Multimedia

Introducción. Minería de datos (data mining): Minería de la Web (Web mining): Técnicas de Crawling

Clasificación Bayesiana de textos y páginas web

5.2. PROYECTO RODA. (6/07/04).

Proceso del KDD (minería de datos o DataMining)

Crawlers - Arañas. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Qué es una página web?, qué conoces al respecto?, sabes crear una página

PREPARATORIA DIURNA DE CUAUTLA

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Web Crawler en eva.fing.edu.uy

POSICIONAMIENTO EN BUSCADORES (CONSULTORÍA SEO) 30 horas 45 días

RED DE OBSERVATORIOS EN RECURSOS HUMANOS EN SALUD Y MÓDULO M LABORAL

Técnicas de marketing online y evolución de los medios

Anexo I. Gadgets y Widgets

El sitio Web de las unidades de información: Organización, normalización y evaluación de su contenido


COMERCIO ELECTRÓNICO PARA PYMES 3 MÓDULOS. 40 Horas

Qué necesito saber para tener mi sitio web en Internet?

MARKETING DIGITAL - SEO EN LA ERA DE GOOGLE POST PENGUIN -

PUBLICAR EN LA RED. Ponente: Javier Paricio Rodríguez

Programa. Programa: Aspectos Técnicos Previos. Sistemas de Gestión de Contenidos (CMS) La Imagen del Site. Usabilidad y Accesibilidad


SERVICIO NACIONAL DE APRENDIZAJE SENA SISTEMA INTEGRADO DE GESTIÓN Procedimiento Ejecución de la Formación Profesional Integral GUÍA DE APRENDIZAJE

UNIDAD 3. Herramientas de Internet

Redes Sociales en la Web: Desafíos Computacionales

Google: Una oportunidad para la evolución de las Bibliotecas

Web mining y obtención de información para la generación de

DESARROLLO WEB EN ENTORNO CLIENTE

Producción Hipermedia

PRODUCCIÓN DIGITAL I. 13 de Junio de Wenceslao Zavala

REIN-I7P23 - Recuperación de la Información

Tutorial de localización y recuperación de documentación bibliográfica Índice

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

MINISTERIO DE EDUCACIÓN DIRECCIÓN DE EDUCACIÓN TÉCNICA Y PROFESIONAL PROGRAMA DE LA ASIGNATURA PROGRAMACIÓN WEB II ESPECIALIDAD INFORMÁTICA.

Negocios Electrónicos

Arquitecturas Distribuidas 09/10

TENDENCIAS EN LA PRESTACIÓN DE SERVICIOS EN BIBLIOTECAS VIRTUALES. Lic. Maria Isabel Vargas Billon

PROGRAMA FORMATIVO INTERNET: BLOGS Y POSICIONAMIENTO WEB

O jeto de apre r ndizaje

HADOOP, como una plataforma de procesamiento masivo de datos

Posicionamiento en buscadores. Ebert Bardales Castro Especialista de Marketing Digital

Buscadores y sus características.

DISEÑO Y DESARROLLO DE PÁGINAS WEB 160 horas. (70 horas presenciales.50 horas autònomas.40 horas investigación) TOTAL CICLO: 14 SÁBADOS

[webcrawlers] Introducción Un poco de historia Implementación Características Arquitectura Políticas de amabilidad

Cómo posicionar su sitio web a través de buscadores de Internet

Web. Web Diapositiva 1. Febrero 2010

Escuela Provincial de Educación Técnica N 1 UNESCO. Planificación Anual 2015 Ciclo Superior Secundario

Base de datos II Facultad de Ingeniería. Escuela de computación.

Internet y World Wide Web. Informática Aplicada Grado en GAP Fac. de Admón. y Dir. de Empresas Univ. Politécnica de Valencia

Indice. 1. Introducción Central Virtual. 2. Características Generales del Servicio. 3. Descripción de Servicios. 4.

Cómo se puede encontrar información en la web

Javier Márquez, David Cifuentes, Antonio Quintanilla, J.E Córcoles Universidad de Castilla-La Mancha. España

5.1. Qué es Internet? controla todo el sistema, pero está conectado de tal manera que hace

REDES, INTERNET Y CORREO ELECTRÓNICO

Presentado por: PAULA ANDREA OCAMPO CASTAÑO

Colección de Tesis Digitales Universidad de las Américas Puebla. Morales Salcedo, Raúl

Reseñas. Ángeles Maldonado y Elena Fernández, Cindoc. El profesional de la información, vol. 9, nº 3, marzo de 2000

Pack Web Empresa. Componentes adicionales

TECNOLÓGICO NACIONAL DE MÉXICO Instituto Tecnológico De Tijuana SEMESTRE 1 ENERO-JUNIO TI1A. UNIDAD 3.

MercadoShops: tu sitio de comercio electrónico con la tecnología de MercadoLibre

Asignaturas antecedentes y subsecuentes

UNIVERSIDAD COOPERATIVA DE COLOMBIA POSTGRADO MULTIMEDIA PARA LA DOCENCIA ELECTIVA I CREACIÓN DE AMBIENTES VIRTUALES

SISTEMAS DE INFORMACIÓN III TEORÍA

CDP Virgen del Carmen-San Patricio INFORME DE SECUNDARIA ÁREA NO SUPERADA NIVEL: 4º ESO ÁREA: INFORMÁTICA APLICADA

LENGUAJES DE PROGRAMACIÓN WEB (PHP1, HTML52)

POSICIONAMIENTO EN BUSCADORES (CONSULTORIA SEO) (30 HORAS)

electrónicas en la difusión de contenidos microbiológicos Joseba Bikandi

INTELIGENCIA DE NEGOCIOS. Business Intelligence. Alumno: Toledo Paucar Jorge

Lista de nuestras Soluciones Web Web Básica 87,50. Web Básica Móvil 110. Web Presencia 350

Aumentar visitas en su web de manera efectiva

MÓDULO IV INTERNET: ESTRATEGIAS DE BÚSQUEDA DE INFORMACIÓN ACADÉMICA PROGRAMA DE EDUCACIÓN EN INFORMACIÓN

Tema 1: Introducción a las Aplicaciones Web. Contenidos:

Minería de la Web Tema 1

Conoce el mundo de los negocios por internet. Cómo estructurar, implementar y aprovechar las estrategias de e-marketing

PROPUESTA DE DESARROLLO DE SITIO WEB AVANZADO

Aprende a programar en Java

Tutorial Internet Explorer 5.5

Internet - Web. Internet - Web. Internet. Internet. Diseño de Sitios Web Desarrollo de Paginas Web. Qué es la Internet? - Qué es la Web?

La Charca. Soluciones para Pymes

Posicionamiento de imágenes

Posicionamiento en buscadores y Diseño de páginas Web PRODUCTOS Y SERVICIOS.

Posicionamiento WEB POSICIONAMIENTO WEB GARANTIZADO

MANUAL PARA INCLUIR EL MOTOR DE RESERVAS EN LA WEB DEL ESTABLECIMIENTO

Videos didácticos para el aprendizaje de PSPICE

Medidas y análisis del grafo de la Web

CRECE EN INTERNET. Llegar a buen puerto: buscando información

Transcripción:

Algoritmos y Estructuras de Datos 2 Web Mining Esteban Meneses 2005

Motivación La Web contiene miles de millones de documentos con información sobre casi cualquier tópico. Es la Biblioteca de Alejandría de nuestro tiempo. Muchos de los datos necesitan ser analizados para ser recuperados. Esteban Meneses 2

Contenido Introducción. Análisis de la Web. Un caso de estudio. Arquitectura de análisis. Page Rank. Clasificación de las páginas web. Proyecto Klá. Conclusiones. Esteban Meneses 3

Introducción La World Wide Web es el repositorio más grande y mejor conocido de información en el mundo. Contiene millones de documentos distribuidos alrededor del planeta sin una edición común. Los datos están semi-estructurados (HTML). Más de un millón de páginas son agregadas diariamente. Esteban Meneses 4

Buscadores Esteban Meneses 5

Web Mining Es el análisis de los datos presentes en la Web, tratando de descubrir patrones para superar la falta de estructura. Número de páginas: 8 058 044 651 (tomado de www.google.com el 08/04/2005) Tiene sentido analizar un subconjunto de la Web, por ejemplo, La Web Costarricense. Esteban Meneses 6

Web Mining Web Mining Análisis Contenido Web Análisis Estructura Web Análisis Uso Web Esteban Meneses 7

Análisis de la Estructura Análisis de la topología de la Web. Usado en Google para hacer ranking. La Web es un grafo dirigido: los sitios son los nodos y los links son los enlaces. Componente principal: componente fuertemente conexa más grande que existe en la Web. Esteban Meneses 8

Grafo de la Web IN MAIN OUT ISLANDS Esteban Meneses 9

Análisis del Contenido Descubrir la temática de las páginas. bioinformática......... bioinformática... Definir interrelaciones entre las páginas. bioinformática bioinformática www.inbio.ac.cr www.catedra.cic.itcr.ac.cr Esteban Meneses 10

Mejorar búsquedas BUSCAR bioinformática www.inbio.ac.cr www.catedra.cic.itcr.ac.cr www.bioinfo.com Esteban Meneses 11

Análisis de Uso Análizar el patrón de uso de la web. Palabras más buscadas. Sitios más visitados. Tiempo promedio de visita en un sitio. Número de links utilizados. Mejoras en el diseño web. Esteban Meneses 12

Web chilena Universidad de Chile, Centro para la Investigación de la Web (2002). Evolución de la Web chilena: Año 2000 2001 2002 Páginas 730673 794218 2214253 Sitios 10352 21207 39320 Dominios 9102 19389 35520 Esteban Meneses 13

Web chilena Palabras más buscadas: gratis, fotos, chile, sexo, historia, argentina, mp3, mexico, juegos, musica, manual, download, videos, software, ley. El 54% de los sitios contiene 1 sola página. El promedio de una página es de 11 Kb. El 49% de las páginas dinámicas está hecho en PHP, el 40% en ASP. Esteban Meneses 14

Arquitectura Programas: Spiders. Recolectores. Analizadores. Resultados: Estadísticas globales. Rankings. Esteban Meneses 15

Implementaciones Ejemplos: Biblioteca w3c-libwww Biblioteca WIRE. Crawler Mercator. Lenguajes: C/C++ Java. Esteban Meneses 16

Page Rank Medida de la autoridad de una página. Parecido a la autoridad en las referencias bibliográficas. Basado en las referencias a las páginas. Utilizado para hacer ranking de páginas. Esteban Meneses 17

Page Rank A C B D E Esteban Meneses 18

Clasificación Web Clustering de páginas o sitios. Problema: definir una medida de similaridad. Elementos: Tokens textuales. Etiquetas marcadas. URLs. Direcciones IP. Esteban Meneses 19

Clasificación Web Visualización de resultados. Aplicados en diseño de taxonomías y búsquedas por similaridad. Hipótesis de cluster: dado un clustering adecuado de una colección, si el usuario está interesado en el documento d, probablemente estará interesado en otros miembros del cluster de d. Esteban Meneses 20

Clasificación Web Estrategias: Clustering aglomerativo. k-means. Self Organizing Maps. Multidimensional Scaling. Latent Semantic Indexing. Probabilistic Indexing. Summarization. Esteban Meneses 21

Directorio Yahoo Tomado Esteban de Meneses www.yahoo.com 22

Mooter Tomado Esteban de Meneses www.mooter.com 23

Proyecto Klá En desarrollo en el CIC-ITCR. Uso de herramientas open-source. Construcción de crawlers en.net. Esteban Meneses 24

Proyecto Klá Análisis de la Web costarricense. Evolución de la Web costarricense. Mejora en la recuperación de la información presente en la Web de Costa Rica. Información útil para diseñadores de páginas web. Información para establecer estrategias de negocios de las PYMES en la web. Esteban Meneses 25

Buscador Klá Esteban Meneses 26

Web costarricense Composición Todos los sitios bajo el dominio.cr Todos los sitios cuyo IP esté en Costa Rica. Documentos: Archivos.html,.doc.,.ppt,.pdf,.txt Multimedia: sonido, video, imágenes. Páginas dinámicas. Esteban Meneses 27

Web costarricense Tomado Esteban de Meneses www.nic.cr (08/04/2005) 28

Conclusiones La Web es el repositorio de información más grande y más cambiante en el mundo ( infinito?). Sí se pueden aplicar técnicas de análisis de datos para extraer mucha información valiosa. La clasificación de las páginas web es un problema todavía abierto a nuevas posibilidades. Esteban Meneses 29

Gracias Esteban Meneses 30