CENTRO NACIONAL DE INVESTIGACIÓN Y DESARROLLO TECNOLÓGICO. cenidet

Documentos relacionados

Sistema Generador de Predicciones de Acceso para la Replicación n de Sitios de la Web en Dispositivos Inalámbricos

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo.

GLOSARIO DE TÉRMINOS

CAPÍTULO I INTRODUCCIÓN

Modulo I. Introducción a la Programación Web. 1.1 Servidor Web.

Gestión de la Configuración

Introducción a las redes de computadores

CONSIDERACIONES GENERALES DEL WEB MINING

PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.2 UML: Modelado de casos de uso

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Los mayores cambios se dieron en las décadas de los setenta, atribuidos principalmente a dos causas:

PREPARATORIA DIURNA DE CUAUTLA

Web. Web Diapositiva 1

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

Capítulo 5. Cliente-Servidor.

Ahorro de energía visualizando páginas Web en dispositivos móviles heterogéneos

Elementos requeridos para crearlos (ejemplo: el compilador)

INTRODUCCION. Tema: Protocolo de la Capa de aplicación. FTP HTTP. Autor: Julio Cesar Morejon Rios

1 GLOSARIO. Actor: Es un consumidor (usa) del servicio (persona, sistema o servicio).

Portafolio de Servicios y Productos

Internet - Web. Internet - Web. Internet. Internet. Diseño de Sitios Web Desarrollo de Paginas Web. Qué es la Internet? - Qué es la Web?

Trabajo final de Ingeniería

App para realizar consultas al Sistema de Información Estadística de Castilla y León

QUÉ ES UN SERVIDOR Y CUÁLES SON LOS PRINCIPALES TIPOS DE SERVIDORES? (PROXY, DNS, WEB, FTP, SMTP, ETC.) (DV00408A)

Novedades en Q-flow 3.02

Proceso Unificado de Rational PROCESO UNIFICADO DE RATIONAL (RUP) El proceso de desarrollo de software tiene cuatro roles importantes:

Según quien sea la entidad que gestione el equipo o dominio desde donde se envían las cookies y trate los datos que se obtengan, podemos distinguir:

Capítulo I. Marco Teórico

PRACTICA CAPITULO 2 MODULO 1 PROTOCOLOS Y LA FUNCIONALIDAD DE LA CAPA DE APLICACIÓN

3.1 INGENIERIA DE SOFTWARE ORIENTADO A OBJETOS OOSE (IVAR JACOBSON)

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII

SEGURIDAD Y PROTECCION DE FICHEROS

e-commerce, es hacer comercio utilizando la red. Es el acto de comprar y vender en y por medio de la red.

Entidad Formadora: Plan Local De Formación Convocatoria 2010

Capítulo VI. Conclusiones. En este capítulo abordaremos la comparación de las características principales y

Un primer acercamiento a la CMDB.

SISTEMAS DE INFORMACIÓN II TEORÍA

Colección de Tesis Digitales Universidad de las Américas Puebla. Morales Salcedo, Raúl

SERVICE ORIENTED ARCHITECTURE (SOA) CONTENIDO

PRACTICA CAPITULO 2 MODULO 1 PROTOCOLOS Y LA FUNCIONALIDAD DE LA CAPA DE APLICACIÓN

Capitulo III. Diseño del Sistema.

Solución GeoSAS. Otros módulos

Guía de instalación de la carpeta Datos de IslaWin

Host. En este texto, entenderemos por host toda máquina - léase computadora. Cuenta. Una cuenta, en general, es un espacio de memoria y de disco que

Sistema de marketing de proximidad

Introducción a los Servicios Web. Ing. José Luis Bugarin ILUMINATIC SAC jbugarin@consultorjava.com

Resumen de la solución SAP SAP Technology SAP Afaria. Gestión de la movilidad empresarial para mayor ventaja competitiva

UNIVERSIDAD DE SALAMANCA

La interoperabilidad se consigue mediante la adopción de estándares abiertos. Las organizaciones OASIS y W3C son los comités responsables de la

arquitectura que maneja. Encontraremos también los diferentes servidores que

INSTRUCTIVO PARA LA CUENTA DE PUNTOS FUNCIÓN

Componentes de Integración entre Plataformas Información Detallada

Gestión y Administración de proyectos

CAPÍTULO 2 Sistemas De Base De Datos Multiusuarios

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

1 EL SISTEMA R/3 DE SAP AG

La Pirámide de Solución de TriActive TRICENTER

Proyecto de Taller V. Leticia Pérez. Fernández. INCO - Facultad de Ingeniería Universidad de la República

Sistemas de Gestión de Documentos Electrónicos de Archivo (SGDEA)

1.1.- Objetivos de los sistemas de bases de datos Administración de los datos y administración de bases de datos Niveles de Arquitectura

Sistemas de Información Geográficos (SIG o GIS)

Roles y Características

BASES DE DATOS OFIMÁTICAS

Patrones de software y refactorización de código

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

CAPÍTULO 3 Servidor de Modelo de Usuario

PORTAL DE INTEGRACIÓN DE BANCOS DE INFORMACIÓN DISPERSOS A TRAVÉS DE WEB SERVICES Autor: Ing. Walther Antonioli Ravetto

Beneficios estratégicos para su organización. Beneficios. Características V

Servidores Donantonio

CAPÍTULO 3 VISUAL BASIC

Adelacu Ltda. Fono Graballo+ Agosto de Graballo+ - Descripción funcional - 1 -

CAPITULO IV. HERRAMIENTAS DE CÓDIGO ABIERTO

Código del programa: PEMDE. Programa Experto en MANEJO DE DATOS CON EXCEL. Modalidad: Virtual. Descripción del programa

Soporte y mantenimiento de base de datos y aplicativos

Windows Server 2012: Identidad y Acceso. Módulo 2: Descripción General de Windows Server 2012 Remote Desktop Services.

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN

Guía de instalación de la carpeta Datos de ContaWin

POLÍTICA DE PRIVACIDAD PARA APLICACIONES MÓVILES GRUPOCOPESA. 1. información que se obtiene la aplicación y su utilización

Arquitectura de Aplicaciones

PROCEDIMIENTO GESTIÓN TICS

Índice INTERNET MARKETING 1

Contenido Derechos Reservados DIAN - Proyecto MUISCA

Instalar protocolo, cliente o servicio nuevo. Seleccionar ubicación de red. Práctica - Compartir y conectar una carpeta

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Capítulo 5. Análisis del software del simulador del sistema de seguridad

Informàtica i Comunicacions Plaça Prnt. Tarradellas, FIGUERES (Girona) Tel Fax

Esta solución de fácil uso está orientada a cualquier industria, ya sea una empresa del sector privado o del sector público.

REGISTRO DE PEDIDOS DE CLIENTES MÓDULO DE TOMA DE PEDIDOS E INTEGRACIÓN CON ERP

CORPORACIÓN MEXICANA DE INVESTIGACIÓN EN MATERIALES, S.A. DE CV

INFORMÁTICA IE. Términos a conocer y conceptos básicos. World Wide Web (WWW):

Windows Server Windows Server 2003

Tema 1. Conceptos básicos

Ofrezca la nueva tendencia de innovación empresarial con un entorno de red abierta

REDES DE ÁREA LOCAL. APLICACIONES Y SERVICIOS EN WINDOWS

Adicionalmente, en función de su objetivo, las Cookies puedes clasificarse de la siguiente forma:

La utilización de las diferentes aplicaciones o servicios de Internet se lleva a cabo respondiendo al llamado modelo cliente-servidor.

Resumen ÁREA DE FACTURACIÓN::INFORMES::Pedidos Detalle Resumen ÁREA DE

Transcripción:

04/11/2005 S.E.P. S.E.I.T. D.G.I.T. CENTRO NACIONAL DE INVESTIGACIÓN Y DESARROLLO TECNOLÓGICO cenidet GENERADOR DE PATRONES DE NAVEGACIÓN DE USUARIO APLICANDO WEB LOG MINING EN CLIENTE/SERVIDOR T E S I S QUE PARA OBTENER EL GRADO DE: M A E S T R O E N C I E N C I A S E N C I E N C I A S D E L A C O M P U T A C I Ó N P R E S E N T A : G A B R I E L H E R N Á N D E Z M É N D E Z DIRECTOR DE TESIS: M.C. JUAN GABRIEL GONZÁLEZ SERNA CODIRECTOR DE TESIS: DR. VÍCTOR JESÚS SOSA SOSA CUERNAVACA, MORELOS NOVIEMBRE DEL 2005

Tabla de contenido Resumen... Índice de figuras... Índice de tablas. Glosario de términos..... iv vi ix xi CAPÍTULO 1 INTRODUCCIÓN 1 1.1 Descripción del problema... 2 1.1.1 Problemáticas particulares. 3 1.2 Objetivo de la tesis.. 4 1.3 Justificación y beneficios.... 4 1.4 Organización del documento. 5 CAPÍTULO 2 MARCO TEÓRICO. 6 2.1 Términos utilizados en el contexto de la minería Web... 7 2.2 Minería Web..... 8 2.3 Análisis de proyectos sobre minería de uso Web... 10 CAPÍTULO 3 METODOLOGÍA DE SOLUCIÓN PARA UN SISTEMA DE MINERÍA DE USO WEB.. 12 3.1 Pre-procesamiento... 15 3.1.1 Peticiones irrelevantes sobre el servidor Web. 15 3.1.2 Peticiones automáticas sobre el servidor Web 16 3.1.3 Peticiones erróneas sobre el servidor Web. 16 3.2 Identificación de sesiones de usuarios. 17 3.2.1 Identificación de sesiones de usuarios sobre el servidor Web y Proxy.. 18 3.3 Descubrimiento de patrones... 21 3.3.1 Descubrimiento de patrones interesantes... 21 3.3.1.1 Análisis estadístico... 21 3.3.1.2 Ítems frecuentes y reglas de asociación.. 21 3.3.2 Validación de regla de asociación. 22 i

3.4 Modelado del problema.. 23 3.5 Análisis gráfico de patrones interesantes. 30 3.5.1 Recolección de estructuras de sitios Web 31 3.6 Análisis gráfico de estructuras de sitios Web y patrones interesantes... 32 CAPÍTULO 4 IMPLEMENTACIÓN DE LA METODOLOGÍA DE SOLUCIÓN. 33 4.1 Creación de proyectos y carga de archivos log.. 34 4.1.1 Identificación del formato del archivo log. 35 4.2 Módulo de limpieza de archivos log... 36 4.3 Módulo para la identificación de sesiones de usuarios... 37 4.3.1 Creación de sesiones de usuario en base al número de 38 peticiones solicitadas... 4.3.2 Creación de sesiones de usuario en base al tiempos de 39 duración..... 4.3.3 Creación de sesiones de usuario mediante heurística.. 39 4.4 Módulo para la búsqueda de patrones interesantes.. 40 4.4.1 Caracterización del problema 40 4.4.2 Implementación del algoritmo de minería de reglas de 42 asociación.. 4.5 Análisis gráfico de patrones de navegación. 43 4.5.1 Recolector de estructuras de sitios Web... 43 4.5.1.1 Módulo para descargar estructuras de sitios Web.. 44 4.5.2 Visor de estructuras y patrones de sitios Web 45 CAPÍTULO 5 PLAN DE PRUEBAS..... 48 5.1 Compendio de archivos.. 49 5.2 Escenario de pruebas..... 49 5.3 Pruebas sobre funciones generales del minero.. 50 5.3.1 Caso 1. Creación del proyecto...... 50 5.3.2 Caso 2. Agregar archivos e identificar formatos..... 51 5.3.3 Caso 3. Proceso de limpieza de archivos....... 53 5.3.4 Caso 4. Creación de sesiones de usuario....... 54 5.3.5 Caso 5. Minería de reglas de asociación..... 56 5.3.6 Caso 6. Respaldo de datos generados... 59 5.3.7 Caso 7. Recuperación de datos respaldados..... 60 5.4 Pruebas sobre funciones generales del recolector de estructuras y el visor de estructuras. 61 ii

5.4.1 Caso 8. Recolección de estructuras de sitios Web... 61 5.4.2 Caso 9. Análisis gráfico de estructuras. 63 5.4.3 Caso 10. Análisis gráfico de reglas de asociación.. 65 5.5 Pruebas sobre el dominio cenidet.edu.mx... 67 5.5.1 Estadisticas para el mes de agosto del 2004.. 67 5.5.2 Proceso de limpieza, sesionización y minería para agosto del 70 2004 5.5.3 Estadisticas para el mes de septiembre del 2004.. 74 5.5.4 Proceso de limpieza, sesionización y minería para septiembre del 2004.... 77 5.6 Pruebas sobre el dominio misiondelsol.com.mx... 81 5.6.1 Proceso de limpieza, sesionización y minería para misiondelsol.com.mx... 83 5.7 Análisis general de los resultados obtenidos.. 85 CAPÍTULO 6 CONCLUSIONES Y TRABAJOS FUTUROS... 6.1 Conclusiones. 86 6.2 Aportaciones. 87 6.2 Trabajos futuros 88 REFERENCIAS.... 90 ANEXO A. Formatos de archivos log.... 92 ANEXO B. Gráficas de pruebas. 96 ANEXO C. Archivo de configuración... 104 86 iii

Resumen La comunicación entre computadoras mediante redes inalámbricas ha sido una de las tecnologías más prometedoras y discutidas en esta década. Las redes inalámbricas facilitan la operación en lugares donde la computadora no puede permanecer en un solo lugar; sin embargo, esta tecnología todavía no ha alcanzado su completa madurez ya que aún existen varios obstáculos que resolver antes de que las redes inalámbricas sean utilizadas de manera general en los sistemas de cómputo de la actualidad. Uno de los obstáculos que presentan las redes inalámbricas es la dificultad para mantener una comunicación continua entre el dispositivo móvil y la célula de acceso, esa falta de continuidad se debe a varias razones entre las cuales se pueden mencionar el alto costo de comunicación, la interferencia en el medio, el rango de cobertura de la célula de acceso así, como la duración de la batería. Los problemas que traen consigo las desconexiones en una red inalámbrica pueden ser solucionados con el desarrollo de mecanismo que trabajen en modo conexión/desconexión sobre redes inalámbricas; no obstante, esta solución resulta compleja. El acaparamiento automático de información que el usuario del equipo móvil podría llegar a necesitar cuando éste se encuentre desconectado de la red, es una estrategia eficiente para la solución a los problemas propiciados por las desconexiones; sin embargo, el predecir cual es la información que le usuario móvil requerirá es un problema fuerte. Las técnicas de minería de datos se pueden utilizar para extraer reglas de asociación entre recursos Web en base en los datos almacenados en las bitácoras de accesos tanto del servidor Web como del servidor Proxy; estas reglas de asociación representan patrones de navegación que los usuarios registran durante sus visitas a un sitio Web. En este trabajo de investigación se plantea una metodología de solución al módulo generador de patrones de accesos y se describe el desarrollo de una herramienta capaz de localizar patrones mediante la minería de reglas de asociación. La herramienta permite obtener patrones a partir de un proceso complejo; la calidad de los resultados es altamente dependiente de las actividades de preprocesamiento, y es precisamente en éstas actividades donde se propone un nuevo método para la identificación de sesiones. Entre más bajo sea el valor de soporte, el número de reglas se incrementa. iv

Abstract Communication between computers through wireless networks has been in this decade one of the most promising and discussed technologies. Wireless networks facilitate transactions at places where the computer cannot remain at a single place; however, this technology has not reached total maturity yet due to the existence of several obstacles that need to be solved before wireless networks are generally used at present in computer systems. Difficulty to maintain continuous communication between a mobile device and an access cell is one of the obstacles of wireless networks. The lack of continuity is due to several reasons, for example: high cost of communication, interference in the means, access point covering range, and battery life. Problems caused by disconnections on wireless networks can be solved by the development of mechanisms that work in connection/disconnection mode on wireless networks; nevertheless, this solution is complex. The automatic hoarding of information that a user of a mobile device could end up needing when he is disconnected of the network, is an efficient strategy to solve problems caused by disconnections; however, to predict which information will be required by mobile users is a hard problem. The techniques of data mining can be used to extract association rules among Web resources based on data stored in access logs of Web servers and Proxy servers, these association rules represent navigation patterns that users register during their visit to any Web site. In this work the research for a solution methodology is outlined by the access patterns generator module. We describe the tool that use mining of association rules for locates patterns. The tool allows obtaining patterns from a complex process; the quality of results is highly dependent on the pre-processing activities, and it is precisely in these activities where a new method for the identification of sessions is proposed. During the tests we observe that the numbers of rules is increased notoriously when the support value decrease. v

Índice de figuras Figura 1.1 Problemática del acaparamiento... 3 Figura 1.2 Figura 1.2 Diagrama de accesos Web. 4 Figura 2.1 Clasificación de proyectos sobre minería Web.. 9 Figura 3.1 Arquitectura de solución. 14 Figura 3.2 Esquema de base de datos orientada a transacciones de ventas a detalle... 24 Figura 3.3 Esquema de base de datos orientada minería de datos de uso Web 24 Figura 3.4 Esquema de base de datos orientada minería de datos de uso Web optimizado 25 Figura 3.5 Modelo para el almacenamiento de reglas de asociación 31 Figura 3.6 Entidad-Relación para el almacenamiento de estructuras de sitios Web. 31 Figura 3.7 Visor de estructuras de sitios Web... 32 Figura 4.1 Esquema de la plataforma moviware... 34 Figura 4.2 Diagrama de casos de uso para la creación de proyectos.. 35 Figura 4.3 Diagrama de casos de uso para la actividad de agregar bitácora. 35 Figura 4.4 Diagrama de clases para el módulo Agregar Bitácoras. 35 Figura 4.5 Diagrama de clases para el análisis de líneas 36 Figura 4.6 Diagrama de casos de uso para la fase de limpieza de datos.. 37 Figura 4.7 Diagrama de casos de uso para la sesionización de bitácoras 37 Figura 4.8 Diagrama de clases para la sesionización de bitácoras... 38 Figura 4.9 Diagrama de clases para el proceso de minería 42 Figura 4.10 Diagrama de casos de uso para la actividad de minería.. 43 Figura 4.11 Diagrama de casos de uso para la recolección de Figura 4.12 estructuras 44 Diagrama de clases utilizado para la recolección de estructuras... 45 Figura 4.13 Diagrama de casos de uso para el visor de estructuras Web 46 Figura 4.14 Diagrama de clases utilizado para la construcción del visor 47 Figura 5.1 Creación de un proyecto 51 Figura 5.2 Dialogo para agregar archivos log 51 Figura 5.3 Identificación de formatos de archivos log 1... 52 Figura 5.4 Identificación de formatos de archivos log 2... 52 Figura 5.5 Inicio del proceso de limpieza 53 vi

Figura 5.6 Proceso de limpieza exitoso.. 54 Figura 5.7 Ejecución del módulo de sesionización con la primera opción 55 Figura 5.8 Conclusión exitosa del módulo de sesionización con primera opción 55 Figura 5.9 Ejecución del módulo de sesionización con la segunda opción 55 Figura 5.10 Conclusión exitosa del módulo de sesionización con segunda opción 56 Figura 5.11 Proceso de sesionización exitoso con tercera opción... 56 Figura 5.12 Proceso de minería exitoso 57 Figura 5.13 Reglas generadas con valores de 20 % de soporte y 20% de confianza... 57 Figura 5.14 Proceso de minería exitoso... 58 Figura 5.15 Reglas generadas con valores de 15% de soporte y 20% de confianza... 58 Figura 5.16 Respaldo de los datos generados 59 Figura 5.17 Archivo generado por el respaldo. 59 Figura 5.18 Selección de archivos de respaldo... 60 Figura 5.19 Proceso de recuperación de datos... 60 Figura 5.20 Recuperación de datos exitosa. 61 Figura 5.21 Recolección de estructuras. Sitio www.proyem.com.mx.. 62 Figura 5.22 Recolección de estructura exitosa... 62 Figura 5.23 Datos almacenados por la recolección de estructuras 1.. 62 Figura 5.24 Datos almacenados por la recolección de estructuras 2.. 63 Figura 5.25 Selección y carga de estructuras para el análisis.. 64 Figura 5.26 Visualización de la estructura de www.proyem.com.mx... 64 Figura 5.27 Carga exitosa de la estructura de prueba.. 65 Figura 5.28 Acotaciones para el sitio de prueba. 65 Figura 5.29 Reglas de asociación para el sitio de prueba. 66 Figura 5.30 Opción para visualizar el grafo recortado 66 Figura 5.31 Grafo recortado para el sitio de prueba... 67 Figura 5.32 Gráfica para el proceso de sesionización. (Agosto 2004) 71 Figura 5.33 Gráfica para el proceso de minería. (Agosto 2004)... 73 Figura 5.34 Gráfica para el proceso de limpieza. (Agosto, septiembre).. 78 Figura 5.35 Gráfica para el proceso de sesionización. (Septiembre 2004).. 78 Figura 5.36 Proceso de minería. (Septiembre 2004).. 79 Figura B1 Hits sobre páginas durante el mes de agosto del 2004 95 Figura B2 Porcentaje de visitantes por página durante el mes de agosto del 2004... 95 Figura B3 Porcentaje de hits por host durante el mes de agosto del 2004.. 96 Figura B4 Porcentaje de páginas por host durante el mes de agosto del 2004... 96 Figura B5 Porcentajes de archivos más visitados durante el mes de agosto del 2004 97 vii

Figura B6 Porcentajes de páginas utilizadas como entrada al sitio Web para agosto del 2004.. 97 Figura B7 Hits para el mes de septiembre del 2004 98 Figura B8 Visitantes por páginas para septiembre del 2004.. 98 Figura B9 Hits por host para septiembre del 2004... 99 Figura B10 Páginas por host para septiembre del 2004 99 Figura B11 Hits sobre archivo para septiembre del 2004... 100 Figura B12 Páginas de entrada a cenidet.edu.mx para septiembre del 2004.. 100 Figura B13 Hits en el mes de abril del 2005 para misiondelsol.com.mx... 101 viii

Índice de tablas Tabla 1 Descripción de términos de uso de la Web.. 8 Tabla 2 Registros de un archivo log en formato CLFE. 19 Tabla 3 Bases de datos binarios... 26 Tabla 4 Tabla R... 27 Tabla 5 Resultado del algoritmo 29 Tabla 6 Resultado de un SELECT sobre la tabla bitácora... 41 Tabla 7 Archivos de servidor Web y Proxy. 49 Tabla 8 Estadísticas generales para el mes de agosto del 2004 68 Tabla 9 Páginas más visitadas durante el mes de agosto del 2004... 68 Tabla 10 Direcciones IP más activas durante el mes de agosto del 2004... 69 Tabla 11 Tipos de archivos más visitados durante el mes de agosto del 2004 69 Tabla 12 Páginas de entrada al sitio Web durante agosto del 2004. 70 Tabla 13 Parámetros de limpieza para el mes de agosto del 2004.. 70 Tabla 14 Proceso de sesionización con diferentes parámetros 71 Tabla 15 Minería de reglas de asociación, (agosto del 2004)... 72 Tabla 16 Reglas más significativas para cada método de sesionización, (agosto 2004).... 72 Tabla 17 Reglas generadas con 2% de soporte.. 74 Tabla 18 Reglas localizadas en el mes de agosto del 2004.. 74 Tabla 19 Estadísticas generales para el mes de septiembre del 2004 75 Tabla 20 Páginas más visitadas durante el mes de septiembre del 2004... 75 Tabla 21 Direcciones IP más activas durante el mes de septiembre del 2004 76 Tabla 22 Tipos de archivos más visitados durante el mes de septiembre del 2004 76 Tabla 23 Páginas de entrada al sitio Web en septiembre del 2004.. 77 Tabla 24 Carga de archivos para el mes de septiembre del 2004 77 Tabla 25 Proceso de sesionización con diferentes parámetros. (Septiembre 2004)... 78 Tabla 26 Minería de reglas de asociación. (Septiembre 2004).. 79 Tabla 27 Reglas más significativas para cada método de sesionización. (Septiembre 2004).... 80 Tabla 28 Comparativa de reglas significativas localizadas durante agosto y septiembre del 2004..... 80 Tabla 29 Reglas generadas con 2% de soporte.. 80 Tabla 30 Reglas localizadas en el mes de septiembre del 2004... 81 Tabla 31 Estadísticas generales para misiondelsol.com.mx... 82 Tabla 32 Páginas más visitadas durante el mes de abril del 2005 82 Tabla 33 Direcciones IP más activas durante el mes de abril del 2005 83 Tabla 34 Carga de archivos para el mes de abril del 2005 83 Tabla 35 Proceso de sesionización con diferentes parámetros, (Abril 2005). 84 ix

Tabla 36 Minería de reglas de asociación, (abril 2005).. 84 Tabla 37 Reglas más significativas para cada método de sesionización, (abril 2005). 84 Tabla 38 Reglas localizadas en el mes de abril del 2005... 85 Tabla 39 Resumen de reglas representativas.. 85 x

Glosario de términos AWT BALANCEO DE CARGAS Acrónimo de Abstract Windows Toolkit. Es la parte de java que se ocupa de construir interfaces gráficas de usuario. Acción de distribuir el proceso o carga de trabajo entre las entidades colaboradoras con el fin de reducir los costos de operación. CACHES BUSTING Técnica para garantizar que los navegadores o servidores Proxy siempre obtengan una copia nueva de la petición realizada al sitio Web, evitando obtener copias a partir de otras caches. COOKIE DIAGRAMA DE CASO DE USO DIAGRAMA DE CLASES FIREWALL HERENCIA Es un archivo que se almacena en el disco duro del visitante de una página Web a través de su navegador, a petición del servidor de la página. Esta información es recuperada por el servidor en posteriores visitas. Las inventó Lou Montulli, un antiguo empleado de Netscape Communications. Es un tipo de clasificador representando una unidad funcional coherente, un subsistema o una clase manifestada por secuencias de mensajes. Es el diagrama principal para el análisis y diseño. Un diagrama de clases presenta las clases del sistema con sus relaciones estructurales y de herencia. La definición de clase incluye definiciones para atributos y operaciones. El modelo de casos de uso aporta información para establecer las clases, objetos, atributos y operaciones. Un firewall es un elemento de hardware o software utilizado en las redes para prevenir algunos tipos de comunicaciones prohibidas por las políticas de red, las cuales se fundamentan en las necesidades del usuario. Es uno de los mecanismos de la programación orientada a objetos, por medio de la cual una clase se deriva de otra de manera que extiende su funcionalidad. Una de sus funciones más importantes es la de proveer polimorfismo y herencia. xi

HEURÍSTICA HITS JDBC LATENCIA MÁQUINAS DE APRENDIZAJE MARKETING METODOLOGÍA MODELO DE MARKOV Capacidad de un sistema para realizar innovaciones positivas para sus fines de forma inmediata. La capacidad heurística es un rasgo característico de nuestra especie, desde cuyo punto de vista puede describirse como el arte y la ciencia del descubrimiento y de la invención. Un hit es un acceso, una petición al servidor de un fichero; por ejemplo, si en una página, además del archivo php, usó un archivo externo javascript, otro css, y, además, la cabecera y 5 imágenes pequeñas, resulta que se tienen 9 hits, nueve peticiones de ficheros Acrónimo de Java Database Conectivity, es un API que permite la ejecución de operaciones sobre bases de datos desde el lenguaje de programación Java independientemente del sistema de operación donde se ejecute o la base de datos a la cual se accede utilizando el lenguaje SQL del modelo de base de datos. Tiempo en que tardan en comunicarse dos puntos remotos. Es un área de la inteligencia artificial concerniente al desarrollo de técnicas que permiten a las computadoras aprender. Es un método para crear programas de computadora orientados al análisis de conjuntos de datos. El Marketing es una filosofía o forma de realizar negocios a través de la satisfacción de las necesidades y los requerimientos de los clientes y los clientes y los consumidores. Se refiere a los métodos de investigación de una ciencia. Parte del proceso de investigación que permite sistematizar los métodos y las técnicas necesarios para llevarla a cabo. Un proceso de Markov es una serie de experimentos en que cada uno tiene m posibles resultados, E 1, E 2...E m, y la probabilidad de cada resultado depende exclusivamente del que se haya obtenido en los experimentos previos. Por ejemplo: si en el mercado hay tres marcas de detergentes, cada una de las cuales tiene una cierta porción de dicho mercado en la semana 1, la semana xii

siguiente la distribución puede cambiar dependiendo de las decisiones del consumidor Matemáticamente, un proceso de Markov se modela mediante una matriz de transición. Esta no es más que una matriz de probabilidades, donde cada elemento p ij representa la probabilidad condicional de que el sistema pase de un estado actual i al siguiente estado j. MODELO ENTIDAD- RELACIÓN PRECARGA RECONOCIMIENTO DE PATRONES ROBOT DE INTERNET SERVIDOR PROXY SERVIDOR WEB Es el modelo conceptual más utilizado para el diseño conceptual de bases de datos. Fue introducido por Peter Chen en 1976. El modelo entidad-relación está formado por un conjunto de conceptos que permiten describir la realidad mediante un conjunto de representaciones gráficas y lingüísticas. Originalmente, el modelo entidadrelación sólo incluía los conceptos de entidad, relación y atributo. Más tarde, se añadieron otros conceptos, como los atributos compuestos y las jerarquías de generalización, en lo que se ha denominado modelo entidad-relación extendido. En término de computación se refiere a la práctica que consiste en cargar a memoria datos necesarios para desempeñar ciertas tareas computacionales antes de que estas inicien. Es un área incluida dentro de las máquinas de aprendizaje que se enfoca en clasificar datos basándose en conocimiento previo o información estadística previamente extraída a partir de los patrones. Los robots, en Internet, son también conocidos como arañas, y se trata de programas que navegan, por su cuenta, y por medio de programación en el tiempo, con el objeto de visitar sitios y obtener información de éstos. El término proxy hace referencia a un programa o dispositivos que realiza una acción en representación de otro. La finalidad más habitual de esa representación es la de permitir el acceso a Internet a todos los equipos de una organización cuando sólo se puede disponer de un único equipo conectado, esto es, una única dirección IP. Un servidor Web es un programa que implementa el protocolo http (hypertext transfer protocol). Este protocolo está diseñado para transferir lo que llamamos hipertextos, páginas Web o páginas HTML (hypertext xiii

markup language). URI URL VISITAS Uniform Resource Identifier, es decir, identificador uniforme de recursos. Texto corto que identifica unívocamente cualquier recurso (servicio, página, documento, etc.) accesible en una red. Uniform Resource Locutor, es decir localizador uniforme de recurso. Es la cadena de caracteres con la cual se asigna dirección única a cada uno de los recurso de información disponible en Internet. Cuando un internauta entra en una página es una visita. Todo el tiempo que navegue por dicho sitio Web contará como una visita, sólo una; la primera petición que realiza ese cliente remoto, es lo que cuenta como visita, el tiempo que pase en la Web, descargando algo, leyendo contenidos, todo eso formará parte de la misma visita. xiv

REFERENCIAS [1] Kevin Larson y Mary Czerwinski. Web page design: Implications of memory, structure and scent information retrieval. CHI 1998. Los Angeles, CA. 1998. [2] A.G. Buncher, M. Baumgarten, S.S. Anand, M.D. Mulvenna, y J.G. Hughes. Navigation pattern discovery from Internet data. In WEBKDD, San Diego, CA, 1999. [3] E. Cohen, B. Krishnamurthy y J. Rexford. Improving end-to-end performance of the Web using server volumes and proxy filters. In Proceedings of ACM SIGCOMM. páginas 241-253. 1998. [4] T. Fawcett y F. Provost. Activity monitoring: Noticing interesting changes in behaviour. 5o. ACM SIGKDD International Conference of Knowledge Discovery and Data Mining. páginas 53-62. San Diego, CA. 1994. [5] David René Valenzuela Molina. Mecanismos para predicción de acaparamiento de datos en sistemas cliente/servidor móviles. CENIDET. 2002. [6] R. Cooley, Pang-Ning Tan. Discovery of Interesting Usage Petterns from Web Data. Departament of Computer Science and Engineering University of Minnesota. 1999. [7] J. Srivastava, R. Cooley, M. Deshpande, and P.-N. Tan. Web Usage Mining: Discovery and Application of Usage Patterns from Web Data. SIGKDD Explorations, 1(2):12-23. Enero 2000. [8] R. Cooley, Pang-Ning Tan, Jaideep Srivastava. WebSIFT: The Web Site Information Filter System. Departament of Computer Science. University of Minnesota. Junio 1999. [9] Myra Spiliopoulou y Lukas C. Faulstich. WUM: A Web utilization miner. En EDBT Workshop WebDB98. Valencia, Spain. 1998. [10] Myra Spiliopoulou, Carsten Pohle y Lukas C Faulstich. Improving the effectiveness of a web site with usage mining. En WEBKDD. San Diego, CA. 1999. [11] Kun-Lung Wu, Philip S Yu y Allen Ballman. SpeedTracer: A web usage mining and analysis tool. IBM Systems Journal, 37(1).1998. [12] Cyrus Shahabi, Ami M. Zarkesh, Jafar Adibi y Vishal Shah. Knowledge discovery from users web page navigation. Workshop on Research Issues in Data Engineering. Birmingham, England. 1997. [13] Robert Cooley, Bamshad Mobasher y Jaideep Srivastava. Web mining: Information and pattern discovery on the world wide web. International Conference on Tools with Artificial Intelligence. pages 558-567. Newport Beach. 1997. [14] Bamshad Mobasher, Robert Cooley y Jaideep Srivastava. Creating adaptative web sites through usage-based clustering of URL s. Knowledge and Data Engineering Workshop. 1999. [15] T. Joachims, D. Freitag y T. Mitchell. Webwatcher: A tour guide for world wide web. XV International Conference on Artificial Intelligence. Nagoya Japón. 1997. [16] D.S.W. Ngu and X. Wu. Sitehelper: A localized agent that helps incremental exploration of the World Wide Web. VI International World Wide Web conference. Santa Clara, CA. 1997. [17] H. Liberman. Letizia: An agent that assist web browsing. International Joint Conference on Artificial Intelligence. Montreal, Canada. 1995. 90

[18] T. Yan, M. Jacobsen, H. Garcia Molina y U. Dayal. From user access patterns to dynamic hypertext linking. V International World Wide Web Conference. Paris, Francia. 1996. [19] Virgilio Almeida, Azer Bestavros, Mark Crovella y Adriana de Oliveira. Characterizing reference locality in the www. Technical Report TR-96-11, Boston University. 1996. [20] Mike Perkowitz y Oren Etzioni. Adaptative Web sites: Automatically synthesizing web page. XV National Conference on Artificial Intelligence. Madison. 1998. [21] Mike Perkowitz y Oren Etzioni. Adaptative Web sites: Conceptual cluster mining. XVI International Joint Conference on Artificial Intelligence. Estocolmo Suecia. 1999. [22] Alex Buchner y Maurice D. Mulvenna. Discovering Internet marketing intelligence through online analytical web usage mining. SIGMOD páginas 54-61. 1998. [23] Andromedia Aria. http://www.andromedia.com. 2005 [24] Accrue. http://www.accrue.com. 2005 [25] HitList. http://www.marketwave.com. 2005 [26] NetGenesis. http://www.netgenesis.com. 2005 [27] SurfAid. http://surfaid.dfw.ibm.com. 2005 [28] WebTrends Log analyzer. http://www.webtrands.com. 2005-06-27 [29] O. R. Zaiane, M. Xin y J. Han. Discovering Web access patterns and trends by applying olap and data mining technology on web logs. Advances in Digital Libraries. Páginas 19-29. Santa Barbara, CA. 1998. [30] L. Catledge y J. Pitkow. Characterizing browsing behaviors on the world on the World Wide Web. Computer Networks and ISDN Systems. 1995. [31] James Pitkow. Search of reliable usage data on the www. VI international World Wide Web Conference. Páginas 451-463. Santa Clara, CA. 1997. [32] Behzad Mortazavi-Asl. Discovering and mining user web-page traversal patterns. Simon Fraser University. 1999. [33] Raymond Kosala, Hendrik Blockeel. Web Mining Research: A Survey. Departament of Computer Science. Katholieke Universiteit Leuven. Belgica. 2000. [34] Rakesh Agrawal, Ramakrishnan Srikant, Fast Algorithms for Mining Association Rules, IBM Almaden Research Center, San Jose CA, USA. [35] Jaideep Srivastava, R. Cooley. Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data. Department of Computer Science and Engineering. University of Minnesota, Minneapolis, USA. [36] B.Mobasher, N. Jain y E. Han. Web Mining: Pattern discovery from World Wide Web transactions, University of Minnesota, Minneapolis, 1996. [37] González Serna Juan Gabriel. Plataforma middleware reflexiva para aplicaciones de cómputo móvil en Internet (Movirware), Centro Nacional de Investigación y Desarrollo Tecnológico (cenidet), de septiembre de 2001 agosto de 2003, financiamiento COSNET: 570.01-P. [38] Web Log Explorer. www.exaccttrend.com [39] Raymond Kosala, Hendrik Blockeel, Web Mining, Department of Computer Science, Katholieke Universiteit Leuven, Belgium. 2002. 91

Capítulo 1.Introducción Capítulo INTRODUCCIÓN El Web Mining (WM) se refiere a la aplicación de técnicas de Data Mining (DM) sobre la World Wide Web. De esta definición se deriva que WM es simplemente aprovechar las técnicas de DM para obtener conocimiento de la información disponible en Internet. Cada día, cientos de organizaciones dan el salto a Internet esperando integrarse y darse a conocer con los millones de personas que utilizan la red mundial. Todas 1

Capítulo 1.Introducción las organizaciones que operan en Internet generan grandes cantidades de información, producto de las operaciones que se realizan en sus servidores Web, los cuales almacenan las operaciones realizadas en bitácoras de accesos, también conocidas como archivos log. El análisis de estos datos puede proporcionar información útil que ayude en la toma de decisiones. Ejemplos claros en los que resulta útil el análisis de estos datos son los siguientes: - Mejorar el diseño de la estructura de un sitio Web [1] de manera que se facilite al usuario la navegación entre recursos del sitio. - Planeación de campañas de mercadotecnia [2] orientadas al comercio electrónico dentro de las páginas de un sitio Web. - Mejoramiento de sistemas en la calidad de su desempeño. La WM proporciona de los recursos para entender el comportamiento del tráfico y así mejorar aspectos como las técnicas de catching, transmisiones en la red [3], balanceo de cargas, o distribución de los datos. - La seguridad es un aspecto muy delicado en lo que concierne a los servicios basados en la Web y muy especialmente al comercio electrónico, que crece en cantidades exponenciales [4]. La WM puede proporcionar patrones de navegación que ayuden en la detección de intrusos y fraudes. - En esta tesis, el análisis se aplicó para identificar patrones de acceso a recursos de la Web con el objetivo de identificar archivos HTML para acaparamiento en dispositivos móviles. 1.1 Descripción del problema Como se muestra en la figura 1.1, a consecuencia de las frecuentes desconexiones en los ambientes inalámbricos, los usuarios se han visto en la necesidad de obtener servicios de soporte de operaciones en modo desconexión. Una solución atractiva para el tratamiento de la desconexión es el acaparamiento o precarga de recursos útiles para el usuario en sus dispositivos móviles, mediante algoritmos de predicción. El problema evidente en este esquema de predicción [5], es la identificación y selección de los elementos más adecuados para el acaparamiento. 2

Capítulo 1.Introducción Desconexión Internet Dispositivo Móvil Punto Acceso Servidor 1.1.1 Problemáticas particulares Figura 1.1 Problemática del acaparamiento Uno de los aspectos clave en el proceso de minería, es el de obtener un conjunto de datos que cuenten con la abstracción a modo de que sirvan de datos fuente para la aplicación de los algoritmos de minería de datos. La información que puede servir de entrada para iniciar el proceso de WM y lograr la extracción de patrones de navegación, se caracteriza por su gran diversidad en cuanto al contenido y al origen, la cual se encuentra en un nivel de abstracción en el que no es posible aplicar técnicas de WM. Como se muestra en la figura 1.2 las bitácoras pueden ser obtenidas de varias fuentes, tales como son: servidores Web, clientes y servidores Proxy. Cada conjunto de datos, difiere no sólo en términos de la localización de la fuente de datos, sino también en el tipo de información disponible en ellos y en los formatos utilizados para su almacenamiento. Los datos obtenidos de las diferentes fuentes, contienen los patrones de navegación que pueden pertenecer a un solo usuario visitando múltiples sitios, un sitio y múltiples visitantes y un proxy con múltiples clientes visitando múltiples servidores Web. En la figura 1.2 se pueden observar los diferentes orígenes de datos que pueden ser usados como entrada al proceso de minería. Las bitácoras de acceso a servidores Web son una importante fuente de información ya que en ellos se almacena explícitamente el comportamiento de los usuarios cuando visitan un sitio Web. Los datos almacenados en las bitácoras de los servidores Web reflejan los accesos de múltiples usuarios; una problemática existente en este origen de datos, es la diversidad de formatos de bitácoras, de los cuales, los más comunes son; Common Log Format (CLF. Formato Común de Log), Extended Common Log Format (ECLF. Formato Común Extendido de Log) y Performance Log Format (PLF Formato de Desempeño de Log). 3