CENTRO NACIONAL DE INVESTIGACIÓN Y DESARROLLO TECNOLÓGICO. cenidet

Tamaño: px
Comenzar la demostración a partir de la página:

Download "CENTRO NACIONAL DE INVESTIGACIÓN Y DESARROLLO TECNOLÓGICO. cenidet"

Transcripción

1 04/11/2005 S.E.P. S.E.I.T. D.G.I.T. CENTRO NACIONAL DE INVESTIGACIÓN Y DESARROLLO TECNOLÓGICO cenidet GENERADOR DE PATRONES DE NAVEGACIÓN DE USUARIO APLICANDO WEB LOG MINING EN CLIENTE/SERVIDOR T E S I S QUE PARA OBTENER EL GRADO DE: M A E S T R O E N C I E N C I A S E N C I E N C I A S D E L A C O M P U T A C I Ó N P R E S E N T A : G A B R I E L H E R N Á N D E Z M É N D E Z DIRECTOR DE TESIS: M.C. JUAN GABRIEL GONZÁLEZ SERNA CODIRECTOR DE TESIS: DR. VÍCTOR JESÚS SOSA SOSA CUERNAVACA, MORELOS NOVIEMBRE DEL 2005

2 Tabla de contenido Resumen... Índice de figuras... Índice de tablas. Glosario de términos..... iv vi ix xi CAPÍTULO 1 INTRODUCCIÓN Descripción del problema Problemáticas particulares Objetivo de la tesis Justificación y beneficios Organización del documento. 5 CAPÍTULO 2 MARCO TEÓRICO Términos utilizados en el contexto de la minería Web Minería Web Análisis de proyectos sobre minería de uso Web CAPÍTULO 3 METODOLOGÍA DE SOLUCIÓN PARA UN SISTEMA DE MINERÍA DE USO WEB Pre-procesamiento Peticiones irrelevantes sobre el servidor Web Peticiones automáticas sobre el servidor Web Peticiones erróneas sobre el servidor Web Identificación de sesiones de usuarios Identificación de sesiones de usuarios sobre el servidor Web y Proxy Descubrimiento de patrones Descubrimiento de patrones interesantes Análisis estadístico Ítems frecuentes y reglas de asociación Validación de regla de asociación. 22 i

3 3.4 Modelado del problema Análisis gráfico de patrones interesantes Recolección de estructuras de sitios Web Análisis gráfico de estructuras de sitios Web y patrones interesantes CAPÍTULO 4 IMPLEMENTACIÓN DE LA METODOLOGÍA DE SOLUCIÓN Creación de proyectos y carga de archivos log Identificación del formato del archivo log Módulo de limpieza de archivos log Módulo para la identificación de sesiones de usuarios Creación de sesiones de usuario en base al número de 38 peticiones solicitadas Creación de sesiones de usuario en base al tiempos de 39 duración Creación de sesiones de usuario mediante heurística Módulo para la búsqueda de patrones interesantes Caracterización del problema Implementación del algoritmo de minería de reglas de 42 asociación Análisis gráfico de patrones de navegación Recolector de estructuras de sitios Web Módulo para descargar estructuras de sitios Web Visor de estructuras y patrones de sitios Web 45 CAPÍTULO 5 PLAN DE PRUEBAS Compendio de archivos Escenario de pruebas Pruebas sobre funciones generales del minero Caso 1. Creación del proyecto Caso 2. Agregar archivos e identificar formatos Caso 3. Proceso de limpieza de archivos Caso 4. Creación de sesiones de usuario Caso 5. Minería de reglas de asociación Caso 6. Respaldo de datos generados Caso 7. Recuperación de datos respaldados Pruebas sobre funciones generales del recolector de estructuras y el visor de estructuras. 61 ii

4 5.4.1 Caso 8. Recolección de estructuras de sitios Web Caso 9. Análisis gráfico de estructuras Caso 10. Análisis gráfico de reglas de asociación Pruebas sobre el dominio cenidet.edu.mx Estadisticas para el mes de agosto del Proceso de limpieza, sesionización y minería para agosto del Estadisticas para el mes de septiembre del Proceso de limpieza, sesionización y minería para septiembre del Pruebas sobre el dominio misiondelsol.com.mx Proceso de limpieza, sesionización y minería para misiondelsol.com.mx Análisis general de los resultados obtenidos.. 85 CAPÍTULO 6 CONCLUSIONES Y TRABAJOS FUTUROS Conclusiones Aportaciones Trabajos futuros 88 REFERENCIAS ANEXO A. Formatos de archivos log ANEXO B. Gráficas de pruebas. 96 ANEXO C. Archivo de configuración iii

5 Resumen La comunicación entre computadoras mediante redes inalámbricas ha sido una de las tecnologías más prometedoras y discutidas en esta década. Las redes inalámbricas facilitan la operación en lugares donde la computadora no puede permanecer en un solo lugar; sin embargo, esta tecnología todavía no ha alcanzado su completa madurez ya que aún existen varios obstáculos que resolver antes de que las redes inalámbricas sean utilizadas de manera general en los sistemas de cómputo de la actualidad. Uno de los obstáculos que presentan las redes inalámbricas es la dificultad para mantener una comunicación continua entre el dispositivo móvil y la célula de acceso, esa falta de continuidad se debe a varias razones entre las cuales se pueden mencionar el alto costo de comunicación, la interferencia en el medio, el rango de cobertura de la célula de acceso así, como la duración de la batería. Los problemas que traen consigo las desconexiones en una red inalámbrica pueden ser solucionados con el desarrollo de mecanismo que trabajen en modo conexión/desconexión sobre redes inalámbricas; no obstante, esta solución resulta compleja. El acaparamiento automático de información que el usuario del equipo móvil podría llegar a necesitar cuando éste se encuentre desconectado de la red, es una estrategia eficiente para la solución a los problemas propiciados por las desconexiones; sin embargo, el predecir cual es la información que le usuario móvil requerirá es un problema fuerte. Las técnicas de minería de datos se pueden utilizar para extraer reglas de asociación entre recursos Web en base en los datos almacenados en las bitácoras de accesos tanto del servidor Web como del servidor Proxy; estas reglas de asociación representan patrones de navegación que los usuarios registran durante sus visitas a un sitio Web. En este trabajo de investigación se plantea una metodología de solución al módulo generador de patrones de accesos y se describe el desarrollo de una herramienta capaz de localizar patrones mediante la minería de reglas de asociación. La herramienta permite obtener patrones a partir de un proceso complejo; la calidad de los resultados es altamente dependiente de las actividades de preprocesamiento, y es precisamente en éstas actividades donde se propone un nuevo método para la identificación de sesiones. Entre más bajo sea el valor de soporte, el número de reglas se incrementa. iv

6 Abstract Communication between computers through wireless networks has been in this decade one of the most promising and discussed technologies. Wireless networks facilitate transactions at places where the computer cannot remain at a single place; however, this technology has not reached total maturity yet due to the existence of several obstacles that need to be solved before wireless networks are generally used at present in computer systems. Difficulty to maintain continuous communication between a mobile device and an access cell is one of the obstacles of wireless networks. The lack of continuity is due to several reasons, for example: high cost of communication, interference in the means, access point covering range, and battery life. Problems caused by disconnections on wireless networks can be solved by the development of mechanisms that work in connection/disconnection mode on wireless networks; nevertheless, this solution is complex. The automatic hoarding of information that a user of a mobile device could end up needing when he is disconnected of the network, is an efficient strategy to solve problems caused by disconnections; however, to predict which information will be required by mobile users is a hard problem. The techniques of data mining can be used to extract association rules among Web resources based on data stored in access logs of Web servers and Proxy servers, these association rules represent navigation patterns that users register during their visit to any Web site. In this work the research for a solution methodology is outlined by the access patterns generator module. We describe the tool that use mining of association rules for locates patterns. The tool allows obtaining patterns from a complex process; the quality of results is highly dependent on the pre-processing activities, and it is precisely in these activities where a new method for the identification of sessions is proposed. During the tests we observe that the numbers of rules is increased notoriously when the support value decrease. v

7 Índice de figuras Figura 1.1 Problemática del acaparamiento... 3 Figura 1.2 Figura 1.2 Diagrama de accesos Web. 4 Figura 2.1 Clasificación de proyectos sobre minería Web.. 9 Figura 3.1 Arquitectura de solución. 14 Figura 3.2 Esquema de base de datos orientada a transacciones de ventas a detalle Figura 3.3 Esquema de base de datos orientada minería de datos de uso Web 24 Figura 3.4 Esquema de base de datos orientada minería de datos de uso Web optimizado 25 Figura 3.5 Modelo para el almacenamiento de reglas de asociación 31 Figura 3.6 Entidad-Relación para el almacenamiento de estructuras de sitios Web. 31 Figura 3.7 Visor de estructuras de sitios Web Figura 4.1 Esquema de la plataforma moviware Figura 4.2 Diagrama de casos de uso para la creación de proyectos.. 35 Figura 4.3 Diagrama de casos de uso para la actividad de agregar bitácora. 35 Figura 4.4 Diagrama de clases para el módulo Agregar Bitácoras. 35 Figura 4.5 Diagrama de clases para el análisis de líneas 36 Figura 4.6 Diagrama de casos de uso para la fase de limpieza de datos.. 37 Figura 4.7 Diagrama de casos de uso para la sesionización de bitácoras 37 Figura 4.8 Diagrama de clases para la sesionización de bitácoras Figura 4.9 Diagrama de clases para el proceso de minería 42 Figura 4.10 Diagrama de casos de uso para la actividad de minería.. 43 Figura 4.11 Diagrama de casos de uso para la recolección de Figura 4.12 estructuras 44 Diagrama de clases utilizado para la recolección de estructuras Figura 4.13 Diagrama de casos de uso para el visor de estructuras Web 46 Figura 4.14 Diagrama de clases utilizado para la construcción del visor 47 Figura 5.1 Creación de un proyecto 51 Figura 5.2 Dialogo para agregar archivos log 51 Figura 5.3 Identificación de formatos de archivos log Figura 5.4 Identificación de formatos de archivos log Figura 5.5 Inicio del proceso de limpieza 53 vi

8 Figura 5.6 Proceso de limpieza exitoso.. 54 Figura 5.7 Ejecución del módulo de sesionización con la primera opción 55 Figura 5.8 Conclusión exitosa del módulo de sesionización con primera opción 55 Figura 5.9 Ejecución del módulo de sesionización con la segunda opción 55 Figura 5.10 Conclusión exitosa del módulo de sesionización con segunda opción 56 Figura 5.11 Proceso de sesionización exitoso con tercera opción Figura 5.12 Proceso de minería exitoso 57 Figura 5.13 Reglas generadas con valores de 20 % de soporte y 20% de confianza Figura 5.14 Proceso de minería exitoso Figura 5.15 Reglas generadas con valores de 15% de soporte y 20% de confianza Figura 5.16 Respaldo de los datos generados 59 Figura 5.17 Archivo generado por el respaldo. 59 Figura 5.18 Selección de archivos de respaldo Figura 5.19 Proceso de recuperación de datos Figura 5.20 Recuperación de datos exitosa. 61 Figura 5.21 Recolección de estructuras. Sitio 62 Figura 5.22 Recolección de estructura exitosa Figura 5.23 Datos almacenados por la recolección de estructuras Figura 5.24 Datos almacenados por la recolección de estructuras Figura 5.25 Selección y carga de estructuras para el análisis.. 64 Figura 5.26 Visualización de la estructura de 64 Figura 5.27 Carga exitosa de la estructura de prueba.. 65 Figura 5.28 Acotaciones para el sitio de prueba. 65 Figura 5.29 Reglas de asociación para el sitio de prueba. 66 Figura 5.30 Opción para visualizar el grafo recortado 66 Figura 5.31 Grafo recortado para el sitio de prueba Figura 5.32 Gráfica para el proceso de sesionización. (Agosto 2004) 71 Figura 5.33 Gráfica para el proceso de minería. (Agosto 2004) Figura 5.34 Gráfica para el proceso de limpieza. (Agosto, septiembre).. 78 Figura 5.35 Gráfica para el proceso de sesionización. (Septiembre 2004).. 78 Figura 5.36 Proceso de minería. (Septiembre 2004).. 79 Figura B1 Hits sobre páginas durante el mes de agosto del Figura B2 Porcentaje de visitantes por página durante el mes de agosto del Figura B3 Porcentaje de hits por host durante el mes de agosto del Figura B4 Porcentaje de páginas por host durante el mes de agosto del Figura B5 Porcentajes de archivos más visitados durante el mes de agosto del vii

9 Figura B6 Porcentajes de páginas utilizadas como entrada al sitio Web para agosto del Figura B7 Hits para el mes de septiembre del Figura B8 Visitantes por páginas para septiembre del Figura B9 Hits por host para septiembre del Figura B10 Páginas por host para septiembre del Figura B11 Hits sobre archivo para septiembre del Figura B12 Páginas de entrada a cenidet.edu.mx para septiembre del Figura B13 Hits en el mes de abril del 2005 para misiondelsol.com.mx viii

10 Índice de tablas Tabla 1 Descripción de términos de uso de la Web.. 8 Tabla 2 Registros de un archivo log en formato CLFE. 19 Tabla 3 Bases de datos binarios Tabla 4 Tabla R Tabla 5 Resultado del algoritmo 29 Tabla 6 Resultado de un SELECT sobre la tabla bitácora Tabla 7 Archivos de servidor Web y Proxy. 49 Tabla 8 Estadísticas generales para el mes de agosto del Tabla 9 Páginas más visitadas durante el mes de agosto del Tabla 10 Direcciones IP más activas durante el mes de agosto del Tabla 11 Tipos de archivos más visitados durante el mes de agosto del Tabla 12 Páginas de entrada al sitio Web durante agosto del Tabla 13 Parámetros de limpieza para el mes de agosto del Tabla 14 Proceso de sesionización con diferentes parámetros 71 Tabla 15 Minería de reglas de asociación, (agosto del 2004) Tabla 16 Reglas más significativas para cada método de sesionización, (agosto 2004) Tabla 17 Reglas generadas con 2% de soporte.. 74 Tabla 18 Reglas localizadas en el mes de agosto del Tabla 19 Estadísticas generales para el mes de septiembre del Tabla 20 Páginas más visitadas durante el mes de septiembre del Tabla 21 Direcciones IP más activas durante el mes de septiembre del Tabla 22 Tipos de archivos más visitados durante el mes de septiembre del Tabla 23 Páginas de entrada al sitio Web en septiembre del Tabla 24 Carga de archivos para el mes de septiembre del Tabla 25 Proceso de sesionización con diferentes parámetros. (Septiembre 2004) Tabla 26 Minería de reglas de asociación. (Septiembre 2004).. 79 Tabla 27 Reglas más significativas para cada método de sesionización. (Septiembre 2004) Tabla 28 Comparativa de reglas significativas localizadas durante agosto y septiembre del Tabla 29 Reglas generadas con 2% de soporte.. 80 Tabla 30 Reglas localizadas en el mes de septiembre del Tabla 31 Estadísticas generales para misiondelsol.com.mx Tabla 32 Páginas más visitadas durante el mes de abril del Tabla 33 Direcciones IP más activas durante el mes de abril del Tabla 34 Carga de archivos para el mes de abril del Tabla 35 Proceso de sesionización con diferentes parámetros, (Abril 2005). 84 ix

11 Tabla 36 Minería de reglas de asociación, (abril 2005).. 84 Tabla 37 Reglas más significativas para cada método de sesionización, (abril 2005). 84 Tabla 38 Reglas localizadas en el mes de abril del Tabla 39 Resumen de reglas representativas.. 85 x

12 Glosario de términos AWT BALANCEO DE CARGAS Acrónimo de Abstract Windows Toolkit. Es la parte de java que se ocupa de construir interfaces gráficas de usuario. Acción de distribuir el proceso o carga de trabajo entre las entidades colaboradoras con el fin de reducir los costos de operación. CACHES BUSTING Técnica para garantizar que los navegadores o servidores Proxy siempre obtengan una copia nueva de la petición realizada al sitio Web, evitando obtener copias a partir de otras caches. COOKIE DIAGRAMA DE CASO DE USO DIAGRAMA DE CLASES FIREWALL HERENCIA Es un archivo que se almacena en el disco duro del visitante de una página Web a través de su navegador, a petición del servidor de la página. Esta información es recuperada por el servidor en posteriores visitas. Las inventó Lou Montulli, un antiguo empleado de Netscape Communications. Es un tipo de clasificador representando una unidad funcional coherente, un subsistema o una clase manifestada por secuencias de mensajes. Es el diagrama principal para el análisis y diseño. Un diagrama de clases presenta las clases del sistema con sus relaciones estructurales y de herencia. La definición de clase incluye definiciones para atributos y operaciones. El modelo de casos de uso aporta información para establecer las clases, objetos, atributos y operaciones. Un firewall es un elemento de hardware o software utilizado en las redes para prevenir algunos tipos de comunicaciones prohibidas por las políticas de red, las cuales se fundamentan en las necesidades del usuario. Es uno de los mecanismos de la programación orientada a objetos, por medio de la cual una clase se deriva de otra de manera que extiende su funcionalidad. Una de sus funciones más importantes es la de proveer polimorfismo y herencia. xi

13 HEURÍSTICA HITS JDBC LATENCIA MÁQUINAS DE APRENDIZAJE MARKETING METODOLOGÍA MODELO DE MARKOV Capacidad de un sistema para realizar innovaciones positivas para sus fines de forma inmediata. La capacidad heurística es un rasgo característico de nuestra especie, desde cuyo punto de vista puede describirse como el arte y la ciencia del descubrimiento y de la invención. Un hit es un acceso, una petición al servidor de un fichero; por ejemplo, si en una página, además del archivo php, usó un archivo externo javascript, otro css, y, además, la cabecera y 5 imágenes pequeñas, resulta que se tienen 9 hits, nueve peticiones de ficheros Acrónimo de Java Database Conectivity, es un API que permite la ejecución de operaciones sobre bases de datos desde el lenguaje de programación Java independientemente del sistema de operación donde se ejecute o la base de datos a la cual se accede utilizando el lenguaje SQL del modelo de base de datos. Tiempo en que tardan en comunicarse dos puntos remotos. Es un área de la inteligencia artificial concerniente al desarrollo de técnicas que permiten a las computadoras aprender. Es un método para crear programas de computadora orientados al análisis de conjuntos de datos. El Marketing es una filosofía o forma de realizar negocios a través de la satisfacción de las necesidades y los requerimientos de los clientes y los clientes y los consumidores. Se refiere a los métodos de investigación de una ciencia. Parte del proceso de investigación que permite sistematizar los métodos y las técnicas necesarios para llevarla a cabo. Un proceso de Markov es una serie de experimentos en que cada uno tiene m posibles resultados, E 1, E 2...E m, y la probabilidad de cada resultado depende exclusivamente del que se haya obtenido en los experimentos previos. Por ejemplo: si en el mercado hay tres marcas de detergentes, cada una de las cuales tiene una cierta porción de dicho mercado en la semana 1, la semana xii

14 siguiente la distribución puede cambiar dependiendo de las decisiones del consumidor Matemáticamente, un proceso de Markov se modela mediante una matriz de transición. Esta no es más que una matriz de probabilidades, donde cada elemento p ij representa la probabilidad condicional de que el sistema pase de un estado actual i al siguiente estado j. MODELO ENTIDAD- RELACIÓN PRECARGA RECONOCIMIENTO DE PATRONES ROBOT DE INTERNET SERVIDOR PROXY SERVIDOR WEB Es el modelo conceptual más utilizado para el diseño conceptual de bases de datos. Fue introducido por Peter Chen en El modelo entidad-relación está formado por un conjunto de conceptos que permiten describir la realidad mediante un conjunto de representaciones gráficas y lingüísticas. Originalmente, el modelo entidadrelación sólo incluía los conceptos de entidad, relación y atributo. Más tarde, se añadieron otros conceptos, como los atributos compuestos y las jerarquías de generalización, en lo que se ha denominado modelo entidad-relación extendido. En término de computación se refiere a la práctica que consiste en cargar a memoria datos necesarios para desempeñar ciertas tareas computacionales antes de que estas inicien. Es un área incluida dentro de las máquinas de aprendizaje que se enfoca en clasificar datos basándose en conocimiento previo o información estadística previamente extraída a partir de los patrones. Los robots, en Internet, son también conocidos como arañas, y se trata de programas que navegan, por su cuenta, y por medio de programación en el tiempo, con el objeto de visitar sitios y obtener información de éstos. El término proxy hace referencia a un programa o dispositivos que realiza una acción en representación de otro. La finalidad más habitual de esa representación es la de permitir el acceso a Internet a todos los equipos de una organización cuando sólo se puede disponer de un único equipo conectado, esto es, una única dirección IP. Un servidor Web es un programa que implementa el protocolo http (hypertext transfer protocol). Este protocolo está diseñado para transferir lo que llamamos hipertextos, páginas Web o páginas HTML (hypertext xiii

15 markup language). URI URL VISITAS Uniform Resource Identifier, es decir, identificador uniforme de recursos. Texto corto que identifica unívocamente cualquier recurso (servicio, página, documento, etc.) accesible en una red. Uniform Resource Locutor, es decir localizador uniforme de recurso. Es la cadena de caracteres con la cual se asigna dirección única a cada uno de los recurso de información disponible en Internet. Cuando un internauta entra en una página es una visita. Todo el tiempo que navegue por dicho sitio Web contará como una visita, sólo una; la primera petición que realiza ese cliente remoto, es lo que cuenta como visita, el tiempo que pase en la Web, descargando algo, leyendo contenidos, todo eso formará parte de la misma visita. xiv

16 REFERENCIAS [1] Kevin Larson y Mary Czerwinski. Web page design: Implications of memory, structure and scent information retrieval. CHI Los Angeles, CA [2] A.G. Buncher, M. Baumgarten, S.S. Anand, M.D. Mulvenna, y J.G. Hughes. Navigation pattern discovery from Internet data. In WEBKDD, San Diego, CA, [3] E. Cohen, B. Krishnamurthy y J. Rexford. Improving end-to-end performance of the Web using server volumes and proxy filters. In Proceedings of ACM SIGCOMM. páginas [4] T. Fawcett y F. Provost. Activity monitoring: Noticing interesting changes in behaviour. 5o. ACM SIGKDD International Conference of Knowledge Discovery and Data Mining. páginas San Diego, CA [5] David René Valenzuela Molina. Mecanismos para predicción de acaparamiento de datos en sistemas cliente/servidor móviles. CENIDET [6] R. Cooley, Pang-Ning Tan. Discovery of Interesting Usage Petterns from Web Data. Departament of Computer Science and Engineering University of Minnesota [7] J. Srivastava, R. Cooley, M. Deshpande, and P.-N. Tan. Web Usage Mining: Discovery and Application of Usage Patterns from Web Data. SIGKDD Explorations, 1(2): Enero [8] R. Cooley, Pang-Ning Tan, Jaideep Srivastava. WebSIFT: The Web Site Information Filter System. Departament of Computer Science. University of Minnesota. Junio [9] Myra Spiliopoulou y Lukas C. Faulstich. WUM: A Web utilization miner. En EDBT Workshop WebDB98. Valencia, Spain [10] Myra Spiliopoulou, Carsten Pohle y Lukas C Faulstich. Improving the effectiveness of a web site with usage mining. En WEBKDD. San Diego, CA [11] Kun-Lung Wu, Philip S Yu y Allen Ballman. SpeedTracer: A web usage mining and analysis tool. IBM Systems Journal, 37(1) [12] Cyrus Shahabi, Ami M. Zarkesh, Jafar Adibi y Vishal Shah. Knowledge discovery from users web page navigation. Workshop on Research Issues in Data Engineering. Birmingham, England [13] Robert Cooley, Bamshad Mobasher y Jaideep Srivastava. Web mining: Information and pattern discovery on the world wide web. International Conference on Tools with Artificial Intelligence. pages Newport Beach [14] Bamshad Mobasher, Robert Cooley y Jaideep Srivastava. Creating adaptative web sites through usage-based clustering of URL s. Knowledge and Data Engineering Workshop [15] T. Joachims, D. Freitag y T. Mitchell. Webwatcher: A tour guide for world wide web. XV International Conference on Artificial Intelligence. Nagoya Japón [16] D.S.W. Ngu and X. Wu. Sitehelper: A localized agent that helps incremental exploration of the World Wide Web. VI International World Wide Web conference. Santa Clara, CA [17] H. Liberman. Letizia: An agent that assist web browsing. International Joint Conference on Artificial Intelligence. Montreal, Canada

17 [18] T. Yan, M. Jacobsen, H. Garcia Molina y U. Dayal. From user access patterns to dynamic hypertext linking. V International World Wide Web Conference. Paris, Francia [19] Virgilio Almeida, Azer Bestavros, Mark Crovella y Adriana de Oliveira. Characterizing reference locality in the www. Technical Report TR-96-11, Boston University [20] Mike Perkowitz y Oren Etzioni. Adaptative Web sites: Automatically synthesizing web page. XV National Conference on Artificial Intelligence. Madison [21] Mike Perkowitz y Oren Etzioni. Adaptative Web sites: Conceptual cluster mining. XVI International Joint Conference on Artificial Intelligence. Estocolmo Suecia [22] Alex Buchner y Maurice D. Mulvenna. Discovering Internet marketing intelligence through online analytical web usage mining. SIGMOD páginas [23] Andromedia Aria [24] Accrue [25] HitList [26] NetGenesis [27] SurfAid [28] WebTrends Log analyzer [29] O. R. Zaiane, M. Xin y J. Han. Discovering Web access patterns and trends by applying olap and data mining technology on web logs. Advances in Digital Libraries. Páginas Santa Barbara, CA [30] L. Catledge y J. Pitkow. Characterizing browsing behaviors on the world on the World Wide Web. Computer Networks and ISDN Systems [31] James Pitkow. Search of reliable usage data on the www. VI international World Wide Web Conference. Páginas Santa Clara, CA [32] Behzad Mortazavi-Asl. Discovering and mining user web-page traversal patterns. Simon Fraser University [33] Raymond Kosala, Hendrik Blockeel. Web Mining Research: A Survey. Departament of Computer Science. Katholieke Universiteit Leuven. Belgica [34] Rakesh Agrawal, Ramakrishnan Srikant, Fast Algorithms for Mining Association Rules, IBM Almaden Research Center, San Jose CA, USA. [35] Jaideep Srivastava, R. Cooley. Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data. Department of Computer Science and Engineering. University of Minnesota, Minneapolis, USA. [36] B.Mobasher, N. Jain y E. Han. Web Mining: Pattern discovery from World Wide Web transactions, University of Minnesota, Minneapolis, [37] González Serna Juan Gabriel. Plataforma middleware reflexiva para aplicaciones de cómputo móvil en Internet (Movirware), Centro Nacional de Investigación y Desarrollo Tecnológico (cenidet), de septiembre de 2001 agosto de 2003, financiamiento COSNET: P. [38] Web Log Explorer. [39] Raymond Kosala, Hendrik Blockeel, Web Mining, Department of Computer Science, Katholieke Universiteit Leuven, Belgium

18 Capítulo 1.Introducción Capítulo INTRODUCCIÓN El Web Mining (WM) se refiere a la aplicación de técnicas de Data Mining (DM) sobre la World Wide Web. De esta definición se deriva que WM es simplemente aprovechar las técnicas de DM para obtener conocimiento de la información disponible en Internet. Cada día, cientos de organizaciones dan el salto a Internet esperando integrarse y darse a conocer con los millones de personas que utilizan la red mundial. Todas 1

19 Capítulo 1.Introducción las organizaciones que operan en Internet generan grandes cantidades de información, producto de las operaciones que se realizan en sus servidores Web, los cuales almacenan las operaciones realizadas en bitácoras de accesos, también conocidas como archivos log. El análisis de estos datos puede proporcionar información útil que ayude en la toma de decisiones. Ejemplos claros en los que resulta útil el análisis de estos datos son los siguientes: - Mejorar el diseño de la estructura de un sitio Web [1] de manera que se facilite al usuario la navegación entre recursos del sitio. - Planeación de campañas de mercadotecnia [2] orientadas al comercio electrónico dentro de las páginas de un sitio Web. - Mejoramiento de sistemas en la calidad de su desempeño. La WM proporciona de los recursos para entender el comportamiento del tráfico y así mejorar aspectos como las técnicas de catching, transmisiones en la red [3], balanceo de cargas, o distribución de los datos. - La seguridad es un aspecto muy delicado en lo que concierne a los servicios basados en la Web y muy especialmente al comercio electrónico, que crece en cantidades exponenciales [4]. La WM puede proporcionar patrones de navegación que ayuden en la detección de intrusos y fraudes. - En esta tesis, el análisis se aplicó para identificar patrones de acceso a recursos de la Web con el objetivo de identificar archivos HTML para acaparamiento en dispositivos móviles. 1.1 Descripción del problema Como se muestra en la figura 1.1, a consecuencia de las frecuentes desconexiones en los ambientes inalámbricos, los usuarios se han visto en la necesidad de obtener servicios de soporte de operaciones en modo desconexión. Una solución atractiva para el tratamiento de la desconexión es el acaparamiento o precarga de recursos útiles para el usuario en sus dispositivos móviles, mediante algoritmos de predicción. El problema evidente en este esquema de predicción [5], es la identificación y selección de los elementos más adecuados para el acaparamiento. 2

20 Capítulo 1.Introducción Desconexión Internet Dispositivo Móvil Punto Acceso Servidor Problemáticas particulares Figura 1.1 Problemática del acaparamiento Uno de los aspectos clave en el proceso de minería, es el de obtener un conjunto de datos que cuenten con la abstracción a modo de que sirvan de datos fuente para la aplicación de los algoritmos de minería de datos. La información que puede servir de entrada para iniciar el proceso de WM y lograr la extracción de patrones de navegación, se caracteriza por su gran diversidad en cuanto al contenido y al origen, la cual se encuentra en un nivel de abstracción en el que no es posible aplicar técnicas de WM. Como se muestra en la figura 1.2 las bitácoras pueden ser obtenidas de varias fuentes, tales como son: servidores Web, clientes y servidores Proxy. Cada conjunto de datos, difiere no sólo en términos de la localización de la fuente de datos, sino también en el tipo de información disponible en ellos y en los formatos utilizados para su almacenamiento. Los datos obtenidos de las diferentes fuentes, contienen los patrones de navegación que pueden pertenecer a un solo usuario visitando múltiples sitios, un sitio y múltiples visitantes y un proxy con múltiples clientes visitando múltiples servidores Web. En la figura 1.2 se pueden observar los diferentes orígenes de datos que pueden ser usados como entrada al proceso de minería. Las bitácoras de acceso a servidores Web son una importante fuente de información ya que en ellos se almacena explícitamente el comportamiento de los usuarios cuando visitan un sitio Web. Los datos almacenados en las bitácoras de los servidores Web reflejan los accesos de múltiples usuarios; una problemática existente en este origen de datos, es la diversidad de formatos de bitácoras, de los cuales, los más comunes son; Common Log Format (CLF. Formato Común de Log), Extended Common Log Format (ECLF. Formato Común Extendido de Log) y Performance Log Format (PLF Formato de Desempeño de Log). 3

Sistema Generador de Predicciones de Acceso para la Replicación n de Sitios de la Web en Dispositivos Inalámbricos

Sistema Generador de Predicciones de Acceso para la Replicación n de Sitios de la Web en Dispositivos Inalámbricos Cenidet Sistema Generador de Predicciones de Acceso para la Replicación n de Sitios de la Web en Dispositivos Inalámbricos Ing. Gabriel Hernández ndez MéndezM M.C.Juan Gabriel González Serna Ing. Juan

Más detalles

Proyecto de Taller V. Leticia Pérez. Fernández. INCO - Facultad de Ingeniería Universidad de la República

Proyecto de Taller V. Leticia Pérez. Fernández. INCO - Facultad de Ingeniería Universidad de la República Diseño e implementación de un generador de sitios web adaptativos automáticos: Descubrimiento de patrones de navegación Proyecto de Taller V Estudiantes: Tutor: Luis Do Rego Leticia Pérez Ing. Eduardo

Más detalles

Formalización de Web Mining como Conocimiento Estructurado

Formalización de Web Mining como Conocimiento Estructurado Formalización de Web Mining como Conocimiento Estructurado Gabriel R. Filocamo Carlos I. Chesñevar Laboratorio de Investigación y Desarrollo en Inteligencia Artificial (LIDIA) Departamento de Ciencias

Más detalles

APLICACIÓN DEL ALGORITMO GSP_M PARA LA IDENTIFICACIÓN DE PATRONES DE USUARIOS SOBRE AMBIENTES EDUCATIVOS

APLICACIÓN DEL ALGORITMO GSP_M PARA LA IDENTIFICACIÓN DE PATRONES DE USUARIOS SOBRE AMBIENTES EDUCATIVOS APLICACIÓN DEL ALGORITMO GSP_M PARA LA IDENTIFICACIÓN DE PATRONES DE USUARIOS SOBRE AMBIENTES EDUCATIVOS Héctor F Gómez A *, Susana A Arias T **, Yuliana C Jiménez *** Universidad Técnica Particular de

Más detalles

Sistema de Desarrollo de Estrategias de Marketing e Inteligencia de Negocios Usando Web Mining

Sistema de Desarrollo de Estrategias de Marketing e Inteligencia de Negocios Usando Web Mining Revista Tecnológica ESPOL, Vol. xx, N. xx, pp-pp, (Mes, 200x) Sistema de Desarrollo de Estrategias de Marketing e Inteligencia de Negocios Usando Web Mining Patricio Alcivar 1, Fanny Idrovo 2, Víctor Macas

Más detalles

Texto, imágenes, video Hiperenlaces Archivo log

Texto, imágenes, video Hiperenlaces Archivo log Web Mining Web Mining Aplicación técnicas data mining sobre datos que Web Descubrimiento automático información útil de documentos y servicios Web Texto, imágenes, video Hiperenlaces Archivo log Netcraft

Más detalles

COMPUTACIÓN FLEXIBLE APLICADA AL WEB MINING

COMPUTACIÓN FLEXIBLE APLICADA AL WEB MINING COMPUTACIÓN FLEXIBLE APLICADA AL WEB MINING José M. Benítez Juan L. Castro Ricardo Valenzuela G. Dpto. Ciencias de Computación Dpto. Ciencias de Computación Universidad Tecnológica Metropolitana Universidad

Más detalles

5.1. Qué es Internet? controla todo el sistema, pero está conectado de tal manera que hace

5.1. Qué es Internet? controla todo el sistema, pero está conectado de tal manera que hace 5. Internet 5.1. Qué es Internet? Internet es una red mundial de equipos que se comunican usando un lenguaje común. Es similar al sistema telefónico internacional: nadie posee ni controla todo el sistema,

Más detalles

INTRODUCCIÓN AL WEB. Pag. 1 de 10

INTRODUCCIÓN AL WEB. Pag. 1 de 10 INTRODUCCIÓN AL WEB La World Wide Web o simplemente WWW o Web es uno de los métodos más importantes de comunicación que existe en Internet. Consiste en un sistema de información basado en Hipertexto (texto

Más detalles

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo.

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo. GLOSARIO Actor: Un actor es un usuario del sistema. Esto incluye usuarios humanos y otros sistemas computacionales. Un actor usa un Caso de Uso para ejecutar una porción de trabajo de valor para el negocio.

Más detalles

Minería de la Web Tema 1

Minería de la Web Tema 1 Minería de la Web Tema 1 71454586A Minería de la Web Máster en Lenguajes y Sistemas Informáticos Tecnologías del Lenguaje en la Web UNED 07/12/2010 Tema 1 1. Problemas que surgen al interactuar con la

Más detalles

2. Descripción del problema

2. Descripción del problema Identificación de Hábitos de Uso de Sitios Web Utilizando SOM Martinelli, D. 1, Merlino, H. 1,2, Britos, P. 2,1, García-Martínez, R. 2,1 1 Laboratorio de Sistemas Inteligentes. Facultad de Ingeniería.

Más detalles

Capítulo I. Marco Teórico

Capítulo I. Marco Teórico 1 Capítulo I. Marco Teórico 1. Justificación Hoy en día existe una gran diversidad de aplicaciones que corren sobre la World Wide Web (WWW o Web), y cada una orientada a un fin en particular, el cuál depende

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Web Usage Mining: Revisión del Estado del Arte

Web Usage Mining: Revisión del Estado del Arte 190 Web Usage Mining: Revisión del Estado del Arte 1. Introducción Alexander Arias Londoño, MSc aarias01@unalmed.edu.co Demetrio A. Ovalle Carranza, Ph.D. dovalle@unalmed.edu.co Grupo de I+D en Inteligencia

Más detalles

Servidores web. Qué es un servidor web? Tipos de servidores. Lic. Lorena Bernis

Servidores web. Qué es un servidor web? Tipos de servidores. Lic. Lorena Bernis Servidores web Qué es un servidor web? Tipos de servidores. Lic. Lorena Bernis Servidores web 2 SERVIDOR En informática, un servidor es un tipo de software que realiza ciertas tareas en nombre de los usuarios.

Más detalles

PREPARATORIA DIURNA DE CUAUTLA

PREPARATORIA DIURNA DE CUAUTLA PREPARATORIA DIURNA DE CUAUTLA Taller de computación II Profr. ING. AARON TABOADA LOMEZ Tecnologías de la Información y Comunicación (TIC) Son aquellas herramientas computacionales que procesan, almacenan,

Más detalles

desarrollo. Dentro del desarrollo de la tesis el proceso de modelado del sistema fue hecho con el

desarrollo. Dentro del desarrollo de la tesis el proceso de modelado del sistema fue hecho con el Capitulo II. Análisis de herramientas y tecnologías de desarrollo. Dentro del desarrollo de la tesis el proceso de modelado del sistema fue hecho con el lenguaje de Modelo de Objetos llamado UML (Unified

Más detalles

Operating MATLAB by Internet

Operating MATLAB by Internet Operating MATLAB by Internet Bonifacio Castaño, Juan Llovet, Javier Sánchez University of Alcalá de Henares, Departament of mathematics. Abstract. In this work we demonstrate an interactive web-page, that

Más detalles

APLICATIVO WEB PARA LA ADMINISTRACIÓN DE LABORATORIOS Y SEGUIMIENTO DOCENTE EN UNISARC JUAN DAVID LÓPEZ MORALES

APLICATIVO WEB PARA LA ADMINISTRACIÓN DE LABORATORIOS Y SEGUIMIENTO DOCENTE EN UNISARC JUAN DAVID LÓPEZ MORALES APLICATIVO WEB PARA LA ADMINISTRACIÓN DE LABORATORIOS Y SEGUIMIENTO DOCENTE EN UNISARC JUAN DAVID LÓPEZ MORALES CORPORACIÓN UNIVERSITARIA SANTA ROSA DE CABAL CIENCIAS Y TECNOLOGÍAS DE INFORMACIÓN Y COMUNICACIÓN

Más detalles

Minería Web: un recurso insoslayable para el profesional de la información*

Minería Web: un recurso insoslayable para el profesional de la información* Acimed 2007; 16(4) Minería Web: un recurso insoslayable para el profesional de la información* Lic. Sady C. Fuentes Reyes 1 e Ing. Marina Ruiz Lobaina 2 RESUMEN Se estudian los principales conceptos relacionados

Más detalles

CAPÍTULO I INTRODUCCIÓN

CAPÍTULO I INTRODUCCIÓN CAPÍTULO I INTRODUCCIÓN Una página Web es un documento situado en una red informática al que se accede mediante enlaces de hipertexto, y éste es aquel texto que contiene elementos a partir de los cuales

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

Internet y World Wide Web. Informática Aplicada Grado en GAP Fac. de Admón. y Dir. de Empresas Univ. Politécnica de Valencia

Internet y World Wide Web. Informática Aplicada Grado en GAP Fac. de Admón. y Dir. de Empresas Univ. Politécnica de Valencia Internet y World Wide Web Informática Aplicada Grado en GAP Fac. de Admón. y Dir. de Empresas Univ. Politécnica de Valencia Objetivos de este capítulo Conocer cuándo y cómo fue creada Internet Aprender

Más detalles

PROYECTO INFORMÁTICO PARA LA CREACIÓN DE UN GESTOR DOCUMENTAL PARA LA ONG ENTRECULTURAS

PROYECTO INFORMÁTICO PARA LA CREACIÓN DE UN GESTOR DOCUMENTAL PARA LA ONG ENTRECULTURAS PROYECTO INFORMÁTICO PARA LA CREACIÓN DE UN GESTOR DOCUMENTAL PARA LA ONG ENTRECULTURAS Autor: García Lodares, Victor. Director: Castejón Silvo, Pedro. Entidad Colaboradora: Entreculturas. Resumen del

Más detalles

WEB MINING FOR IDENTIFYING PATTERNS

WEB MINING FOR IDENTIFYING PATTERNS Minería de uso Web para la identificación de patrones Castaño P. Andres P. * Resumen La minería Web es la aplicación de técnicas de minería de datos para descubrir patrones de uso de los usuarios desde

Más detalles

Poder Judicial de Tucumán Año 2013

Poder Judicial de Tucumán Año 2013 Internet y Correo electrónico El presente instructivo corresponde a una guía básica para el manejo de los programas y para la adquisición de conceptos en relación a estos utilitarios. No obstante ello,

Más detalles

Diseño del Sistema de Información

Diseño del Sistema de Información Diseño del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 2 ACTIVIDAD DSI 1: DEFINICIÓN DE LA ARQUITECTURA DEL SISTEMA... 7 Tarea DSI 1.1: Definición de Niveles de Arquitectura... 9 Tarea DSI

Más detalles

Diseño del Sistema de Información

Diseño del Sistema de Información Diseño del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS...2 ACTIVIDAD DSI 1: DEFINICIÓN DE LA ARQUITECTURA DEL SISTEMA...7 Tarea DSI 1.1: Definición de Niveles de Arquitectura...9 Tarea DSI 1.2:

Más detalles

CONSIDERACIONES GENERALES DEL WEB MINING

CONSIDERACIONES GENERALES DEL WEB MINING CONSIDERACIONES GENERALES DEL WEB MINING Sandra Milena Leal Elizabeth Castiblanco Calderón* RESUMEN: el presente artículo describe los conceptos básicos para la utilización del Webmining, dentro de los

Más detalles

Web. Web Diapositiva 1

Web. Web Diapositiva 1 Web Servicio WorldWideWeb Historia de la Web URL Dominios Dominio de alto nivel Cómo funciona? Hipertexto e Hipervínculos Sitios Web y Páginas de Inicio Cómo identificar los hipervínculos? Navegador Web

Más detalles

Programación orientada a

Programación orientada a Programación orientada a objetos con Java Pedro Corcuera Dpto. Matemática Aplicada y Ciencias de la Computación Universidad de Cantabria corcuerp@unican.es Objetivos Presentar los conceptos de la programación

Más detalles

Modelado de relaciones existentes en un equipo de proyecto de software Modeling relationships in a software project team

Modelado de relaciones existentes en un equipo de proyecto de software Modeling relationships in a software project team Modelado de relaciones existentes en un equipo de proyecto de software Modeling relationships in a software project team Rafael Rodríguez-Puente 1, Eliana B. Ril-Valentin 2 1 Departamento de Técnicas de

Más detalles

Aplicaciones del Soft Computing al análisis de ficheros log de sitios Web

Aplicaciones del Soft Computing al análisis de ficheros log de sitios Web UNIVERSIDAD DE GRANADA UNIVERSIDAD TECNOLOGICA METROPOLITANA Santiago de Chile Aplicaciones del Soft Computing al análisis de ficheros log de sitios Web Autor: Ricardo Valenzuela Gaete Director de Tesis:

Más detalles

Modulo I. Introducción a la Programación Web. 1.1 Servidor Web.

Modulo I. Introducción a la Programación Web. 1.1 Servidor Web. Modulo I. Introducción a la Programación Web. 1.1 Servidor Web. Antes de analizar lo que es un servidor Web y llevara a cabo su instalación, es muy importante identificar diferentes elementos involucrados

Más detalles

HERRAMIENTA WEB PARA LA ELABORACIÓN DE TEST BAJO LA ESPECIFICACIÓN IMS-QTI

HERRAMIENTA WEB PARA LA ELABORACIÓN DE TEST BAJO LA ESPECIFICACIÓN IMS-QTI HERRAMIENTA WEB PARA LA ELABORACIÓN DE TEST BAJO LA ESPECIFICACIÓN IMS-QTI Muñoz-Bouchard J.P., y Álvarez-González L.A. jp.knap@gmail.com@gmail.com, lalvarez@inf.uach.cl Grupo de Investigación en Tecnologías

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

ADSL: (Asymetric Digital Subscriber Line). Este sistema permite transmitir información en formato digital a través de las líneas normales de teléfono.

ADSL: (Asymetric Digital Subscriber Line). Este sistema permite transmitir información en formato digital a través de las líneas normales de teléfono. ADSL: (Asymetric Digital Subscriber Line). Este sistema permite transmitir información en formato digital a través de las líneas normales de teléfono. Ancho de banda: Número máximo de datos que pueden

Más detalles

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP Universidad Politécnica de Puebla UPP JESÚS ANTONIO GONZÁLEZ BERNAL 1 2 Evolución de la Tecnología BD 1960 s y antes Creación de las BD en archivos primitivos 1970 s hasta principios de los 1980 s BD Jerárquicas

Más detalles

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile.

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile. Los futuros desafíos de la Inteligencia de Negocios Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile.cl El Vértigo de la Inteligencia de Negocios CRM: Customer

Más detalles

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

Integrando diferentes técnicas de Data Mining en procesos de Web Usage Mining

Integrando diferentes técnicas de Data Mining en procesos de Web Usage Mining Integrando diferentes técnicas de Data Mining en procesos de Web Usage Mining Luca Cernuzzi Universidad Católica "Nuestra Señora de la Asunción" Departamento de Ingeniería Electrónica e Informática Asunción

Más detalles

Weka como herramienta de data mining

Weka como herramienta de data mining Weka como herramienta de data mining Lic. Aldave Rojas Isaac Alberto Instituto Tecnológico Superior de Ciudad Serdán Abstract El presente trabajo muestra un ejemplo introductorio a la herramienta de Data

Más detalles

Introducción. Tipo de artículo: Artículo corto Temática: Inteligencia artificial Recibido: 05/09/2015 Aceptado: 15/10/2015

Introducción. Tipo de artículo: Artículo corto Temática: Inteligencia artificial Recibido: 05/09/2015 Aceptado: 15/10/2015 Tipo de artículo: Artículo corto Temática: Inteligencia artificial Recibido: 05/09/2015 Aceptado: 15/10/2015 Crawler focalizado para la extracción de documentos PDF desde revistas científicas Focused crawler

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII GUIA DISPONIBLE EN: http://preparadorivan.blogspot.com/ - http://preparadormssi.50webs.com/inicio.html La World Wide Web o la Web, es una de las múltiples

Más detalles

GLOSARIO DE TÉRMINOS

GLOSARIO DE TÉRMINOS MINISTERIO DE EDUCACIÓN, CULTURA Y DEPORTE SECRETARÍA DE ESTADO DE EDUCACIÓN Y FORMACIÓN PROFESIONAL DIRECCIÓN GENERAL DE FORMACIÓN PROFESIONAL INSTITUTO NACIONAL DE LAS CUALIFICACIONES GLOSARIO DE TÉRMINOS

Más detalles

cenidet Centro Nacional de Investigación y Desarrollo Tecnológico Departamento de Ciencias Computacionales TESIS DE MAESTRÍA EN CIENCIAS

cenidet Centro Nacional de Investigación y Desarrollo Tecnológico Departamento de Ciencias Computacionales TESIS DE MAESTRÍA EN CIENCIAS cenidet Centro Nacional de Investigación y Desarrollo Tecnológico Departamento de Ciencias Computacionales TESIS DE MAESTRÍA EN CIENCIAS Analizador de Estructuras de Navegación Aplicando Minería de Uso

Más detalles

Web mining y obtención de información para la generación de

Web mining y obtención de información para la generación de Web mining y obtención de información para la generación de inteligencia Miguel Ángel Esteban (Universidad de Zaragoza) mesteban@unizar.es Instituto Juan Velázquez de Velasco de Investigación en Inteligencia

Más detalles

TEMA 37: Arquitecturas Cliente / Servidor. Tipos de cliente. Tipos de Servidor. Clasificación del software.

TEMA 37: Arquitecturas Cliente / Servidor. Tipos de cliente. Tipos de Servidor. Clasificación del software. . TEMA 37: Arquitecturas Cliente / Servidor. Tipos de cliente. Tipos de Servidor. Clasificación del software. Índice 1 INTRODUCCIÓN 2 2 CARACTERÍSTICAS 2 2.1 Características del cliente...2 2.2 Características

Más detalles

Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado

Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado 1. Introducción Unified Modeling Languaje Fuente: Booch- Jacobson-Rumbauch y diversos sitios Internet, entre otros:

Más detalles

Una herramienta de minería de consultas para el diseño del contenido y la estructura de un sitio Web

Una herramienta de minería de consultas para el diseño del contenido y la estructura de un sitio Web Una herramienta de minería de consultas para el diseño del contenido y la estructura de un sitio Web Ricardo Baeza-Yates ICREA - Departamento de Tecnología Universitat Pompeu Fabra & Centro de Investigación

Más detalles

DESARROLLO E IMPLANTANCIÓN DE UN SISTEMA ACADEMICO PARA EL ICM

DESARROLLO E IMPLANTANCIÓN DE UN SISTEMA ACADEMICO PARA EL ICM DESARROLLO E IMPLANTANCIÓN DE UN SISTEMA ACADEMICO PARA EL ICM Sergio Bauz Olvera 1, Washington Jama 2 1 Ingeniero en Estadística e Informática 2003 2 Director de Tesis de Grado, Ing. Washington Jama.

Más detalles

Especificación de la secuencia de mensajes que se han de intercambiar. Especificación del formato de los datos en los mensajes.

Especificación de la secuencia de mensajes que se han de intercambiar. Especificación del formato de los datos en los mensajes. SISTEMAS DISTRIBUIDOS DE REDES 2.- MODELOS ORIENTADOS A OBJETOS DISTRIBUIDOS 2.1. Tecnologías de sistemas distribuidos Para la implementación de sistemas distribuidos se requiere de tener bien identificados

Más detalles

DESARROLLO DE UNA HERRAMIENTA PARA ADQUISICIÓN DE DATOS EN PROYECTOS DE DATAMINING PARA UN TREN DE LAMINACIÓN EN CALIENTE

DESARROLLO DE UNA HERRAMIENTA PARA ADQUISICIÓN DE DATOS EN PROYECTOS DE DATAMINING PARA UN TREN DE LAMINACIÓN EN CALIENTE X CONGRESO INTERNACIONAL DE INGENIERIA DE PROYECTOS VALENCIA, 13-15 Septiembre, 2006 DESARROLLO DE UNA HERRAMIENTA PARA ADQUISICIÓN DE DATOS EN PROYECTOS DE DATAMINING PARA UN TREN DE LAMINACIÓN EN CALIENTE

Más detalles

Un modelo de minería de consultas para el diseño del contenido y la estructura de un sitio Web

Un modelo de minería de consultas para el diseño del contenido y la estructura de un sitio Web ARTÍCULO Un modelo de minería de consultas para el diseño del contenido y la estructura de un sitio Web Ricardo Baeza-Yates, Bárbara Poblete Universitat Pompeu Fabra Barcelona, España & Centro de Investigación

Más detalles

Programación en Capas.

Programación en Capas. Programación en Capas. Ricardo J. Vargas Del Valle Universidad de Costa Rica, Ciencias de Computación e Informática, San José, Costa Rica, 506 ricvargas@gmail.com Juan P. Maltés Granados Universidad de

Más detalles

Universidad de Guadalajara

Universidad de Guadalajara Universidad de Guadalajara Centro Universitario de Ciencias Económico-Administrativas Maestría en Tecnologías de Información Ante-proyecto de Tésis Selection of a lightweight virtualization framework to

Más detalles

Internet - Web. Internet - Web. Internet. Internet. Diseño de Sitios Web Desarrollo de Paginas Web. Qué es la Internet? - Qué es la Web?

Internet - Web. Internet - Web. Internet. Internet. Diseño de Sitios Web Desarrollo de Paginas Web. Qué es la Internet? - Qué es la Web? Desarrollo de Paginas Web Internet - Web Internet - Web Qué es la Internet? - Qué es la Web? Internet: Una red de computadoras a nivel mundial Web: Una forma de organizar la información existente en Internet

Más detalles

WICC 2014 XVI Workshop de Investigadores en Ciencias de la Computación

WICC 2014 XVI Workshop de Investigadores en Ciencias de la Computación ESTUDIO DE TECNICAS DE DATA MINING APLICADAS AL ANALISIS DE DATOS GENERADOS CON LA METODOLOGIA BLENDED LEARNING Marcelo Omar Sosa, Sosa Bruchmann Eugenia Cecilia Departamento Computación/Facultad de Ciencias

Más detalles

CONCEPTOS BÁSICOS. HTML (Hypertext Markup Language) lenguaje de marcas de hipertexto Es el lenguaje en el que están escritas las páginas de la Web.

CONCEPTOS BÁSICOS. HTML (Hypertext Markup Language) lenguaje de marcas de hipertexto Es el lenguaje en el que están escritas las páginas de la Web. INTRODUCCIÓN. Una de las principales características de Internet es que maneja enormes cantidades de información y que en la mayoría de los casos es accesible y gratuita. El reto en todo esto es poder

Más detalles

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA Pablo F. Provasi 1 Lucio J. Kleisinger 1 Francisco R. Villatoro 2 1 Dpto. de Informática, Universidad

Más detalles

GENERADOR DE APLICACIONES J2ME PARA DISPOSITIVOS MÓVILES

GENERADOR DE APLICACIONES J2ME PARA DISPOSITIVOS MÓVILES Revista de investigación Editada por Área de Innovación y Desarrollo, S.L. Envío: 12-07-2013 Aceptación: 4-08-2013 Publicación: 30-09-2013 GENERADOR DE APLICACIONES J2ME PARA DISPOSITIVOS MÓVILES J2ME

Más detalles

UNIVERSIDAD DE GUAYAQUIL

UNIVERSIDAD DE GUAYAQUIL i UNIVERSIDAD DE GUAYAQUIL Facultad de Ciencias Matemáticas y Físicas Carrera de Ingeniería en Sistemas Computacionales Metodología de Minería de Datos para predicción de ventas con Dispositivos Móviles

Más detalles

CREIX AMB INTERNET. Desarrollo Aplicaciones para la plataforma Facebook

CREIX AMB INTERNET. Desarrollo Aplicaciones para la plataforma Facebook CREIX AMB INTERNET Desarrollo Aplicaciones para la plataforma Facebook 2 1. Introducción. 1.1. El propósito de la plataforma Facebook Facebook se creó como una versión en línea de los "Facebooks" de las

Más detalles

Christian Bolívar Moya Calderón

Christian Bolívar Moya Calderón UNIVERSIDAD SAN FRANCISCO DE QUITO Software Orientado a Sistemas de Control HMI/Scada usando Recursos Libres y de Código Abierto, desarrollado sobre Plataforma Linux Christian Bolívar Moya Calderón Tesis

Más detalles

Desarrollo de una Aplicación Móvil para Revisar

Desarrollo de una Aplicación Móvil para Revisar Desarrollo de una Aplicación Móvil para Revisar Horarios de Atención de Tutores de la UNAD Development of a Movil Application for Check Over Office Hours of Tutors of the Unad Correa Rodríguez Arellys

Más detalles

Monitor de Estadísticas de IDECanarias

Monitor de Estadísticas de IDECanarias Monitor de Estadísticas de IDECanarias Deepak P. Daswani 1, J. J. Rodrigo 1 y J. Rosales 2 1 Depto. de Ingeniería GRAFCAN. Cartográfica de Canarias, S.A C/ Panamá 34, Naves 8 y 9 Santa Cruz de Tenerife

Más detalles

Antes de imprimir este documento piense en el medio ambiente!

Antes de imprimir este documento piense en el medio ambiente! Versión 1.0 Página 1 de 14 1. OBJETIVO: Suministrar la metodología que se aplicará para la estimación de esfuerzo para los desarrollos nuevos en el ICBF, para lo cual se detallan los aspectos a tener en

Más detalles

5. MODELOS DE CLIENTE Y SERVIDOR ORIENTADOS A AGENTES MÓVILES

5. MODELOS DE CLIENTE Y SERVIDOR ORIENTADOS A AGENTES MÓVILES SISTEMAS DISTRIBUIDOS DE REDES 5. MODELOS DE CLIENTE Y SERVIDOR ORIENTADOS A AGENTES MÓVILES Programación remota: Introducción y generalidades INTRODUCCIÓN Debido a la dificultad de la arquitectura actual

Más detalles

Módulo II Unidad Didáctica 2

Módulo II Unidad Didáctica 2 Módulo II Unidad Didáctica 2 Introducción Una vez que el sitio está desarrollado y hemos cumplido con todas las etapas para su diseño es necesario incorporar algunos conceptos que nos permitan comprender

Más detalles

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos 2.1. Principios básicos del Modelado de Objetos UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos Hoy en día muchos de los procesos que intervienen en un negocio o empresa y que resuelven

Más detalles

Simulador de Protocolos de Red a tráves de WEB

Simulador de Protocolos de Red a tráves de WEB Simulador de Protocolos de Red a tráves de WEB Propuesta de Estudio 20071608 Director Ing. Francisco Antonio Polanco Montelongo Resumen Introducción Actualmente, el desarrollo tecnológico a alcanzado niveles

Más detalles

MS_10747 Administering System Center 2012 Configuration Manager

MS_10747 Administering System Center 2012 Configuration Manager Administering System Center 2012 Configuration Manager www.ked.com.mx Av. Revolución No. 374 Col. San Pedro de los Pinos, C.P. 03800, México, D.F. Tel/Fax: 52785560 Introducción Este curso describe cómo

Más detalles

GLOSARIO DE TERMINOS

GLOSARIO DE TERMINOS GLOSARIO DE TERMINOS A Aplicaciones Legacy.- Conjunto de aplicaciones desarrolladas o implementadas en plataformas de sistemas anteriores o antiguos. B Bases de Datos.- Organización y conservación de datos

Más detalles

CAPITULO V: Contribución Teórica y Práctica

CAPITULO V: Contribución Teórica y Práctica CAPITULO V: Contribución Teórica y Práctica 5.1. Requerimientos Funcionales El sistema propuesto reúne una serie de requerimientos captados en las reuniones llevadas a cabo por parte del cliente GMD. Mediante

Más detalles

Apéndice A Herramientas utilizadas

Apéndice A Herramientas utilizadas Apéndice A Herramientas utilizadas A.1 Java Media Framework El Java Media Framework (JMF) es una interfaz para el desarrollo de aplicaciones (API) e incorpora el manejo de audio y video en el lenguaje

Más detalles

Integrando Información de Fuentes Relevantes para un Sistema Recomendador

Integrando Información de Fuentes Relevantes para un Sistema Recomendador Integrando Información de Fuentes Relevantes para un Sistema Recomendador Silvana Aciar, Josefina López Herrera and Javier Guzmán Obando Agents Research Laboratory University of Girona {saciar, jguzmano}@eia.udg.es,

Más detalles

Recuperación de Información en Internet Tema 2: La web

Recuperación de Información en Internet Tema 2: La web Recuperación de Información en Internet Tema 2: La web P.O.P. Língua e usos profesionais Miguel A. Alonso Jorge Graña Jesús Vilares Departamento de Computación Facultad de Informática Universidade da Coruña

Más detalles

El servidor Web. Arquitectura y funcionamiento

El servidor Web. Arquitectura y funcionamiento El servidor Web. Arquitectura y funcionamiento ÍNDICE INTRODUCCIÓN Qué es un servidor? Y un servidor Web? FUNCIONAMIENTO DE UN SERVIDOR WEB Arquitectura Tipos de servidores Web Servidores basados en procesos

Más detalles

Text Mining Introducción a Minería de Datos

Text Mining Introducción a Minería de Datos Text Mining Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.ar/~laura SADIO 12 de Marzo de 2008 qué es la minería de datos? A technique using software tools

Más detalles

Otto Cordero Sánchez 1, Enrique Peláez Jarrín 2

Otto Cordero Sánchez 1, Enrique Peláez Jarrín 2 UN MARCO DE TRABAJO PARA EL DESARROLLO DE APLICACIONES WEB CON COMPORTAMIENTO AUTONOMO INTELIGENTE Otto Cordero Sánchez 1, Enrique Peláez Jarrín 2 Resumen Este trabajo presenta un mecanismo para construir

Más detalles

the Web Content Visualization Problem on Heterogeneous Mobile Devices

the Web Content Visualization Problem on Heterogeneous Mobile Devices CIC 06 MoviWeb: Platform to Solve the Web Content Visualization Problem on Heterogeneous Mobile Devices Dr. Juan Gabriel González Serna. Dra. Azucena Montes Rendón. Dr. Víctor Jesús Sosa Sosa. M.C. Juan

Más detalles

Herramienta Software y Método para Modelar Aplicaciones Web Independientes de Dispositivo

Herramienta Software y Método para Modelar Aplicaciones Web Independientes de Dispositivo Oferta Tecnológica: Herramienta Software y Método para Modelar Aplicaciones Web Independientes de Dispositivo Referencia: TO-OOH_METHOD IRC-CENEMES Innovation Relay Centre INNOVATION and SME Program EU

Más detalles

Aplicación en Minería de Datos Web Mining

Aplicación en Minería de Datos Web Mining Aplicación en Minería de Datos Web Mining Sánchez Enriquez, Heider Ysaias 1 19 de marzo de 2008 1 Agradesco a nuestra destinguida Profesora por exigirme trabajar en L A TEX Resumen Web mining es una extensión

Más detalles

TABLA DE CONTENIDO 1. REQUERIMIENTOS NO FUNCIONALES... 2

TABLA DE CONTENIDO 1. REQUERIMIENTOS NO FUNCIONALES... 2 TABLA DE CONTENIDO Pág. 1. REQUERIMIENTOS NO FUNCIONALES... 2 1.1 ATRIBUTOS DE CALIDAD DEL SISTEMA... 2 1.2 OTROS REQUERIMIENTOS NO FUNCIONALES... 4 1.3 REQUERIMIENTOS NO FUNCIONALES PARA HERRAMIENTAS

Más detalles

Arquitectura para análisis de información. Zombi es una arquitectura que proporciona de manera integrada los componentes

Arquitectura para análisis de información. Zombi es una arquitectura que proporciona de manera integrada los componentes Capítulo 4 Arquitectura para análisis de información propuesta 4.1 Arquitectura Zombi es una arquitectura que proporciona de manera integrada los componentes necesarios para el análisis de información

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

Web Mining: Estado Actual de Investigación

Web Mining: Estado Actual de Investigación Autor Lic. Gustavo D. Koblinc e-mail: gk7c@dc.uba.ar Web Mining: Estado Actual de Investigación En este trabajo, me propongo analizar la actualidad sobre Web Mining, o sea la aplicación de las técnicas

Más detalles

INTRODUCCION. Tema: Protocolo de la Capa de aplicación. FTP HTTP. Autor: Julio Cesar Morejon Rios

INTRODUCCION. Tema: Protocolo de la Capa de aplicación. FTP HTTP. Autor: Julio Cesar Morejon Rios INTRODUCCION Tema: Protocolo de la Capa de aplicación. FTP HTTP Autor: Julio Cesar Morejon Rios Qué es FTP? FTP (File Transfer Protocol) es un protocolo de transferencia de archivos entre sistemas conectados

Más detalles

Aspectos prácticos de Internet

Aspectos prácticos de Internet Aspectos prácticos de Internet Tema 6 Web y buscadores Introducción Conceptos Básicos HTML HTTP URL DNS Servidores web Caches y proxies Web 2.0 Buscadores Introducción Nació en 1990- Tim Berners-Lee Documentos

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

1. Sistemas Distribuidos

1. Sistemas Distribuidos 1. Sistemas Distribuidos M. Farias-Elinos Faster!!! The Tim Allen View of Computing Bigger Problems I want 7 days of weather not 2 I want 1024x1024x16-bit color Most modern applications such as weather

Más detalles

Ficha Técnica. effidetect

Ficha Técnica. effidetect Ficha Técnica effidetect Página 1 de 9 Introducción El Sistema Pointer es un producto de Predisoft (www.predisoft.com) cuyo propósito es la detección (en línea) del fraude que sufren las instituciones

Más detalles

CAPITULO 7. MS SQL Server Express Edition

CAPITULO 7. MS SQL Server Express Edition CAPITULO 7 MS SQL Server Express Edition 7.1 Requerimientos Previos El proceso de instalación de Microsoft SQL Server 2008 no es complejo y es de gran importancia tener en cuenta que se está realizando

Más detalles

EVOLUCIÓN DE LA WEB. Presentado por: Pablo E. Lozada Y. (pablo.lozada@alumnos.usm.cl)

EVOLUCIÓN DE LA WEB. Presentado por: Pablo E. Lozada Y. (pablo.lozada@alumnos.usm.cl) EVOLUCIÓN DE LA WEB Presentado por: Pablo E. Lozada Y. (pablo.lozada@alumnos.usm.cl) Contenido Historia del Internet. La Web 1.0. Definición. Características. La Web 2.0. Definición. Tecnologías de la

Más detalles

UNIVERSIDAD DE LAS AMERICAS Facultad de ingeniería

UNIVERSIDAD DE LAS AMERICAS Facultad de ingeniería i UNIVERSIDAD DE LAS AMERICAS Facultad de ingeniería Desarrollo de un sistema de información tipo diccionario para ser implementado como servicio SMS Premium Trabajo de Titulación presentado en conformidad

Más detalles

Tema 3: Bases de datos en Entorno Web

Tema 3: Bases de datos en Entorno Web Tema 3: Bases de datos en Entorno Web 1. Introducción. Un sistema de bases de datos proporciona un control centralizado de los datos. Esto contrasta con la situación que prevalece actualmente, donde a

Más detalles