Web Usage Mining: Revisión del Estado del Arte



Documentos relacionados
Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

CONSIDERACIONES GENERALES DEL WEB MINING

activuspaper Text Mining and BI Abstract

Parte I: Introducción

Base de datos II Facultad de Ingeniería. Escuela de computación.

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

Unidad 1. Fundamentos en Gestión de Riesgos

Data Mining Técnicas y herramientas

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

Proceso Unificado de Rational PROCESO UNIFICADO DE RATIONAL (RUP) El proceso de desarrollo de software tiene cuatro roles importantes:

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

Este proyecto propone la investigación referente al modelado y desarrollo de agentes para

Descripción del sistema

Base de datos en Excel

ADT CONSULTING S.L. PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

Portafolio de Servicios y Productos

Sistemas de Recuperación de Información

Fundamentos del diseño 3ª edición (2002)

App para realizar consultas al Sistema de Información Estadística de Castilla y León

3.1 INGENIERIA DE SOFTWARE ORIENTADO A OBJETOS OOSE (IVAR JACOBSON)

Presentación de Pyramid Data Warehouse

SISTEMAS DE INFORMACIÓN II TEORÍA

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo.

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

Arquitectura de Aplicaciones

Artículo dedicado a la Innovación y Mejores Prácticas en la Ingeniería de Negocios

Diseño orientado al flujo de datos

CAPÍTUL07 SISTEMAS DE FILOSOFÍA HÍBRIDA EN BIOMEDICINA. Alejandro Pazos, Nieves Pedreira, Ana B. Porto, María D. López-Seijo

Capitulo III. Diseño del Sistema.

Usos de los Mapas Conceptuales en Educación

Creación y administración de grupos de dominio

Sistema Generador de Predicciones de Acceso para la Replicación n de Sitios de la Web en Dispositivos Inalámbricos

Sistemas de Gestión de Documentos Electrónicos de Archivo (SGDEA)

MINING SOLUTIONS LIMITADA

DISEÑO DE FUNCIONES (TRATAMIENTOS)

Introducción a los sitios de SharePoint en Office 365

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

La tutoría para la dirección de proyectos de investigación. Darder Mesquida, Antònia Universitat de les Illes Balears.

2.1 Clasificación de los sistemas de Producción.

opinoweb el poder de sus datos Descubra LA NECESIDAD DE PREDECIR

Visión global del KDD

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

O jeto de apre r ndizaje

PROPÓSITO... 2 DETERMINANTES PARA UNA BUENA EXPERIENCIA DE USO...

LiLa Portal Guía para profesores

La inteligencia de marketing que desarrolla el conocimiento

SEGURIDAD Y PROTECCION DE FICHEROS

Módulo I Unidad Didáctica 2

<Generador de exámenes> Visión preliminar

SAQQARA. Correlación avanzada y seguridad colaborativa_

Nos encargamos del tuyo, tú disfruta

revista transparencia transparencia y UNIVERSIDADES

UNIVERSIDAD CARLOS III DE MADRID

Motores de Búsqueda Web Tarea Tema 2

PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores

Trabajo final de Ingeniería

IAP TÉCNICAS DE AUDITORÍA APOYADAS EN ORDENADOR (TAAO)

CAPÍTULO 3 Servidor de Modelo de Usuario

Manual de Usuario Sitio Web de la Red Federal de Capacitación

Proyecto de Taller V. Leticia Pérez. Fernández. INCO - Facultad de Ingeniería Universidad de la República

Capítulo 2 Tecnología data warehouse

MANUAL DE USUARIO APLICACIÓN SYSACTIVOS

Gestión de Configuración del Software

forma de entrenar a la nuerona en su aprendizaje.

comunidades de práctica

VICERRECTORÍA DE ADMINISTRACIÓN Y ASUNTOS ECONÓMICOS DIRECCIÓN DE DESARROLLO DE PERSONAS. Estructura de Cargos y Competencias Institucionales

PRIMAVERA RISK ANALYSIS

Un primer acercamiento a la CMDB.

SERVICE ORIENTED ARCHITECTURE (SOA) CONTENIDO

INTEGRACIÓN DE LA TECNOLOGÍA DENTRO DEL ÁREA EDUCATIVA

Capítulo 1 Documentos HTML5

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta

O C T U B R E SOPORTE CLIENTE. Manual de Usuario Versión 1. VERSIÓN 1 P á g i n a 1

MANUAL DE USUARIO DE LA APLICACIÓN DE ACREDITACION DE ACTIVIDADES DE FORMACION CONTINUADA. Perfil Entidad Proveedora

CURSO COORDINADOR INNOVADOR

IDEA DE NEGOCIO EDUGER LOGISTIC GERMAN EDUARDO BALSERO MORALES PROFESOR: GERARDO ANDRES ARCOS CELIS

MOODLE PARA ASESORES, GUIA DE APOYO.

Google Analytics Y Herramientas para Webmasters

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

Nº de expediente: TSI Subprograma: Avanza Competitividad I+D+I

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento

Prácticas ITIL para un mejor flujo de trabajo en el helpdesk

Administración del conocimiento y aprendizaje organizacional.

INVESTIGACIÓN DE MERCADOS

USABILIDAD Y ACCESIBILIDAD EN WEB Guillermo M. Martínez de la Teja

Aproximación práctica a ITIL. Proyecto VeredaCS. F r00

Novedades de Microsoft Dynamics 2011

Introducción. Metadatos

Project Ing. Christian Ovalle

Índice INTERNET MARKETING 1

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente

Propuesta de proyecto de investigación: desarrollo de un rastreador web capaz de aprender a identificar la información más relevante

MANUAL DE USUARIO CMS- PLONE

Patrones de software y refactorización de código

GENERALIDADES DE BASES DE DATOS

Gestión y Administración de proyectos

Transcripción:

190 Web Usage Mining: Revisión del Estado del Arte 1. Introducción Alexander Arias Londoño, MSc aarias01@unalmed.edu.co Demetrio A. Ovalle Carranza, Ph.D. dovalle@unalmed.edu.co Grupo de I+D en Inteligencia Artificial Escuela de Sistemas, Facultad de Minas Universidad Nacional de Colombia, Sede Medellín Abstract. En este artículo se presenta una taxonomía del Web Mining. También se mostrará el proceso del Web Usage Mining, y como este puede conllevar a realizar proyectos de investigación que lo incorporen en sus arquitecturas. Además, se presentarán algunos trabajos realizados en este ámbito del conocimiento, resaltando sus fortalezas y debilidades, lo cual conlleva a que propongamos algunas iniciativas para futuras investigaciones en está área. Keywords: Web mining, recuperación de información, recomendación de información, Web Usage Minino (WUM), perfiles de usuario. El Web Usage Mining puede abordar la búsqueda de patrones de acceso general para analizar el tráfico de información en la Web. Así mismo entender los patrones de acceso, el comportamiento y las tendencias de los usuarios, ello con el fin de reestructurar contenidos de los sitios, ubicándolos de forma más accesible o para dirigir a los usuarios a lugares concretos durante la navegación. También se pueden realizar búsquedas de uso personalizado donde se analizan las tendencias individuales de cada visitante para adaptar dinámicamente la información a partir de un perfil de usuario. Además, los análisis de los patrones de acceso que se realizan a una comunidad pueden ayudar a entender el comportamiento de los usuarios y a mejorar la estructura y la disposición de recursos informáticos. 2. Web Mining El Web Mining se define como el descubrimiento de patrones potencialmente útiles y el análisis de información implícita de los artefactos o actividades relacionadas con la Web [8]. Hay tres dominios de conocimiento que pertenecen al Web Mining, ellos son: Web Content Mining, Web Structure Mining y el Web Usage Mining. A continuación se define cada uno de ellos.

191 2.1 Web Content Minino El Web Content Mining describe la búsqueda automática de recursos de información disponibles on-line, la cual implica la minería de los datos contenidos en la Web. Es un proceso automático que va más allá de la extracción de palabras clave. Debido a que el texto contenido en un documento muchas veces no presenta una semántica entendible por las máquinas, algunos enfoques han sugerido reestructurar el contenido de los documentos en una representación que pueda ser explotada por las máquinas [8]. 2.2 Web Structure Minino La Web puede revelar más información que la contenida en sus documentos. Por ejemplo, los links que apuntan a un documento indican la popularidad del documento, mientras que los links que vienen de afuera de un documento indican la riqueza o variedad de tópicos cubiertos en el documento [4]. Cabe señalar que a partir de los hyperlinks, que llegan y salen de los documentos, se puede reconstruir la estructura resumida de los documentos. 2.3 Web Usage Mining (WUM) La tercera categoría del Web Mining es el Web Usage Mining (WUM), el cual es el objeto de este artículo y es por ello que se definirá y tratará más a fondo en la sección siguiente, resaltando cada una de sus fases, a saber: Preprocesamiento de Datos, Descubrimiento de Patrones y Análisis de Patrones (P.D.A). 3. Web Usage Mining El Web Usage Mining (WUM) intenta descubrir la información útil de los datos derivados de la interacción de los usuarios mientras navegan en la Web. La técnica se enfoca en predecir los comportamientos del usuario mientras navega en la Web. El propósito del WUM es revelar el conocimiento oculto en los archivos log de un servidor Web. Aplicando métodos estadísticos y de minería de datos a los web logs, pueden ser identificados los patrones interesantes concernientes al comportamiento de los usuarios en la navegación. También con los clusters de usuarios y páginas, es posible establecer una correlación entre las páginas Web y los grupos de usuarios [5]. Los servidores Web guardan y acumulan datos acerca de las interacciones de los usuarios siempre que soliciten o envíen recursos (datos, servicios, etc.) a la Web. Analizar los logs de acceso de los diferentes sitios Web puede ayudar a entender el comportamiento del usuario y la estructura de la Web, de este modo se mejora el diseño de repositorios de recursos. Hay dos tendencias principales en el WUM que conducen a las aplicaciones de descubrimiento, las cuales son: Búsqueda de patrones de acceso general y búsqueda de uso particular. La búsqueda de patrones de acceso general analiza los logs para entender los patrones de acceso y las tendencias. Estos análisis pueden arrojar una luz sobre cuál puede ser una mejor estructura y agrupamiento de los recursos provistos. La gran mayoría de herramientas del WUM tienen el propósito de personalizar los sitios Web de acuerdo a los perfiles de usuario. La información desplegada, la profundidad de la estructura de los sitios y el formato de los recursos pueden ser dinámicamente personalizados para cada usuario basados en sus patrones de acceso. El WUM pretende descubrir correlaciones y tendencias significativas en todo tipo de información relacionada con la Web, aplicando las técnicas y algoritmos de la minería de datos. Se pueden destacar dos tendencias principales: Búsqueda de patrones de acceso general y Búsqueda de utilización personalizada.

192 3.1 Fases del proceso del WUM (Prepocesamiento de Datos, Descubrimiento de Patrones y Análisis de Patrones, P.D.A) El proceso del WUM se fundamenta en la aplicación de técnicas de minería de datos para descubrir patrones de utilización de los datos en la Web. Para analizar este proceso es necesario distinguir tres fases: Preprocesamiento de Datos, Descubrimiento de Patrones y Análisis de Patrones. Con la ayuda del diagrama de la figura 1 presentado en [4], se puede entender la arquitectura del WUM de forma más clara, enseguida, se explica cada uno de las fases en forma más detallada. 3.2. Preprocesamiento de Datos ( P.D.A.) Figura 1. Fases del proceso del WUM [4] Desde el punto de vista de la técnica, el WUM es el proceso- de minería de datos para el análisis de los logs de utilización de un gran número de repositorios de datos Web. Antes de desarrollar el algoritmo de minería de datos, se debe llevar a cabo una preparación de los datos en bruto a otros que tengan una abstracción para futuros procesos. Los datos pueden ser recolectados en el lado del servidor, lado del cliente, servidores proxy u obtenidos de una base de datos. Para cada recolección de datos, la diferencia no solamente radica en la localización, sino también, en el tipo de datos disponible, el segmento de la población desde la cual los datos fueron recolectados y el método de implementación. Las fuentes de información de la minería pueden incluir logs de utilización de la Web, descripción de páginas Web, topología de sitios Web, registros de usuario y cuestionarios. 3.2. Preprocesamiento de Datos ( P.D.A.) Desde el punto de vista de la técnica, el WUM es el proceso- de minería de datos para el análisis de los logs de utilización de un gran número de repositorios de datos Web. Antes de desarrollar el algoritmo de minería de datos, se debe llevar a cabo una preparación de los datos en bruto a otros que tengan una abstracción para futuros procesos. Los datos pueden ser recolectados en el lado del servidor, lado del cliente, servidores proxy u obtenidos de una base de datos. Para cada recolección de datos, la diferencia no solamente radica en la localización, sino también, en el tipo de datos disponible, el segmento de la población desde la cual los datos fueron recolectados y el método de implementación. Las fuentes de

193 información de la minería pueden incluir logs de utilización de la Web, descripción de páginas Web, topología de sitios Web, registros de usuario y cuestionarios. Preprocesamiento de contenido: El preprocesamiento del contenido es el proceso de convertir texto, imágenes, scripts, y otros archivos en formas que puedan ser usadas por el WUM. El contenido Web puede ser usado para filtrar a la entrada o salida del algoritmo de descubrimiento de patrones [4]. Para el desarrollo del preprocesamiento, el contenido de cada página visitada debe ser ensamblado sea por un agente crawler, o a través de una combinación de template, script y accesos a bases de datos. Baeza [1] define agentes crawlers (rastreadores), como agentes de software que recorren la Web enviando las páginas nuevas o actualizadas para mantener un servidor donde ellas están indexadas. Preprocesamiento de estructuras: La estructura de un sitio Web esta formado por los hyperlinks entre las páginas visitadas. El preprocesamiento de estructuras puede ser tratado de forma similar al preprocesamiento de contenido. Sin embargo, cada sesión del servidor puede construir una estructura de sitios diferente cada vez. Preprocesamiento de utilización: Las entradas de esta fase de preprocesamiento pueden incluir los logs de servidores Web, logs remitidos, registros de archivos, logs del index del servidor y opcionalmente estadísticas de análisis previos. Las salidas son los archivos de las sesiones de usuario, transacciones de archivos, topología del sitio y clasificación de páginas. Es necesario adoptar siempre unas técnicas de datos limpios para eliminar el impacto de los ítems irrelevantes para el análisis de resultados. El preprocesamiento de utilización es probablemente el que presenta mayores dificultades en las tareas del proceso de WUM debido a la falta de completitud de los datos [4]. Sin los datos suficientes es difícil identificar los usuarios. La forma más adecuada para mejorar la calidad de los datos es conseguir la cooperación de los usuarios, pero ello no es del todo fácil. Allí existen unos conflictos entre las necesidades de los analistas y la privacidad de los usuarios individuales [8]. Sin embargo, los métodos heurísticos y estadísticos pueden ser usados para mejorar la calidad de los datos [11]. 3.3. Descubrimiento de patrones (P.D.A.) Este es el componente clave en el proceso del WUM. Los algoritmos y las técnicas para el descubrimiento de patrones pueden converger desde diferentes áreas de investigación, a continuación se muestran algunas de ellas. Análisis Estadístico: Las herramientas estadísticas son herramientas poderosas en la extracción de conocimiento respecto a los visitantes de un sitio Web. Los analistas pueden desarrollar análisis descriptivo basado en las diferentes variables cuando analizan los archivos de las sesiones. Es de gran utilidad analizar estadísticamente la información contenida en los reportes periódicos de los sistemas Web. Ellos pueden mejorar el desempeño del sistema, ampliando su seguridad, facilitando de esta manera las tareas de modificación del sitio, y suministrando soporte para la toma de decisiones en las organizaciones [4]. Reglas de asociación: En los dominios Web, las páginas que son frecuentemente referenciadas juntas, pueden ser puestas en una misma sesión del servidor aplicando la generación y asociación de reglas. La técnica de minería por asociación de reglas puede ser utilizada para descubrir una correlación entre los ítems encontrados en la base de datos de transacciones sin orden [8]. Cooley en su trabajo de doctorado destacó que en el proceso del WUM, la asociación de reglas se refiere al conjunto de páginas que son accesadas junto con un peso que excede un valor umbral (threshold) especificado [4]. Clustering: El análisis por clustering es una técnica para agrupar usuarios, ítems de datos o páginas con características similares. El clustering de usuarios o páginas puede facilitar el desarrollo y ejecución de futuras estrategias de negocio [8] en empresas o incluso en

194 entidades educativas como por ejemplo las universidades. El clustering de usuarios ayuda a descubrir los grupos de usuarios, los cuales tienen patrones de navegación similares. Es muy útil para la inferencia en aplicaciones e-commerce, el desarrollo de segmentación de mercados con demografías de usuarios o para proveer contenidos personalizados para grupos de usuarios. El clustering de las páginas es útil para los motores de búsqueda en Internet y para proveer servicios Web, dado que puedan ser descubiertos los grupos de páginas que tienen contenido relacionado. Clasificación: La clasificación es la técnica para mapear un ítem de datos dentro de una o varias clases predefinidas. En un dominio Web, el webmaster o negociador tendrá que usar esta técnica, si el usuario que realiza la búsqueda pertenece a una clase o categoría de perfiles de usuario. Esto requiere la extracción y selección de características que mejor describan las propiedades de una clase o categoría de perfiles dada. La clasificación puede ser hecha utilizando algoritmos de aprendizaje supervisado tales como árboles de decisiones, clasificadores naïve Bayes, clasificador k-nearest neighbor, máquinas de soporte vectorial, etc [4]. Patrones secuenciales: Esta técnica intenta encontrar un patrón de intersección de tal forma que un conjunto de los ítems siga la presencia de otros en un conjunto de sesiones o episodios ordenados en el tiempo. Es muy significativo para los negociadores de la Web predecir la tendencia futura, lo cual ayuda a poner advertencias a ciertos grupos de usuarios. Los patrones secuenciales también incluyen otros tipos de análisis temporales como: análisis de tendencias, detección de puntos de cambio o análisis de similaridad [4]. 3.4. Análisis de patrones (P.D.A. ): El análisis de patrones es el paso final del proceso del WUM. El objetivo de este paso es eliminar las reglas o patrones irrelevantes, y extraer las reglas o patrones interesantes de la salida del paso de descubrimiento de patrones. La salida de los algoritmos de web mining generalmente no se ajustan de forma directa a la concepción humana, por ello después se necesita hacer una transformación a un formato que sea fácilmente asimilable [12]. 4. Sistemas de Descubrimiento de Información en la Web La Web se ha convertido en una colección de datos importante para el desarrollo de las actividades académicas y comerciales siendo una de las herramientas de búsqueda más utilizada en la investigación. El análisis de patrones interesantes en la utilización de la Web, conlleva a que se puedan tener en cuenta los comportamientos de los usuarios, siendo benéfico para realizar tareas de recomendación y personalización. A continuación se presentan algunos trabajos realizados en esta área resaltando sus fortalezas y debilidades lo que nos puede llevar a concluir cuáles de estas últimas deben ser afrontadas y superadas actualmente. 4.1. OBIWAN [3] En este proyecto una ontología personalizada es creada a partir del procesamiento de una ontología de referencia y una lista de conceptos organizada jerárquicamente. Luego se asignan unos pesos para obtener un mapa de referencia ontológico para llegar finalmente a la ontología propia del usuario, la cual es usada para navegar y hacer búsquedas en la Web. Este sistema trabaja con un sistema de agentes de software, de los cuales podemos identificar los siguientes: un agente caracterizador local, un agente regional y un agente de visualización.

195 El sistema de agentes inteligentes define una ontología de acuerdo al perfil del usuario que sirve para asistir en una navegación personalizada. Posee un agente que construye ontologías. Evalúa la eficiencia de los agentes visualizadores (e.g. de interfaz). Emplea agentes colaborativos para organizar la información que recupera de la web. No sigue las fases del proceso del Web Usage Mining (e.g. P.D.A: Preprocesamiento, Descubrimiento y Análisis). No realiza identificación de perfiles de usuario. No existe categorización de usuarios. No modela grupos de usuarios. No tiene un agente para analizar patrones en la utilización de la WEB. No presenta filtrado colaborativo. 4.2. GROUPLENS [9] Es un servicio de recomendación de noticias. El sistema mantiene track de recomendaciones hechas por cada usuario y clusters de usuarios en grupos con intereses similares para ajustar sus recomendaciones. Cuando nuevos artículos llegan al sistema son llevados a los grupos de usuarios que tengan intereses semejantes. Define una arquitectura de un sistema de recuperación y filtrado de noticias. Trabaja con recomendación a usuarios basado en los intereses personales. Realiza filtrado colaborativo. Trabaja con realimentación basado en la relevancia de los artículos. Es un sistema distribuido y colaborativo. No se realiza modelamiento de perfiles del usuario. Está basado sobre la premisa que los usuarios pertenecen a un grupo conocido con intereses similares y se asume que tendrán estos mismos intereses en el futuro. La evaluación por relevancia de artículos no es un proceso automático, dado que los usuarios deben dar calificaciones de 1 a 5. No relaciona la continuidad temática de los artículos leídos por un usuario. No sigue las fases del Web Usage Mining (P,D,A). 4.3. WEBMINER [8] Webminer es un sistema que implementa la arquitectura propuesta por Cooley. Esta arquitectura divide el proceso de Web Usage Mining en dos partes: La primera parte, incluye el proceso del dominio de la transformación de los datos web en formatos que se ajusten a las transacciones. Esto incluye preprocesamiento, identificación de transacción e integración de componentes de datos. La segunda parte incluye técnicas de minería de datos y reconocimiento de patrones.

196 Presenta modelos de datos y de transacciones para varias tareas del WUM como el descubrimiento por asociación de reglas y patrones secuenciales para los datos Web. Aplica técnicas de descubrimiento de conocimiento. Define formalmente el registro de las entradas (web logs). Define asociación de transacciones Web. Hace análisis de patrones secuenciales. Propone como trabajo futuro el desarrollo de agentes autónomos que analicen el descubrimiento de reglas de clasificación de tendencias para proveer sugerencias a los usuarios. Propone otro trabajo futuro que desarrolle un mecanismo de consultas que pueda ser manipulado en el pre descubrimiento (limpieza de datos, identificación de transacciones). No tiene bien demarcadas todas las fases del proceso del Web Usage Mining (P,D,A). No utiliza los perfiles de usuario para el análisis de patrones. Presenta un enfoque centralizado. No se utilizan las preferencias de los usuarios. No existe agrupamiento de perfiles de usuario. No realiza filtrado colaborativo. 4.4. WEBSIFT Web Site Information Filtering [4] WebSift es un sistema que tiene la estructura del WUM, utiliza el contenido y la estructura de información de los sitios Web para identificar los resultados potencialmente interesantes de los datos de uso. El proceso que lleva a cabo el WebSift se acopla a las fases del WUM. El sistema WebSift está diseñado para desarrollar minería de utilización de los logs de servidores en el formato NSCA. El algoritmo de preprocesamiento incluye identificación de usuarios, sesiones de servidor e inferencias de las páginas guardadas en la memoria caché. En la creación de una sesión de servidor, el sistema WebSift desarrolla preprocesamiento de contenido y estructura, además provee la opción de convertir sesiones de servidores en episodios (secuencia de sesiones). Los archivos de las sesiones de servidores o episodios pueden ser llevados a través de algoritmos de análisis de patrones secuenciales, descubrimiento por asociación de reglas, clustering o algoritmos de estadística. El sistema WebSift está basado sobre el prototipo del sistema WebMiner, pero utilizando completamente el proceso del WUM. Propone una solución para el problema de la identificación de los patrones de utilización de la Web que pueden se considerados como interesantes. Hace un seguimiento en la utilización de la Web por parte de los usuarios. Tiene bien diferenciadas las fases del proceso del Web Usage Mining: P.D.A. Realiza filtrado de información para encontrar patrones interesantes. Propone trabajos futuros para la incorporación de patrones secuenciales y descubrimiento de clusters de los datos de utilización de la Web.

197 También propone como trabajo futuro, que en la etapa de análisis de patrones específicamente en el filtrado, se empleen métodos probabilísticos o de lógica difusa. No utiliza los perfiles de usuario para el análisis de patrones. Presenta un enfoque centralizado. No se utilizan las preferencias de los usuarios. No hace identificación de perfiles de grupos de usuarios. No realiza filtrado colaborativo. 4.5. WUM [10] WUM es un sistema para el descubrimiento de patrones interesantes en la navegación. Los criterios para establecer los patrones interesantes son especificados dinámicamente utilizando el lenguaje MINT, el cual soporta las especificaciones de criterios estadísticos, estructurales y de la naturaleza del texto. Para descubrir los patrones de navegación que satisfacen al experto, WUM aprovecha la información almacenada en los logs del servidor Web. Descubre patrones de navegación interesantes. Utiliza los Web logs para el descubrimiento de patrones. Hace agrupamiento de las páginas consecutivas requeridas por un usuario en una transacción. Además, tiene en cuenta la duración máxima entre los accesos de páginas subsecuentes. Incorpora un nuevo mecanismo para la agregación de patrones de datos, para ello utiliza árboles. Provee un lenguaje de consulta de conocimiento, en el cual el experto puede especificar las características que hacen interesante a un patrón de navegación. Los criterios para los patrones de navegación interesantes deben ser dinámicamente especificados por el experto humano. No hace identificación de perfiles de usuario. No hace agrupamiento de perfiles. La arquitectura no tiene bien diferenciadas las fases del proceso Web Usage Mining (P,D,A). No hace filtrado colaborativo. 4.6. LETIZIA [7] Letizia es un agente de interfaz de usuario que asiste al usuario en la navegación a través de la Web. Cuando el usuario navega en un browser Web convencional como Netscape, el agente Letizia rastrea el comportamiento del usuario e intenta anticipar los artículos de interés haciendo exploración concurrente; además, explora de forma autónoma los links de las posiciones en que se encuentra el usuario. Este agente utiliza una estrategia que consiste

198 en mostrar automáticamente la mejor búsqueda, la cual es aumentada con la inferencia heurística que deduce el interés del usuario en la navegación. Posee un agente de interfaz eficiente. Acompaña y asesora al usuario en su navegación, resaltando los vínculos que son de su interés y mostrando cuáles debe evitar. Aprende un perfil a partir de los intereses del usuario guardando y analizando la actividad que realiza el usuario en el browser en tiempo real, suministrando un flujo continuo de recomendaciones a páginas Web. El usuario no necesita prestarle atención al agente de interfaz, pues trabaja autónomamente. Propone como trabajo futuro el análisis de patrones de los comportamientos de los usuarios al utilizar la Web. Enfoque centralizado utilizando solo un agente de software. El sistema está localizado sobre una sóla máquina. Hace exploración local. No hace categorización de usuarios. No identifica perfiles de grupos. La arquitectura no sigue las fases del proceso del Web Usage Mining (P,D,A). No hace filtrado colaborativo. 4.7. WEBWATCHER [6] WebWatcher es un agente guía de un tour para la Web. Una vez el usuario le dice al agente qué clase de información busca, el agente lo acompaña de página en página en su proceso de navegación, resaltando los enlaces que cree son de su interés. Su estrategia para dar consejos se basa en la realimentación basada en los tours anteriores. Posee un agente que guía al usuario cuando navega en la Web, éste actúa como un agente de interfaz entre el usuario y la Web. Tiene en cuenta la localización de las colecciones de datos en la Web. Tiene en cuenta cómo otros han interactuado con la colección en el pasado. Aprende de las experiencias para dar mejores consejos. Puede aprender de las relaciones entre consultas aunque no tengan ninguna palabra en común. Provee un motor de búsqueda con palabras clave usando una variante del motor de búsqueda lycos, aplicándolo al conjunto de páginas previamente visitadas por WebWatcher. Tiene la posibilidad de mostrar páginas similares a las consultadas, basado en el análisis de la estructura del hipertexto. Construye sus propios logs de acceso. Propone un método de aprendizaje basado en una función objetivo definida entre [0,1] llamada Calidad_del_Link, la cual da la posibilidad de que un usuario seleccione un link dada la página actual y el interés.

199 Propone tres enfoques para aprender de la función objetivo: Aprendizaje de navegaciones previas, Reforzamiento de aprendizaje o la Combinación de ambos. No construye perfiles de usuario. Enfoque centralizado. No identifica perfiles de grupos de usuarios. La arquitectura no sigue las fases del proceso del Web Usage Mining (P,D,A). Hace exploración local. Las pruebas del sistema fueron hechas en modo offline. No es un sistema personalizado. No tiene en cuenta las preferencias del usuario. 4.8. Syskill & Webert [2] Este sistema permite a los usuarios valorar a través de marcas las páginas que visitan y con ello el sistema construye los perfiles de usuario. Las marcas pueden ser positiva, negativa o indiferente. Basado en el perfil, cuando el usuario navega a una nueva página, el sistema hace una clasificación previa de la información apuntada por los links sobre la página, resalta los links que deben ser recomendados e indica los links que deben ser evitados. El sistema ofrece recomendación a los usuarios sobre los enlaces que debe visitar, haciendo diferencia entre los relevantes y los que debe evitar. Puede utilizar motores de búsqueda para devolver el tópico de una consulta. Construye perfiles de usuario analizando la información de cada página. Representa el perfil del usuario en una forma probabilística. Aprende a valorar páginas a partir de la clasificación realizada por el usuario. Aprende un perfil diferente por cada uno de los tópicos manejados por el usuario. Hace selección de características con métodos probabilísticos. Los autores investigaron la precisión de 5 algoritmos de aprendizaje de máquina para construcción de perfiles (Naïve Bayesian, K-nearest neighbor, PEBLS, decision trees (ID3) y neural nets), llegando a concluir que el algoritmo más rápido para aprender y predecir era el Naïve Bayesian. Adicionalmente, en este algoritmo el tiempo de aprendizaje es lineal en el número de ejemplos y su tiempo de predicción es independiente del número de ejemplos. No sigue las fases del proceso del Web Usage Mining (P.D.A.). No tiene bien demarcada la etapa de análisis de patrones. Enfoque centralizado. No hace categorización de perfiles de usuario. El usuario debe ingresar las marcas positivo, negativo e indiferente sobre cada página visitada. Proceso semi-automático. Ofrece una forma más restringida de navegación que el Web Watcher y Letizia. No realiza agrupamiento de perfiles.

200 No realiza filtrado colaborativo. 5. Conclusiones En las comunidades Web, resulta de mucha utilidad encontrar patrones que caractericen perfiles de usuario. A partir de este modelamiento se pueden proponer sistemas de recomendación o personalización que ayuden a los usuarios de esa comunidad a satisfacer sus necesidades informáticas de una manera más eficaz. A los grupos comerciales, específicamente puede resultarles de gran ayuda conocer el comportamiento de sus clientes basados en los perfiles descubiertos por los sistemas basados en WUM, revisados en este artículo, lo que puede conducirlos a realizar nuevos planteamientos sobre las políticas de mercadeo empleadas, o que rediseñen estratégicamente sus sitios Web. El proceso del Web Usage Mining (P.D.A.) propuesto por Cooley se está volviendo un estándar de facto, dada las bondades que presenta, como por ejemplo la claridad y las posibles técnicas que se pueden aplicar en cada una de sus fases. Referencias [1] BAEZA-YATES. Ricardo. RIBEIRO-NETO. Berthier. Modern Information Retrieval. Addison Wesley. ISBN 0-201-39829-X. ACM.. New York. 1999. [2] BILLSUS, Daniel. PAZZANI, Michael. Learning and Revising User Profiles: The Identification of Interesting Web Sites. Volume 27, Issue 3 (June 1997). Special issue on multistrategy learning. Pages: 313-331. ISSN:0885-6125. Kluwer Academic Publishers Hingham, MA, USA. [3] CHAFFEE, Jason. GAUCH, Susan. Personal ontologies for web navigation. Source Conference on Information and Knowledge Management archive. Proceedings of the ninth international conference on Information and knowledge management. McLean, Virginia, United States. Pags: 227-234. 2000. ISBN:1-58113-320-0. [4] COOLEY,Robert. TAN, Pang-Ning. SRIVASTAVA, Jaideep. Discovery of intersting usage patterns from web data. M. Spiliopoulou and B. Masand editors. Advances in web usage analysis and user profiling. Lecture Notes in computer science, ISBN: 3-540-67818-2. pp. 163-182. 2000. [5] EIRINAKI, Magdalini. VAZIRGIANNIS, Michalis. Web mining for web personalisation. ACM Transaction on Internet Technology, Vol. 3, No. 1, February 2003, Pages 1-27. [6] JOACHIMS, T. FREITAG, D. MITCHELL, T. Proceedings of IJCAI97, August 1997 (longer version internal CMU technical report September 1996). Carnegie Mellon University. http://www- 2.cs.cmu.edu/afs/cs/project/theo-6/web-agent/www/project-home.html. [7] LIEBERMAN, Henry. Letizia: An Agent That Assists Web Browsing, International Joint Conference on Artificial Intelligence, Montreal, August 1995. http://lieber.www.media.mit.edu/people/lieber/lieberary/letizia/letizia-aaai/letizia.html. [8] MOBASHER, Bamshad. SRIVASTAVA, Jaideep. NAMIT, Jain. EUI-HONG, (Sam) Han. Web Mining: Pattern Discovery from World Wide Web Transactions. Proceedings of the 9th IEEEInternational conference on tools with artificial intelligence (ICTAI'97). November, 1997. [9] RESNICK, Paul. IACOVOU, Neophytos. SUCHAK, Mitesh. BERGSTROM, Peter. RIEDL, John. GroupLens: An Open Architecture for Collaborative Filtering of Netnews. Proceedings of ACM 1994 Conference on Computer Supported Cooperative Work, Chapel Hill, NC: Pages 175-186. [10] SPILIOPOULOU, M. FAULSTICH, L. C. WUM: A Web Utilizattion Miner. Proceedings of the international workshop on the web and databases. Valencia, Marzo de 1999. [11] SPILIOPOULOU, Myra. FAULSTICH, L. C. WINKLER, K. A data miner analizing the navigational bahaviour of the web users. Proceedings of the workshop on machine learning in user modellin. ACAI 99. Chania, Grecia. Julio de 1999. [12] VILLENA, J. GONZÁLEZ, J. C. BARCELO, E. & VELASCO, J. R. Minería de uso de la Web mediante huellas y sesiones. IBERAMIA 2002.