Web Mining: Estado Actual de Investigación

Transcripción

1 Autor Lic. Gustavo D. Koblinc Web Mining: Estado Actual de Investigación En este trabajo, me propongo analizar la actualidad sobre Web Mining, o sea la aplicación de las técnicas de Data Mining sobre los datos contenidos en la World Wide Web. De esta definición se deriva que Web Mining es simplemente aprovechar las técnicas de Data Mining para obtener conocimiento de la información disponible en Internet. Las motivaciones que despertaron la investigación en este campo es el gran volumen de datos con el que se cuenta, las posibilidades de negocios, la actual dificultad en acceder a la información precisa ya que esta se encuentra dispersa y desordenada, y la necesidad de mejorar la performance de los servicios brindados por la red. En algunos casos se deben adaptar las técnicas conocidas de Data Mining para utilizarlas en este entorno, aunque en otros deben adaptarse los datos para que puedan ser utilizados. Pueden observarse dos enfoques bien diferenciados sobre los diferentes desarrollos e investigaciones realizadas: el primer enfoque apunta a realizar mining en el lado del servidor, específicamente sobre los datos que son depositados por los Web Servers; el segundo enfoque está más orientado a los clientes y esta basado en agentes que buscan datos sobre toda la Web y luego aplican las técnicas de mining sobre estos. El primero de estos enfoques aplica mining sobre los datos que dejan, en distintos tipos de logs, los Servidores de Web. Analizar esta información puede ayudar principalmente a empresas que basan su negocio en Internet determinando los tipos de clientes que ingresan, diseñar estrategias de marketing sobre productos y servicios, evaluar la efectividad de las campañas promocionales, mejorar tiempos de acceso y buscar la mejor estructura para el site. El segundo se basa en aplicar mining sobre documentos obtenidos de la red. Esto permite mejorar la búsqueda de información, generar perfiles de usuarios adecuados a sus necesidades y organizar bookmarks entre otras cosas. Cada uno de estos enfoques presenta ventajas y desventajas que luego serán analizadas. 1

2 4.1- Web Mining en Servidores de Web Actualmente los servidores de Web generan un gran volumen de datos proveniente del registro de las acciones que estos realizan. Cada requerimiento de los clientes (browsers, agentes, etc.) queda registrado en los logs que se generan constantemente. Este gran volumen de datos contiene valiosa información que no es visible de forma evidente, y que hasta hace poco era utilizada mínimamente para obtener algún tipo de estadísticas, analizar accesos inválidos o problemas que se produjeran en el servidor. Existen numerosas herramientas que generan reportes estadísticos y gráficos sobre el uso del servidor, de las cuales podemos destacar algunos productos conocidos como Webtrends, Getstats, Analog, Microsoft Intersé Market Focus, etc. Ninguna de estas herramientas realiza data mining de los datos. No se aplica ni clustering, ni association rules, aún menos sequential patterns. Con una herramienta de data mining se podría descubrir, por ejemplo, que en general los clientes que realizan compras on-line en el servidor habían consultado ciertas páginas los días anteriores. Con una herramienta estadística se podrían obtener por ejemplo totales por dominio, cantidad de requerimientos por recurso, etc. En este momento, debido a la gran cantidad de negocios que se manejan por Internet, la gran competencia y la creciente necesidad de mejorar los servicios, el análisis de los datos que se obtienen para convertirlos en información útil se torna imprescindible para poder sobrevivir en este ambiente competitivo. Es necesario conocer el comportamiento de los usuarios (potenciales clientes) y brindarles un acceso más fácil y un mejor servicio así como también saber hacia quien orientar las campañas promocionales. Además aprovechar esta información puede ser muy útil para mejorar la performance de los servidores. Actualmente, hay varias herramientas desarrolladas que aplican mining en el servidor, tanto a nivel comercial como académico. Del análisis de las mismas, se observa que en general todas aplican el proceso de KDD sobre el log del servidor aunque lo hacen con algunas diferencias. Los datos almacenados en los logs siguen un formato standard diseñado por CERN y NCSA [Luotonen, 1995]. Una entrada en el log siguiendo este formato contiene entre otras cosas, lo siguiente: dirección IP del cliente, identificación del usuario, fecha y hora de acceso, requerimiento, URL de la página accedida, el protocolo utilizado para la transmisión de los datos, un código de error, agente que realizó el requerimiento, y el número de bytes transmitidos. Esto es almacenado en un archivo de texto separando cada campo por comas (, ) y cada acceso es un renglón distinto. 2

3 peo-il1-21.ix.netcom.com - - [24/Feb/1997:00:00: ] "GET /images/nudge.gif HTTP/1.0" " "Mozilla/2.0 (compatible; MSIE 3.01; Windows NT)" slip wv.us.ibm.net - - [24/Feb/1997:00:00: ] "GET / HTTP/1.0" " "Mozilla/2.0 (Win95; I)" ss5-08.inre.asu.edu - - [24/Feb/1997:00:00: ] "GET /commercepoint/html3/purchasing/3_a.html HTTP/1.0" " "Mozilla/3.0 (Win95; I)" peo-il1-21.ix.netcom.com -- [24/Feb/1997:00:00: ] "GET /images/isbutton.gif HTTP/1.0" " "Mozilla/2.0 (compatible; MSIE 3.01; Windows NT)" ss5-08.inre.asu.edu - - [24/Feb/1997:00:00: ] "GET /commercepoint/html3/purchasing/images/fea_a.gif HTTP/1.0" " "Mozilla/3.0 (Win95; I)" Ejemplo de entradas del log de NCSA HTTPd Estos datos contenidos en los logs son insuficientes para analizarlos directamente. Sin embargo utilizando una buena técnica de data mining se puede obtener información interesante. Como fue mencionado anteriormente, se genera una entrada en el log por cada requerimiento de un recurso realizado por un usuario. Aunque esto puede reflejar la actividad del servidor no refleja el verdadero comportamiento de los clientes, debido a que las vueltas atrás y a que los requerimientos que se encuentran cacheados por el browser del cliente o por un proxy no son registrados en el server. Tampoco son registradas las funciones que el usuario realiza dentro de una página como por ejemplo el scroll-up y scroll-down. Este déficit en la información puede generar conclusiones erróneas al estudiar la mejor estructura para un site. Por ello dicha información debería ser registrada en logs generados por los browsers o por una applet Java. A este déficit de información se suma que el identificador de usuario no siempre está disponible en el log. Debido al uso de proxy servers por parte de los proveedores del servicio de Internet y de firewalls por parte de las corporaciones comerciales, la verdadera dirección IP del cliente no se encuentra disponible para 3

4 el servidor de web. En vez de tener varias direcciones IP distintas para varios clientes distintos, la misma dirección del proxy server o firewall es guardada en el log representando los requerimientos de diferentes usuarios que llegan al servidor desde el mismo proxy server o firewall. Esto genera cierta ambigüedad en los datos del log. Para solucionar este problema, generalmente se requiere que los usuarios completen un formulario de registración, se implementa algún tipo de log-in o se utilizan cookies entre el servidor y el browser del cliente. De esta manera, el servidor puede identificar distintos requerimientos realizados por los usuarios, pero se viola la privacidad de los mismos ya que gereralmente ellos desean permanecer anónimos lo más que se pueda. Por este motivo, los servidores no solicitan registraciones ni utilizan cookies; por lo tanto el análisis para identificar el comportamiento de los usuarios debe basarse sólo en las entradas del log El Proceso de Knowledge Discovery Antes de aplicar cualquier técnica de data mining es necesario realizar una transformación de los datos para que éstos puedan ser operados eficientemente. A este proceso se lo conoce como el proceso de Knowledge Discovery. En el marco de dicho proceso se filtrarán datos que no interesan y en general se transformará el log en una estructura más manipulable (por ejemplo una base de datos relacional). Es necesario el conocimiento de la estructura del Web server para poder determinar a partir de los accesos cual es la acción que quiere realizar el usuario. Se han encontrado diferentes enfoques de cómo realizar este proceso que abarcan desde el filtrado o no de pedidos de recursos multimedia, la conversión de un conjunto de requerimientos en la supuesta acción requerida por el usuario llegando hasta la creación de un cubo n-dimensional. Para poder aplicar las técnicas de data mining sobre los datos del log del servidor es necesario, además de aplicar las transformaciones en los datos típicas del proceso de KDD, realizar una adaptación en la definición de las transacciones y los ítems que las componen para los distintos algoritmos. Esto se debe a que en este caso no se tiene la noción de transacción como en una base de datos transaccional en donde existe un identificador de transacción. Aquí para poder delimitar una transacción se debe utilizar por ejemplo una combinación entre el identificador del usuario que interactua con el servidor y un período máximo de tiempo aceptado entre accesos. Por ejemplo si un usuario accede a una página del servidor a las 9:00 hs, y hasta las 9:15 hs navega dentro del site; y luego vuelve a acceder por la tarde, esto es considerado como dos transacciones distintas. Cada herramienta utiliza su propios modelos de transacción y de ítems, aunque en general estos modelos son similares entre sí. 4

5 Técnicas de Data Mining En el Web Mining en los servidores de Web es posible aplicar cualquiera de las técnicas de data mining conocidas, por ejemplo Association Rules, Sequential Patterns, Clasificación o Clustering; cada una de las cuales serán analizadas a continuación Association Rules El descubrimiento de association rules es generalmente aplicado a Bases de Datos transaccionales, donde cada transacción consiste en un conjunto de ítems. En este modelo, el problema consiste en descubrir todas las asociaciones y correlaciones de ítems de datos donde la presencia de un conjunto de ítems en una transacción implica (con un grado de confianza) la presencia de otros ítems. En el contexto de Web Mining este problema tiende a descubrir la correlación entre los accesos de los clientes a varios archivos disponibles en el servidor. Cada transacción está compuesta por un conjunto de URL accedidas por el cliente en una visita al servidor. Utilizando association rules, se puede descubrir, por ejemplo, lo siguiente: 60% de los clientes que acceden a la página con URL /company/products/, también acceden a la página /company/products/product1.html. Esta técnica, además, considera el soporte para las reglas encontradas. El soporte es una medida basada en el número de ocurrencias de los ítems dentro del log de transacciones. En Web Mining existen otros factores que pueden ayudar a podar el espacio de búsqueda de las reglas. En general, los sites están organizados jerárquicamente y la estructura de esta jerarquía es conocida con anticipación. Por ejemplo, si el soporte de /company/products/ es bajo, se puede inferir que la búsqueda de association rules en las páginas /company/products/product1.html y /company/products/product2.html no van a tener el soporte necesario. El descubrimiento de estas reglas en el ámbito del comercio electrónico pueden ayudar en el desarrollo de las estrategias de marketing. Además las association rules pueden ayudar a mejorar la organización de la estructura del site. Por ejemplo, si descubrimos que el 80% de los clientes que acceden a /company/products y /company/products/file1.html también acceden a /company/products/file2.html, parece indicar que alguna información de file1.html lleva a los clientes a acceder a file2.html. Esta correlación podría sugerir que ésta 5

6 información debería ser movida a /company/products para aumentar el acceso a file2.html Sequential Patterns En general en las Bases de Datos transaccionales se tienen disponibles los datos en un período de tiempo y se cuenta con la fecha en que se realizó la transacción; la técnica de sequential patterns se basa en descubrir patrones en los cuales la presencia de un conjunto de ítems es seguido por otro ítem en orden temporal. En el log de transacciones de los servidores de Web, se guarda la fecha y hora en la que un determinado usuario realizó los requerimientos. Analizando estos datos, se puede determinar el comportamiento de los usuarios con respecto al tiempo. Con esto, se puede determinar por ejemplo: 60% de los clientes que emitieron una orden on-line en /company/products/product1.html, también emitieron una orden on-line en /company/products/product4.html dentro de los siguientes 15 días. El descubrimiento de sequential patterns en el log puede ser utilizado para predecir las futuras visitas y así poder organizar mejor los accesos y publicidades para determinados períodos. Por ejemplo, utilizando está técnica se podría descubrir que los días laborables entre las 9 y las 12 horas muchas de las personas que accedieron al servidor lo hicieron para ver las ofertas y en los siguientes días la mayoría compró productos. Entonces por la mañana debería facilitarse el acceso a las ofertas y brindar la publicidad más llamativa posible. También puede ser utilizado para descubrir tendencias, comportamiento de usuarios, secuencias de eventos, etc. Esta información puede ser aprovechada tanto en el aspecto comercial (pensar una campaña de marketing) como en el aspecto técnico (mejorar los tiempos de acceso). En general todas las herramientas que realizan mining sobre el log enfocan el análisis sobre secuencias de tiempo ya que los eventos que son almacenados están muy relacionados con el tiempo en que se producen Clasificación y Clustering Las técnicas de clasificación permiten desarrollar un perfil para los ítems pertenecientes a un grupo particular de acuerdo con sus atributos comunes. Este perfil luego puede ser utilizado para clasificar nuevos ítems que se agreguen en la base de datos. 6

7 En el contexto de Web Mining, las técnicas de clasificación permiten desarrollar un perfil para clientes que acceden a páginas o archivos particulares, basado en información demográfica disponible de los mismos. Esta información puede ser obtenida analizando los requerimientos de los clientes y la información transmitida de los browsers incluyendo el URL. Utilizando técnicas de clasificación, se puede obtener, por ejemplo, lo siguiente: Clientes que frecuentemente emiten una orden on-line en /company/products/product3.html tienden a ser de instituciones educativas. 50% de los clientes que emiten una orden on-line en /company/products/product2.html, están entre 20 y 25 años y viven en la costa oeste. La información acerca de los clientes puede ser obtenida del browser del cliente automáticamente por el servidor; esto incluye los accesos históricos a páginas, el archivo de cookies, etc. Otra manera de obtener información es por medio de las registraciones y los formularios on-line. La agrupación automática de clientes o datos con características similares sin tener una clasificación predefinida es llamada clustering. La utilización de la técnica de clustering sobre el log del Web Server, puede ser utilizado para estrategias de marketing dirigido según las clases obtenidas. Por ejemplo si se reconoce un grupo de potenciales clientes se les podría enviar las ofertas por correo sólo a ellos Beneficios y Problemas En general aplicar técnicas de data mining sobre el log de los servidores puede brindar las siguientes ventajas: Mejorar la performance del servidor Mejorar la navegabilidad del site Mejorar el diseño de las aplicaciones del Web Descubrir potenciales clientes de comercio electrónico Identificar lugares y horarios principales para colocar publicidades Actualmente existen varios problemas que afectan a la exactitud de los resultados obtenidos al realizar el análisis. Entre ellos podemos destacar: Imposibilidad de registrar los accesos a páginas cacheadas o descubrir fehacientemente el uso del backtracking u otras funcionen del browser Dificultades en delimitar transacciones o sesiones del usuario 7

8 Datos ambiguos en el log debido a cambios de identidad realizados por proxys y firewalls Estructura de los logs no adecuada para aplicar las técnicas de data mining Como se puede ver, actualmente los logs no almacenan toda la información necesaria para hacer un buen análisis. Debido a que hace poco se comenzó con la aplicación de estas técnicas de data mining, logrando importantes avances, es de esperar que muy pronto se produzcan mejoras como la mayor cooperación entre browsers y servidores y posiblemente la adecuación de la estructura de los logs para que éstos puedan ser analizados más eficientemente. Quizás, en el futuro, se puede lograr la aplicación de data mining on-line para adaptar rápidamente la estructura y la imagen de los servidores de acuerdo a las necesidades del momento. Mientras tanto se debe encontrar la mejor manera de aprovechar los datos insuficientes y ambiguos con que se cuenta. Para ello es muy importante realizar un buen proceso de KDD aprovechando el conocimiento que se tenga sobre el dominio de la aplicación Web Mining en Clientes de Web El World Wide Web es un gran repositorio de información que crece constantemente. Existen y son muy conocidas las poderosas herramientas de búsqueda que tratan de buscar por categoría o por contenido, tales como Altavista, Yahoo, etc. Basándose en largos índices de documentos que están localizados en la Web, los buscadores determinan las URLs tratando de satisfacer los requerimientos del usuario. Muchas veces estas consultas traen resultados inconsistentes y documentos que cumplen con el criterio de búsqueda pero no con el interés del usuario Agentes Inteligentes Ultimamente fueron desarrollados agentes inteligentes (basados en inteligencia artificial) que tratan de extraer las características semánticas de las palabras o la estructura de los documentos HTML. Estas características son luego utilizadas para clasificar y categorizar los documentos. El uso del clustering ofrece la ventaja de que no se necesita conocimiento de las categorías, por eso el proceso de categorización no es supervisado. Los resultados del clustering pueden ser utilizados para formular consultas automáticamente y buscar documentos similares u organizar bookmarks o construir un perfil de usuario. 8

9 En general estos agentes de Web Mining pueden ubicarse en las siguientes categorías: Agentes de Búsqueda Inteligentes: Buscan información relevante utilizando las características de un dominio (y quizás un perfil de usuario) en particular para organizar e interpretar la información descubierta. Por ejemplo FAQ-Finder ([Hammond, 1995]). Filtradores y Categorizadores de Información: Utilizan técnicas de recuperación de información y características de los documentos de hipertexto para recuperar, filtrar y categorizar los mismos. Por ejemplo HyPursuit que utiliza información semántica que se encuentra en la estructura de los links y el contenido de los documentos para crear una jerarquía de clusters de los hipertextos. Algunos otros hacen clustering de palabras usando, por ejemplo, el algoritmo K-means. Agentes de Web Personalizados: Obtienen o aprenden las preferencias del usuario y descubren fuentes de información en la Web que se correspondan con las mismas o posiblemente con preferencias de otros usuarios con intereses similares. Por ejemplo WebWatcher Diferencias entre un Documento Web y un Hipertexto Clásico La mayoría de las herramientas de búsqueda en la Web se basan solamente en la información textual de los documentos ignorando la información implícita que contienen los links o los analizan sin tomar en cuenta de que tipo de link se refiere, tratando al documento como un documento de hipertexto típico. Para aclarar las deficiencias de este enfoque analizaremos las diferencias exitentes entre un documento de Web y un documento hipertexto clásico ([Spertus, 1997]). Links entre Documentos y Sites: Los hipertextos clásicos contienen links pero éstos son diferentes de los encontrados en la Web, ya que los primeros apuntan a referencias dentro del mismo documento y nunca refieren a documentos situados en otros sites. En la Web existen links que pueden referir al mismo documento, otros que lo pueden hacer a un documento en el mismo site y otros que pueden hacerlo a documentos en otros sites. Es necesario analizar estos links para determinar a que tipo pertenecen. Información Repetida o Falta de Información: El Web es por un lado redundante y por el otro incompleto. Un hipertexto clásico suele ser completo y no redundante. La redundancia en la Web puede ser una ventaja si es utilizada convenientemente. En cambio la ausencia de un link entre dos páginas no implica que estas no estén relacionadas, algo que suele inferirse naturalmente en un hipertexto común. 9

10 Cambio Constante: A diferencia del hipertexto clásico, la Web está en constante cambio creando el problema de poder encontrar información que no se encuentra todavía indexada. Es claro que para poder obtener información de la Web es conveniente utilizar herramientas que tomen en cuenta estas diferencias. En particular una herramienta que genere índices de búsqueda debería tomar en cuenta los diferentes tipos de links con los que puede encontrarse, analizarlos e inferir, por ejemplo, si el link está relacionado con el tema que está evaluando, y si debe descartar el link o agregarlo al índice y/o avanzar por ese camino ([Spertus, 1997]) Técnicas de Data Mining En general, estos agentes inteligentes aplican técnicas de clustering sobre los documentos obtenidos en la Web ya sea para organizar el perfil de los usuarios o para mejorar la eficacia de las búsquedas que éstos desean realizar (ver [Han, 1998] y [Moore, 1998]). Existe un enfoque diferente que utiliza esta técnica para encontrar documentos muy similares o documentos contenidos unos en otros, pudiéndose utilizar esto para filtrar las búsquedas encontradas por los buscadores tradicionales o para detectar la copia ilegal de documentos ([Broder, 1997]). Las técnicas de clustering tradicionales utilizan conocimiento previo sobre la estructura de los documentos para definir una función de distancia entre los mismos o utilizan técnicas probabilísticas. Sin embargo, estos algoritmos no funcionan bien cuando la dimensión del espacio es grande en relación con el tamaño de los documentos, algo que ocurre en la Web. Algunos piensan que la frecuencia de las palabras es una buena medida para la función de distancia en los algoritmos de clustering, pero esta no es adecuada ya que existen documentos más largos que otros y por eso algunas palabras pueden ocurrir más frecuentemente que otras. Por otro lado, la cantidad de palabras diferentes en todos los documentos puede ser demasiado larga. Además, los esquemas basados en distancias generalmente requieren el cálculo de las medias de los clusters de los documentos las cuales, si la dimensión es alta, no diferirán mucho entre un clustrer y otro. Por lo tanto, este tipo de método de clustering no siempre genera buenos clusters. Del mismo modo los métodos probabilísticos no son buenos cuando la cantidad de características posibles es mucho más grande que el tamaño de la muestra. Otro problema de los métodos probabilísticos es que muchos de ellos asumen independencia de los atributos lo cual, para muchos dominios, puede ser una asunción muy restrictiva. 10

11 Por estos motivos es necesario implementar nuevos algoritmos de clustering que no necesiten conocimiento previo para obtener una función de distancia y sean capaces de descubrir similitudes y asociaciones entre los documentos y además que funcionen bien en espacios de grandes dimensiones Nuevos Métodos de Clustering Los métodos basados en distancia utilizan como dimensiones, un conjunto de palabras que aparecen en distintos documentos. Cada conjunto, simbolizado como un vector, representa al documento y puede ser visto como un punto en el espacio multidimensional. Estos métodos presentan varios inconvenientes descriptos anteriormente ARHP: Association Rules Hypergraph Partitioning ([Broder, 1997]) En las bases de datos transaccionales, como las de un supermercado, este método primero busca un conjunto de ítems que frecuentemente aparecen juntos utilizando association rules. Luego, cada conjunto de ítems es utilizado para agrupar a los ítems en los arcos de un hipergrafo y un algoritmo de particionamiento de hipergrafos, es utilizado para encontrar los clusters. En el clustering de documentos, cada documento corresponde a un ítem y cada característica corresponde a una transacción. Se utilizan association rules para encontrar conjuntos de documentos con característica en común. Cada conjunto debe satisfacer un cierto soporte. El hipergrafo H = ( V, E ) está formado por vértices V representando a los documentos y hiperarcos (pueden conectar más de 2 vértices) E representando a los ítems frecuentes. A cada hiperarco se le asocia un peso que es calculado como el promedio de la confianza de las association rules relacionadas con los documentos del hiperarco, donde la confianza para cada regla es la probabilidad de que una característica esté en un documento sabiendo que está en el resto de los documentos de ese hiperarco. Luego se particiona el hipergrafo de forma tal que los pesos de los hiperarcos que son cortados es minimizado. Este método también se puede aplicar a Clustering de palabras donde cada palabra es un ítem y cada documento una transacción. Una ventaja de este método es que permite filtrar documentos no relevantes mientras realiza el clustering de documentos. Esta capacidad de filtrado es debida al criterio de soporte en la utilización de association rules, utilizando un valor límite para el soporte, los documentos que tengan un soporte menor, serán eliminados. 11

12 Principal Component Analysis (PCA) Partitioning Algorithm ([Broder, 1997]) En este algoritmo, cada documento es representado por un vector normalizado de frecuencias de palabras. El algoritmo procede cortando el espacio de los documentos con un hiperplano que pasa por la media de todos los vectores y perpendicular a la dirección principal (máxima varianza) del conjunto de documentos. Los documentos son divididos en dos grupos separados por el hiperplano y a cada grupo se le aplican los mismos pasos sucesivamente todas las veces que se quiera formando una jerarquía con forma de árbol, siendo las hojas de éste los clusters Syntactic Clustering ([Han, 1998]) Este método permite definir una medida de similitud y de inclusión entre documentos. Para ello cada documento es convertido en una secuencia canónica de tokens. Esta secuencia sólo contiene las palabras del documento eliminando la capitalización, el formato y todos los comandos html. A partir de esta secuencia de tokens se define el concepto de shingle que es una subsequencia continua de w palabras. Luego se define el conjunto w-shingling S(D,w) como el conjunto de todos los shingles de longitud w. Por ejemplo dada la secuencia ( hola, que, tal ) el conjunto 2-shingle sería { (hola, que), (que, tal) } Dados dos documentos A y B se define la similitud entre ellos como: r (A,B) = S (A) S(B) S (A) S(B) También podemos definir el grado de contención como: c (A,B) = S (A) S(B) S (A) Para reducir el costo computacional de este cálculo se define el concepto de sketch que dado un conjunto S(D,w) toma un pequeño subconjunto de éste que mantenga suficiente información sobre el documento y de esta forma poder utilizar el sketch para comparar la similitud entre los documentos. El algoritmo funciona de la siguiente manera: Para cada documento calcula el conjunto S(D,w) para un w particular, por ejemplo 10. Luego calcular el sketch del documento. Compara los sketchs de cada par de 12

13 documentos entre sí. Si el grado de similitud es mayor que un determinado límite ubica estos documentos en el mismo cluster Beneficios y Problemas En general se puede observar que los desarrollos realizados a nivel cliente básicamente realizan algoritmos de clustering. Esto se debe a que, a este nivel, el propósito es organizar mejor la información que poseen los usuarios o mejorar los métodos de búsqueda de información en la Web. En esta sección observamos que los algoritmos clásicos de clustering no son adecuados para manejar información documental, más aun si se tiene en cuenta la gran cantidad que existe de ella. Es por ello que se implementaron nuevos algoritmos más eficientes y adecuados. Los algoritmos de clustering utilizados en la Web no se basan en una función de distancia, en lugar de ello, utilizan el particionamiento de hipergrafos o componentes principales siendo más eficientes debido a que: No dependen de la elección de la función de distancia No son sensitivos a las dimensiones de los datos Son linealmente escalables La principal ventaja de aplicar data mining a este nivel es la simplificación del proceso de obtención de información, ya que utilizando estas técnicas lograremos filtrar información incorrecta o irrelevante y además podremos obtener mayor cantidad de información sobre los temas buscados. Debido a que la cantidad de documentos que los agentes deben analizar es demasiado grande e imposible de manejar, podemos relacionar en cierto sentido las técnicas utilizadas en este entorno con las utilizadas en una VLDB donde es necesario realizar sampling en la mayoría de los casos. En la web, no es posible no realizar sampling, pero a diferencia de las bases de datos, en este caso, el sample se toma, por ejemplo, como los documentos encontrados en una búsqueda Conclusiones sobre Web Mining Las características de la World Wide Web y la necesidad de obtener distinto tipo de información de la misma, presenta un nuevo desafío tanto a los métodos de recuperación de información tradicionales como a las técnicas aplicadas para analizar los datos registrados por los servidores. Se puede observar que en ambos aspectos todavía existen bastantes deficiencias en la recolección y análisis de los datos. 13

14 Para mejorar los datos encontrados en los logs del servidor, sería bueno que se registraran todas las acciones de los usuarios tanto como el refresco de una página o una vuelta a una página anterior (back), cosa que en este momento no se realiza porque se toma la página cacheada por el browser. Esto no significa dejar de utilizar las páginas cacheadas y volver a traerlas desde el servidor, cosa que empeoraría considerablemente la performance, simplemente sería necesario que al levantar una página cacheada, el browser le avise al servidor y le provea los datos necesarios para poder registrar el requerimiento en el log. De esta manera la información en el log estaría completa. Por otro lado, la estructura y los datos de los logs de los servidores no es la más adecuada para realizar un buen análisis. En principio faltaría un campo que indique la cantidad de tiempo que un usuario utilizó para visitar una página, se pudo ver que la mayoría de los algoritmos que analizan el log deben inferir este dato. Además, sería interesante que se pueda determinar donde comienza y termina una transacción o sesión de usuario, también los algoritmos analizados tienen inconvenientes con este tema ya que todos necesitan las delimitación de las transacciones y para ello dependen del valor de un intervalo máximo, cosa que puede provocar resultados erróneos. Todo el análisis de los logs del servidor se realiza con datos históricos. Otro enfoque sería realizar el análisis de los accesos y data mining sobre los datos en forma on-line. Esto se podría lograr actualizando incrementalmente, por cada acceso o por cada intervalo pequeño de tiempo, los datos almacenados por ejemplo en un cubo. Al tener siempre actualizados los datos, las herramientas de análisis ahorrarían una gran cantidad de pasos y tiempo, teniendo la ventaja, además, de poder generar resultados semi-inmediatos. Para ello se podría aprovechar las ventajas que proveen algunos servidores de web, como el IIS de Microsoft que permite generar el log directamente en una base de datos relacional. La búsqueda de documentos similares y la creación de perfiles de usuarios es un aspecto del Web Mining que involucra el análisis de una gran cantidad de datos distribuidos por todos el mundo, que no están organizados, y son heterogéneos y pueden tener muchas formas diferentes (html, cgi, dll, asp, etc). Además, la web es un entorno sumamente dinámico donde tanto el contenido como la ubicación de los documentos varía constantemente. Los métodos analizados utilizan en general datos contenidos dentro de los documentos como ser palabras o información de los links, olvidándose de lo que cada vez es más utilizado que son aplicaciones tales como cgi, dll, y asp, las cuales actuarían como un programa ejecutable el cual armaría la página correspondiente. En estos casos para poder analizarlos en base a las palabras que forman el documento generado, el agente debería encargarse de requerir su previa ejecución. Al haber cada vez más cantidad de estas páginas activas, los 14

15 buscadores y agentes deberán tomar en cuenta lo mencionado anteriormente o atacar este problema con una técnica que obtenga resultados similares. Los agentes de búsqueda inteligentes que aplican técnicas de Data Mining, en general clustering, proveen una gran ventaja a los usuarios que buscan información en la web, ya que mejoran drásticamente la calidad de la información obtenida. Bibliografía [Broder, 1997] A. Broder, S. Glassman, M. Manasse & G. Zweig, Syntantic Clustering on the Web. Systems Research Center - Digital Equiment Corporation, Departament of Computer Science University of California, Berkeley [Hammond, 1995] K. Hammond, R. Burke, C. Martin & S. Lytinen, FAQ-Finder: A case-based approach to knowledge navigation. In Working Notes of the AAAI Spring Symposium: Information gathering from heterogeneous distributed environment. AAAI Press, [Han, 1996] Han J., WebMiner: A Resourse and Knowledge Discovery System for the Internet. Database Systems Research Laboratory, School of Computing Science, Simon Fraser University [Han, 1998] E. Han, D. Boley, M. Gini, R. Gross, K. Hastings, G. Karypis, V. Kumar, B. Mobasher & J. Moore, WebACE: A Web Agent for Document Categorization and Exploration. Department of Computer Science and Engineering University of Minesota [Luotonen, 1995] A. Luotonen, The Common Log File Format [Moore, 1998] J. Moore, E. Han, D. Boley, M. Gini, R. Gross, K. Hastings, G. Karypis, V. Kumar & B. Mobasher, Web Page Categorization and Feature Selection Using Association Rule and Principal Component Clustering. Departament of Computer Science and Engineering / Army HPC Research Center University of Minnesota, Minneapolis [Spertus, 1997] 15

16 E. Spertus, ParaSite: Mining Structural Information on the Web. MIT Artificial Inteligence Lab and University of Washington Dept. of CSE