Aplicación en Minería de Datos Web Mining Sánchez Enriquez, Heider Ysaias 1 19 de marzo de 2008 1 Agradesco a nuestra destinguida Profesora por exigirme trabajar en L A TEX
Resumen Web mining es una extensión de Data mining, que se encargar en el análisis de la data relacionada a los sitios web con el fin de encontrar patrones para la toma de decisiones. En el presente artículo se presenta una pequeña introducción resaltando la importancia de la realización de web mining sobre sitios web, luego se aborda conceptos de web mining, las fases de desarrollo, los tres dominios de extracción de conocimiento, las herramientas de web mining en consideración especial los logs, y algunas aplicaciones reales de web mining. Las aplicaciones sobre web mining crecen a medida que se divulga mas sobre el tema, considerando que es un tema muy nuevo surgido a partir del año 1996 pero que ha logrado sumergirse como caso primordial en sitios web estables. Palabras claves: Data Mining, Web Mining, extracción de conocimiento, contenido web, análisis de datos, transformación de datos, logs.
Aplicacion en Mineria de Datos - Web Mining 1 Índice 1. Introduccion 2 2. Que es Web Mining?: 2 3. Fases de Web Mining: 3 3.1. Selección y recopilación de datos:.......................... 3 3.2. Tratamiento previo de los datos:.......................... 3 3.3. Transformación de los datos:............................ 3 3.4. Análisis de las inferencias sobre los datos:..................... 3 4. Dominios de extracción de conocimiento: 3 4.1. Web usage mining (minería de utilización):.................... 4 4.2. Web content mining (minería de contenido web):................. 4 4.3. Web structure mining (minería de estructura web):................ 5 5. Herramientas: 5 5.1. Logs:.......................................... 5 5.2. Herramientas incorporadas al servidor:....................... 6 5.3. Herramientas en maquinas personales:....................... 6 6. Casos de aplicación: 7 6.1. Monitorización de terroristas[4]:........................... 7 6.1.1. Minería de Utilización:............................ 7 6.1.2. Minería de Estructura:............................ 7 6.1.3. Minería de Contenido:............................ 7 6.2. Aplicación del sawmill7.2.9 x86 win32:....................... 8 6.3. Sitio web comercial:................................. 10 7. Conclusiones 10
Aplicacion en Mineria de Datos - Web Mining 2 1. Introduccion En los últimos 15 años el auge y crecimiento de Internet, tanto en cantidad de información como de usuarios, ha hecho de esta red una herramienta indispensable en la vida y comunicación de muchas personas. La web es el repositorio público de datos más grande que existe (más de 20 mil millones de páginas estáticas), Hasta Mayo de 2007 hubo cerca de 120 millones de servidores Web (56 % Apache, 31 % Microsoft) [6]. Ante tanta información que se almacena surge la pregunta Qué hacer con toda esta información, que podemos rescatar, que decisiones tomar, Etc.? Para esto surge la Minería de Web que es una extensión de Minería de datos. En la parte 2 se define la Web Mining (traducida al ingles) según diferentes fuentes, pero que engloban el mismo concepto: descubrir conocimiento en la web. En la parte 3 se trata de las fases o pasos generales de la Web Mining derivadas de los procesos generales de Data Mining. Después en la parte 4 se presentan 3 dominios de extracción de conocimiento: Minería de utilización, de estructura y de contenido. También trataremos de las herramientas que se utilizan, la mas importante sobre las que se basan las demás herramientas, son los famosos logs, bitácoras que se encuentran en los servidores web. Y por ultimo presentamos tres casos de aplicación: minería web en la monitorización de terroristas, aplicaciones con Sawmil en el análisis de logs y por ultimo, resultados obtenidos al aplicar técnicas de web mining a una web comercial. 2. Que es Web Mining?: Este término fue acuñado por O.Etzioni en 1996. Según la referencia [4] Web Mining es: Integración de información obtenida mediante los métodos tradicionales de la minería de datos con información recogida sobre la web. Descubrir los patrones interesantes en la estructura, contenido y la utilización de los sitios web. Una conceptualización mas detallada nos brinda [5]: La minería web es un proceso complejo que comprende el análisis de información diversa, como el contenido y estructura de los documentos web (html, xml), archivos de texto, bases de datos, bitácoras de acceso de usuarios, bitácoras(logs) de referencias de otros servidores, perfiles de usuarios y otros, con el fin de encontrar información útil y relevante de acuerdo a las necesidades de un usuario. Por lo que en un escenario ideal se contaría con un sistema que cuenta con una interfaz que analiza el comportamiento y preferencias del usuario y realiza peticiones en su representación a una base de conocimientos que se encuentra estructurada y gestionada debidamente para la rápida y correcta recuperación de información; en donde dicha base de conocimientos devuelve las respuesta a la interfaz para que esta a su vez le brinde una respuesta al usuario. Los objetivos de la web mining son: 1. Buscar e identificar información. a) Más relevante o específica.
Aplicacion en Mineria de Datos - Web Mining 3 b) Con relación entre sí. 2. Crear nueva información a partir de información existente. 3. Personalizar la información. 4. Aprender comportamientos de usuarios Web. 3. Fases de Web Mining: 3.1. Selección y recopilación de datos: En primer lugar decidir qué se quiere estudiar y cuáles son los datos que nos facilitarán esa información. Posteriormente se localizan los documentos o archivos a adquirir. Estos se capturarán y se almacenarán los datos pertinentes. 3.2. Tratamiento previo de los datos: Se trata de filtrar y limpiar los datos recogidos. Una vez extraída una determinada información a partir de un documento, ya sea HTML, XML, texto, ps, PDF, Látex, Fas,..., se realizan tareas de criba y normalización, eliminando los datos erróneos o incompletos, presentando los restantes de manera ordenada y con los mismos criterios formales hasta conseguir una homogeneidad formal, etc. y demás labores enfocadas a la obtención de unos datos originales listos para su transformación por medios automáticos. 3.3. Transformación de los datos: En esta fase se utilizan algoritmos inteligentes de búsqueda de patrones de comportamiento y detectar asociaciones. Estos algoritmos se elaboran previamente utilizando recursos estadísticos, técnicas procedentes del data mining, etc., se procede a transformar los datos para obtener como resultado, información sobre ellos. Los principales algoritmos se basan en la reunión de grupos homogéneos (ej. Usuarios que visitan más de un número determinado de páginas), reglas de asociación de páginas, seguimiento de rutas o historial de navegación de una persona, etc. 3.4. Análisis de las inferencias sobre los datos: La simple inferencia no tendría un sentido completo si no se razonan los resultados, si no se logra encontrar una justificación a dichos resultados. Es aquí donde, dependiendo del tipo web mining, utilizaremos recursos de las ciencias sociales y económicas. 4. Dominios de extracción de conocimiento: Según el fin deseado, la actividad de excavar en la web se desglosa en tres dominios de extracción de conocimiento de acuerdo con la naturaleza de los datos.
Aplicacion en Mineria de Datos - Web Mining 4 Figura 1: Dominios de mineria web 4.1. Web usage mining (minería de utilización): Este tipo trata de extraer patrones de uso del web por parte de los usuarios. Para ello se utilizan los archivos Log de los servidores Web de forma que aplicando minería de textos sobre ellos se pueda extraer información útil. Este tipo de minería tiene 2 objetivos principales: uno es sacar patrones generales de uso de un sitio web de manera que se pueda reestructurar para que sea más fácil de utilizar y mejore el acceso por parte de los usuarios. El otro uso es obtener perfiles de los distintos tipos de usuarios a través de su comportamiento y navegación, para poder atender de forma más personalizada. Figura 2: Mineria de Utilizacion 4.2. Web content mining (minería de contenido web): Dentro de la Web nos encontramos con gran cantidad de documentos heterogéneos, ya sean hipertexto, documentos de texto, documentos en formato pdf, así como imágenes o vídeos, lo que dificulta su clasificación. La minería de contenido del web trata de extraer información relevante sobre el contenido de la web de manera que pueda ayudar clasificarlo, aumentando la organización de ese contenido, para posteriormente mejorar el acceso y la recuperación de la información en él contenida.
Aplicacion en Mineria de Datos - Web Mining 5 Figura 3: Mineria de contenido 4.3. Web structure mining (minería de estructura web): Éste tipo de minería de textos sirve para saber cómo está organizada una web, cómo está estructurada y cómo es la navegación a través de ella. Figura 4: Mineria de estructura 5. Herramientas: [7] Con el crecimiento explosivo de las fuentes de información disponibles en Internet, se hace cada vez más necesario que los investigadores utilicen herramientas automatizadas para el hallazgo de los recursos deseados de la información, y así poder rastrear y analizar sus patrones de uso. Para realizar el proceso de extraer conocimiento del contenido de documentos y de sus descripciones o lo que también se conoce como explotación minera para extraer patrones interesantes en registros de acceso de Internet existen muchas herramientas. Estas herramientas son sistemas inteligentes que trabajan tanto del lado del servidor, como del lado del cliente, para poder minar toda la información que se genera con el uso de Internet y su análisis se realiza a partir de la información que hay en los archivos Log del servidor de Internet y el servidor de correo: 5.1. Logs: Los ficheros logs son una grabación de la actividad de un servidor o de un sitio web a lo largo de un período de tiempo determinado. Los logs van guardando información acerca de la visita del usuario al sitio: [2] Qué día y a qué hora un usuario navega por el sitio, si es la primera vez que visita el sitio o si es reincidente,
Aplicacion en Mineria de Datos - Web Mining 6 por cual archivo entra a visitar el sitio y por cual sale, cuánto dura la visita y cuanto tiempo pasa en cada página, de qué país es, qué navegador usa, qué sistema operativo, desde donde llega a nuestra página, Si llegó a través de un buscador, cuáles fueron las palabras clave usadas, etc. Las herramientas de Web Mining analizan y procesan estos logs para producir información significativa, por ejemplo, cómo es la navegación de un cliente antes de hacer una compra en línea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vídeo, metadatos o hiperligas, investigaciones recientes usan el término multimedia data mining (minería de datos multimedia) como una instancia del web mining para tratar ese tipo de datos.[3] También esta información puede ser procesada por programas de estadísticas como awstats, webtrends o clicktracks, que, si bien son limitados en cuanto al proceso de la información, nos brindan pistas para mejorar un sitio, ya que devuelven información estructurada y significativa acerca de la navegación, por ejemplo:[2] Cantidad de visitas por hora, por día, por mes, etc., horas pico y horas de baja audiencia, páginas más visitadas, páginas de entrada y salida más frecuentes del sitio, uso del buscador, ranking de palabras clave usadas para llegar, Etc. 5.2. Herramientas incorporadas al servidor: Estas son aplicaciones del lado del servidor, que corresponden a programas que procesan en tiempo real los datos que van almacenando en los archivos Log. Corren en el servidor, y el acceso a la información del tráfico, tanto estadística, como grafica es mediante una interface en línea. Generalmente, este tipo de soluciones vienen incluidas en las ofertas de alojamiento web, ya sea un servidor dedicado o compartido. 5.3. Herramientas en maquinas personales: Son software que se instalan de manera independiente en maquinas de escritorio y su objetivo es hacer de igual manera análisis de los archivos Log pero no en tiempo real. Esta opción consiste en la descarga de los archivos Log y en el posterior procesamiento de los mismos, por lo tanto, es necesario tener acceso a estos registros, cuestión que debe consultarse con el proveedor de alojamiento web. Luego, mediante uno de este software especializado que se utiliza
Aplicacion en Mineria de Datos - Web Mining 7 en una típica PC de escritorio, y sin requerir acceso a Internet, se desarrollan informes sobre estadísticas a fondo, en poco tiempo. Éste es uno de los modos más atractivos y productivos de análisis para investigadores. 6. Casos de aplicación: Las áreas de Aplicación de la web mining cada día se extienden más, algunas de ellas son: Motores de búsqueda Comercio Electrónico Diseño Web Posicionamiento web Seguridad A continuación presentamos tres casos de uso de la web mining: 6.1. Monitorización de terroristas[4]: 6.1.1. Minería de Utilización: Ayuda al analista a determinar el uso de la web que hacen los terroristas, los pasos que debe seguir y las acciones que debe tomar; también nos ayuda en la inteligencia del negocio (relación con aplicaciones militares y de defensa) y la continua monitorización al terrorista dentro de la web y poder determinar su comportamiento. Los resultados obtenidos son a través de asociación de datos (clustering) y clasificaciones. 6.1.2. Minería de Estructura: Esencialmente consiste en minar los enlaces en la web y extraer patrones de uso. Dificultad: qué tipo de links hay que analizar? Trabaja conjuntamente con la minería de contenidos. Los resultados obtenidos son clústeres de patrones y asociaciones entre páginas web. 6.1.3. Minería de Contenido: Nos ayudara a identificar ataques en tiempo real y otros que son a corto-medio plazo. Medio-corto plazo: recolectar datos durante meses, analizar, filtrar y detectar o prevenir ataques aunque no vayan a ocurrir. Tiempo real: se basa en el entrenamiento a que se someterán las herramientas de minería de datos, necesitamos que los modelos sean dinámicos. Minería de BD web: El objetivo es que los sistemas de bases de datos puedan permitir a los usuarios compartir los datos. Recuperación de información: Tenemos que minar también toda aquella información que no está estructurada en la web. Minería de texto: Textos en muchos idiomas. En los e-mails y salas de chat podemos extraer
Aplicacion en Mineria de Datos - Web Mining 8 información oculta. En algunos países es legal que las organizaciones espíen los correos. Minería de vídeo: Queda mucho por hacer en este campo. Opciones: Extraer y minar metadatos y texto del vídeo. Extraer imágenes y minar la imagen. Minería de imágenes: Cada vez hay más cantidad de imágenes en la web de gente, edificios, mapas y huellas. Técnicas de reconocimiento de rostros. Detectar patrones inusuales en imágenes aéreas, Estenografía. Minería de audio: Fuentes: grabaciones de conversaciones entre personas investigadas, grabaciones de terroristas. 6.2. Aplicación del sawmill7.2.9 x86 win32: [7] Sawmill es una potente herramienta de análisis de Log. Está especialmente diseñado para analizar Log de acceso a servidores Web, pero puede procesar casi cualquier Log. Se ejecuta como un programa CGI en un servidor Web, y publica un intuitivo interfaz gráfico de usuario, que puede utilizarse desde cualquier navegador para configurar y ejecutar Sawmill o para ver estadísticas de páginas. Las estadísticas son jerárquicas, atractivas y poseen enlaces que facilitan la navegación. El programa incluye una completa documentación. Sawmill ofrece una gran cantidad de opciones, incluida una base de datos persistente, el control sobre la apariencia de las páginas de estadísticas y diversas opciones de filtrado sobre el Log. Algunos resultados [7] Se procesaron dos días de navegación en el mes de enero del año 2007(Figura5). Se presenta una gráfica y una tabla de la cantidad de visitas realizadas. Estos datos permiten medir el nivel de navegación. Puede observarse, además, que después de las 12:00 del día y hasta las 9:00 de la noche existe un mayor uso (Figura6). En la lista de usuarios, ubicada debajo, puede constatarse si esta carga en el horario señalado se corresponde con la descarga de antivirus y actualizaciones de sistemas. Figura 5: Informe de uso por año, mes y día. En el informe denominado Localización geográfica, se muestra por país la cantidad de visitas realizadas y el porcentaje que representa (Figura7). En este caso, el mayor porcentaje de páginas visitadas corresponde a Cuba, seguida de los Estados Unidos.
Aplicacion en Mineria de Datos - Web Mining 9 Figura 6: Estadística de la navegación en el día Figura 7: Localización geográfica
Aplicacion en Mineria de Datos - Web Mining 10 6.3. Sitio web comercial: Algunos de los resultados que pueden obtenerse tras la aplicación de los diferentes métodos de web mining sobre una web comercial son:[1] El ochenta y cinco por ciento de los clientes que acceden a /productos/home.html y a /productos/noticias.html acceden también a /productos/historias suceso.html. Esto podría indicar que existe alguna noticia interesante de la empresa que hace que los clientes se dirijan a historias de suceso. Igualmente, este resultado permitiría detectar la noticia sobresaliente y colocarla quizá en la página principal de la empresa. Los clientes que hacen una compra en línea cada semana en /compra /producto1.html tienden a ser de sectores del gobierno. Esto podría resultar en proponer diversas ofertas a este sector para potenciar más sus compras. El sesenta por ciento de los clientes que hicieron una compra en línea en /compra/producto1.html también compraron en /compra /producto4.html después de un mes. Esto indica que se podría recomendar en la página del producto 1 comprar el producto 4 y ahorrarse el costo de envío de este producto. Los anteriores ejemplos nos ayudan a formarnos una pequeña idea de lo que podemos obtener. Sin embargo, en la realidad existen herramientas de mercado muy poderosas con métodos variados y visualizaciones gráficas excelentes. [1] 7. Conclusiones La minería web es considerada por algunos como una aplicación de minería de datos y por otros como una extensión de minería de datos, pero debido a la gran amplitud el tema y sobre las fases de desarrollo y dominios de extracción de conocimiento lo considere como una extensión de minería de datos al igual que minería de textos (Text Mining). En internet podemos encontrar una gran variedad de aplicaciones reales sobre web mining muchos de ellos utilizan a Sawmill como base. En la referencia [5] pag. 22-25, se anexa un conjunto de modelos, técnicas y algoritmos que se pueden utilizar en los diferentes procesos de la minería web y personalización de sistemas web. Como también Métodos, técnicas, procesos y algoritmos de la minería de contenido web. La minería web es un campo nuevo de aplicaciones, en la cual muchos investigadores aportan con diferentes técnicas y métodos par las diferentes fases de la minería, no obstante hay mucho que hacer en este campo, debemos de emplear todo estos conocimientos a nuestro entorno, me refiero a nuestra sociedad, de esa manera permitir el avance tecnológico en la extracción de conocimiento de sitios web.
Aplicacion en Mineria de Datos - Web Mining 11 Referencias [1] http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html, LUIS CARLOS MOLINA FÉLIX, Articulo Data mining: torturando a los datos hasta que confiesen. [2] http://www.webtaller.com/maletin/articulos/web-mining-diseno-sitios-web.php, VIV DEHAES, Articulo Web mining en el diseño de sitios web. [3] http://mineria-textos-web.awardspace.com/, HERRERO curso 2006-2007, Minería de textos Web. NÚÑEZ JULIO ALBERTO, [4] ]. http://www.gsi.dit.upm.es/ gfer/ssii/trabajos2005/mineria de Datos- Alvaro Clemente.pdf, ÁLVARO CLEMENTE, PABLO LÓPEZ Y JOSÉ PENADO ABILLEIRA, Minería de Datos - Minería Web. [5] http://zarza.usal.es/ fgarcia/doctorado/iweb/05-07/trabajos/mineriaweb %20y %20 Personalizacion.pdf, ANTONIO GONZÁLEZ TORRES, Minería web y personalización. [6] http://www.cobdc.org/usid/2007/pdf/ricardobaeza.pdf, RICARDO BAEZA-YATES Yahoo! Research, Minería en Sitios Web. [7] http://www.idict.cu/userfiles/file/trabajos %20de %20Jornada %20 Bibliotecaria/ Fuentes %20Reyes, %20Sady %20Carina %20Mining.pdf, LIC. SADY CARINA FUENTES REYES - ING. MARINA RUIZ LOBAINA, Minería de Textos: Aplicación de Web Mining.