APLICACIÓN DEL ALGORITMO GSP_M PARA LA IDENTIFICACIÓN DE PATRONES DE USUARIOS SOBRE AMBIENTES EDUCATIVOS

Transcripción

1 APLICACIÓN DEL ALGORITMO GSP_M PARA LA IDENTIFICACIÓN DE PATRONES DE USUARIOS SOBRE AMBIENTES EDUCATIVOS Héctor F Gómez A *, Susana A Arias T **, Yuliana C Jiménez *** Universidad Técnica Particular de Loja *hfgomez@utpl.edu.ec, **saarias@utpl.edu.ec, ***ydjimenez@utpl.edu.ec RESUMEN: Este artículo presenta la aplicación del algoritmo GSP_M [12] para clasificar las preferencias de los usuarios en base a los accesos que realizan sobre un ambiente web, con el propósito de identificar los patrones que permitan determinar el tipo de usuario que está accediendo al ambiente, de acuerdo a las coincidencias entre las individualidades de los mismos. Tres temas generales fueron escogidos para ser clasificados: Empresas, Informática y Matemática. Para el entrenamiento fueron tomados en cuenta 50 usuarios por cada temática y 77 usuarios para el test. Para evaluar los resultados del GSP_M, se aplicó los algoritmos C4.5 y Part sobre el mismo conjunto de datos. Los tres algoritmos presentaron sus resultados y se realizaron comparaciones acerca de su eficiencia en la clasificación. Palabras Clave: Patrones secuenciales, comportamiento, minería de datos, modelos de usuarios. 1. INTRODUCCION Se denomina minería de datos educativa (educational data mining, EDM) a la aplicación de técnicas de minería de datos sobre información generada en los entornos educativos [1], cuyo objetivo es mejorar el aprendizaje de los estudiantes y configurar de mejor manera la metodología con la que ellos aprenden. Así los datos de partida pueden ser tomados de entornos interactivos de aprendizaje, escuelas o etc. Las principales aplicaciones de las técnicas de minería de datos en educación son: en sistemas de personalización [2], sistemas recomendadores [3], sistemas de modificación [4], sistemas de detección de irregularidades [5], etc ya que ofrecen capacidades para [6] : el descubrimiento de patrones de navegación regulares e irregulares, realización de clasificadores de usuarios y de los contenidos, construcción adaptativa de planes de enseñanza, descubrimiento de relaciones entre actividades, 1

2 diagnóstico incremental de los estudiantes, etc. Según Romero [7] et all Cristóbal, en educación la aplicación de la minería de datos puede tener dos puntos de vista: Orientada hacia los autores, con el fin de obtener datos que sirvan para realimentar la enseñanza, establecer métodos para conocer cómo los estudiantes aprenden usando internet, determinar los patrones de navegación de los estudiantes, determinar técnicas para reestructurar los contenidos del sitio web, clasificar a los estudiantes en grupos, etc. Orientado hacia los estudiantes: Para realizar recomendaciones a los usuarios durante su interacción con los sistemas virtuales de aprendizaje. En esta investigación se presentarán las aplicaciones de los algoritmos de minería de datos con el fin de clasificar a los usuarios que acceden a un entorno educativo, lo que puede ser aprovechado para el diseño de un entorno de aprendizaje para personalizar el acceso al mismo. 2. IDENTIFICACIÓN DE PATRONES SECUENCIALES Los accesos a un sitio web o a un entorno educativo son almacenados en un servidor que contiene en orden cronológico las transacciones indicando la URL que fue requerida, el navegador usado, los accesos requeridos, etc. Los servidores web contienen: El nombre de dominio (o dirección IP) de la máquina desde donde se hace el acceso, el nombre de usuario o quien genera el requerimiento, la fecha y la hora en que sucedió el requerimiento, el método aplicado al requerimiento (GET o POST), el nombre del archivo requerido, el resultado del requerimiento (accedido, falla, error, etc.), el tamaño de los datos enviados, la URL a la cual hace referencia la página, la identificación del agente usuario, y las páginas de información o propaganda. Las entradas al archivo log se crean automáticamente cada vez que un usuario busca los recursos en la web. Estas entradas deben ser formateadas con el fin de que produzcan un resultado interpretable y adecuado al caso de estudio [8]. Aplicando las técnicas de identificación de patrones sobre los archivos logs se pueden descubrir los patrones de navegación o deducir hipótesis que pueden ser usados por aplicaciones web con el fin de concebir la idea del verdadero uso de la web. Así se pueden concebir usos de la minería de datos con el fin de desarrollar personalizaciones a las páginas, establecer mejoras en los tiempos de respuestas de los servidores, desarrollar una estructura adecuada de un sitio web, etc. Algunas herramientas ya han sido desarrolladas para el efecto como por ejemplo: WebSIFT [9] y WebLogMiner [10] que se han constituido en herramientas que permitan descubrir una variedad de patrones a partir de los archivos logs. El objetivo entonces consiste en aplicar la minería de datos de patrones secuenciales y algoritmos clasificadores 2

3 con el fin de encontrar patrones de navegación para determinar el tipo de usuario que accede al sistema. Para este objetivo se analizarán las páginas web en las que el usuario interactuó para responder a preguntas clave del sistema. Estas páginas son agrupadas para luego descubrir si existe algún patrón en las mismas, lo que permitirá posteriormente construir un sitio web adaptativo automático, que pueda utilizar información acerca de los patrones de navegación de los visitantes que lo han accedido, para adaptar dinámicamente su organización y presentación a medida que un visitante navega por el mismo. Algunas de las técnicas utilizadas más comúnmente para el descubrimiento de patrones de navegación son: análisis estadísticos, descubrimiento de reglas de asociación, descubrimiento de patrones secuenciales y clustering. La técnica de descubrimiento de patrones secuenciales permite encontrar patrones dentro de las sesiones de usuario, en los cuales la presencia de un conjunto de páginas es seguida por otra página. Esta técnica permite descubrir relaciones entre las preferencias de los usuarios, como por ejemplo usuarios que acceden previamente a páginas acerca de libros de tecnología en Internet luego acceden a la página que contiene definiciones de términos de Internet. El descubrimiento de patrones secuenciales permite también predecir la conducta de los visitantes dentro de los sitios web. Esto puede utilizarse para diseñar campañas publicitarias y otras estrategias de marketing en forma eficiente. 3. DESCUBRIMIENTO DE PATRONES DE NAVEGACIÓN La técnica usada para el descubrimiento de patrones de navegación es la aplicación de la Identificación de Patrones Secuenciales en el proceso de navegación. En particular, para la generación de sitios web adaptativos automáticos se necesita clasificar a los visitantes en diferentes grupos o perfiles según sus patrones de navegación. La técnica de identificación de patrones secuenciales por medio de GSP_M [12] (Generalized Sequential Patterns + memoria) obtenidos a partir del archivo de registro de accesos al servidor web, permite descubrir patrones o grupos de sesiones de usuario similares. De esta forma, los patrones de sesiones representan conductas o patrones de navegación similares dentro del sitio. Intuitivamente, usuarios con una conducta similar dentro de un sitio web poseen intereses similares al acceder al mismo. Entonces, los patrones obtenidos sugieren los distintos perfiles de usuario que navegan a través del sitio. Por esta razón, la técnica de identificación de patrones secuenciales es la elegida para realizar el descubrimiento de patrones de navegación que permitan lograr la adaptabilidad de un sitio web. 3

4 4. APLICACIÓN DEL ALGORITMO GSP_M Para aplicar los módulos sobre un conjunto de datos, es necesario formatear los datos en función del requerimiento que acepta el algoritmo GSP_M, en base a: Sea I = {i 1,i 2,,i n } el conjunto de todos los estados. Un itemset es un conjunto no vacío de estados. Una secuencia es una lista ordenada de itemset. Una secuencia se describe como <s 1,s 2, s l > en donde s j es un itemset, por ejemplo s j I cuando 1 j l. A s j se lo conoce también con el nombre de elemento de la secuencia y puede ser descrita como (x 1,x 2 x m ), en donde x k Є I para 1 k m. Se conoce como longitud de la secuencia al número de itemsets que pertenecen a dicha secuencia. Una secuencia de longitud l se la conoce con el nombre de l-secuencia. Según Srikant et all [2] una secuencia a = <a 1,a 2,,a n > es sub-secuencia de una secuencia b = <b 1,b 2,,b m > y b una super-secuencia de a, descrita como a b, si existen enteros tal que 1 j 1 < j 2 < j n m, en donde cada a 1 b j1, a 2 b j2,, a n b jn [12]. En ese sentido, cada estado es la acción que ha desarrollado el usuario en cada página web, por lo que un ítemset es igual a la página web accedida. Una secuencia es una colección de páginas web accedidas durante un tiempo determinado, s = <p 1,p 2,p 3, p 4,..p n > = s = <s 1,s 2, s l >. Las páginas accedidas fueron clasificadas bajo tres dominios: Empresas, Matemática, Informática [13], sobre los cuales los usuarios fueron realizando consultas sobre 1180 temáticas, a las cuales se los clasificó como accesos de tipo {poco, medio, alto}, que significan que los usuarios buscaron poca información de los temas, mediana información y mucha información de los mismos. En la Figura 1, se puede observar dicha apreciación: página {poco, medio, alto} menú {poco, medio, alto} introduccion {poco, medio, alto} economia {poco, medio, alto} microeconomia {poco, medio, alto} revisión {poco, medio, alto} economía {poco, medio, alto} felix {poco, medio, alto} lobo {poco, medio, alto} aleu {poco, medio, alto} elección {poco, medio, alto} diplomatura {poco, medio, alto} estadística {poco, medio, alto} gestión {poco, medio, alto} administración {poco, medio, alto} pública {poco, medio, alto} laborales {poco, medio, alto} plan {poco, medio, alto} ingeniería {poco, medio, alto} telecomunicación {poco, medio, alto} dirección {poco, medio, alto} técnicas {poco, medio, alto} estadísticas {poco, medio, alto} humanidades {poco, medio, alto} licenciatura {poco, medio, alto} derecho {poco, medio, alto} discutir {poco, medio, alto}.. Figura 1. Temáticas de acceso por cada uno de los usuarios Las temáticas de la Figura 1, fueron accedidas por los usuarios y luego clasificadas en dependencia de la temática global para cada uno de ellos. 4

5 En la Figura 2, se puede observar esta clasificación: poco, poco, poco, Empresas poco, poco, medio.informática poco,, medio Matemática Figura 2. Clasificación de las temáticas accedidas a temas generales En la Figura 2 se puede afirmar que el usuario que estaba buscando información sobre la temática general Empresas, tuvo pocos accesos a páginas, menús e introducciones. El usuario que buscaba información sobre informática, tuvo accesos medios a las introducciones, y el usuario que buscaba matemática tuvo accesos medios a imágenes, que es el último atributo en análisis para cada temática en particular. 5. EXPERIMENTACIÓN El conjunto de datos de entrenamiento estuvo provisto de la siguiente clasificación: Empresas 50 Informática 50 Matemática 50 Tabla 1. Datos para entrenamiento Tabla 1 Sobre los datos de la Tabla 1, se aplicaron los algoritmos PART [14], GSP_M [12] y C4.5 [15], cuyos resultados son los siguientes: Tabla 2 Empresas Informática Matemática PART GSP_M C Tabla 2. Resultados de la entrenamiento El número de usuarios para el test se presenta en la Tabla 3: Tabla 3 Empresas 16 Informática 46 Matemática 17 Tabla 3. Usuarios clasificados por temática general Sobre el conjunto de datos de la Tabla 3 se aplicaron los algoritmos PART [14], GSP_M [12] y C4.5 [15] cuyos resultados son los siguientes: Tabla 4 Empresas Informática Matemática PART GSP_M C Tabla 4. Resultados de la aplicación de los algoritmos CONCLUSIONES Se puede afirmar que el algoritmo GSP_M en base a la distribución de las secuencias de ingreso, respeta la repetición de consultas sobre una sola temática, es decir hay usuarios que acceden a un tema de una página varias veces y eso es tomado como patrón para el algoritmo. Además aquella temática que es tomada en cuenta varias veces en una sola página, se convierte en un estado importante por lo que la clasificación de los nuevos 5

6 usuarios que ingresan al sistema es más precisa con GSP_M que con PART y C4.5. Por otro lado la capacidad de memoria del GSP_M [12] permitió determinar nuevos comportamientos preferencias - de usuarios que se convirtieron en patrones, para poderlos agrupar en Empresas, Informática y Matemática. Lógicamente, en tiempo de ejecución el algoritmo GSP_M, es más lento que C4.5 y PART (Tabla 5) Figura 3: PROCESO PART GSP_M C4.5 ENTRENAMIENTO 10 seg 15 seg 10 seg TEST 7 seg 13 seg 7 seg Tabla 5 Tabla 5. Tiempos de ejecución de los algoritmos empleados en la clasificación seg ENTRENAMIENTO TEST Figura 3. Tiempo de ejecución del Algoritmo GSP_M en relación a los algoritmos C4.5 y PART Efectivamente de acuerdo a la Tabla 5 y la Figura 3, el tiempo de ejecución de GSP_M es mayor al de C4.5 y PART, sin embargo la diferencia en segundos para la obtención de resultados y de acuerdo al tamaño de los ficheros de entrenamiento y prueba no afectan tanto al rendimiento del mismo. Por otro lado de acuerdo a la Tabla 4, GSP_M es más eficiente en clasificación que los C4.5 y PART. TRABAJOS FUTUROS El próximo paso es tomar en cuenta esta clasificación con el fin de que sea usado por un sistema recomendador para individualizar las páginas de acceso a cada usuario, y proporcionar individualidad en los entornos virtuales de aprendizaje, tal como se observa en [16][17] en donde se presentan sistemas recomendadores colaborativos que utilizan minería de datos para la contínua mejora de cursos e-learning, con el fin de que los profesores de perfil similar, compartan sus investigaciones como resultado de aplicar la minería de manera local sobre sus propios recursos. BIBLIOGRAFIA [1] Ventura, Sebastián. Minería de Datos en sistemas educativos. Presentación para el Departamento de Informática y Análisis Numérico de la Universidad de Córdoba. [2] Srivastava, J.; Mobasher, B.; Cooley, R. Automatic Personalization Based on Web Usage Mining. Communications of the Association of Computing Machinery. pp [3] Li, J.; Zaiane, O.R. Combining Usage, Content and Structure Data to Improve Web Site Recommendation. Int. Conf. on Electronic Commerce and Web Technologies. Spain

7 [4] Perkowitz, M.; Etzioni, O. Adaptive web sites: Automatically synthesizing web pages. National Conference on Artificial Intelligence. WI [5] Barnett, V.; Lewis, T.; Outliers in Statistical Data. John Wiley & Sons [6] Zaïane, O.Z. Web Usage Mining for a Better Web-Based Learning Environment. Conference on Advanced Technology for Education. pp Alberta [7] Romero C, Ventura S, Hervás C. Estado actual de la aplicación de la minería de datos a los sistemas de enseñanza basada en web. III Taller de Minería de Datos y Aprendizaje (TAMIDA 05). Eds Roberto Ruiz, Thomson. [8] Cooley R, Mobasher B, Srivastava J. Data preparation for mining world wide web browsing patterns. Knowledge and Information Systems, 1(1): 5-32, [9] Cooley R, Mobasher B, Srivastava J. Web mining: information and pattern discovery on the world wide web. In 9th IEEE International Conference on Tools with Artificial Intelligence, pages , [10] Zaiane O, Xin M, Han J. Discovering web Access patterns and trends by applying OLAP and data mining technology on web logs. In Proc. Advances in Digital Libraries ADL 98, pages 19-29, Santa Barbara, CA, USA, April [11] Do Rego Luis, Leticia Pérez. Diseño e implementación de un generador de sitios web adaptativos automáticos: Descubrimiento de patrones de navegación. Proyecto de Taller V, INCO Facultad de Ingeniería Universidad de la República, Septiembre del [12] Gomez, Héctor. Generación de patrones con itemsets repetidos y la actualización dinámica de la base patrones secuenciales con inclusión de secuencias. Tesis, UNED-UTPL, [13] Ejercicios de aprendizaje automático inductivo simbólico: s/ejercicios-aa.html, Tomado el 09 de Agosto del [14] Lopez, Bruno. Inteligencia Artificial, Algoritmo C4.5, Nuevo Laredo, Tamaulipas, Noviembre del [15] Castañeda D, Rodriguez J, Gaona P. Análisis de Reportes de Seguridad sobre Plataformas LCMS de Tipo Open Source Aplicando Minería de Datos. 8th Latin American and Caribbean Conference for Enginnering and Technology, Arequipa, Perú, June 1-4, [16] Durán E, Costaguta R. Minería de datos para descubrir estilos de aprendizaje. Universidad Nacional de Santiago del Estero, Argentina. Revista Iberoamericana de Educación, Vol. 42, N. 2, [17] Salcines E, Romero C, Ventura S, Castro C. Sistema recomendador colaborativo usando minería de datos distribuida para la mejora continua de cursos e-learning. IEEE-RITA, Vol. 3, Núm. 1, Mayo

8 8