Clustering semi-supervisado sobre datos procedentes de una plataforma e-learning



Documentos relacionados
Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

E-learning: E-learning:

El almacén de indicadores de proceso de negocio en ejecución

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

SISTEMAS Y MANUALES DE LA CALIDAD

Base de datos II Facultad de Ingeniería. Escuela de computación.

ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE

E Evaluación de pilotos. : Versión: 0.1 Fecha: 07/02/13 Autor: Pablo Martín Pablo.martin@logica.com

Creación y administración de grupos de dominio

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Práctica 5. Curso

Archivo de correo con Microsoft Outlook contra Exchange Server

Índice INTERNET MARKETING 1

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

Manual de rol gestor de GAV para moodle 2.5

Capítulo 12: Indexación y asociación

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

Contenidos. INFORME ENCUESTA TELEFÓNICA. Curso

forma de entrenar a la nuerona en su aprendizaje.

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

ADMINISTRACIÓN DE LA PRODUCCIÓN

activuspaper Text Mining and BI Abstract

Parte I: Introducción

La tutoría para la dirección de proyectos de investigación. Darder Mesquida, Antònia Universitat de les Illes Balears.

Manual de uso de Moodle para alumnos

UNIVERSIDAD DE SALAMANCA

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

GUÍA BÁSICA USUARIO MOODLE 2.6

R8: Possible Methods of Tailoring eucad Framework For Logistics Stakeholders. Posibles métodos de Adaptación del Marco eucad al sector Logístico

Trabajo final de Ingeniería

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI

App para realizar consultas al Sistema de Información Estadística de Castilla y León

Indicaciones específicas para los análisis estadísticos.

WICC 2014 XVI Workshop de Investigadores en Ciencias de la Computación

Objetos educativos y estandarización en e-learning: Experiencias en el sistema <e-aula>

PROCEDIMIENTO ESPECÍFICO. Código G Edición 0

MANUAL DE USUARIO DE LA APLICACIÓN DE ACREDITACION DE ACTIVIDADES DE FORMACION CONTINUADA. Perfil Entidad Proveedora

UNIVERSIDAD AUTONOMA DE GUADALAJARA ACP06 ALUMNO: JOSE ANGEL DEHESA JIMENEZ REGISTRO: C R M

Administración del conocimiento y aprendizaje organizacional.

Servicio de estadísticas de Alojamiento Fecha de revisión: 19/09/2005

Creación y administración de grupos locales

INTRODUCCIÓN QUIÉNES SOMOS NUESTRO OBJETIVO

Además se recomienda su uso como herramienta de trabajo dentro de las actividades habituales de gestión.

El Futuro de la Computación en la Industria de Generación Eléctrica

Elementos requeridos para crearlos (ejemplo: el compilador)

Unidad 1. Fundamentos en Gestión de Riesgos

ADT CONSULTING S.L. PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

Bechtle Solutions Servicios Profesionales

CÓMO MEJORAR LA GESTIÓN DE SERVICIOS TI USANDO MEJORES PRÁCTICAS?

Usos de los Mapas Conceptuales en Educación

GeneXus BPM Suite X. Última actualización: 01 de Setiembre de 2008

PROYECTO GESTIÓN POR PROCESOS: INFORME DE AUTOEVALUACIÓN MEDIANTE CUESTIONARIO

LiLa Portal Guía para profesores

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

CURSO COORDINADOR INNOVADOR

2 EL DOCUMENTO DE ESPECIFICACIONES

Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática

Ministerio de Educación Nacional Dirección de Calidad

Master en Gestion de la Calidad

Conclusiones. Particionado Consciente de los Datos

comunidades de práctica

WINDOWS : COPIAS DE SEGURIDAD

ACERCA DEL COACHING. Acerca del Coaching Página 1/5

CAPÍTULO VI CONCLUSIONES Y RECOMENDACIONES

Data Mining Técnicas y herramientas

Servicio de Marketing

Criterios de revisión de un curso que utiliza PBL ING. y CB.

CREACIÓN DE UN DEPARTAMENTO DE RELACIONES PÚBLICAS PARA LOS ALMACENES EL CHOCHO Y EL CAMPEÓN

CONCLUSIONES. De la información total que acabamos de facilitar al lector podemos realizar el siguiente resumen:

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008

1.1. Introducción y conceptos básicos

ICTE NORMAS DE CALIDAD DE AGENCIAS DE VIAJES REGLAS GENERALES DEL SISTEMA DE CALIDAD. Ref-RG Página 1 de 9

entrevista realizada por José Manuel Huidobro fotografía Jesús Carretero

El guión docente: un método para mejorar el aprendizaje

PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.2 UML: Modelado de casos de uso

Sistemas de Calidad Empresarial

Tema: CREACIÓN DE CONSULTAS E INFORMES EN UNA BASE DE DATOS CON MICROSOFT ACCESS 2013.

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL Facultad de Ingeniera en Electricidad y Computación

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora

DE VIDA PARA EL DESARROLLO DE SISTEMAS

e-commerce vs. e-business

1 Marketing Avanzado: Eventos y Campañas

revista transparencia transparencia y UNIVERSIDADES

Manual del Alumno de la plataforma de e-learning.

ISO9001:2015. Todos los certificados emitidos en este periodo tienen una fecha de caducidad de 15 de septiembre de 2018.

Directrices para la auto- evaluación A.l Introducción

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto

PROGRAMA DE REFUERZO EDUCATIVO EN PRIMARIA

Parámetros con la ventana de selección de usuario, reglas, texto y descomposición (IVE)

Instalar protocolo, cliente o servicio nuevo. Seleccionar ubicación de red. Práctica - Compartir y conectar una carpeta

Metodología básica de gestión de proyectos. Octubre de 2003

Instalar y configurar W3 Total Cache

Servicios y aplicaciones clave de la web 2.0

Sistema Inteligente de Exploración

Cybersudoe Innov: Una red de expertos sobre TIC e Innovación del SUDOESTE europeo

INTRODUCCIÓN: Una Visión Global del Proceso de Creación de Empresas

3. GESTIÓN DE CONFIGURACIÓN DE SOFTWARE

Figure 7-1: Phase A: Architecture Vision

2.2. LA COMPRA. TOMA DE DECISIONES DEL CLIENTE.

Curso de implantación 2010/2011

Transcripción:

Clustering semi-supervisado sobre datos procedentes de una plataforma e-learning Carlos Ruiz 1, Marta Zorrilla 2, Ernestina Menasalvas 1, and M. Spiliopoulou 3 1 Facultad de Informática, Universidad Politécnica, Madrid, Spain cruiz@cettico.fi.upm.es, emenasalvas@fi.upm.es 2 Universidad de Cantabria, Spain marta.zorrila@unican.es 3 Faculty of Computer Science, Magdeburg University, Germany myra@iti.cs.uni-magdeburg.de Resumen El clustering con restricciones ha recibido mucha atención en los últimos años, ya que permite incluir, de manera sencilla y eficaz, información de dominio en el proceso de descubrimiento de patrones y obtener así mejores resultados. En este estudio, se propone su uso para mejorar el clustering en datos procedentes de una plataforma e-learning, donde el conocimiento previo sobre la similaridad en el comportamiento de los alumnos se utiliza en la formación de los clusters, creando agrupaciones más homogéneas y reales. En concreto, se aplica el algoritmo C-DBSCAN [1] para la identificación de perfiles similares, y se demuestra cómo el uso de restricciones mejora la calidad de los clusters. Para ello, se comparan los resultados que se obtienen al aplicar los algortimos DBSCAN vs C-DBSCAN. 1. Introducción Las técnicas de clustering semi-supervisado [2], o clustering con restricciones [3], permiten añadir conocimiento disponible acerca del dominio [4] para mejorar la calidad del clustering resultante. En concreto, definen la relación existente entre instancias de un conjunto de datos: si dos instancias deben pertenecer al mismo cluster (restricción Must-link ) o, si por el contrario, deben pertenecer a clusters distintos (restricción Cannot-link ) [5]. Este tipo de restricciones a menudo son fáciles de extraer de aplicaciones en las que se dispone de datos históricos etiquetados y que se podrían usar para guiar el proceso de clustering cuando tales etiquetas ya no estén disponibles. Esta técnica se ha utilizado con éxito en aplicaciones reales como son los casos de la detección de carriles en carreteras con datos de GPS [6] y la ayuda en la navegación del robot Sony Aibo [7]. Un valor añadido de estas técnicas es que no solo se mejora la calidad del clustering resultante [6] aportando una solución más acorde a la visión que el usuario tiene del dominio, sino que también mejora el rendimiento computacional [7], eliminando clusters de baja calidad o con pocos elementos [8]. Además, la investigación en clustering con restricciones muestra

que incluso un pequeño número de restricciones puede mejorar la calidad del clustering en el conjunto global de datos [3,2]. Consideremos, por ejemplo, los datos procedentes de un sistema e-learning e imaginemos que se quiere realizar clustering de los alumnos basándonos en su comportamiento y usando las páginas a las que acceden. Consideremos 3 alumnos, a 1,a 2,ya 3 que pueden acceder a los contenidos de tres lecciones distintas, l 1,l 2,l 3, de la siguiente manera a 1 = l 1,l 2, a 2 = l 1,l 2,l 3 ya 3 = l 2,l 3. Alguien puede pensar que el alumno a 1 y el alumno a 2 acceden a contenidos similares y, por ello, deben estar en el mismo cluster, sin embargo el conocimiento del contexto permite saber que las lecciones l 2,l 3 son preguntas de examen y deberían pertenecer al mismo cluster porque se trata de perfiles de usuario cercanos. Aplicando un algoritmo sin restricciones, esta información de dominio no se puede incluir directamente y habría que tratar de modificar el método de búsqueda de los grupos en dicho algoritmo. Tal y como se ha comentado, el clustering con restricciones se ha aplicado en entornos en los que se dispone de cierta información de dominio y en los que es necesario agrupar elementos. Un caso particular de este tipo de entornos son los de e-learning. Aunque estas herramientas han aumentado sus prestaciones en los últimos años, aún la relación profesor-alumno no está personalizada. Las técnicas de descubrimiento y, en concreto, las técnicas de clustering permitirán encontrar patrones de comportamiento similares que se podrán usar como base de futuras recomendaciones y/o personalizaciones. Uno de los mayores retos a la hora de diseñar cursos virtuales, radica en la adaptación de los mismos a los diferentes estilos de aprendizaje dado que es sabido que la misma técnica de aprendizaje no funciona igual para diferentes individuos. Estas diferencias significativas subyacentes a la población de alumnos: ratio de aprendizaje, intereses personales, o conocimiento anterior del campo de estudio podrían ayudar a establecer perfiles o clusters de alumnos. Si el material entregado a través de e-learning pudiera estar en consonancia con estos clusters, la experiencia de aprendizaje se mejoraría enormemente con respecto a la de los modelos actuales. Por ello, el éxito en la implantación de sistemas e-learning que utilicen el potencial de las técnicas de descubrimiento de conocimiento, dependerá en gran medida de la información de contexto que integren para poder llegar a usuarios finales [9]. El sistema e-learning ideal sería el que continuamente se adaptara a los requisitos de los alumnos de tal manera que les entregara el material más adecuado dependiendo de los mismos. Y es aquí donde las técnicas de data mining pueden ayudar [10]. Hoy en día, las plataformas e-learning no recogen información de contexto y por eso esta información se ha de inferir por otros medios. McCalla [11] propone un modelo de metadatos que permite recoger información del proceso de aprendizaje a través de la web el cual incluye aspectos como: información sobre el alumno, sus metas de aprendizaje, sus conocimientos previos, el uso que hace de la herramienta y el contexto social. Basándose en esta información, el sistema podría obtener mejores modelos de aprendizaje.

Toda esta información sería de extrema utilidad a la hora de calcular modelos de clustering y ésta es la base del presente artículo. No obstante, la tecnología actual no permite recoger toda la información que sería deseable y sigue siendo necesaria la aplicación de heurísticas. Nosotros asumiremos en este estudio que ni todos los alumnos tienen el mismo conocimiento ni tienen la misma velocidad de aprendizaje y utilizaremos medidas de tiempo para inferir este conocimiento. Este nos servirá de base para establecer las restricciones de dominio con las que analizaremos la mejora introducida en el mecanismo de clustering propuesto. Consecuentemente, presentamos en este estudio un análisis de los beneficios que la utilización del clustering con restricciones tiene en entornos e-learning. En concreto presentamos un algoritmo basado en DBSCAN en el que es posible incluir información de dominio para guiar la formación de los clusters usando las relaciones de pertenencias entre las instancias que los forman. Además presentamos la aplicación del mencionado algoritmo en datos extraidos de un entorno e-learning. El artículo se organiza de la siguiente manera. En primer lugar, en la Sección 2, se presentan los avances de la investigación en clustering con restricciones, y un resumen de la utilización de técnicas de descubrimiento al campo de la docencia virtual, haciendo especial hincapié en los métodos de clustering. A continuación, en la Seccion 3, se describe brevemente el funcionamiento del algoritmo C-DBSCAN, el cual se aplica, en la Sección 4, a un caso de estudio desarrollado en la Universidad de Cantabria con datos procedentes de su plataforma e-learning. En esta sección, además se presentan y analizan los resultados obtenidos en la experimentación y se comparan con los alcanzados utilizando algoritmos de clustering sin restricciones. El artículo finaliza presentando, en la Sección 5, las conclusiones más relevantes y analizando posibles líneas de trabajo futuro. 2. Trabajo relacionado 2.1. Clustering con restricciones En los últimos años, el clustering con restricciones [3], también denominado semi-supervisado [2], ha recibido la atención de la comunidad investigadora. Éste, se apoya en el conocimiento previo que se tiene sobre cómo se relacionan un número reducido de registros de datos, para conducir al algoritmo de clustering en el proceso de partición del espacio de datos restante. Se pueden utilizar distintos tipos de restricciones. Las restricciones Mustlink se refieren a registros que deben aparecer en el mismo cluster, mientras que las restricciones Cannot-link establecen que los registros implicados no deberían aparecer en el mismo cluster [6]. Davidson et al. proponen en [7] las restricciones ɛ y δ que se aplican sobre clusters: la restricción ɛ requiere que la distancia entre dos puntos cualquiera de un mismo cluster no sea mayor que ɛ; mientras que la restricción δ exige que la distancia de cualquier punto de un cluster a cualquier punto de un segundo cluster sea al menos δ. Por otra parte, la restricción τ n [8] requiere que el cluster deba tener al menos n miembros.

Existen dos formas de abordar el clustering con restricciones. Uno, en el que la función objetivo original agrupa las instancias satisfaciendo todas o tantas restricciones como sea posible y que se suele denominar como basado en distancias. Este enfoque ha sido utilizado en [5,6,7,12]. Y el segundo, a veces denominado basado en métricas, donde el algoritmo se entrena con los datos implicados en las restricciones, de forma que se extrae (aprende) una nueva métrica que es utilizada para el clustering definitivo. Este método ha sido utilizado en [13,14,15]. Un aspecto importante en el clustering basado en restricciones es decidir entre alcanzar una solución factible (esto es, asegurar la covergencia del algoritmo) y satisfacer todas las restricciones. En [7], Davidson et al. prueban que el problema es NP-Completo cuando se combinan restricciones Must-link y Cannot-link sobre K-means pues éste usa una función objetivo global que debe converger en una partición óptima del espacio de datos. Sin embargo, cuando se utiliza clustering jerárquico en vez de K-means, la satisfacción de restricciones llega a ser un problema P-completo [12]. En contraposición a las soluciones que utilizan K-Means o algoritmos jerárquicos, en este trabajo, se incorporan restricciones a un algoritmo de clustering basado en densidad, DBSCAN [16] cuyo objetivo es encontrar zonas densas a nivel local y guiar su unión satisfaciendo todas las restricciones. 2.2. E-learning y data mining En los últimos años, los centros educativos están incorporado el uso de entornos e-learning (WebCT, Moodle,...), como un elemento más del proceso enseñanza-aprendizaje. El éxito de estas herramientas se debe en gran medida a su facilidad de uso y a la libertad que ofrecen tanto a profesores como alumnos para conectarse y trabajar desde cualquier sitio, a cualquier hora. Sin embargo, estos sistemas no están exentos de deficiencias, una y en nuestra opinión la más importante, es la pérdida de la relación alumno-profesorpor ello, investigadores de muchas universidades, y últimamente, empresas comerciales están trabajando para desarrollar herramientas que ayuden a solventar estas dificultades. Debido a la gran cantidad de datos que estos sistemas generan (ficheros de logs con cada clic realizado por el usuario), se hace necesario, para su análisis, el uso de técnicas de data mining (clustering, asociación, clasificación,...) centradas en la Web [17]. Estos trabajos se orientan principalmente al análisis de patrones de navegación, a la segmentación, a la personalización y a los sistemas de recomendación. Un estudio interesante sobre la aplicación de técnicas de data mining en entornos e-learning se encuentra en [18]. Centrándonos en las técnicas de segmentación, se puede decir que su aplicación a información procedente de entornos e-learning es muy amplia y variada. Por ejemplo, realizar una segmentación de estudiantes a partir de sus datos demográficos, académicos y de navegación, agrupar páginas con el mismo modo de acceso o uso; o agrupar sesiones de navegación Web para determinar los diferentes estilos de aprendizaje.

En este campo se han realizado trabajos como los que a continuación se mencionan. Talavera y Gaudioso [19] proponen realizar una segmentación para descubrir patrones que reflejen el comportamiento de los usuarios en espacios de colaboración. Mor y Minguillon [20] realizan un clustering con datos procedentes del comportamiento de sus alumnos en la Web y del uso que han hecho de sus cursos virtuales para desarrollar el concepto de itinerario recomendado. Por otra parte, Tang et al. [21] realizan un clustering de estudiantes a partir de la secuencia y los contenidos de las páginas que han visitado con objeto de promocionar actividades colaborativas y ganar conocimiento acerca del alumno. Actualmente, están trabajando en un sistema de recomendación [22] utilizando para ello técnicas de clustering y filtrado colaborativo. Hasta donde nosotros sabemos, nunca ha sido aplicado clustering con restricciones a los datos procedentes de un entorno e-learning. 3. C-DBSCAN: Constraint-Based DBSCAN El algoritmo de clustering DBSCAN [16] opera sobre zonas densas de un conjunto de datos. Identifica los puntos que tienen al menos un número mínimo de puntos en un radio determinado (se tratan de los parámetros de entrada MinPts y Eps-radius) para conectar vecindarios densos y formar clusters. El algoritmo C-DBSCAN utiliza las ideas en las que se basa DBSCAN y lo extiende con cuatro pasos [1]. El primer paso divide el espacio en subespacios densos con la ayuda de un KD-Tree [23] produciendo un conjunto de clusters locales que satisfacen las restricciones Cannot-link entre los nodos-hoja del árbol KD-Tree. Después, se unen los clusters locales que son densos y alcanzables entre sí con la ayuda de las restricciones Must-link formando los clusters principales. Finalmente, se unen los clusters locales más cercanos a los clusters principales que satisfacen las restricciones Cannot-link utilizando para ello un algoritmo jerárquico aglomerativo. En más detalle: Construcción de vecindarios densos en los nodos-hoja del árbol KD-Tree: El algoritmo KD-Tree particiona el espacio de datos iterativamente en cubos densos que contienen al menos un mínimo número de puntos (MinPts). Creación de cluster locales bajo restricciones Cannot-link : C- DBSCAN construye clusters locales ( local clusters ) por cada uno de los vecindarios densos en cada nodo-hoja asegurando que no se viola ninguna restricción Cannot-link. Para ello utiliza las condiciones de density-reachable y density-connectivity definido en DBSCAN. En caso de que exista alguna restricción que sea violada, C-DBSCAN crea un cluster por cada uno de los puntos. Unión de los clusters locales usando las restricciones Must-link : Para cada dos elementos involucrados en una restricción Must-link ypertenecientes a distintos clusters locales, C-DBSCAN los une en uno formando un cluster principal ( core local cluster ) que será utilizado como atractor de los clusters locales.

Unión de los clusters usando las restricciones Cannot-link : En este último paso, C-DBSCAN realiza un clustering jerárquico aglomerativo entre los clusters locales y los clusters principales. Así, permite que los clusters principales absorvan a los clusters locales más próximos que cumplan las caracteríticas de density-reachable y density-connectivity, y que no violen las restricciones Cannot-link. 4. Análisis de datos procedentes de una plataforma de e-learning Uno de los problemas más importantes que tiene la docencia virtual, como ya se ha dicho, es la pérdida de la relación alumno-profesor. Por ello, los profesores involucrados en docencia virtual creen que encontrar la relación que existe entre sus estudiantes y sus patrones de navegación les ayudará a conocer cómo y cuándo se utiliza su curso y si éste está bien diseñado. Esto, traducido al campo de data mining, se consigue realizando una adecuada segmentación. Por ello, en este artículo además de ofrecer una solución a los profesores, se demuestra la utilidad del clustering con restricciones en un contexto real, aplicando el algoritmo C-DBSCAN al problema de clustering de navegación en entornos e-learning. Sin embargo, esta tarea no puede realizarse directamente sobre el fichero de log que generan las plataformas e-learning, sino que se requiere de una fase de preprocesado y análisis en el que el contexto cumple una función importante para obtener unos patrones más adecuados a la visión del dominio que el experto tiene. El proceso que se ha seguido puede resumirse en los siguientes pasos: Pre-procesado de los ficheros de log del servidor Web. Incorporacion de atributos para mejorar el contexto. Mapa de asociación entre estudiantes y sesiones de navegación. Este trabajo está enmarcado dentro del proyecto Web Usage Mining Project for Improving Web-based Learning Sites [24] que se está desarrollando en la Universidad de Cantabria. 4.1. Procesado de los ficheros de logs Los datos utilizados en este caso de estudio proceden de la actividad desarrollada por los alumnos, durante el segundo cuatrimestre del curso 2005-06, sobre un curso virtual alojado en la plataforma WebCT. Antes de realizar el análisis de los datos, como se ha mencionado, es preciso realizar una tarea de pre-procesado y creación de sesiones que incluyen las siguientes fases [25]: limpieza de datos, identificación de usuario, identificación de páginas e identificación de sesiones. Una vez realizado este proceso se obtuvieron 1800 sesiones. Para cada sesión se almacena el número de páginas solicitadas, el tiempo invertido en cada una, el tiempo correspondiente a la sesión completa, la fecha y la hora. Además se dispone de información demográfica (edad y sexo); información

académica (titulación, notas parciales y finales, número de veces matriculado en el curso); e información acerca del curso (clasificación de sus páginas, tiempo previsto por el profesor para su lectura y estudio, actividades planificadas, entregas, etc.) El análisis de estos datos y su comportamiento permitió identificar cuatro tipos de usuarios con los que se etiquetaron los datos. 4.2. Experimentación El estudio que se presenta consiste en comparar la ejecución de DBSCAN, con la de C-DBSCAN con un número pequeño de restricciones (en este caso, el 5 % y 10 % sobre el total de los datos) sobre los datos del apartado anterior, que están etiquetados de acuerdo a distintas heurísticas de usuario. De esta manera se pretende comprobar dos cosas: por un lado, que el uso de un algoritmo con restricciones basadas en conocimiento previo del dominio mejora los resultados de clustering, y por otro, que con un número bajo de restricciones se obtienen resultados mejores. Además, como la elección de unas u otras instancias para definir las restricciones puede influir en los resultados [26], éstas se van a elegir de manera aleatoria y ejecutar cinco veces para el caso de C-DBSCAN con 5 % y otras cinco para el caso de C-DBSCAN con 10 %. Figura 1. Resultados para la ejecución de DBSCAN y C-DBSCAN con un 5 % y 10 % restricciones Para evaluar la calidad de los clusters se usan las clases conocidas de los datos etiquetados. Para ello, utilizamos el índice Rand [27], que toma como entrada dos particiones ζ 1 y ζ 2, y computa el número de acuerdos y desacuerdoos entre ellos, tomando como mayor valor el 1 si las particiones son idénticas. Los acuerdos son el número a de puntos que aparencen juntos en la misma partición para ambas ζ 1 y ζ 2,más el número b de puntos que aparecen en diferentes particiones para ζ 1 y ζ 2. El desacuerdo es el número c de puntos que aparecen en la misma partición de ζ 1 y en diferentes particiones de ζ 2,más el número d

DBSCAN C-DBSCAN CDBSCAN 5 % restricciones 10 % restricciones Ejecución 1-0.97 0.96 Ejecución 2-0.94 0.99 Ejecución 3-0.95 0.98 Ejecución 4-0.95 0.96 Ejecución 5-0.95 0.99 Media 0.74 0.95 0.98 Cuadro 1. Resultados de la experimentación de puntos que aparecen en la misma partición de ζ 2 y en diferentes particiones de ζ 1. Bajo estas definiciones, el índice Rand se calcula de la siguiente manera: acuerdos Rand(ζ 1,ζ 2 )= acuerdos + desacuerdos = a + b a + b + c + d Los resultados generales de la experimentación se pueden observar en la Figura 1, y los resultados concretos de cada una de las ejecuciones se recoge en el Cuadro 1. A nivel general, en la Figura 1 se observa que el uso de un algoritmo con restricciones mejora la calidad del clustering resultante. Además, usando un conjunto de restricciones mayor conlleva una mejora sobre conjuntos menores. En este caso, se pasa de un índice Rand próximo al 0.75 en el caso de DBSCAN, a unos valores superiores al 0.9 para el caso de C-DBSCAN (en concreto, 0.95 para el uso de un 5 % de restricciones sobre el total, y 0.98 para el uso de un 10 % de restricciones sobre el total). Observando cada una de las ejecuciones del Cuadro 1, se comprueba que en el peor de los casos los resultados son mucho mejores que la ejecución sin restricciones. Las diferencias entre las ejecuciones, por ejemplo para C-DBSCAN con 5 % en la ejecución 1 y 2, se deben a la elección del conjunto de restricciones. En nuestro caso, la selección de las instancias ha sido aleatoria usando las etiquetas como indicador de las instancias que deben ir en el mismo cluster o en distintos (como se realiza habitualmente [5,6]). Como se puede observar, existen variaciones en los resultados debido a que unos conjuntos de restricciones describen la naturaleza de los clusters mejor que otros, pero siempre obteniendo mejores resultados que la ejecución sin restricciones. Esta observación está acordecon las últimas investigaciones sobre la elección de un conjunto de restricciones lo más óptimo posible [26]. 5. Conclusiones y trabajo futuro Las técnicas de clustering con restricciones explotan el conocimiento de dominio para guiar el proceso de segmentación y obtener clusters más apropiados a la visión que el experto tiene del dominio. En este artículo se presenta la aplicación de una técnica de clustering con restricciones en un entorno e-learning.

En concreto se utiliza una extension del algoritmo DBSCAN [16] denominada C-DBSCAN [1]en el que el proceso de clustering se enriquece con el uso de las denominadas restriccines Must-link y Cannot-link. En los experimentos diseñados sobre un conjunto de datos provenientes de un curso virtual ofrecido en la Universidad de Cantabría se demuestra que la calidad de los clusters resultantes se incrementa tan solo considerando un pequeño número de restricciones. Este enfoque permite agrupar a los alumnos de acuerdo al conocimiento que se tiene del funcionamiento del curso en años anteriores. Los experimentos en datos reales han demostrado que este enfoque ofrece una manera efectiva de utilizar información de dominio en un proceso inicialmente no supervisado, mejorando los resultados y aportando una solución más acorde con las expectativas del usuario que en el caso de utilizar métodos convencionales de clustering. Por otra parte, la formulación de restricciones requiere inspeccion manual por eso se precisa de métodos que permitan automatizar la extracción de restricciones. Aunque se han hecho algunos esfuerzos en este sentido [26], queda por determinar la influencia de cada tipo de restricción por separado, la influencia en la calidad del número de restricciones consideradas y la selección del subconjunto de restricciones óptimos. Referencias 1. Ruiz, C., Spiliopoulou, M., Menasalvas, E.: C-DBSCAN: Density-Based Clustering with Constraints. In: RSFDGrC 07: Proceedings of the International Conference on Rough Sets, Fuzzy Sets, Data Mining and Granular Computing held by JRS 07. (2007) 2. Gunopulos, D., Vazirgiannis, M., Halkidi, M.: From Unsupervised to Semisupervised Learning: Algorithms and Evaluation Approaches. In: SIAM 06: Tutorial at Society for Industrial and Applied Mathematics Int. Conf. on Data Mining. (2006) 3. Davidson, I., Basu, S.: Clustering with Constraints: Theory and Practice. In: KDD 06: Tutorial at The Int. Conf. on Knowledge Discovery in Databases and Data Mining. (2006) 4. Kopanas, I., Avouris, N.M., Daskalaki, S.: The Role of Domain Knowledge in a Large Scale Data Mining Projects. In Vlahavas, I.P., Spyropoulos, C.D., eds.: Methods and Applications of Artificial Intelligence, Second Hellenic Conf. on AI, SETN 2002. Volume 2308 of Lecture Notes in Computer Science., Springer (2002) 5. Wagstaff, K., Cardie, C.: Clustering with Instance-level Constraints. In: ICML 00: Proc. of 17th Int. Conf. on Machine Learning. (2000) 1103 1110 6. Wagstaff, K., Cardie, C., Rogers, S., Schroedl, S.: Constrained K-means Clustering with Background Knowledge. In: ICML 01: Proc. of 18th Int. Conf. on Machine Learning. (2001) 577 584 7. Davidson, I., Ravi, S.S.: Clustering with Constraints: Feasibility Issues and the k-means Algorithm. In: SIAM 05: SIAM Int. Conf. on Data Mining. (2005) 8. Bennett, K., Bradley, P., Demiriz, A.: Constrained K-Means Clustering. Technical report, Microsoft Research (2000) MSR-TR-2000-65.

9. X. Lei, C.P., Donnellan, D.: An evaluation technique for content interaction in web-based teaching and learning environments. Proceedings of the 3rd IEEE International Conference on Advanced Learning Technologies. IEEE Computer Society (2003) 10. Romero, C., Ventura, S.: Data mining in E-Learning. Volume 4 of Advances in Management Information. WIT Press (2006) 11. Brooks, C., McCalla, G.: Towards flexible learning object metadata. Int. J. Cont. Engineering Education and Lifelong Learning 416(1/2) (2006) 105 129 12. Davidson, I., Ravi, S.S.: Agglomerative Hierarchical Clustering with Constraints: Theoretical and Empirical results. In: PKDD 05: Proc. of Principles of Knowledge Discovery from Databases. (2005) 59 70 13. Basu, S., Bilenko, M., Mooney, R.J.: A Probabilistic Framework for Semi- Supervised Clustering. In: KDD 04: Proc. of 10th Int. Conf. on Knowledge Discovery in Databases and Data Mining. (2004) 59 68 14. Bilenko, M., Basu, S., J.Mooney, R.: Integrating Constraints and Metric Learning in Semisupervised Clustering. In: ICML 04: Proc. of the 21th Int. Conf. on Machine Learning. (2004) 11 19 15. Halkidi, M., Gunopulos, D., Kumar, N., Vazirgiannis, M., Domeniconi, C.: A Framework for Semi-Supervised Learning Based on Subjective and Objective Clustering Criteria. In: ICDM 2005: Proc. of IEEE Int. Conf. on Data Mining. (2005) 637 640 16. Ester, M., Kriegel, H.P., Sander, J., Xu, X.: A Density-Based Algortihm for Discovering Clusters in Large Spatial Database with Noise. In: KDD 96: Proc. of 2nd Int. Conf. on Knowledge Discovery in Databases and Data Mining. (1996) 17. Etzioni, O.: The world-wide web: Quagmire or gold mine? Communications of the ACM 39(11) (1996) 65 68 18. Romero, C., Ventura, S.: Educational data mining: a survey from 1995 to 2005. Expert Systems with Applications (2006) 19. Talavera, L., Gaudioso, E.: Mining student data to characterize similar behavior groups in unstructured collaboration spaces. Workshop on artificial intelligence in CSCL. 16th European conference on artificial intelligence (2004) 17 23 20. Mor, E., Minguillon, J.: E-learning personalization based on itineraries and longterm navigational behavior. In Proceedings of the 13th international world wide web conference (2004) 264 265 21. Tang, C., Yin, H., Li, T., Lau, R., Li, Q., Kilis, D.: Personalized courseware construction based on web data mining. In Proceedings of the first international conference on web information systems engineering (2000) 204 211 22. Tang, C., McCalla, G.: Smart recommendation for an evolving e-learning system. International Journal on E-Learning 4(1) (2005) 105 129 23. Bentley, J.L.: Multidimensional Binary Search Trees Used for Associative Searching. Communications of ACM 18(9) (1975) 509 517 24. Zorrilla, M.E., Menasalvas, E., Marín, D., Mora, E., Segovia, J.: Web usage mining project for improving web-based learning sites. In: Lecture Notes in Computer Science 3643. Springer-Verlag. (2005) 25. R. Cooley, B.M., Srivastava, J.: Data preparation for mining world wide web browsing patterns. Journal of Knowledge an Information Systems 1(1) (1999) 26. Davidson, I., Wagstaff, K., Basu, S.: Measuring Constraint-Set Utility for Partitional Clustering Algorithms. In: PKDD 06: Proc. of Principles of Knowledge Discovery from Databases. (2006) 115 126 27. Rand, W.M.: Objective Criteria for the Evalluation of Clustering Methods. In: Journal of the American Statistical Association. 66 (1971) 846 850