Construcción de Atributos: un caso de estudio en clasificación de correo-e

Transcripción

1 Construcción de Atributos: un caso de estudio en clasificación de correo-e Pablo Bermejo, José A. Gámez y José M. Puerta Grupo de Sistemas Inteligentes y Minería de Datos (SIMD) - i 3 A Departameno de Sistemas Informáticos Universidad de Castilla-La Mancha {pbermejo,jgamez,jpuerta,}@dsi.uclm.es Resumen Este trabajo se ocupa de la clasificación de correo electrónico en carpetas de usuario. Para ello trabajamos con el bien conocido clasificador de textos: Naive Bayes Multinomial, aplicado sobre la correspondiente transformación del texto del correo electrónico a un vector de términos con sus correspondientes frecuencias. El objetivo del trabajo es estudiar la posible ganancia que se obtiene al añadir un nuevo atributo del tipo m-de-n al conjunto de términos. La novedad del trabajo reside en el uso de este tipo de atributos en la clasificación de textos y en el tipo de atributo a construir, así como que dicho atributo es buscado haciendo uso de algoritmos evolutivos. Concretamente se experimenta con dos funciones objetivo diferentes y con algoritmos genéticos y algoritmos de estimación de distribuciones. Palabras clave término, atributo sf X-de-N, algoritmo genético, UMDA, I-UMDA, IG, IGR, wrapper. I. Introducción Una de las tareas más comunes en minería de datos tipo texto (text-mining) es la clasificación [1], donde el objetivo es decidir entre un conjunto de clases a cuál pertenece un documento determinado. Evidentemente, como en toda tarea de minería de datos pero de forma imprescindible en este caso, es necesario realizar cierto preprocesamiento para transformar un documento de texto (no estructurado), en una instancia (registro, tupla,...) susceptible de ser usada como entrada, bien al proceso de inducción de un clasificador, bien al clasificador obtenido. Así, lo que buscamos es describir el documento mediante una colección de términos (palabras, números, secuencias de símbolos en general), de tal forma que al usar el mismo conjunto de términos para describir todos los documentos, conseguimos una situación de partida estándard en minería de datos, es decir, una tabla bidimensional en la que las columnas representan las variables o atributos (términos) que describen cada una de las instancias o registros (documentos). El proceso de identificación del conjunto de términos suele pasar por dos fases bien diferenciadas: (1) eliminación de términos irrelevantes o stopwords; y (2) selección del conjunto de términos más relevantes de cara a la tarea de clasificación. La calidad del subconjunto de términos seleccionado es crucial para lograr una buena tasa de acierto [2] en la clasificación. Esta calidad dependerá de la relevancia individual (respecto a la clase) de los atributos seleccionados, de las dependencias entre ellos y de la existencia de atributos negativamente significativos. Una vez realizada la selección inicial de términos, normalmente basada en conceptos de recuperación de información [3], podemos intentar mejorar el subconjunto resultante básicamente de dos formas (nótese que ambas son dependientes del problema abordado clasificación): Selección de atributos. Este es un problema (FSS, [4] ampliamente estudiado en minería de datos, qué básicamente consiste en reducir el conjunto de características (atributos) disponibles mediante la selección de los más importantes usando para ello distintas medidas (estadísticas, distancias,...) o incluso la bondad del propio clasificador. Construcción de atributos. En ocasiones es posible obtener atributos de mayor calidad a partir de los disponibles inicialmente. A este problema se le denomina construcción de atributos [5](p.e. área en función altura y anchura, ratios, diferencias,...). En este trabajo nos centramos en la segunda opción y concretamente aplicada a una tarea particular dentro de la clasificación de textos: la clasificación de correo electrónico [2], [6]. Esta tarea ha sido muy estudiada en su aplicación a la clasificación o filtrado de correo basura (o spam), pero su aplicación a la clasificación (semi)automática de correo en las carpetas ( foldering) definidas por el usuario ha sido mucho menos estudiada [2]. El objetivo de este trabajo (y, por tanto, su principal aportación) es la propuesta de algoritmos de construcción de atributos específicos para la clasificación de correos en carpetas mediante algoritmos evolutivos [7]. La elección de estos algoritmos viene dada por su eficacia para visitar el espacio de búsqueda y para cooperar con la interacción de atributos [8], ya que se prevé que cuanto más pueda cooperar un algoritmo con la interacción entre atributos mejor será el atributo construido. Al margen de esta introducción el trabajo se divide en otras seis secciones, comenzando en la sección II por describir el modelo de clasificación utilizado: Naive Bayes Multinomial [9]. En la sección III se presentan diferentes esquemas de construcción de atributos y se detalla el tipo de atributo creado en

2 nuestra propuesta. En la sección IV se describen las dos representaciones diferentes que hemos utilizado en la búsqueda, las métricas utilizadas y los tres algoritmos evolutivos seleccionados. En la sección V se presenta la base de datos utilizada en la experimentación y se muestran y analizan los resultados obtenidos. Finalmente presentamos las conclusiones y las posibles líneas de continuación de este trabajo. II. Minería de Datos de Texto y Clasificación de Correos La minería de datos de texto es una aplicación concreta de la minería de datos cuando las fuentes de datos consisten en textos o bases de datos documentales. Aparte de las tareas clásicas que la minería de datos trata de resolver, en el caso de la minería de datos de texto se ha de realizar un preprocesamiento de los datos para extraer, fundamentalmente, las características, variables o términos que la base de documentos contiene. En este trabajo nos centraremos en los modelos de bolsa de palabras o términos. En estos modelos, el texto documental se trata como un conjunto de palabras o términos sin ningún tipo de estructura documental. Por consiguiente, estos modelos parten de que un documento se puede representar mediante una selección de términos provenientes de un diccionario o vocabulario V. Nuestro interés en este trabajo se centra en la clasificación automática de correos, considerando éstos como un conjunto de documentos sin tener otro tipo de características en consideración (es decir, p.e. no consideramos de forma distinta los términos que aparecen en el asunto o en el cuerpo del mensaje). Formalmente el problema se puede establecer a partir de un conjunto de correos C train = {(d 1,l 1 ),...,(d n,ln)}, tal que d i D es el documento que corresponde al correo i-ésimo del conjunto de documentos o correos D, l i corresponde a la carpeta que lo contiene y L = {l 1,...,l n } es el conjunto de carpetas posibles. El objetivo es construir un clasificador c : D L. El diseño de este clasificador tendrá los siguientes pasos clásicos de preprocesamiento de la información, en nuestro caso la extracción de los términos de los documentos/correos; elección del modelo, en nuestro caso se utilizarán clasificadores bayesianos simples; y el aprendizaje del mismo, donde estimaremos la estructura del mismo, en nuestro caso fija, y los parámetros correspondientes al modelo utilizado. En este trabajo nos centraremos en un modelo de clasificador tipo probabilístico, concretamente el modelo Naive Bayes Multinomial (NBM) [9] para resolver el problema de la clasificación de correos. Sin embargo, hemos de recordar que nuestro principal objetivo es la búsqueda de nuevas características/variables derivadas de los términos/palabras de los documentos que mejoren el acierto de un modelo en la clasificación de nuevos correos y, por tanto, nuestro esfuerzo se realiza con anterioridad (o conjuntamente) a la aplicación del NBM. Formalmente un clasificador Naive Bayes Multinomial asume independencia entre los términos conocida la clase a la que pertenecen. Además, este modelo nos permite tener en cuenta no sólo los términos que aparecen en cada documento (como haría el modelo tradicional de Naive Bayes) sino también la frecuencia de aparición de cada término. Esto es importante, pues podemos intuir que una frecuencia alta de aparición aumente la probabilidad de pertenencia a una clase (carpeta) en particular. También asumimos que la longitud de cada documento es independiente de la clase, aunque esta asunción no es más que otra simplificación del modelo. Si se quisiera capturar esta dependencia se tendría que usar una formalización más general de NBM [9]. La decisión de a qué clase pertenece un documento se toma obteniendo la clase que maximice la regla de Bayes (1), cuyos términos se resuelven como se muestra en las ecuaciones 2 y 3; definiendo N it como la cantidad de veces que el término w t aparece en el documento d i, V como el tamaño de nuestro vocabulario, D como la cantidad de documentos a clasificar y d i como la longitud del documento i. La ecuación 2 supone independencia entre los términos y en la ecuación 3 se realiza un suavizado para evitar errores cuando algún valor sea igual a cero. P(c j d i ) = P(cj)P(di cj) P(d i) (1) P(d i c j ) = P( d i ) d i! V P(w t c j) N it t=1 N it! P(w t c j ) = (2) D 1+ NitP(cj di) i=1 V D (3) V + NisP(cj di) s=1 i=1 La asunción de independencia entre parámetros ya es un problema por sí, pues claramente no resulta realista en bases de datos reales. Además, esta asunción se hace aún más delicada al usar el modelo multinomial [10], pues no sólo se espera independencia entre diferentes términos sino también entre múltiples ocurrencias del mismo término. De alguna forma, la construcción de nuevas variables derivadas que plantearemos en este trabajo intentará suavizar esta asunción de independencia (ver Sección III-B). Para este trabajo se ha utilizado el mismo preprocesado que en [2]; esto es, se han eliminando términos sin poder semántico (stop-words), se han eliminado carpetas con 2 o menos correos y se han aplanando niveles de manera que no existan subcarpetas dentro de cada clase. Hemos de tener en cuenta que aunque se ha utilizado el mismo esquema de preprocesado, no se han utilizado las mismas herramientas en ambos casos, por lo tanto, es posible que los términos eliminados no sean los mismos dando lugar a que los

3 resultados de clasificación inicial sin nuevos atributos son ligeramente diferentes a [2]. También se ha seguido el mismo estilo de entrenamiento y clasificación, denominado time based split evaluation. Este método consiste en ordenar los correos según su campo de timestamp, entonces entrenar con los t primeros correos y clasificar con los siguientes t. Después entrenar con los 2t primeros y clasificar con los t siguientes, hasta finalmente entrenar con los (K 1)t primeros correos y clasificar con los restantes. Siendo K el número de rebanadas de tiempo en que se dividen los correos y t el número de correos en cada rebanada de tiempo. III. Construcción de atributos A. Introducción a la construcción de atributos Como se ha comentado, la calidad de los atributos disponibles para la clasificación es determinante para lograr una buena tasa de aciertos. A partir de esta idea se han desarrollado varias técnicas para la construcción de nuevos atributos, consistentes en aplicar operaciones sobre los atributos disponibles para crear otros nuevos. La construcción de atributos es importante sobre todo cuando trabajamos con bases de datos reales, pues al no haber sido creadas pensando en su aplicación a tareas de minería de datos pueden no disponer de atributos suficientemente relevantes para una utilización satisfactoria [8]. El objetivo final es que el nuevo atributo creado represente las regularidades de nuestra base de datos de una manera más sencilla de detectar y así se facilite la tarea de clasificación [11]. En la literatura se han encontrado dos tipos de clasificación para los distintos métodos de creación de atributos. La primera clasificación ([12]) distingue entre atributos creados mediante un preprocesado y otros mediante una combinación. Los atributos de la primera categoría se crean en un algoritmo independiente del de clasificación, ofreciendo la ventaja de tiempos de procesado cortos y de poseer generalidad para cualquier tipo de modelo de clasificación. Por otro lado, existen técnicas que combinan el algoritmo de creación con el de clasificación, obteniendo así poca generalidad pero atributos optimizados para el clasificador elegido. El segundo tipo de clasificación la encontramos en [13], donde se distingue entre métodos dirigidos por hipótesis y métodos dirigidos por datos. El primer tipo consiste en comenzar creando una hipótesis, por ejemplo un árbol de decisión, y construir un atributo a partir de esta hipótesis. Entonces se introduce junto a los atributos originales, se crea una hipótesis a partir del conjunto de atributos extendido y se continúa con el proceso hasta alcanzar una condición de parada. Los métodos dirigidos por datos construyen un nuevo atributo detectando dependencias entre los atributos existentes. B. Atributo sf X-de-N En este trabajo nos centraremos en la construcción de un atributo derivado denominado sf X-de- N [14]. Un atributo sf X-de-N representa pares de atributo-valor, su valor para una determinada instancia de nuestra base de datos corresponde al número de pares atributo-valor que son verdaderos en este ejemplo. Un par atributo-valor es verdadero para un ejemplo si el correspondiente atributo y su valor del ejemplo se corresponde con el par atributo-valor representado en la variable sf X-de-N. Hemos de notar que este nuevo atributo sf X-de-N puede tomar valores enteros, por lo que pudieran ser tratados como un atributo numérico o un valor nominal tomando los diferentes valores que puedan tomar este nuevo atributo. Formalmente se podría definir un atributo sf X- de-n como: Si {A i 1 i MaxAtri} es el conjunto de atributos de una base de datos y para cada A i, {V ij 1 j MaxAtriV al i } es el conjunto de valores que puede tomar dicho atributo, donde MaxAtri es el número de atributos y MaxAtriV al i es el número máximo de valores diferentes que puede tomar el atributo A i. Una variable sf X-de-N se puede denotar como: X-de- {AV k AV k es un par atributo-valor A i opv ij }, donde op es el operador utilizado en el par, esto es, op = {=,,,>,<,etc}. El número de pares atributo-valor es el tamaño N del atributo en cuestión y puede tomar valores entre 0 y el número de atributos diferentes que aparecen en la representación de la variable sf X-de-N. Dada una instancia, el valor del atributo sf X-de-N es X si y solo si X del AV k es verdadero en la instancia. Un par atributo-valor AV k (A i opv ij es verdadero para una instancia si y solo si el atributo A i tiene un valor V il tal que cumpla la condición (A i opv ij ). Nuestro objetivo, por tanto, será la construcción de este tipo de atributos para mejorar la tasa de aciertos en nuestro problema. Para ello vamos a utilizar algoritmos evolutivos [5] en la tarea de clasificación de correos en carpetas utilizando como modelo de clasificación el descrito en la sección II. En nuestro problema, en primer lugar, cada pareja atributo-valor será del tipo A i > 0 ó A i = 0, indicando en nuestro problema que el término A i en el ejemplo considerado tendrá una frecuencia de aparición igual a 0 (no está presente en el documento/correo considerado) o su frecuencia es superior a 0, esto es, al menos aparece un vez en el ejemplo considerado. Sin embargo, hay una ligera diferencia a cómo se calcula el valor correspondiente del atributo sf X- de-n construido con lo descrito previamente. Según su definición, habríamos de sumar las veces que son verdaderas los pares que forman el atributo tan solo comprobando si un término/atributo tiene un valor de 0 (frecuencia) o superior a éste. Sin embargo, teniendo en cuenta el modelo que vamos a utilizar en la clasificación, NBM, el cual tiene en cuenta las

4 frecuencias de los términos-documentos para ponderar en función de ésta, proponemos que, en lugar de simplemente sumar un uno por cada par atributovalor A i > 0 del atributo sf X-de-N, en el caso de que se cumpla, sumaramos el valor de la frecuencia que toma A i en el documento considerado, de esta manera tendrá más valor cuanto más veces aparezca el término en la instancia correspondiente, siguiendo de este modo la filosofía del clasificador utilizado. Esta idea, en lo que los autores conocen, no ha sido planteada en la literatura específica. IV. Construcción de atributos X-de-N usando algoritmos evolutivos Al margen del tipo de algoritmo evolutivo a utilizar, dos son los aspectos principales que hay que decidir: (1) cuál va a ser la función objetivo o de fitness?, es decir, como medir la bondad de un nuevo atributo; y (2) como representar en forma de individuo o cromosoma un atributo. Comenzaremos por describir la estructura del atributo para luego ver la forma concreta de representarlos en los algoritmos evolutivos usados. Así, para cada término se considerará un par Atributo-Valor representado mediante una tripla [(Term i ), (= 0,> 0), (B i )], indicando con B i, si esta cláusula se tendrá en cuenta o no en el atributo X-de-N representado. Por tanto, la estructura general del genotipo será la mostrada en la figura 1. El genotipo tendrá una longitud fija, tantas triplas como términos se hayan seleccionado, mientras que la longitud del fenotipo dependerá de la cantidad de bits B que estén a 1. Fig. 1. Estructura general del genotipo de nuestro atributo Como se puede ver, la mayor fuerza de estos atributos es que capturan la relación de varios términos ya que el valor del X-de-N aumentará cuanto mayor sea el número de condiciones satisfechas y mayor frecuencia de aparición tuvieran los términos incluidos en el atributo construido. A. Representación de los individuos En este trabajo al margen de experimentar con distintos algoritmos evolutivos, también experimentamos con dos formas diferentes de representar el genotipo anteriormente descrito. De esta forma podremos comprobar cómo afecta el tamaño de la representación del genotipo a la búsqueda. Como hipótesis de partida impondremos la restricción de que el número máximo de bits B a 1 sea 7, es decir, nuestro atributo tendrá a lo sumo 7 cláusulas. Este valor no ha sido arbitrariamente elegido, sino que se justifica en [2] en base a estudios psicológicos realizados en [15]. En cualquier caso, es una limitación que imponemos por razones de eficiencia, pero los algoritmos diseñados pueden trabajar sin ningún problema sin ningún tipo de restricciones de este tipo. A.1 Individuos de cadenas de bits Puesto que podemos suponer ordenados los términos de nuestro vocabulario, de las tres componentes anteriores sólo es necesario representar la segunda y la tercera. Así, nuestro genotipo es un vector de longitud MaxAtri 2, de tal forma que las posiciones 2i y 2i + 1, 0 i < MaxAtri hacen referencia al atributo i-ésimo. Concretamente la primera posición (índice par) representa al bit que llamaremos f y que indica si la condición es = 0 (valor f=0) o > 0 (valor f=1), mientras que la segunda posición (índice impar) es el bit B t 0 t 1 t 2 t 3 t 4 t 5 t 6 t 7 Fig. 2. Individudo de cadena de bits para 8 atributos En la figura 2 puede verse el ejemplo de la estructura de este genotipo para el caso de 8 atributos. En este caso el bit B está a 1 para los atributos/términos 0, 1 y 4, así que el fenotipo tendrá longitud 3. Y la condición que se pide para 0 y 4 es que su frecuencia sea mayor que 0, mientras que para al atributo 1 que su frecuencia sea 0. Suponiendo que el atributo 0 se refiere al término fax, el 1 a cita y el 4 a vacaciones, el fenotipo quedaría así: X de { fax > 0, cita = 0, vacaciones > 0 }. En nuestro caso hemos hecho las pruebas con una base de datos de 100 atributos, por lo que la cardinalidad del espacio de búsqueda con este tipo de individuo es de 2 (100 2). Cuando se crean, mutan y cruzan los individuos, se controla que no existan más de 7 bits B a 1. A.2 Individuos numéricos Presentamos ahora una representación alternativa en la que cada individuo contiene tres vectores (v 1, v 2 y v 3 ) de longitud 7 (el máximo número de cláusulas fijadas en este trabajo para el atributo X-de-N): Cada posición 0 j < 7 del primer vector contiene un número i entre 0 y MaxAtri 1 que identifica el término v 1 [j] = t i asignado a la cláusula j-ésima del atributo a construir. El segundo vector hace referencia a las posiciones nombradas con f en la representación anterior, es decir, si v 2 [j] = 0 tendremos la cláusula v 1 [j] = 0 y si v 2 [j] = 1 entonces tenemos v 1 [j] > 0. El tercer vector hace referencia al bit B descrito en la sección anterior; es decir, el que marca si la cláusula es o no tenida en cuenta en el atributo construido v 1 v 2 v 3 Fig. 3. Individuo numérico de 8 atributos

5 El ejemplo de la figura 3 corresponde al mismo fenotipo de la sección IV-A.1. Nótese que hay otros genotipos distintos que también corresponden al mismo fenotipo, bien debido a que se pueden intercambiar las posiciones (p.e. el 0 aparecer en la posición 6 en lugar de la 0), bien modificando los valores de v 1 y v 2 en aquellas posiciones en las que v 3 tenga valor 0. Con esta estructura de genotipo y con 100 atributos, el espacio de búsqueda sería = (genotipos que no fenotipos), mucho menor que para los individuos de cadenas de bits. Esto es para el caso de un número alto de atributos, si se disminuyera no tiene por qué resultar menor el espacio de búsqueda con individuos numéricos. B. Métricas utilizadas Pasamos ahora a describir las métricas usadas para evaluar la bondad de los atributos representados por los fenotipos creados, distinguimos dos aproximaciones ampliamente usadas en selección de variables en tareas de clasificación: Enfoque de filtrado o filter: Evaluamos la bondad de un atributo midiendo (de forma estadística) la relevancia del atributo creado con respecto a la clase. Concretamente hemos usado una combinación de la Ganancia de Información (IG) y el Ratio de Ganancia de Información (IGR). Las fórmulas aplicadas para su cálculo se muestran en las ecuaciones 4 y 5, donde H() representa la entropía de Shannon. IG(Atrib Clase) = H(Atrib) H(Atrib Clase) (4) IGR(Atrib Clase) = IG(Atrib Clase) H(Atrib) (5) Al igual que en [5], el mejor atributo es aquel con mayor IGR de entre los que su IG sea mayor que la media de todos los individuos en comparación. Se hace así para evitar que un atributo con baja IG sea elegido porque su entropía también sea baja. Enfoque de Envolvente o Wrapper: En este caso se usa el propio clasificador a utilizar para evaluar la bondad del atributo creado, así usamos la tasa de aciertos obtenida en la clasificación (con un NBM) añadiendo el atributo X-de-N al conjunto de entrenamiento. C.2 UMDA Fig. 4. Proceso del algoritmo genético UMDA [16], [17] se encuentra dentro de un subgrupo de los algoritmos evolutivos llamado EDAs(Algoritmos de Estimación de Distribución). En UMDA ya no se realiza cruce, mutación ni torneo; pero sí reemplazo y en este caso particular usamos elitismo manteniendo los tres mejores individuos de una generación a la siguiente. En la primera iteración se genera una población de manera aleatoria, a partir de aquí se evalúa la población y de los mejores individuos se aprende una distribución de probabilidad para muestrear la siguiente población. En el caso de individuos de cadenas de bits, se estima una distribución de probabilidad Binomial por máxima verosimilitud más un suaviazado de Laplace. Y para el caso de individuos numéricos, la distribución elegida es una Binomial para los bits B y bits de frecuencia y también se estiman por máxima verosimilitud utilizando el suavizado de Laplace. Sin embargo, puesto que cada posición del vector de atributos puede tomar valores numéricos entre 0 y NumAtributos 1, se estima para cada posición una distribución Normal N(µ,σ) marginal de media µ y desviación σ que también se estiman por máxima verosimilud. El úni- C. Algoritmos evolutivos utilizados Describimos ahora los algoritmos evolutivos utilizados y sus parámetros particulares. C.1 Algoritmo Genético Utilizamos un algoritmo genético cuyo procedimiento se muestra en la figura 4. Los parámetros utilizados son: Probabilidad de Cruce: 0.7 Probabilidad de Mutación: 0.1 Tamaño del torneo: 5 Cruce: uniforme Fig. 5. Procedimiento de UMDA y I-UMDA co parámetro particular de UMDA es:

6 M: 5 (es decir, se aprende del mejor 20 % de la población) C.3 UMDA Incremental Se ha experimentado también con una extensión de UMDA [16], en la que en lugar de aprender un modelo nuevo en cada generación lo que se hace es refinar el modelo anterior con el modelo aprendido en la generación anterior (ver eq. 6). Se calcula el mismo tipo de distribuciones que para UMDA. Actualizando en este caso µ y σ mediante la misma combinación convexa: µ i = (1 α) µ i 1 + α µ i y σ i = (1 α) σ i 1 +α σ i, siendo µ i y σ i la estimación en la generación i-ésima. Para el resto de casos se utiliza la ecuación 6. P(x) i = (1 α) P(x) i 1 + α P (x) i (6) M: 5 α: 0.8 En todos los casos, tanto en el algoritmo genético utilizado como en los EDAs, se utilizado un reinicio cuando los algoritmos convergen, en nuestro caso cuando se detecta un número de iteraciones sin mejorar. Estos reinicios consisten en generar una nueva población aleatoria del mismo tamaño menos un número k e incorporarlos k mejores individuos a esta población de la población anterior. A. Base de datos V. Experimentos La base de datos que hemos utilizado para nuestros experimentos se denomina Enron Corpus y es la misma que se utilizó en [2], [6]. Se pueden adquirir los correos de siete usuarios preprocesados (sin eliminación de stop-words) junto a la línea temporal en orden creciente en la página web de Ron Bekkerman [18]. La base de datos contiene correos electrónicos dejados en libre acceso para fines de investigación. Esta base de datos se hizo pública tras el escándalo financiero de la empresa Enron, para así someterla a estudio por parte de las autoridades. A donde llega nuestro conocimiento, el estudio llevado a cabo más a fondo en la comunidad académica se puede encontrar en [2], donde se seleccionaron los correos de siete usuarios y se realizaron estudios comparativos entre varios clasificadores. Nosotros hemos elegido uno de estos clasificadores (ver Sección II) y hemos realizado de forma similar a dicho trabajo el preprocesado de los correos así como el método de entrenamiento y clasificación. Una vez obtenidas las tasas de acierto en la clasificación, hemos procedido a crear un atributo nuevo usando algoritmos evolutivos e insertarlo junto al resto en la representación de cada correo para después comprobar si la tasa de aciertos mejora. Cada documento (correo) debe ser convertido a una representación que entienda el clasificador, así que para representar los documentos hemos utilizado Weka. Se desarrolló una aplicación que, usando el paquete Lucene [19], convierte todos los documentos de una carpeta y sus subcarpetas en un archivo con formato de base de datos de Weka. Este archivo consiste en una representación dispersa, dividida en dos secciones. La primera contiene en orden alfabético la lista de todos los términos (excepto los reconocidos como stop-words) encontrados en todos los documentos. En la segunda sección hay una instancia por cada documento. Una instancia consta de un conjunto de duplas (i,j), siendo i el índice del término y j la frecuencia de aparicion del término en el documento. Al final de cada instancia (documento), se encuentra el nombre de la clase (carpeta) a la que pertenece. A.1 Parámetros para los algoritmos evolutivos utilizados Los algoritmos evolutivos utilizados han sido implementados en LiO [20], [21], una herramienta desarrollada en Java en nuestro grupo de investigación y que permite usar y/o extender mediante programación un gran número de algoritmos evolutivos y otras metaheurísticas. Los parámetros para los 3 algoritmos evolutivos usados son: Tamaño de la población: 100 Máximo número de iteraciones sin mejora: 4 Número de reinicios: 4 Mejores individuos que pasan a la siguiente generación tras reinicio: 3 Máximo numero de iteraciones: 100 Reemplazo: elitista B. Resultados Como se comentó en la introducción, al igual que hay atributos que ayudan a nuestra clasificación también los hay que influyen negativamente. Para comprobar esto seleccionamos al usuario Sanders-r del Corpus Enron (este usuario tiene 30 carpetas, es decir, la cardinalidad de la variable clase es 30), y se clasificó con todos sus atributos y con la selección de 100 atributos realizada a partir de la Ganancia de Información de cada uno. Los resultados pueden verse en la tabla I. Está claro que cualquier selección de atributos que elimine aquellos que afecten negativamente siempre es en mejora de la clasificación. TABLA I Clasificación del usuario Sanders-r con y sin selección de atributos. Sin selección 100 mejores Hemos clasificado la base de datos de los correos de Sanders-r realizando una selección de sus 100 atributos con mayor Ganancia de Información, por motivos de velocidad de ejecución en las pruebas y también porque esta selección ya crea una mejora

7 inicial en la clasificación. Los resultados mostrados para cada algoritmo son el resultado de la media de 10 ejecuciones, y se muestran en las tablas II III IV y V La tasa de aciertos original sin ningún atributo nuevo es de %, en las siguientes tablas veremos la mejora conseguida sobre este porcentaje al construir nuevos atributos. TABLA II Resultados para individuos de cadenas de bits con métrica IG-IGR. Genético UMDA I-UMDA Mejora ±σ t(h) Evaluaciones Generaciones TABLA III Resultados para individuos numéricos con métrica IG-IGR. Genético UMDA I-UMDA Mejora ±σ t(h) Evaluaciones Generaciones TABLA IV Resultados para individuos de cadenas de bits con métrica Wrapper. Genético UMDA I-UMDA Mejora ±σ t(h) Evaluaciones Generaciones B.1 Algoritmo Genético Vs. UMDA Vs. I-UMDA Examinando las tablas, no se puede generalizar acerca de cómo actúa el algoritmo genético frente a los EDAs, sino que dependerá del tipo de métrica y el tipo de individuo utilizado. Aunque sí se puede ver que suelen ser los que menos generaciones necesitan para converger. En general, el algoritmo genético se comporta peor que los EDAs para individuos de cadenas de bits y cualquier métrica. Para el caso de individuos numéricos, se obtienen mejores resultados que con UMDA e I-UMDA usando métrica wrapper, TABLA V Resultados para individuos numéricos con métrica Wrapper. Genético UMDA I-UMDA Mejora ±σ t(h) Evaluaciones Generaciones sin embargo ocurre al revés si utilizamos la métrica por IG-IGR. Respecto a los dos EDAs, también depende del tipo de individuo y la métrica utilizada el que uno sea mejor que el otro, pero siempre con una diferencia mínima entre ambos. Sin embargo, el número de generaciones sí varía bastante entre los dos EDAs al utilizar evaluación wrapper. El mejor resultado obtenido es mediante I-UMDA con individuos de cadenas de bits y métrica wrapper. B.2 IG-IGR Vs. Wrapper La comparación en la que más diferencia se hallará en este trabajo es entre IG-IGR y Wrapper. En casos como esta base de datos, en la que cada atributo es uno de los 100 mejores atributos respecto a su IG, la ganancia de información deja de ser discriminatoria pues todas son altas. Esta es una explicación; sin embargo, también se ha experimentado con esta métrica en bases de datos sin realizar una selección de variables previa y tampoco se obtienen buenos resultados. Claramente, usar directamente una medida wrapper supera en mucho a la métrica IG-IGR, siendo penalizados por otro lado en el tiempo de convergencia. Como se comentará en la sección VII, se planea usar otra métrica que resulte más útil que IG-IGR pero con la cual el tiempo de evaluación sea menor que con un wrapper. B.3 Individuos de cadenas de bits Vs. numéricos A la luz de los resultados, vemos que bajo un mismo algoritmo y métrica, los individuos de cadenas de bits suelen generar mejores resultados que los individuos numéricos, siendo la única excepción I-UMDA con métrica IG-IGR. Realmente esperábamos obtener mejores resultados usando individuos numéricos que con cadenas de bits. Una explicación puede ser que al usar la media y varianza de cada posición del vector de atributos en el individuo numérico, obtenemos valores de atributos que no tienen nada que ver con los originales a partir de los cuales se calculó la distribución de probabilidad. VI. Conclusiones Hemos visto que en general los dos EDAs superan al algoritmo genético aquí presentado, y también

8 que usando una medida wrapper obtenemos resultados mucho más óptimos que usando la combinación de métricas IG-IGR. UMDA y I-UMDA están muy próximos para decidir cuál podría ser el más útil a la hora de la clasificación. Respecto al tipo de individuos queda claro que los que mejor resultados generan son los de cadenas de bits. El mejor resultado se ha obtenido utilizando I-UMDA con individuos de cadenas de bits y evaluación wrapper. VII. Trabajo Futuro Además de crear el atributo X-de-N, se podrían crear atributos especiales a partir de los términos que aparecen en la cabecera de cada correo electrónico. Campos como De:, Para: o Asunto: prometen ser muy útiles para mejorar la tasa de aciertos en la clasificación. También se podría crear más de un atributo X-de-N o probar con diferentes tamaños máximos de bits B, que en este caso ha sido 7. También hemos visto que la métrica IG-IGR no resulta muy eficiente, así que se debería buscar otro tipo de métrica más util para decidir qué atributo creado mejorará nuestra clasificación. En [22] y [23] se presenta una técnica denominada en el original Attribute Focusing que consiste en usar una función que compara valores de atributos dos a dos, de manera que el valor devuelto por la función aumenta cuando se detectan frecuencias conjuntas inesperadas de los valores de los dos atributos pasados a la función. Como mejora en los dos EDAs, en vez de crear la primera población con una distribución uniforme se propone aprender la probabilidad inicial de cada atributo a partir de su frecuencia en la base de datos. Además, sería interesante aprender otro tipo de distribución para el vector de atributos en los individuos numéricos, para que los valores obtenidos a muestrear nuevos individuos tengan relación útil con respecto a aquellos de los que se aprendió la distribución. Agradecimientos Este trabajo ha sido parcialmente financiado por la JCCM (proyecto PBI ), el MEC (proyecto TIN C03-03) y los fondos FEDER. Referencias [1] D.D. Lewis, Representation and learning in information retrieval, Ph.D. thesis, Department of Computer Science, University of Massachusetts, [2] Ron Bekkerman, Andrew McCallum, and Gary Huang, Automatic categorization of into folders: Bechmark experiments on enron and sri corpora, Tech. Rep., Department of Computer Science. University of Massachusetts, Amherst., [3] Gerard Salton and Chris Buckley, Term weighting approaches in automatic text retrieval, Tech. Rep., Cornell University, [4] H. Liu, H. Motoda, and L. Yu, Feature selection with selective sampling, in Nineteenth International Conference on Machine Learning, 2002, pp [5] O Larsen, AA Freitas, and JCÑievola, Constructing x-of-n attributes with a genetic algorithm, in Proc Genetic and Evolutionary Computation Conf (GECCO- 2002), [6] Bryan Klimt and Y. Yang, The enron corpus: a new dataset for classification research, in 15th European Conference on Machine Learning, 2004, pp [7] A. E. Eiben and G. Rudolph, Theory of evolutionary algorithms: a bird s eye view, Theoretical Computer Science, vol. 229, pp. 3 9, [8] Alex A. Freitas, Understanding the crucial role of attributeinteraction in data mining, Artif. Intell. Rev., vol. 16, pp , [9] A. McCallum and Nigam K., A comparison of event models for naive bayes text classification, in AAAI/ICML- 98 Workshop on Learning for Text Categorization, 1998, pp [10] David D. Lewis, Naive (Bayes) at forty: The independence assumption in information retrieval., in Proceedings of ECML-98, 10th European Conference on Machine Learning, Chemnitz, DE, 1998, number 1398, pp. 4 15, Springer Verlag, Heidelberg, DE. [11] FEB Otero, MMS Silva, AA Freitas, and JCÑIevola, Genetic programming for attribute construction in data mining, in Genetic Programming: Proc. 6th European Conference (EuroGP-2003)., [12] Y-J Hu, Constructive induction: covering attribute spectrum In Feature Extraction, Construction and Selection: a data mining perspective, Kluwer, [13] Y-J Hu, A genetic programming approach to constructive induction, in 3rd Anual Genetic Programming Conference, [14] Zijian Zheng, Constructing nominal x-of-n attributes, in IJCAI, [15] George Miller, The magical number seven, plus or minus two: Some limits on our capacity for processing information, INFORMATION.THE PSYCHOLOGICAL REVIEW, vol. 63, pp. 81, [16] H. Mühlenbein, The equation for response to selection an its use for prediction, Evolutionary Computation, vol. 5, pp , [17] Pedro Larrañaga, Algoritmos de estimación de distribuciones = computación evolutiva + modelos gráficos probabilísticos, Departamento de Ciencias de la Computacion e Inteligencia Artificial. Universidad del Pais Vasco, [18] Base de datos de siete usuarios del Enron Corpus y línea temporal de los correos. ronb,,. [19] Página web de Lucene, [20] Juan L. Mateo and Luis de la Ossa, Lio: an easy and flexible library of metaheuristics, Tech. Rep., Departamento de Sistemas Informáticos, Escuela Politécnica Superior de Albacete, Universidad de Castilla-La Mancha, [21] Luis de la Ossa, José A. Gámez, Juan L. Mateo, and José M. Puerta, LiO: Una librería de algoritmos de búsqueda y optimización combinatoria., in IV Congreso Español sobre Metaheurísticas, Algoritmos Evolutivos y Bioinspirados (MAEB-2005), [22] I. Bhandari, Attribute focusing: machine-assisted knowledge discovery applied to software production process control, in Workshop on Knowledge Discovery in Databases, 1993, pp [23] I. Bhandari and S. Biyani, On the role of statistical significance in exploratory data analysis, in Workshop on Knowledge Discovery in Databases, 1994, pp [24] asdf,,. [25] Shumeet Baluja, Population-based incremental learning: A method for integrating genetic search based function optimization and competitive learning, Tech. Rep. CMU-CS , Pittsburgh, PA: Carnegie Mellon University, [26] W. J. Frawley, G. Piatetsky-Shapiro, and C. J. Matheus, Knowledge discovery in databases - an overview, Ai Magazine, vol. 13, pp , [27] Ian H. Witten and Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques (Second Edition), Morgan Kaufmann, 2005.