APLICACIÓN DE TÉCNICAS DE INDUCCIÓN DE ÁRBOLES DE DECISIÓN A PROBLEMAS DE CLASIFICACIÓN MEDIANTE EL USO DE WEKA (WAIKATO ENVIRONMENT FOR KNOWLEDGE

Transcripción

1 APLICACIÓN DE TÉCNICAS DE INDUCCIÓN DE ÁRBOLES DE DECISIÓN A PROBLEMAS DE CLASIFICACIÓN MEDIANTE EL USO DE WEKA (WAIKATO ENVIRONMENT FOR KNOWLEDGE ANALYSIS). FUNDACIÓN UNIVERSITARIA KONRAD LORENZ FACULTAD DE INGENIERÍA DE SISTEMAS BOGOTÁ 2008

2 APLICACIÓN DE TÉCNICAS DE INDUCCIÓN DE ÁRBOLES DE DECISIÓN A PROBLEMAS DE CLASIFICACIÓN MEDIANTE EL USO DE WEKA (WAIKATO ENVIRONMENT FOR KNOWLEDGE ANALYSIS). PAULA ANDREA VIZCAINO GARZON FUNDACIÓN UNIVERSITARIA KONRAD LORENZ FACULTAD DE INGENIERÍA DE SISTEMAS BOGOTÁ

3 CONTENIDO LISTA DE FIGURAS... 4 INTRODUCCION MINERÍA DE DATOS CARACTERÍSTICAS Y OBJETIVOS DE LA MINERÍA DE DATOS ÁRBOLES DE DECISIÓN CICLO DE UN ÁRBOL DE DECISIÓN CONSTRUCCIÓN DE ÁRBOLES DE DECISIÓN CLASIFICACIÓN DE ÁRBOLES DE DECISIÓN ADTree - Alternating Decision Tree [4] Decision Stump o árbol de decisión de un nivel ID J48 o C LMT (Logistic Model Tree) M5P (Árbol de regresión) NBTree (Naive Bayes Tree) RandomForest RandomTree REPTree UserClassifier WEKA Waikato Environment for Knowledge Analysis INSTALACIÓN Y EJECUCIÓN FORMAS DE UTILIZAR WEKA FICHEROS.ARFF SELECCIÓN Y SOLUCIÓN DEL PROBLEMA SELECCIÓN DE EJEMPLO EMPEZANDO CON WEKA Paso 1 - Lanzar el interfaz Explorer Paso 2 - Cargar la base de datos Paso 3 - Generación de gráficos ÁRBOLES DE DECISIÓN CON WEKA REVISANDO RESULTADOS BIBLIOGRAFÍA

4 LISTA DE FIGURAS Figura 1. Mapa Conceptual de Minería de Datos... 9 Figura 2. Representación del conocimiento Figura 3. Ejemplo de un árbol ADTree Figura 4. Ejemplo de un árbol ID Figura 5. Ejemplo aplicado de árbol de decisión adaptado para C Figura 6. Ejemplo de un árbol de decisión generado por C Figura 7. Pseudo código para el algoritmo LMT Figura 8. Esquema del algoritmo Random Forest Figura 9. Proceso para construir un Random Tree Figura 10. Ejemplo de UserClassifier básico Figura 11. Ejemplo de UserClassifier final Figura 12. Imagen de una Weka Figura 13. Ventana inicial de Weka Figura 14. Interfaz Simple CLI Figura 15. Interfaz Explorer Figura 16. Interfaz Experimenter Figura 17. Interfaz KnowledgeFlow Figura 18. Interfaz Explorer con archivo Empleados.arff Figura 19. Opción Visualice para Empleados.arff Figura 20. Resultado de un nodo gráfico {Casado x Sueldo} Figura 21. Visualización de características atributo Sueldo Figura 22. Visualización de características atributo Casado Figura 23. Visualización de características atributo Coche Figura 24. Visualización de características atributo Hijos Figura 25. Visualización de características atributo Alq/Prop Figura 26. Visualización de características atributo Sindicato Figura 27. Visualización de características atributo Bajas/Año Figura 28. Visualización de características atributo Antigüedad Figura 29. Visualización de características atributo Sexo Figura 30. Visualización de pantalla clasificación ADTree Figura 31. Visualización de pantalla al generar el árbol ADTree Figura 32. Ventana Run information del árbol ADTree Figura 33. Ventana Classifier model del árbol ADTree Figura 34. Ventana Stratified cross-validation del árbol ADTree Figura 35. Menú desplegable para visualización de árboles Figura 36. Ventana de visualización de árbol de decisión ADTree

5 Figura 37. Visualización de pantalla clasificación DecisionStump Figura 38. Ventana al generar el árbol DecisionStump Figura 39. Ventana Run information del árbol DecisionStump Figura 40. Ventana Classifier model del árbol DecisionStump Figura 41. Ventana Stratified cross-validation del árbol DecisionStump Figura 42. Visualización de pantalla clasificación Id Figura 43. Ventana al generar el árbol Id Figura 44. Visualización de pantalla clasificación J Figura 45. Ventana al generar el árbol J Figura 46. Ventana Run information del árbol J Figura 47. Ventana Classifier model del árbol J Figura 48. Ventana Stratified cross-validation del árbol J Figura 49. Ventana de visualización de árbol de decisión J Figura 50. Visualización de pantalla clasificación LMT Figura 51. Ventana al generar el árbol LMT Figura 52. Ventana Run information del árbol LMT Figura 53. Ventana Classifier model del árbol LMT Figura 54. Ventana Stratified cross-validation del árbol LMT Figura 55. Ventana de visualización de árbol de decisión LMT Figura 56. Visualización de pantalla clasificación M5P Figura 57. Ventana al generar el árbol M5P Figura 58. Visualización de pantalla clasificación NBTree Figura 59. Ventana al generar el árbol NBTree Figura 60. Ventana Run information del árbol NBTree Figura 61. Ventana Classifier model del árbol NBTree Figura 62. Ventana Stratified cross-validation del árbol NBTree Figura 63. Ventana de visualización de árbol de decisión NBTree Figura 64. Visualización de pantalla clasificación RandomForest Figura 65. Ventana al generar el árbol RandomForest Figura 66. Ventana Run information del árbol RandomForest Figura 67. Ventana Classifier model del árbol RandomForest Figura 68. Ventana Stratified cross-validation del árbol RandomForest Figura 69. Visualización de pantalla clasificación RandomTree Figura 70. Ventana al generar el árbol RandomTree Figura 71. Ventana Run information del árbol RandomTree Figura 72. Ventana Classifier model del árbol RandomTree Figura 73. Ventana Stratified cross-validation del árbol RandomTree Figura 74. Visualización de pantalla clasificación REPTree

6 Figura 75. Ventana al generar el árbol REPTree Figura 76. Ventana Run information del árbol REPTree Figura 77. Ventana Classifier model del árbol REPTree Figura 78. Ventana Stratified cross-validation del árbol REPTree Figura 79. Visualización de árbol de decisión REPTree Figura 80. Visualización de pantalla clasificación UserClassifier

7 INTRODUCCION Teniendo en cuenta el gran avance en los sistemas de minería de datos desde el último siglo, las entidades educativas y empresariales han buscado maneras de explotar al máximo la información existente en sus sistemas de información, esto basándose en técnicas y software especializados que permiten interpretación fácil y real de los resultados. Es así como para dar apoyo en la toma de decisiones a niveles administrativos o gerenciales, se crean metodologías especializadas y técnicas de extracción adecuada de la información, haciendo que el usuario final pueda ver los resultados en un solo clic o con pocos pasos, por tanto y teniendo en cuenta lo anterior, se crea el presente manual de usuario basado en la tecnología de información y software especializado WEKA (Waikato Environment for Knowledge Analysis) de la universidad de Waikato en Nueva Zelanda, este utiliza técnicas de minería de datos basándose en diferentes reglas y tipos de clasificación de información tales como árboles de decisión, reglas de clasificación, agrupamiento, etc. Al ser un software especializado brindara apoyo suficiente para interpretar resultados de manera matemática y estadística y por medio de visualización de gráficos o árboles que agregarán valor a los resultados obtenidos. Finalmente al usuario final se deja el trabajo profundo de investigación de teoremas o teorías si así lo desea para complementar sus interpretaciones, pero se deja por parte del autor conceptos que facilitaran la comprensión de funcionamiento de la herramienta para la generación de resultados adecuados y continuar en la mejora constante de la misma. 7

8 1. MINERÍA DE DATOS La Minería de Datos busca el procesamiento de información de forma clara para el usuario o cliente, de tal forma que pueda clasificar la información de acuerdo a parámetros inicialmente establecidos y de acuerdo a las necesidades que se buscan, es decir por medio de la minería de datos se dan acercamientos claros a resultados estadísticamente factibles a entendimiento y razón de una persona. Según Vallejos [1] varios autores describen la minería de datos como: Reúne las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos (Fayyad y otros, 1996) 1. La integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión (Molina y otros, 2001) CARACTERÍSTICAS Y OBJETIVOS DE LA MINERÍA DE DATOS o Explorar los datos que se encuentran en las profundidades de las bases de datos. o El entorno de la minería de datos suele tener una arquitectura clientes-servidor. o Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado en archivos corporativos o en registros públicos, archivados o El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rápidamente respuestas. o Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. o Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente. o Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos. 1 Citado en S. Vallejos, Trabajo de adscripción minería de datos, Corrientes - Argentina, 2006, pp Citado en S. Vallejos, Trabajo de adscripción minería de datos, Corrientes - Argentina, 2006, pp

9 o La minería de datos produce cinco tipos de información: - Asociaciones. - Secuencias. - Clasificaciones. - Agrupamientos. - Pronósticos. Como se puede observar en la Figura 1 la minería de datos clasifica la información y la procesa para obtener un resultado, para esto se debe pasar por ciertos procedimientos que se describen según [2] como: 1. Limpieza de datos: Pre-procesar la data a fin de reducir el ruido y los valores nulos. 2. Selección de característica: Eliminar los atributos irrelevantes o redundantes. 3. Transformación de datos: Estandarizar, normalizar o generalizar los datos. Figura 1. Mapa Conceptual de Minería de Datos Así mismo y según [2] lo que permite este modelo de minería de datos es dar exactitud de la predicción (eficacia); velocidad y escalabilidad en términos del tiempo para construir el modelo y el tiempo para usar el modelo; robustez en cuanto a administración del ruido y de valores nulos; 9

10 escalabilidad para buscar eficiencia en bases de datos residentes en disco; interpretabilidad para dar entendimiento y descubrimientos proporcionados por el modelo; y por último dar bondad de las reglas en cuanto a buscar tamaño de árbol de decisión y compacidad de la reglas de clasificación. 10

11 2. ÁRBOLES DE DECISIÓN Un árbol de decisión es un conjunto de condiciones o reglas organizadas en una estructura jerárquica, de tal manera que la decisión final se puede determinar siguiendo las condiciones que se cumplen desde la raíz hasta alguna de sus hojas. Un árbol de decisión tiene unas entradas las cuales pueden ser un objeto o una situación descrita por medio de un conjunto de atributos y a partir de esto devuelve una respuesta la cual en últimas es una decisión que es tomada a partir de las entradas. Los valores que pueden tomar las entradas y las salidas pueden ser valores discretos o continuos. Se utilizan más los valores discretos por simplicidad. Cuando se utilizan valores discretos en las funciones de una aplicación se denomina clasificación y cuando se utilizan los continuos se denomina regresión. Un árbol de decisión lleva a cabo un test a medida que este se recorre hacia las hojas para alcanzar así una decisión. El árbol de decisión suele contener nodos internos, nodos de probabilidad, nodos hojas y arcos [3]. Un nodo interno contiene un test sobre algún valor de una de las propiedades. Un nodo de probabilidad indica que debe ocurrir un evento aleatorio de acuerdo a la naturaleza del problema, este tipo de nodos es redondo, los demás son cuadrados. Un nodo hoja representa el valor que devolverá el árbol de decisión. Las ramas brindan los posibles caminos que se tienen de acuerdo a la decisión tomada. Y 0 1 X X Z 1 Z Figura 2. Representación del conocimiento. 11

12 2.1. CICLO DE UN ÁRBOL DE DECISIÓN De acuerdo al ciclo que debe ser aplicado a un árbol de decisión, se tiene: 1. Aprendizaje: 2. Clasificación: Un ejemplo para la compra de un computador se puede dar primero, especificando las reglas o condiciones que se han recolectado de una base de datos. age income student credit buys rating computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no 12

13 Seguidamente se construye el árbol de decisión de acuerdo a los parámetros levantados en el punto anterior y se evalúan las posibilidades ofrecidas dando así la respuesta más adecuada al usuario CONSTRUCCIÓN DE ÁRBOLES DE DECISIÓN Para la construcción de árboles de decisión se deben tener en cuenta ciertas etapas, estas son: 1. Construir el árbol (Reglas de división) Al inicio todos los ejemplos de entrenamiento están a la raíz. Los atributos deben ser categóricos (si son continuos ellos deben ser discretizados) El árbol es construido recursivamente de arriba hacia abajo con una visión de divide y conquista. Los ejemplos son particionados en forma recursiva basado en los atributos seleccionados Los atributos son seleccionados basado en una medida heurística o estadística (ganancia de información) La ganancia de información se calcula desde el nivel de entropía de los datos. 2. Detener la construcción (Reglas de parada): Se tienen en cuenta las siguientes condiciones: Todas las muestras para un nodo dado pertenecen a la misma clase. No existe ningunos atributos restantes para ser particionados (el voto de la mayoría es empleada para clasificar la hoja). 13

14 No existe más ejemplos para la hoja. 3. Podar el árbol (Reglas de poda) Identificar y eliminar ramas que reflejen ruido o valores atípicos CLASIFICACIÓN DE ÁRBOLES DE DECISIÓN Para este manual sólo se tendrá en cuenta los algoritmos y/o árboles de decisión tomados en el software libre WEKA versión ADTree - Alternating Decision Tree [4] Un Árbol de decisión alternativo es un método de clasificación proveniente del aprendizaje automático conocido en inglés como Alternating Decision Tree (ADTree). Las estructuras de datos y el algoritmo son una generalización de los árboles de decisión. El ADTree fue introducido por Yoav Freund y Llew Mason en Los ADTree contienen nodos splitter y nodos de predicción. El primero es un nodo que es asociado con una prueba, mientras que un nodo de predicción es asociado con una regla. El nodo de la Figura 3, esta compuesto por 4 nodos splitter y 9 nodos de predicción. Una instancia define una serie de caminos en un ADTree. La clasificación es asociada con una instancia que es el signo de la suma de las predicciones cercanas al camino en el que es definido por esta instancia. Considere el ADTree de la figura 3 y la instancia x = (color=red, year=1989, ), la suma de predicciones es = +2, así la clasificación es +1 con alta confianza. Para la instancia x = (color=red, year=1999, ), la suma de las predicciones es +0.4 y la clasificación es +1 con baja confianza. Para la instancia x= (color=white, year=1999, ), la suma de las predicciones es -0.7 y la clasificación es -1 con confianza media. El ADTree puede ser visto como una consistencia de una raíz nodo de dirección y cuatro unidades de tres nodos cada uno. Cada unidad es una regla de decisión y esta compuesta por un nodo splitter y dos nodos de predicción que son sus hijos [5]. 3 Citado en Proz. Árbol de decisión (óptima). Disponible: [citado en 28 de Febrero de 2008] 14

15 Figura 3. Ejemplo de un árbol ADTree Las reglas en un ADTree son similares a las de árboles de decisión, consecuentemente se puede aplicar métodos de empuje o aumento en el orden para diseñar un algoritmo de aprendizaje ADTree. Una regla en un ADTree define una partición de una instancia dentro de un espacio de tres bloques definidos por C 1 c2, C1 c2 y C 1. Básicamente, el algoritmo de aprendizaje para construcción de un ADTree es una estrategia top-down. Cada paso de aumento es seleccionado y adiciona una nueva regla o su equivalente a una nueva unidad consistente de un nodo splitter y dos nodos de predicción. MULTI-LABEL ALTERNATING DECISION TREE [5] Un árbol de decisión multi-label o multietiqueta es un ADTree con las siguientes restricciones: cualquier nodo de predicción interior contiene un 0; esto es al menos un nodo splitter siguiendo cada nodo de predicción; los nodos de predicción en una hoja contiene valores que pueden ser interpretados como clases Decision Stump o árbol de decisión de un nivel Como bien dice su nombre se trata de árboles de decisión de un solo nivel. 15

16 Funcionan de forma aceptable en problemas de dos clases. No obstante, para problemas de más de dos clases es muy difícil encontrar tasas de error inferiores a 0.5 según [6]. Retomando los conceptos de [7], el propósito del algoritmo es construir un modelo de cada caso que será clasificada, tomando únicamente un subconjunto de casos de entrenamiento. Este subconjunto es escogido en base a la distancia métrica entre las pruebas del caso y las pruebas de los casos dentro del espacio. Por cada caso de prueba, se hace una empaquetación conjunta de un árbol de un nivel clasificando así el aprendizaje de los puntos de entrenamiento cerrando la prueba actual del caso. Los árboles de decisión de un nivel o decisión stump (DS) son árboles que clasifican casos, basados en valores característicos. Cada nodo en un árbol de decisión de un nivel representa una característica de un caso para ser clasificado, y cada rama representa un valor que el nodo puede tomar. Los casos son clasificados comenzando en el nodo raíz y se cataloga basándose en sus valores característicos. En el peor de los casos un árbol de decisión de un nivel puede reproducir el sentido más común, y puede hacerse mejor si la selección característica es particularmente informativa. Generalmente, el conjunto propuesto consiste en los siguientes cuatro pasos: 1. Determinar la distancia métrica conveniente. 2. Encontrar el k vecino más cercano usando la distancia métrica seleccionada. 3. Aplicar la empaquetación de clasificación de los árboles de decisión de un nivel como entrenamiento de los k casos. 4. La respuesta a la empaquetación de conjunto es la predicción para los casos de prueba ID3 El ID3 es un algoritmo simple pero potente, cuya misión es la elaboración de un árbol de decisión bajo las siguientes premisas [8]: 1. Cada nodo corresponde a un atributo y cada rama al valor posible de ese atributo. Una hoja del árbol especifica el valor esperado de la decisión de acuerdo con los ejemplos dados. La explicación de una determinada decisión viene dada por la trayectoria desde la raíz a la hoja representativa de esa decisión. 2. A cada nodo es asociado aquel atributo más informativo que aún no haya sido considerado en la trayectoria desde la raíz. 16

17 3. Para medir cuánto de informativo es un atributo se emplea el concepto de entropía. Cuanto menor sea el valor de la entropía, menor será la incertidumbre y más útil será el atributo para la clasificación. El ID3 es capaz de tratar con atributos cuyos valores sean discretos o continuos. En el primer caso, el árbol de decisión generado tendrá tantas ramas como valores posibles tome el atributo. Si los valores del atributo son continuos, el ID3 no clasifica correctamente los ejemplos dados. Por ello, se propuso el C4.5, como extensión del ID3, que permite: Otro concepto dado por [9] que se puede tomar es aquel donde se describe que el ID3 es un algoritmo iterativo que elige al azar un subconjunto de datos a partir del conjunto de datos de entrenamiento y construye un árbol de decisión a partir de ello. El árbol debe clasificar de forma correcta a todos los casos de entrenamiento. A continuación y usando este árbol intenta clasificar a todos los demás casos en el conjunto completo de datos de entrenamiento. Si el árbol consigue clasificar el subconjunto, entonces será correcto para todo el conjunto de datos, y el proceso termina. En caso contrario, se incorpora al subconjunto una selección de los casos que no ha conseguido clasificar correctamente, y se repite el proceso. De esta forma se puede hallar el árbol correcto en unas pocas iteraciones, procesando un conjunto de datos. Figura 4. Ejemplo de un árbol ID3 17

18 J48 o C4.5 Es un algoritmo de inducción que genera una estructura de reglas o árbol a partir de subconjuntos (ventanas) de casos extraídos del conjunto total de datos de entrenamiento. En este sentido, su forma de procesar los datos es parecido al de Id3. El algoritmo genera una estructura de reglas y evalúa su bondad usando criterios que miden la precisión en la clasificación de los casos. Emplea dos criterios principales para dirigir el proceso dados por [10]: 1. Calcula el valor de la información proporcionada por una regla candidata (o rama del árbol), con una rutina que se llama info. 2. Calcula la mejora global que proporciona una regla/rama usando una rutina que se llama gain (beneficio). Con estos dos criterios se puede calcular una especie de calor de coste/beneficio en cada ciclo del proceso, que le sirve para decidir si crear, por ejemplo, dos nuevas reglas, o si es mejor agrupar los casos de una sola. El algoritmo realiza el proceso de los datos en sucesivos ciclos. En cada ciclo se incrementa el tamaño de la ventana de proceso en un porcentaje determinado respecto al conjunto total. El objetivo es tener reglas a partir de la ventana que clasifiquen correctamente a un número cada vez mayor de casos en el conjunto total. Cada ciclo de proceso emplea como punto de partida los resultados conseguidos por el ciclo anterior. En cada ciclo de proceso se ejecuta un submodelo contra los casos restantes que no están incluidos en la ventana. De esta forma se calcula la precisión del modelo respecto a la totalidad de datos. Es importante notar que la variable de salida debe ser categórica. Como se dice que el C4.5 es una mejora al Id3, se pueden describir ciertas mejoras: a) En vez de elegir los casos de entrenamiento de forma aleatoria para formar la ventana, el árbol C4.5 sesga la selección para conseguir una distribución más uniforme de la clase de la ventana inicial. b) En cuanto al límite de excepciones (casos clasificados incorrectamente) C4.5 incluye como mínimo un 50% de las excepciones en la próxima ventana. El resultado es una convergencia más rápida hacia el árbol definitivo. c) C4.5 termina la construcción del árbol sin tener que clasificar los datos en todas las categorías (clases) posibles. 18

19 REPRESENTACIÓN TIPO ÁRBOL La estructura del árbol esta compuesta por dos tipos de nodos: - una hoja (nodo terminal), que indica una clase; - un nodo de decisión, que especifica una comprobación a realizar sobre el valor de una variable. Tiene una rama y un subárbol para cada resultado posible de la comprobación. Figura 5. Ejemplo aplicado de árbol de decisión adaptado para C4.5 [11] C4.5 es una técnica de inducción que se basa en el método clásico de dividir y vencer y forma parte de la familia de los TDIDT (Top Down Induction Trees). Figura 6. Ejemplo de un árbol de decisión generado por C4.5 19

20 LMT (Logistic Model Tree) El LMT proporciona una descripción muy buena de los datos. Un LMT consiste básicamente en una estructura de un árbol de decisión con funciones de regresión logística en las hojas. Como en los árboles de decisión ordinarios, una prueba sobre uno de los atributos es asociado con cada nodo interno. Para enumerar los atributos con k valores, el nodo tiene k nodos hijos, y los casos son clasificados en las k ramas dependiendo del valor del atributo. Para atributos numéricos, el nodo tienen dos nodos hijos y la prueba consiste en comparar el valor del atributo con un umbral: un caso puede ser clasificar los datos menores en la rama izquierda mientras que los valores mayores en la rama derecha. Formalmente [12] describe, un LMT consiste en una estructura de árbol que esta compuesta por un juego N de nodos internos o no terminales y un juego de T hojas o nodos terminales. La S denota el espacio, atravesando por todos los atributos que están presentes en los datos. Figura 7. Pseudo código para el algoritmo LMT 20

21 M5P (Árbol de regresión) Miguel Ángel Fuentes y Pablo Galarza citan es un método de aprendizaje mediante árboles de decisión, utiliza el criterio estándar de poda M5 [13]. Es un árbol basado en árbol de decisión numérico tipo model tree. Cita Raquel Bázquez, Fernando Delicado y M. Carmen Domínguez [14] las características como: Construcción de árbol mediante algoritmo inductivo de árbol de decisión. Decisiones de enrutado en nodos tomadas a partir de valores de los atributos. Cada hoja tiene asociada una clase que permite calcular el valor estimado de la instancia mediante una regresión lineal NBTree (Naive Bayes Tree) La referencia [15] muestra que es un algoritmo hibrido. Este genera un tipo de árbol de decisión, pero las hojas contienen un clasificador Naive Bayes construido a partir de los ejemplos que llegan al nodo. Así mismo tomando conceptos de [16], es un eficiente y efectivo algoritmo de aprendizaje, pero previo a los resultados muestra que su capacidad es limitada ya que puede únicamente representar cierto grado de separación entre las funciones binarias. Se le deben dar necesarias y suficientes condiciones es el proceso en el dominio binario para ser aprendizaje Naive Bayes bajo una representación uniforme. Se ve entonces que el aprendizaje (y los datos de error) de Naive Bayes puede ser afectado dramáticamente por distribuciones de muestreo. Los resultados ayudan a dar un más profundo entendimiento de este de una manera más simple. Se ha descrito que muestra datos de predicción tan eficientemente como el algoritmo C4.5. Los resultados ayudan a profundizar en el entendimiento de este aparentemente simple algoritmo de aprendizaje. Naive Bayes aprende capacidades que son determinadas no únicamente por las funciones objetivo, sino también por muestreos de distribuciones, y de cómo el valor de un atributo es representado. 21

22 RandomForest Según cita Francisco José Soltero y Diego José Bodas en su artículo [17] Se basan en el desarrollo de muchos árboles de clasificación. Para clasificar un objeto desde un vector de entrada, se pone dicho vector bajo cada uno de los árboles del bosque. Cada árbol genera una clasificación, el bosque escoge la clasificación teniendo en cuenta el árbol más votado sobre todos los del bosque. Cada árbol se desarrolla como sigue: Si el número de casos en el conjunto de entrenamiento es N, prueba N casos aleatoriamente, pero con sustitución, de los datos originales. Este será el conjunto de entrenamiento para el desarrollo del árbol. Si hay M variables de entrada, un número m<<m es especificado para cada nodo, m variables son seleccionadas aleatoriamente del conjunto M y la mejor participación de este m es usada para dividir el nodo. El valor de m se mantienen constante durante el crecimiento del bosque. Cada árbol crece de la forma más extensa posible, sin ningún tipo de poda. Figura 8. Esquema del algoritmo Random Forest [18] CARACTERÍSTICAS DE RANDOM FOREST [19] Corre eficientemente sobre grandes bases de datos Puede manejar cientos de variables de entrada sin eliminación de otras variables. Esto da las estimaciones para saber que variables son importantes en la clasificación. Es un método eficaz para estimar datos perdidos y mantiene la exactitud de cuándo una proporción grande de los datos falla. Los árboles generados pueden ser salvados de un uso futuro sobre otros datos. 22

23 Los prototipos son calculados ya que dan información acerca de la relación entre las variables y las clasificaciones. Ofrece un método experimental para detectar interacciones entre variables RandomTree Siguiendo los conceptos de [20] Un RandomTree es un árbol dibujado al azar de un juego de árboles posibles. En este contexto "al azar" significa que cada árbol en el juego de árboles tiene una posibilidad igual de ser probado. Otro modo de decir esto consiste en que la distribución de árboles es "uniforme". El proceso del RandomTree es un proceso que produce random trees de permutaciones arbitrarias. PROCESO PARA CONSTRUIR UN RANDOM TREE Siguiendo la conceptualización realizada por [21], primero se marcan los vértices n por número 1 a través de de una manera aleatoria para cada que cada vértice tenga la misma probabilidad (este vértice es la permutación aleatoria). Usando esta permutación, se comienza a construir un árbol sobre vértices de n: inicialmente, se tiene vértices de n y ninguna marca. En el paso k-th se intenta agregar el borde de k-th y ver si el gráfico resultante contiene un ciclo. Si es así, se salta el borde o línea de marca, además se agrega al gráfico y se repite para k+1. Durante este proceso el gráfico almacenará un bosque. Después de al menos pasos se obtendrá un árbol (un bosque conectado). Las líneas punteadas representan las marcas o líneas que fueron consideradas, pero omitidas o saltadas. Figura 9. Proceso para construir un Random Tree 23

24 REPTree Cita Aurora Agudo, Juan Carlos Alonso y Ruth Santana en [22] Es un método de aprendizaje rápido mediante árboles de decisión. Construye un árbol de decisión usando la información de varianza y lo poda usando como criterio la reducción del error. Solamente clasifica valores para atributos numéricos una vez. Los valores que faltan se obtienen partiendo las correspondientes instancias. Refiere Antonio Bellas [23] Es un árbol de clasificación con modelo comprensible (reglas if then else) Haciendo referencia de [24], construye un árbol de decisión usando la ganancia de información y realiza una poda de error reducido. Solamente ordena una vez los valores de los atributos numéricos. Los valores ausentes se manejan dividiendo las instancias correspondientes en segmentos UserClassifier Su característica esencial es que permite al usuario construir su propio árbol de decisión. Figura 10. Ejemplo de UserClassifier básico Citando conceptos de [25], los nodos en el árbol de decisión no son prueba simple sobre los valores del atributo, pero son regiones que el usuario selecciona. Si un caso miente dentro de la región este sigue una rama del árbol, si este miente fuera de las regiones sigue por otra rama. Por lo tanto cada nodo tiene sólo dos ramas que bajan de él. 24

25 Figura 11. Ejemplo de UserClassifier final [26] 25

26 3. WEKA WAIKATO ENVIRONMENT FOR KNOWLEDGE ANALYSIS Diego García Morate cita en su manual [27] Weka (Gallirallus australis) es un ave endémica de Nueva Zelanda que da nombre a una extensa colección de algoritmos de Máquinas de conocimiento desarrollados por la universidad de Waikato (Nueva Zelanda) implementados en Java, útiles para ser aplicados sobre datos mediante las interfaces que ofrece o para embeberlos dentro de cualquier aplicación. Además Weka contiene las herramientas necesarias para realizar transformaciones sobre los datos, tareas de clasificación, regresión, clustering, asociación y visualización. Weka está diseñado como una herramienta orientada a la extensibilidad por lo que añadir nuevas funcionalidades es una tarea sencilla. Es un software que ha sido desarrollado bajo licencia GPL 4 lo cual ha impulsado que sea una de las suites más utilizadas en el área en los últimos años [28]; así mismo si se toma a [29], es un software para el aprendizaje automático o minería de datos. Por ser GPL la licencia, este programa es de libre distribución y difusión, además es independiente de la arquitectura, ya que funciona en cualquier plataforma sobre la que haya una máquina virtual Java disponible [30]. Figura 12. Imagen de una Weka Incluye las siguientes características dentro de la versión : Diversas fuentes de datos (ASCII, JDBC). Interfaz visual basado en procesos/flujos de datos (rutas). Distintas herramientas de minería de datos: reglas de asociación (a priori, Tertius, etc), agrupación/segmentación/conglomerado (Cobweb, EM y k-medias), clasificación (redes neuronales, reglas y 4 Citado de GNU Public License. 26

27 árboles de decisión, aprendizaje Bayesiana) y regresión (Regresión lineal, SVM...). Manipulación de datos (pick & mix, muestreo, combinación y separación). Combinación de modelos (Bagging, Boosting, etc). Visualización anterior (datos en múltiples gráficas) y posterior (árboles, curvas ROC, curvas de coste, etc). Entorno de experimentos, con la posibilidad de realizar pruebas estadísticas (t-test). Su uso esta entre investigación, educación y realización de aplicaciones [29]. Las características que se pueden describir para Weka son: 1. Sistema integrado con herramientas de pre-procesado de datos, algoritmos de aprendizaje y métodos de evaluación de algoritmos. 2. Posee interfaces graficas para comprensión y manejo del usuario. 3. Tiene un ambiente de comparación entre las herramientas de aprendizaje INSTALACIÓN Y EJECUCIÓN Haciendo referencia a [27], para poder instalar el software, primero se debe descargar el mismo de la página una vez descomprimido Weka y teniendo apropiadamente instalada la máquina de virtual Java, para ejecutar Weka simplemente se debe ordenar dentro del directorio de la aplicación el mandato: java -jar weka.jar No obstante, si se esta utilizando la máquina virtual de Java de Sun (que habitualmente es la más corriente), este modo de ejecución no es el más apropiado, ya que, por defecto, asigna sólo 100 megas de memoria de acceso aleatorio para la máquina virtual, que muchas veces será insuficiente para realizar ciertas operaciones con Weka (y se obtendrá el consecuente error de insuficiencia de memoria); por ello, es altamente recomendable ordenarlo con el mandato: java -Xms<memoria-mínima-asignada>M -Xmx<memoria-máxima-asignada>M -jar weka.jar Dónde el parámetro -Xms indica la memoria RAM mínima asignada para la máquina virtual y -Xmx la máxima memoria a utilizar, ambos elementos expresados en Megabytes si van acompañados al final del modificador 27

28 M. Una buena estrategia es asignar la mínima memoria a utilizar alrededor de un 60% de la memoria disponible FORMAS DE UTILIZAR WEKA Según [30] WEKA se puede utilizar de 3 formas distintas: A. Desde la línea de comandos: Cada uno de los algoritmos incluidos en WEKA se pueden invocar desde la línea de comandos de MS-DOS como programas individuales. Los resultados se muestran únicamente en modo texto. B. Desde una de las interfaces de usuario: WEKA dispone de 4 interfaces de usuario distintos, que se pueden elegir después de lanzar la aplicación completa. Los interfaces son: Simple CLI (Command Line Interface): Entorno consola para invocar directamente con java a los paquetes de Weka. Explorer: Interfaz gráfica básica, entorno visual que ofrece una interfaz gráfica para el uso de los paquetes. Experimenter: Interfaz gráfica con posibilidad de comparar el funcionamiento de diversos algoritmos de aprendizaje. Centrado en la automatización de tareas de manera que se facilite la realización de experimentos a gran escala. KnowledgeFlow: Interfaz gráfica que permite interconectar distintos algoritmos de aprendizaje en cascada, creando una red. Permite generar proyectos de minería de datos mediante la generación de flujos de información. C. Creando un programa Java: La tercera forma en la que se puede utilizar el programa WEKA es mediante la creación de un programa Java que llame a las funciones que se desee. El código fuente de WEKA está disponible, con lo que se puede utilizar para crear un programa propio. Una vez que Weka esté en ejecución aparecerá una ventana denominada selector de interfaces (Figura 13), que permite seleccionar la interfaz con la que se desea comenzar a trabajar con Weka. Las posibles interfaces a seleccionar son Simple Cli, Explorer, Experimenter y KnowledgeFlow. 28

29 Figura 13. Ventana inicial de Weka Los botones de la parte inferior permiten elegir uno de los cuatro interfaces. El aspecto de cada uno de ellos se muestra en las figuras siguientes: Figura 14. Interfaz Simple CLI 29

30 Figura 15. Interfaz Explorer Figura 16. Interfaz Experimenter 30

31 Figura 17. Interfaz KnowledgeFlow Para el enfoque del presente manual se hará énfasis en la interfaz Explorer que permite un mejor manejo de la información y entendimiento para el usuario, así como realizar operaciones sobre un solo archivo de datos. Cita José Hernández y César Ferri [28] si se observa, se tienen 6 subentornos de ejecución: 1. Preprocess: Incluye las herramientas y filtros para cargar y manipular los datos. 2. Classify: Acceso a las técnicas de clasificación y regresión. 3. Cluster: Integra varios métodos de agrupamiento. 4. Associate: Incluye unas pocas técnicas de reglas de asociación. 5. Select Attributes: Permite aplicar diversas técnicas para la reducción del número de atributos. 6. Visualize: En este apartado se puede estudiar el comportamiento de los datos mediante técnicas de visualización FICHEROS.ARFF Para poder trabajar Weka utiliza un formato de archivo especial denominado arff, acrónimo de Attribute-Relation File Format. Este formato está compuesto por una estructura claramente diferenciada en tres partes [27]: 31

32 1. Cabecera: Se define el nombre de la relación. Su formato es el <nombre-de-la-relación> Donde <nombre-de-la-relación> es de tipo String (el ofrecido por Java). Si dicho nombre contiene algún espacio será necesario expresarlo entre comillas. 2. Declaraciones de atributos. En esta sección se declaran los atributos que compondrán el archivo junto a su tipo. La sintaxis es la <nombre-del-atributo> <tipo> Donde <nombre-del-atributo> es de tipo String teniendo las mismas restricciones que el caso anterior. Weka acepta diversos tipos, estos son: a) NUMERIC Expresa números reales. b) INTEGER Expresa números enteros. c) DATE Expresa fechas, para ello este tipo debe ir precedido de una etiqueta de formato entre comillas. La etiqueta de formato está compuesta por caracteres separadores (guiones y/o espacios) y unidades de tiempo: dd Día. MM Mes. yyyy Año. HH Horas. mm Minutos. ss Segundos. d) STRING Expresa cadenas de texto, con las restricciones del tipo String comentadas anteriormente. e) ENUMERADO El identificador de este tipo consiste en expresar entre llaves y separados por comas los posibles valores (caracteres o cadenas de caracteres) que puede tomar el atributo. Por tiempo {soleado, lluvioso, nublado} 3. Sección de datos. Se declaran los datos que componen la relación separando entre comas los atributos y con saltos de línea las 4,3.2 En el caso de que algún dato sea desconocido se expresará con un símbolo de cerrar interrogación (?"). 32

33 Es posible añadir comentarios con el símbolo %, que indicará que desde ese símbolo hasta el final de la línea es todo un comentario. Los comentarios pueden situarse en cualquier lugar del fichero. Un ejemplo de un archivo de prueba prueba.arff % Archivo de prueba para Weka. prueba 3 nombre STRING ojo_izquierdo {Bien, mal} dimension NUMERIC fecha_analisis DATE "dd-mm-yyyy HH:mm" 8 10 Antonio, bien,38.43," :23" 11 Maria José,?,34.53," :45" 12 Juan, bien,43," :04" 13 Maria,?,?," :03" 33

34 4. SELECCIÓN Y SOLUCIÓN DEL PROBLEMA 4.1. SELECCIÓN DE EJEMPLO De acuerdo a las especificaciones dadas para la utilización de WEKA en los capítulos anteriores y teniendo en cuenta el objetivo del presente manual para dar explicación al funcionamiento de la herramienta se dará la conceptualización de los procedimientos de escogencia del ejemplo que será manejado a lo largo de los capítulos siguientes. Como primer punto es importante dar claridad la cantidad de ejemplos que se pueden encontrar a través de Internet, cada uno con objetivos diferentes y dando respuesta a muchos temas, el lector podrá descargar de diferentes páginas variedad de datasets, quedando así una invitación a consultar dichas páginas. Es importante hacer notar que se deben dar pautas que permitan la escogencia de un ejemplo apropiado y entendible para el usuario, para esto tenga en cuenta las siguientes características: 1. Fácil de entender. 2. Existencia de datos suficientes dentro de la base de datos. 3. Los datos deben ser coherentes. 4. Debe tener un objetivo. 5. Las variables de resultado deben dar respuesta al problema. De acuerdo a las características anteriores se evalúan varios ejemplos que cumplen muchos los requisitos, entre los ejemplos revisados se tienen en cuenta los que por defecto trae la herramienta incorporado dentro de la carpeta data y algunos otros consultados de cursos y manuales de WEKA 5. Tales ejercicios son: a) contact-lenses.arff: Muestra como recomendar lentes de contacto teniendo en cuenta variables de: edad (3 valores), tipo de problema visual (2 valores), existencia de astigmatismo (2 valores) y nivel de producción de lágrimas (2 valores). b) cpu.arff: Indica como se puede realizar la compra de un computador de acuerdo a sus caracterìsticas de hardware, sólo maneja variables de tipo numéricas. 5 Citado en My weka page. Arff data files. Disponible: [citado en 16 de Mayo de 2008] 34

35 c) cpu.with.vendor.arff: Describe la compra que se puede hacer de un computador de acuerdo a la fábrica matriz que vende las partes, maneja un dato nominal y 7 numéricos. d) credit-g.arff: Ejemplo que describe las diferentes variables existentes para la determinación de un crédito tales como estado de cuenta, historia crediticia, propósito del crédito, empleos que ha tenido, estado civil, edad, tipo de vivienda, existencia de otros créditos, existencia de teléfono propio, entre otros. e) Drug1n.arff: En este caso se trata de predecir el tipo de fármaco que se debe administrar a un paciente afectado de rinitis alérgica según distintos parámetros/variables. Las variables que se recogen en los historiales clínicos de cada paciente son Edad, Sexo, Tensión sanguínea, nivel de colesterol, Nivel de sodio en la sangre, Nivel de potasio en la sangre. Hay cinco fármacos posibles: DrugA, DrugB, DrugC, DrugX, DrugY. f) Empleados.arff: La empresa de software para Internet Memolum Web quiere extraer tipologías de empleados, con el objetivo de hacer una política de personal más fundamentada y seleccionar a qué grupos incentivar. Las variables que se recogen de las fichas de los 15 empleados de la empresa son sueldo, casado, coche, número de hijos, tipo de vivienda, pertenecer al sindicato revolucionario de Internet, nº de bajas por año, antigüedad en la empresa, sexo. g) iris.arff: Ejemplo que permite definir el tipo de la planta Iris, setosa, versicoulor o virginica, para esto se utilizan 4 atributos numéricos, longitud y anchura de sepal, longitud y anchura de pétalo. h) labor.arff: Describe como determinar de acuerdo a variables el tipo de empleo o labor que puede tener una persona, para esto se tiene en cuenta duración, horas de trabajo, pensión, vacaciones, contribución a salud, contribución a servicio odontológicos, entre otros. i) segment-challenge.arff: Muestra como realizar un paisaje de acuerdo a matices de colores, región de color, línea de densidad, saturación,etc. j) segment-test.arff: Se busca que sea concordante los colores y matices involucrados dentro de una imagen y s construcción. k) soybean.arff: Describe los 19 tipos de enfermedades que puede tener la planta de soja en función de 35 síntomas en un fichero con 50 ejemplos. 35

36 l) titanic.arff: Corresponde a las características de los pasajeros del Titanic. Estos datos son reales y se han obtenido de: "Report on the Loss of the Titanic (S.S.)" (1990), British Board of Trade Inquiry Report_ (reprint), Gloucester, UK: Allan Sutton Publishing. Para este ejemplo sólo se van a considerar cuatro variables clase (0 = tripulación, 1 = primera, 2 = segunda, 3 = tercera), edad (1 = adulto, 0 = niño), sexo (1 = hombre, 0 = mujer), sobrevivió (1 = sí, 0 = no). m) train1.arff: Por medio de este ejemplo se podrá visualizar las características que pueden tener los viajes en tren y así escoger cuales son las mejores opciones de ocurrencia de un patrón. n) Weather.arff: Describe un conjunto de factores meteorológicos de un determinado día he indica si se puede jugar o no al tenis. Los factores evaluados son humedad, temperatura, viento y si esta soleado. o) weather.nominal.arff: Se trata del problema que indica si una cierta persona practicará deporte en función de las condiciones atmosféricas. En este caso se utiliza la versión de la base de datos en la que todos los atributos son discretos (nominales), aplica la misma teoría del caso anterior. De acuerdo a los ejemplos citados anteriormente y de acuerdo a las características que especifican la posible elección de un ejercicio (recuerdo que el lector puede escoger el ejercicio de acuerdo a su gusto) se evalúan las características y se tiene como ejemplo a manejar para el presente manual aquel con nombre Empleados.arff, se escoge primero por los datos especificados dentro de la base de datos ya que son concretos y de gran claridad, así mismo permiten mostrar al usuario más fácilmente los resultados, de igual forma se escoge ya que muestra un caso más cercano a la vida real y ante todo es desarrollado por personas de habla castellana, contrario a los otros ejemplos evaluados que son más complejos en su entendimiento y resultado y no son el caso para el presente manual. 36

37 4.2. EMPEZANDO CON WEKA Teniendo en cuenta el documento de doctorado [30] se puede diferenciar ciertos pasos para manejar WEKA, estos son: Paso 1 - Lanzar el interfaz Explorer: Se lanzará esta interfaz de acuerdo con lo indicado en la introducción del punto 3.2. ítem B. Paso 2 - Cargar la base de datos: Para cargar la base de datos se utilizará el botón OPEN FILE de la interfaz Explorer (pestaña Preprocess), se seleccionará el directorio data y dentro de él, el fichero Empelados.arff, este describe según [28] una empresa de software para Internet Memolum Web que quiere extraer tipologías de empleados, con el objetivo de hacer una política de personal más fundamentada y seleccionar a qué grupos incentivar. La empresa para tal fin describe una base de datos con 15 empleados. El resultado de abrir la base de datos, será una pantalla como la que se muestra en la figura: Figura 18. Interfaz Explorer con archivo Empleados.arff El ejemplo muestra 9 atributos empleados para el desarrollo del ejercicio, estos se pueden ver en el cuadrante inferior izquierdo. Los atributos son: 1. Sueldo: Sueldo anual en euros. 2. Casado: Si está casado o no. 3. Coche: Si va en coche a trabajar (o al menos si lo parquea en el estacionamiento de la empresa). 37

38 4. Hijos: Si tiene hijos. 5. Alq/Prop: Si vive en una casa alquilada o propia. 6. Sindic.: Si pertenece al sindicato revolucionario de Internet. 7. Bajas/Año: Media del nº de bajas por año 8. Antigüedad: Antigüedad en la empresa 9. Sexo: H: Hombre, M: Mujer. Haciendo clic sobre cada uno de los atributos, se muestra información sobre el mismo en la parte derecha de la ventana. En el caso de atributos discretos se indica el número de instancias que toman cada uno de los valores posibles; y en el caso de atributos reales se muestran los valores máximo, mínimo, medio y la desviación estándar. Así mismo, se muestra un gráfico en el que las distintas clases se representan con colores distintos, en función de los valores del atributo elegido. Paso 3 - Generación de gráficos: Para generar gráficos con los datos del ejemplo, se seleccionará la pestaña Visualize. Por defecto, se muestran gráficos para todas las combinaciones de atributos tomadas dos a dos, de modo que se pueda estudiar la relación entre dos atributos cualesquiera. El aspecto de la pantalla es el mostrado en la figura siguiente: Figura 19. Opción Visualice para Empleados.arff Si se desea mostrar un gráfico concreto, basta con hacer doble clic sobre él. Por ejemplo, haciendo doble clic sobre el gráfico que relaciona el aspecto de parejas casadas por sueldo (Casado / Sueldo) se muestra el gráfico de la figura siguiente: 38

39 Figura 20. Resultado de un nodo gráfico {Casado x Sueldo} Para manejar el presente problema, se describirá cada uno de los atributos de acuerdo a lo estipulado para weka. a. Sueldo: Su tipo de dato es Numérico, tiene un valor mínimo de 8000 y un valor máximo de 50000, tiene una media de y una desviación estándar de Si se observa en la figura 21, se tienen 11 personas que están entre el valor máximo de 8000 y 4 personas entre el valor de y Figura 21. Visualización de características atributo Sueldo 39