TRABAJO FIN DE ASIGNATURA

INTELIGENCIA EN REDES DE COMUNICACIONES TRABAJO FIN DE ASIGNATURA Luis Javier Duque Cuadrado

1 Breve descripción de los algoritmos elegidos 1.1 Clasificación a) Árboles de decisión de un nivel (decision stump) Como bien dice su nombre se trata de árboles de decisión de un solo nivel. Funcionan de forma aceptable en problemas de dos clases. No obstante, para problemas de más de dos clases es muy difícil encontrar tasas de error inferiores a 0.5. b) Clasificador 1R También se trata de árboles de decisión de un nivel. Se caracterizan porque, por diseño, sólo generan one-rules, las cuales son reglas que sólo evalúan un único atributo. Se elige el atributo que minimice la tasa de error. c) ID3 El ID3 es un algoritmo de aprendizaje que se emplea para elaborar árboles de decisión. Es un algoritmo simple y a la vez potente. Su aplicación más común son los problemas de clasificación. Sus principales características son las siguientes: o o Cada nodo intermedio corresponde a un atributo y cada rama al valor posible de ese atributo. Una hoja del árbol o nodo final especifica el valor esperado de la decisión de acuerdo con los ejemplos dados. La explicación de una determinada decisión viene dada por la trayectoria desde la raíz a la hoja representativa de esa decisión. A cada nodo es asociado aquel atributo más informativo que aún no haya sido considerado en la trayectoria desde la raíz. Para medir cuánto de informativo es un atributo se emplea el concepto de entropía. Cuanto menor sea el valor de la entropía, menor será la incertidumbre y más útil será el atributo para la clasificación. d) C4.5 Este algoritmo surge por la ineficiencia del algoritmo ID3 al tratar con valores numéricos. Lo propuso Quinlan en 1993, como extensión de ID3. Permite: o o o Construir árboles de decisión cuando algunos de los ejemplos presentan valores desconocidos para algunos de los atributos. Trabajar con atributos que presenten valores continuos. La poda de los árboles de decisión. Se emplea para facilitar la comprensión de los mismos, ya que como estos se generan a partir de ejemplos que pueden ser muy distintos entre sí, el árbol resultante puede llegar a ser bastante complejo, con trayectorias muy largas y desiguales. Consiste en la sustitución de una parte del árbol (sub-árbol) por una hoja. La poda tendrá lugar si el valor esperado de error en el sub-árbol es mayor que con la hoja que lo sustituya.

e) Tablas de decisión La tabla de decisión es un instrumento para decidir la mejor alternativa en un proceso de decisión. Para ello se utiliza el concepto de regla de decisión, que es una aplicación que asocia a cada alternativa un número, que expresa las preferencias del decisor por los resultados asociados a dicha alternativa. Una tabla de decisión se compone de una matriz en la que se almacenan una serie de condiciones y sus correspondientes acciones. El problema de este algoritmo es decidir qué atributos introducir en la tabla. Un ejemplo de tabla de decisión podría ser el siguiente: Condiciones Reglas de decisión 1 2 3 4 C1 El paciente tiene seguro médico básico SI NO SI NO C2 El paciente tiene seguro social NO SI SI NO A1 Pagar la consulta X - - - A2 Exento de pago - X X - A3 Pagar todos los servicios - - - X 1.2 Regresión La regresión es un análisis que permite predecir el valor de una variable dependiente en función de otras variables. Cuando la función resultante es lineal hablamos de regresión lineal, y si esta es polinomial, nos referimos a una regresión no lineal. Por otro lado, si la variable dependiente se predice a partir de una única variable, nos situaremos en el caso de la regresión simple, en cambio si se emplea más de una variable para determinar el resultado de una variable dependiente, hablaremos de una regresión parcial o múltiple. 1.3 Agrupamiento (clustering) El agrupamiento es un tipo de algoritmo de aprendizaje inductivo en el que los datos sobre los que se trabaja no están (normalmente) etiquetados (inducción no supervisada). Consiste en agrupar los datos según algún criterio, normalmente para minimizar algún objetivo, de acuerdo con una medida de similitud. Se puede emplear como un paso exploratorio para una posterior clasificación, para una reducción de datos, para simplificar un proceso auxiliar (imputaciones de valores perdidos), Se distinguen dos clases: secuenciales y paralelos. De entre estos últimos destaca el algoritmo k-medias, que es el que se va a emplear en la práctica. Su esquema, a grandes rasgos, es el siguiente:

1. Inicializar los centroides o representantes. 2. Pasar muestra a muestra la totalidad de ellas, asignando cada una a uno de los centroides según la similitud establecida. 3. Actualizar los centroides según las asignaciones anteriores. 4. Comprobar criterio de parada. Si no se cumple pasar a 2. 2 Resultados y conclusiones En este apartado se muestran los resultados obtenidos para cada uno de los dos conjuntos de datos tenidos en cuenta: los datos nominales y los numéricos. Además, a la vez que se presentan los resultados se añaden las conclusiones. Cabe destacar que para la obtención de estos resultados se ha empleado: Weka v3.4 para Windows. Aunque el número de datos sea pequeño como se verá a continuación, la evaluación de los datos se ha realizado empleando únicamente (ya que si no se alargaba excesivamente el trabajo sin mucho sentido) la validación cruzada con 10%, que consiste en dividir el conjunto de datos disponible en 10 grupos, y realizar 10 validaciones empleando en cada una un solo grupo para validar los datos y el resto para entrenar. El resultado final se obtiene calculando la media de todas las validaciones realizadas. Esta técnica se usa para intentar eliminar los errores de selección incorrecta de datos de entrenamiento. En los algoritmos en los que se debe emplear algún parámetro, se fueron variando hasta encontrar el mejor resultado posible. 2.1 Datos nominales Para el análisis de datos nominales se ha seleccionado el conjunto de datos almacenado en: weather-nominal.arff. Este conjunto de datos contiene 14 instancias y 5 atributos para cada una. El número de datos es algo escaso, lo cual provocará que la fiabilidad de los resultados sea baja, aunque a la hora de trabajar con ellos no influirá excesivamente. El hecho de tener un número reducido de atributos facilitará la extracción de conclusiones a partir de los resultados. Mediante este conjunto de datos se intenta modelar si según las condiciones climáticas se puede o no jugar al golf (según he podido observar en la penúltima referencia incluida en la bibliografía, aunque en otra fuente he leído que es para jugar al tenis). Este el motivo por el cual los atributos son: el ambiente, la temperatura, la humedad, el viento y si se juega o no.

2.1.1 Clasificación Los resultados obtenidos al clasificar estos datos con diferentes modelos son los siguientes (tomando como clase de salida si se puede jugar o no): a) Árboles de decisión de un nivel ( decision stump ) Correctly Classified Instances 5 35.7143 % Incorrectly Classified Instances 9 64.2857 % Kappa statistic -0.4651 Mean absolute error 0.4286 Root mean squared error 0.5207 Relative absolute error 92.3077 % Root relative squared error 108.6017 % Total Number of Instances 14 === Confusion Matrix === a b <-- classified as 5 4 a = yes 5 0 b = no b) Clasificador 1R El único atributo que emplea en la evaluación es el ambiente. Correctly Classified Instances 6 42.8571 % Incorrectly Classified Instances 8 57.1429 % Kappa statistic -0.1429 Mean absolute error 0.5714 Root mean squared error 0.7559 Relative absolute error 123.0769 % Root relative squared error 157.6527 % Total Number of Instances 14 === Confusion Matrix === a b <-- classified as 4 5 a = yes 3 2 b = no c) Tabla de decisión En la resolución Weka empleó las 6 siguientes reglas de decisión:

Rules: ================================== outlook windy play ================================== sunny FALSE no rainy FALSE yes overcast FALSE yes rainy TRUE no sunny TRUE yes overcast TRUE yes ================================== Correctly Classified Instances 9 64.2857 % Incorrectly Classified Instances 5 35.7143 % Kappa statistic 0.186 Mean absolute error 0.4066 Root mean squared error 0.5964 Relative absolute error 87.574 % Root relative squared error 124.377 % Total Number of Instances 14 === Confusion Matrix === a b <-- classified as 7 2 a = yes 3 2 b = no d) ID3 Weka empleando el algoritmo ID3 elaboró el árbol siguiente: outlook = sunny humidity = high: no humidity = normal: yes outlook = overcast: yes outlook = rainy windy = TRUE: no windy = FALSE: yes Ambiente Soleado Lluvioso Nublado Humedad SÍ Viento Alta Normal Sí No NO SÍ NO SÍ

Correctly Classified Instances 12 85.7143 % Incorrectly Classified Instances 2 14.2857 % Kappa statistic 0.6889 Mean absolute error 0.1429 Root mean squared error 0.378 Relative absolute error 30.7692 % Root relative squared error 78.8263 % Total Number of Instances 14 === Confusion Matrix === a b <-- classified as 8 1 a = yes 1 4 b = no e) C4.5 Weka empleando el algoritmo C4.5 elaboró el árbol siguiente: J48 pruned tree ------------------ outlook = sunny humidity = high: no (3.0) humidity = normal: yes (2.0) outlook = overcast: yes (4.0) outlook = rainy windy = TRUE: no (2.0) windy = FALSE: yes (3.0) Number of Leaves : 5 Size of the tree : 8 Correctly Classified Instances 9 64.2857 % Incorrectly Classified Instances 5 35.7143 % Kappa statistic 0.2553 Mean absolute error 0.3095 Root mean squared error 0.527 Relative absolute error 66.6667 % Root relative squared error 109.9181 % Total Number of Instances 14

RESUMEN DE LOS RESULTADOS OBTENIDOS CON CADA MODELO Modelo Precisión (%) Árboles de decisión de un nivel 35.71 Clasificador 1R 42.86 Tabla de decisión 64.29 ID3 85.71 C4.5 64.29 Lo primero que hay que destacar de estos resultados es que no pueden ser muy fiables, ya que el conjunto de datos que se ha empleado tanto para su entrenamiento como para su posterior evaluación es muy pequeño. Podemos apreciar en los datos que los dos primeros algoritmos tienen una precisión inferior al 50 %, prestaciones algo inferiores que las del resto, lo cual es lógico si se tiene en cuenta que son árboles de un solo nivel. Sin embargo, los demás algoritmos tienen unas prestaciones aceptables, destacando el algoritmo ID3. No obstante, no es lógico que dé unos resultados mejores que el C4.5, ya que este último no es más que una extensión del primero para poder trabajar con datos numéricos, incompletos o ruidosos. Además, C4.5 emplea para determinar las secuencias de tests una serie de heurísticos que funcionan normalmente mejor que ID3. Esta diferencia puede ser debida a la forma de evaluar los resultados (validación cruzada con 10%). 2.2 Datos numéricos Para el análisis de datos numéricos se ha seleccionado el conjunto de datos almacenado en: baskball.arff. Este conjunto de datos contiene 96 instancias y 5 atributos para cada una. Los cinco atributos que contiene este conjunto de datos son numéricos, por lo que no están etiquetados. Por lo tanto, en este apartado se va a estudiar la regresión lineal y el agrupamiento, ya que la clasificación ya se analizó en el apartado anterior. De esta forma, se abarcan más campos distintos de la minería de datos. 2.2.1 Regresión lineal En el análisis de este conjunto de datos se va a emplear una regresión lineal múltiple, sin emplear ningún método de selección de atributos. De esta forma, mediante el valor de los coeficientes que Weka asigne a cada variable, podremos observar la dependencia de cada una de las variables con las demás. Por lo tanto, vamos a emplear como variable dependiente los cinco atributos de que disponemos, uno a uno:

a) Asistencias por minuto Linear Regression Model assists_per_minute = -0.0045 * height + 0.0026 * time_played + 0.0004 * age + -0.1612 * points_per_minute + 1.0145 === Summary === Correlation coefficient 0.6145 Mean absolute error 0.039 Root mean squared error 0.0471 Relative absolute error 79.0926 % Root relative squared error 79.1568 % Total Number of Instances 96 A partir de la función de regresión se puede interpretar que las asistencias que un jugador da por minuto no dependen de la edad (o pasas bien cuando eres joven o ). El atributo que más relacionado está con este es los puntos por minuto, de forma negativa, al igual que la altura. Una posible lectura de este hecho podría ser que en este conjunto de datos los jugadores que dan muchas asistencias no meten muchos puntos y viceversa. De la relación negativa con la altura se puede destacar que los jugadores bajos son los que más asistencias dan (bases). b) Altura Linear Regression Model height = -69.334 * assists_per_minute + 0.1223 * time_played + 0.0766 * age + 2.3778 * points_per_minute + 194.7607 === Summary === Correlation coefficient 0.5359 Mean absolute error 4.1825 Root mean squared error 5.8679 Relative absolute error 78.1543 % Root relative squared error 84.7469 % Total Number of Instances 96 A partir de la función de regresión se obtiene que la altura no tiene ninguna relación con el tiempo jugado ni con la edad (para edades superiores a 22 años). Además, se puede apreciar que la altura está fuertemente correlada negativamente con el número de asistencias por minuto, lo cual se podría interpretar como que los jugadores bajos son los que más asistencias dan (los bases). Además, en este conjunto de jugadores el número de puntos por minuto está ligado con la altura, lo que implica que el juego interior del equipo funciona.

c) Tiempo jugado Linear Regression Model time_played = 55.4521 * assists_per_minute + 0.1697 * height + 0.1234 * age + 48.2887 * points_per_minute + -38.9368 === Summary === Correlation coefficient 0.6157 Mean absolute error 5.662 Root mean squared error 6.7741 Relative absolute error 74.7946 % Root relative squared error 78.9881 % Total Number of Instances 96 A partir de la función de regresión, se puede apreciar que el tiempo jugado por un jugador depende principalmente de las asistencias por minuto y los puntos por minuto que anote, lo cual indica que si un jugador quiere jugar debe ser efectivo para su equipo. Por lo demás, se puede afirmar que cuanto más veterano y más alto es el jugador más juega. d) Edad Linear Regression Model age = 1.9819 * assists_per_minute + 0.0272 * height + 0.0317 * time_played + -0.8319 * points_per_minute + 21.7753 === Summary === Correlation coefficient -0.3397 Mean absolute error 2.8832 Root mean squared error 3.4843 Relative absolute error 105.4513 % Root relative squared error 105.3295 % Total Number of Instances 96 Según se puede apreciar en la función de regresión, la edad de un jugador no está especialmente relacionada con ninguno de los atributos, aunque sí parece que a medida que la edad avanza, los puntos por minuto se reducen, lo cual es una prueba de que los años no pasan en balde.

e) Puntos por minuto Linear Regression Model points_per_minute = -0.5491 * assists_per_minute + 0.0005 * height + 0.0078 * time_played + -0.0005 * age + 0.2207 === Summary === Correlation coefficient 0.5855 Mean absolute error 0.0682 Root mean squared error 0.0881 Relative absolute error 80.1784 % Root relative squared error 81.3522 % Total Number of Instances 96 De esta función de regresión se puede destacar que tal y como se comentó anteriormente, los puntos por minuto y las asistencias por minuto están relacionadas negativamente. RESUMEN DE LA PRECISIÓN DE LOS RESULTADOS OBTENIDOS Variable dependiente Error absoluto relativo (%) Asistencia por minuto 79.09 Altura 78.15 Tiempo jugado 74.8 Edad 105.45 Puntos por minuto 80.18 De esta tabla se puede extraer que el atributo que mejor se puede predecir a partir de los demás es el tiempo jugado. Sin embargo, el que peor se predice es la edad. Cabe destacar que el error de predicción es bastante alto en todos los casos. 2.2.2 Agrupamiento En este apartado se va a intentar obtener determinados grupos en los datos, aplicando para ello algún algoritmo de agrupamiento. Una posible aplicación podría ser el etiquetado de los datos. Como algoritmo de agrupamiento se va a utilizar el k-medias, ya que es el algoritmo más sencillo y conocido de los que ofrece Weka. Los distintos agrupamientos que se hicieron fueron los siguientes:

a) Sobre todos los atributos (4 clusters) Se obtuvieron los siguientes resultados: Cluster centroids: Cluster 0 Mean/Mode: 0.1264 194.6667 34.1967 27.9167 0.5349 Std Devs: 0.0257 4.64 3.4841 2.2929 0.0978 Cluster 1 Mean/Mode: 0.1388 191.8333 19.3522 32.1667 0.3468 Std Devs: 0.0512 4.3286 7.1323 2 0.1119 Cluster 2 Mean/Mode: 0.2391 183.6818 33.0495 27.8182 0.4132 Std Devs: 0.0366 7.1344 6.5695 1.948 0.0766 Cluster 3 Mean/Mode: 0.1466 189.4375 18.5784 25.0625 0.3805 Std Devs: 0.0457 5.6211 4.2381 3.1902 0.0929 Clustered Instances 0 24 ( 25%) 1 18 ( 19%) 2 22 ( 23%) 3 32 ( 33%) De este agrupamiento se han obtenidos cuatro grupos. Dos de ellos tienen una media de minutos jugados superior a 30 (jugadores habituales). Observando dichos grupos, se puede destacar que sólo juegas si metes puntos o das bastantes asistencias. Además, también se puede observar que los que disponen de más minutos son los jugadores que tienen una edad intermedia, ni los jóvenes ni los veteranos. b) Edad y puntos anotados por minuto (3 clusters) Se obtuvieron los siguientes resultados: Cluster centroids: Cluster 0 Mean/Mode: 29.4516 0.5172 Std Devs: 2.5301 0.0825 Cluster 1 Mean/Mode: 32.6 0.3276 Std Devs: 3.559 0.0527 Cluster 2 Mean/Mode: 25.22 0.388 Std Devs: 0.7432 0.0703 Clustered Instances 0 31 ( 32%) 1 15 ( 16%) 2 50 ( 52%)

De este agrupamiento se puede interpretar que ni los jóvenes ni los veteranos son en media los que más anotan, que la edad ideal para jugar al baloncesto son los 29 años. Estos grupos se pueden observar en la siguiente figura, en la que se ha situado en el eje x los puntos por minuto, y en el eje y la edad: (azul clúster 0; rojo clúster 1; verde clúster 2) c) Puntos y asistencias por minuto y altura (3 clusters) Se obtuvieron los siguientes resultados: Cluster centroids: Cluster 0 Mean/Mode: 0.1131 195.0857 0.5121 Std Devs: 0.0316 3.8454 0.0858 Cluster 1 Mean/Mode: 0.2294 183.4 0.4077 Std Devs: 0.0351 7.1735 0.0715 Cluster 2 Mean/Mode: 0.1498 190.2581 0.3287 Std Devs: 0.0411 5.3838 0.0724 Clustered Instances 0 35 ( 36%) 1 30 ( 31%) 2 31 ( 32%)

Mediante este agrupamiento, podríamos ser capaces de clasificar a los jugadores en las distintas demarcaciones, por lo tanto nos podría haber servido para etiquetarlos con sus demarcaciones. Los jugadores pertenecientes al cluster 0 se caracterizan por dar pocas asistencias, anotar muchos puntos y ser altos, por lo que estos podrían ser los pívots. Los pertenecientes al cluster 1 se caracterizan por dar muchas asistencias y ser bajos, por lo que estos podrían ser los bases. Si se dibuja en una gráfica los puntos por minuto anotados en el eje x, y las asistencias por minuto en el eje y, se obtiene la siguiente gráfica: (azul clúster 0; rojo clúster 1; verde clúster 2)

3 Bibliografía Apuntes de la asignatura Inteligencia en redes de comunicaciones. Apuntes de la asignatura Tratamiento digital de señales. SISTEMAS DE INDUCCIÓN DE ÁRBOLES DE DECISIÓN: UTILIDAD EN EL ANÁLISIS DE CRISIS BANCARIAS. Enrique Bonsón Ponte, Tomás Escobar Rodríguez, Mª del Pilar Martín Zamora (Grupo de Inteligencia Artificial en Contabilidad y Administración de Empresas Universidad de Huelva). http://www.cs.waikato.ac.nz/~ml/publications/ 1999/99MH-Thesis.ps http://alcor.concordia.ca/~smw/home/mth.ps http://www.ntu.edu.sg/home/aswduch/teaching/1 http://www.is.informatik.uni-duisburg.de/teaching/ lectures/dm_ws03/folien/ml_part_iv.pdf http://integralscience.com/spanish/resgresion.htm http://www.fisterra.com/material/investiga/regre_lineal_multi/regre_lineal_multi.htm http://thales.cica.es/rd/recursos/rd99/ed99-0191-03/ed99-0191-03.html http://www.cs.joensuu.fi/pages/nuutinen/ datam/demo1/methods_demo1.htm http://dns1.mor.itesm.mx/~emorales/cursos/kdd01/node21.html http://www.itcdguzman.edu.mx/ingsoft/decision.htm