Aprendizaje inductivo no basado en el error Métodos competitivos supervisados. Aprendizaje basado en instancias Carlos J. Alonso González Departamento de Informática Universidad de Valladolid
Contenido 1. Métodos competitivos supervisados 2. Aprendizaje Basado en Instancias 1. Caracterización 2. K-vecinos más próximos 3. Razonamiento basado en casos Aprendizaje inductivo no basado en el error 2
1 Métodos competitivos supervisados Características No obtienen descripción estructural del concepto El error de clasificación no influye en el entrenamiento La clasificación se resuelve por un proceso de competición entre conceptos Los conceptos no se describen de forma aislada Aprendizaje inductivo no basado en el error 3
2 Aprendizaje Basado en Instancias: IBL 2.1 Caracterización También basado en casos o basado ejemplares Se caracterizan por almacenar los ejemplos de entrenamiento o alguna descripción de los mismos- Realizan una clasificación en base a la similitud de la instancia a clasificar con los ejemplos memorizados Aprendizaje inductivo no basado en el error 4
Proceso de aprendizaje en IBL Entrenamiento. En los casos básicos, se limita a almacenar los ejemplos de entrenamiento y su clase. El proceso de generalización se realiza en tiempo de clasificación Denominados perezosos lazy- porque retrasan el procesamiento hasta que hay que procesar una nueva instancia Clasificación: dos fases Selección de instancias según medida de similitud Resultado en función de las instancias seleccionadas Aprendizaje inductivo no basado en el error 5
Características IBL Carácter incremental: basta con almacenar nuevas instancias Clasificación y regresión ajuste de funciones- Aproximaciones locales al concepto objetivo, posiblemente diferentes para cada nueva instancia a clasificar Aprendizaje inductivo no basado en el error 6
2.2 K-Vecinos más próximos K-NN, algoritmo básico IBL Efectivo, popular, bien conocido, sencillo, asentado (1967) Trata las instancias como puntos en un espacio n-dimensional Almacena todos los ejemplos de entrenamiento Define la distancia entre instancias euclídea, Manhattan- Selecciona las k instancias más próximas Asigna la clase mayoritaria Aprendizaje inductivo no basado en el error 7
K-NN: ejemplo clasificación Ejemplos de entrenamiento: +, - Nueva instancia a clasificar: x q 1-NN: asigna + 5-NN asigna - Aprendizaje inductivo no basado en el error 8
Algoritmo básico Entrenamiento Añadir cada ejemplo (x j, c(x j )) a la lista Ejemplos_Entrenamiento Clasificación Sea x q la nueva instancia a clasificar Obtener las k instancias más próximas a x q de Ejemplos_Entrenamiento: x 1, x 2... x k f(x)= argmax v V ( i=1, k (v, c(x i ))) Con: (a, b)= 1 si a=b; 0 en otro caso c: R n V Aprendizaje inductivo no basado en el error 9
Distancias Atributos continuos: Euclídea Necesidad de normalización [0, 1] a i =(v i -min v i ) / (max v i min v i ) Manhattan D(x, y)= i n 1 x i y i Atributos discretos: Hamming D(x, y) = i=1, k d i con d i = 0 si x i =y i, 1 en otro caso Atributos desconocidos Distancia máxima (considerando normalización) Aprendizaje inductivo no basado en el error 10
Propiedades K-NN Simple y eficiente Entrenamiento muy rápido Aprende conceptos complejos Pero: Lento en clasificación: necesidad de encontrar vecinos más próximos Atributos irrelevantes: asume que todos los atributos tienen la misma importancia Sensible al ruido para valores pequeños de k Aprendizaje inductivo no basado en el error 11
Búsqueda eficiente de vecinos más próximos Estructuras de datos que Disminuyan el tiempo de acceso Permitan actualización incremental Posibilidad: indexar instancias con KD- Trees (< 10 atributos), Ball Trees Aprendizaje inductivo no basado en el error 12
KD-Trees Aprendizaje inductivo no basado en el error 13
Búsqueda vecinos KD-Trees En un árbol equilibrado hoja log 2 n vecinos log 2 n Aprendizaje inductivo no basado en el error 14
Atributos irrelevantes Maldición de la dimensionalidad Suponer Las instancias se describen con 20 atributos El concepto objetivo depende de 2 atributos Ejemplos con dos valores idénticos de los atributos relevantes pueden estar muy distantes Soluciones Selección de atributos; usar solo atributos seleccionados previamente con otras técnicas Ponderar la importancia de cada atributo en la medida de distancia Aprendizaje inductivo no basado en el error 15
Distancia euclídea ponderada [w 12 (x 1 -y 1 ) 2 + w 22 (x 2 -y 2 ) 2 + + w n2 (x n -y n ) 2 ] 1/2 Ajuste de pesos: minimizar error Estimación error: validación cruzada (leave one-out) x, ejemplo a clasificar, y vecino más próximo Clasificación correcta: aumentar pesos Clasificación incorrecta: disminuir pesos Cuantía del cambio w i : inversamente proporcional a x i y i Aprendizaje inductivo no basado en el error 16
Ruido 1-NN muy sensible al ruido k-nn con voto por mayoría muy robusto para valores grandes de k Pero k elevado disminuye precisión Selección de k: validación cruzada Otras posibilidades Mayoría ponderada con menor peso a los vecinos más distantes Podar ejemplos ruidosos (complejo) Aprendizaje inductivo no basado en el error 17
IB3: poda de ejemplos Monitoriza el comportamiento de las instancias de entrenamiento Calcular intervalos de confianza para 1. Tasa de acierto de cada ejemplo 2. Tasa de acierto de cada clase Aceptar/rechazar instancias Acepar si límite inferior de 1 > límite superior de 2 Rechazar si límite superior de 1 < límite inferior de 2 En otro caso: solo monitorizar el comportamiento del ejemplo, pero no utilizar para clasificación Aprendizaje inductivo no basado en el error 18
Discusión K-NN Simple y efectivo Lento en clasificación Estructuras de datos mejoran acceso Solución: no almacenar todos los ejemplos, poda, prototipos Problemas con dimensionalidad Solución: selección de atributos, distancia ponderada Sensible al ruido Solución: K>1, validación cruzada; poda Con distancia ponderada y poda de ejemplos, tasas de error comparables a otros métodos Aprendizaje inductivo no basado en el error 19
2.3 Razonamiento basado en casos, CBR Paradigma de solución de problemas inspirado en IBL Aprendizaje perezoso Resuelve problemas analizando problemas similares Pero la descripción de las instancias es simbólica -generalmente prolija- Aprendizaje inductivo no basado en el error 20
CBR: caso y solución Caso: descripción de un problema y su solución Solución nuevo problema Buscar caso(s) con descripción más similar Adaptar solucion(es) y revisar resultado Almacenar nuevo caso si interesante Aprendizaje inductivo no basado en el error 21
Ciclo CBR Recuperar (retrieve) los casos más parecidos Reutilizar (reuse) la solución propuesta en los casos para tratar de resolver el problema Revisar (revise) la solución propuesta Almacenar (retain) la nueva solución como parte de un nuevo caso Aprendizaje inductivo no basado en el error 22