Aprendizaje inductivo no basado en el error Métodos competitivos supervisados.

Documentos relacionados
Métodos basados en instancias. K-vecinos, variantes

Jesús García Herrero CLASIFICADORES KNN II: APRENDIZAJE DE PROTOTIPOS

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

SISTEMAS INTELIGENTES

Introducción a los sistemas Multiclasificadores. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

Comparación de métodos de aprendizaje sobre el mismo problema

Aprendizaje Automático

Métodos de Inteligencia Artificial

Ricardo Aler Mur CLASIFICADORES KNN-I

Predicción basada en vecinos

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

Examen Parcial. Attr1: A, B Attr2: A, B, C Attr3 1, 2, 3 Attr4; a, b Attr5: 1, 2, 3, 4

Inducción de Árboles de Decisión ID3, C4.5

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Clasificación mediante conjuntos

Comparación de dos métodos de aprendizaje sobre el mismo problema

para la Selección Simultánea de Instancias y Atributos

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

Aprendizaje Automatizado

Apellidos:... Nombre:...

Conclusiones. Somos la suma de nuestras decisiones. WOODY ALLEN Delitos y Faltas (1989)

Aprendizaje Basado en Instancias

Posibles trabajos HIA

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

ANÁLISIS DE DATOS. Jesús García Herrero

Aprendizaje Automático

SISTEMAS INTELIGENTES

Introducción a Aprendizaje no Supervisado

Introducción. Qué es Machine Learning?

Clasificación estadística de patrones

Aprendizaje Automatizado

Inteligencia en Redes de Comunicaciones - 06 Aprendizaje

Introducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Técnicas de aprendizaje sobre series temporales

Reconocimiento de Patrones

Jesús García Herrero METODOLOGÍA DE ANÁLISIS DE DATOS

Bases estadísticas del reconocimiento de patrones

Aprendizaje basado en ejemplos.

3. Árboles de decisión

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Tema 2 Primeros Modelos Computacionales

Análisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Aprendizaje Automático

Inducción de Árboles de Decisión ID3, C4.5

CONCEPTOS BÁSICOS (Freeman capt.1; Neural Nets capt. 4,5 y 7)

Aprendizaje no supervisado

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Tema 4: Aprendizaje de conceptos

Aprendizaje Automatizado. Árboles de Clasificación

Aprendizaje Automatizado. Árboles de Clasificación

Aprendizaje Automático Segundo Cuatrimestre de Árboles de Decisión

Tema 7: Aprendizaje de árboles de decisión

Extracción de características

Aprendizaje inductivo

Tema 2: Introducción a scikit-learn

Técnicas Supervisadas Aproximación no paramétrica

OPENCOURSEWARE REDES DE NEURONAS ARTIFICIALES Inés M. Galván José M. Valls. Tema 6: Redes de Neuronas Recurrentes

Support Vector Machines

Examen de Septiembre de TACCIII y TAI (Modelo 2)

Tema 7. Reconocimiento del locutor

Aproximación funcional. Introducción

INTELIGENCIA DE NEGOCIO

Tema 15: Combinación de clasificadores

Análisis multivariante

Análisis de algoritmos

Sistemas de Percepción Visión por Computador

Sistemas Inteligentes. Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias.

Clasificación Clasific NO SUPERV SUPER ISAD IS A AD AGRUPAMIENTO

Clasificación Supervisada

Inteligencia Artificial e Ingeniería del Conocimiento

Análisis de Datos. Clasificación Bayesiana para distribuciones normales. Profesor: Dr. Wilfrido Gómez Flores

REDES NEURONALES NO SUPERVISADAS

Jesús García Herrero TÉCNICAS DE INDUCCIÓN-II

NEWTON TREES. Árboles de Estimación Estocástica de Probabilidades:

Aprendizaje: Boosting y Adaboost

Detección Multiusuario para DS-CDMA basado en SVM

Técnicas de Minería de Datos

Aprendizaje Semisupervisado

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Clasificación Supervisada

Inducción de Reglas Proposicionales

Minería de Datos. Arturo Olvera López

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 11 -

Factorización de Árboles de Probabilidad

Modelos de Scoring para Riesgo de Crédito

Combinación de Clasificadores

INTELIGENCIA DE NEGOCIO

Desambigüación del sentido de las palabras (WSD)

Selección de atributos

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Componentes de los SBC. Componentes de los SBC. SBC basados en sistemas de producción. Notas

Aprendizaje Basado en Instancias

CRITERIOS DE SELECCIÓN DE MODELOS

2. Algoritmos genéticos y redes neuronales 3. Inducción de árboles clasificadores. Inducción de árboles de clasificación. Aprendizaje UPM UPM

Dpto. Biología-Geología IES Castillo de Cote

Sistema de reconocimiento de partituras musicales

Tema 2, 3 y 4 GRUPO 82 - INGENIERÍA INFORMÁTICA. Bernardo D Auria. 3 Diciembre Departamento de Estadística. Universidad Carlos III de Madrid

Prof. Angel Zambrano ENERO 2009 Universidad de Los Andes Escuela de Estadística

Transcripción:

Aprendizaje inductivo no basado en el error Métodos competitivos supervisados. Aprendizaje basado en instancias Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

Contenido 1. Métodos competitivos supervisados 2. Aprendizaje Basado en Instancias 1. Caracterización 2. K-vecinos más próximos 3. Razonamiento basado en casos Aprendizaje inductivo no basado en el error 2

1 Métodos competitivos supervisados Características No obtienen descripción estructural del concepto El error de clasificación no influye en el entrenamiento La clasificación se resuelve por un proceso de competición entre conceptos Los conceptos no se describen de forma aislada Aprendizaje inductivo no basado en el error 3

2 Aprendizaje Basado en Instancias: IBL 2.1 Caracterización También basado en casos o basado ejemplares Se caracterizan por almacenar los ejemplos de entrenamiento o alguna descripción de los mismos- Realizan una clasificación en base a la similitud de la instancia a clasificar con los ejemplos memorizados Aprendizaje inductivo no basado en el error 4

Proceso de aprendizaje en IBL Entrenamiento. En los casos básicos, se limita a almacenar los ejemplos de entrenamiento y su clase. El proceso de generalización se realiza en tiempo de clasificación Denominados perezosos lazy- porque retrasan el procesamiento hasta que hay que procesar una nueva instancia Clasificación: dos fases Selección de instancias según medida de similitud Resultado en función de las instancias seleccionadas Aprendizaje inductivo no basado en el error 5

Características IBL Carácter incremental: basta con almacenar nuevas instancias Clasificación y regresión ajuste de funciones- Aproximaciones locales al concepto objetivo, posiblemente diferentes para cada nueva instancia a clasificar Aprendizaje inductivo no basado en el error 6

2.2 K-Vecinos más próximos K-NN, algoritmo básico IBL Efectivo, popular, bien conocido, sencillo, asentado (1967) Trata las instancias como puntos en un espacio n-dimensional Almacena todos los ejemplos de entrenamiento Define la distancia entre instancias euclídea, Manhattan- Selecciona las k instancias más próximas Asigna la clase mayoritaria Aprendizaje inductivo no basado en el error 7

K-NN: ejemplo clasificación Ejemplos de entrenamiento: +, - Nueva instancia a clasificar: x q 1-NN: asigna + 5-NN asigna - Aprendizaje inductivo no basado en el error 8

Algoritmo básico Entrenamiento Añadir cada ejemplo (x j, c(x j )) a la lista Ejemplos_Entrenamiento Clasificación Sea x q la nueva instancia a clasificar Obtener las k instancias más próximas a x q de Ejemplos_Entrenamiento: x 1, x 2... x k f(x)= argmax v V ( i=1, k (v, c(x i ))) Con: (a, b)= 1 si a=b; 0 en otro caso c: R n V Aprendizaje inductivo no basado en el error 9

Distancias Atributos continuos: Euclídea Necesidad de normalización [0, 1] a i =(v i -min v i ) / (max v i min v i ) Manhattan D(x, y)= i n 1 x i y i Atributos discretos: Hamming D(x, y) = i=1, k d i con d i = 0 si x i =y i, 1 en otro caso Atributos desconocidos Distancia máxima (considerando normalización) Aprendizaje inductivo no basado en el error 10

Propiedades K-NN Simple y eficiente Entrenamiento muy rápido Aprende conceptos complejos Pero: Lento en clasificación: necesidad de encontrar vecinos más próximos Atributos irrelevantes: asume que todos los atributos tienen la misma importancia Sensible al ruido para valores pequeños de k Aprendizaje inductivo no basado en el error 11

Búsqueda eficiente de vecinos más próximos Estructuras de datos que Disminuyan el tiempo de acceso Permitan actualización incremental Posibilidad: indexar instancias con KD- Trees (< 10 atributos), Ball Trees Aprendizaje inductivo no basado en el error 12

KD-Trees Aprendizaje inductivo no basado en el error 13

Búsqueda vecinos KD-Trees En un árbol equilibrado hoja log 2 n vecinos log 2 n Aprendizaje inductivo no basado en el error 14

Atributos irrelevantes Maldición de la dimensionalidad Suponer Las instancias se describen con 20 atributos El concepto objetivo depende de 2 atributos Ejemplos con dos valores idénticos de los atributos relevantes pueden estar muy distantes Soluciones Selección de atributos; usar solo atributos seleccionados previamente con otras técnicas Ponderar la importancia de cada atributo en la medida de distancia Aprendizaje inductivo no basado en el error 15

Distancia euclídea ponderada [w 12 (x 1 -y 1 ) 2 + w 22 (x 2 -y 2 ) 2 + + w n2 (x n -y n ) 2 ] 1/2 Ajuste de pesos: minimizar error Estimación error: validación cruzada (leave one-out) x, ejemplo a clasificar, y vecino más próximo Clasificación correcta: aumentar pesos Clasificación incorrecta: disminuir pesos Cuantía del cambio w i : inversamente proporcional a x i y i Aprendizaje inductivo no basado en el error 16

Ruido 1-NN muy sensible al ruido k-nn con voto por mayoría muy robusto para valores grandes de k Pero k elevado disminuye precisión Selección de k: validación cruzada Otras posibilidades Mayoría ponderada con menor peso a los vecinos más distantes Podar ejemplos ruidosos (complejo) Aprendizaje inductivo no basado en el error 17

IB3: poda de ejemplos Monitoriza el comportamiento de las instancias de entrenamiento Calcular intervalos de confianza para 1. Tasa de acierto de cada ejemplo 2. Tasa de acierto de cada clase Aceptar/rechazar instancias Acepar si límite inferior de 1 > límite superior de 2 Rechazar si límite superior de 1 < límite inferior de 2 En otro caso: solo monitorizar el comportamiento del ejemplo, pero no utilizar para clasificación Aprendizaje inductivo no basado en el error 18

Discusión K-NN Simple y efectivo Lento en clasificación Estructuras de datos mejoran acceso Solución: no almacenar todos los ejemplos, poda, prototipos Problemas con dimensionalidad Solución: selección de atributos, distancia ponderada Sensible al ruido Solución: K>1, validación cruzada; poda Con distancia ponderada y poda de ejemplos, tasas de error comparables a otros métodos Aprendizaje inductivo no basado en el error 19

2.3 Razonamiento basado en casos, CBR Paradigma de solución de problemas inspirado en IBL Aprendizaje perezoso Resuelve problemas analizando problemas similares Pero la descripción de las instancias es simbólica -generalmente prolija- Aprendizaje inductivo no basado en el error 20

CBR: caso y solución Caso: descripción de un problema y su solución Solución nuevo problema Buscar caso(s) con descripción más similar Adaptar solucion(es) y revisar resultado Almacenar nuevo caso si interesante Aprendizaje inductivo no basado en el error 21

Ciclo CBR Recuperar (retrieve) los casos más parecidos Reutilizar (reuse) la solución propuesta en los casos para tratar de resolver el problema Revisar (revise) la solución propuesta Almacenar (retain) la nueva solución como parte de un nuevo caso Aprendizaje inductivo no basado en el error 22