Aprendizaje Automático

Documentos relacionados
Aprendizaje Automatizado

Aprendizaje Automatizado. Árboles de Clasificación

Tema 7: Aprendizaje de árboles de decisión

Inducción de Árboles de Decisión ID3, C4.5

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.

ANÁLISIS DE DATOS. Jesús García Herrero

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Tema 8: Árboles de decisión

Tema 2 Primeros Modelos Computacionales

Proyecto 6. Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial.

CRITERIOS DE SELECCIÓN DE MODELOS

3. Árboles de decisión

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

Método de cuadrados mínimos

Tema 5. Muestreo y distribuciones muestrales

Tema 8: Árboles de Clasificación

Aux 6. Introducción a la Minería de Datos

MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN

Minería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria

D conjunto de N patrones etiquetados, cada uno de los cuales está caracterizado por n variables predictoras X 1,..., X n y la variable clase C.

Técnicas de aprendizaje sobre series temporales

Identificación mediante el método de los mínimos cuadrados

OPCIÓN A. A1. Se ha realizado un test de habilidad espacial a un grupo de niños y se han obtenido los resultados reflejados en la siguiente tabla:

Random Forests. Teoría y ejemplos. Romain Gouron. Conferencia 9, GLAM, Doble titulo Ecole Centrale de Nantes (Francia)

Redes de Neuronas de Base Radial

TEMA 2: Estimadores y distribuciones en el muestreo. Alfredo García Hiernaux. Grupos 69 y 73 Estadística I. Curso 2006/07

Departamento Administrativo Nacional de Estadística Dirección de Metodología y Producción Estadística-DIMPE

Expresión decimal. Aproximación y estimación. Notación científica. Polinomios. Divisibilidad de polinomios. Regla de Ruffini.

Teoría de la decisión

Tema: Análisis de valores faltantes con SPSS

CAPÍTULO 4 TÉCNICA PERT

Métodos basados en instancias. K-vecinos, variantes

CM0244. Suficientable

OPTIMIZACIÓN VECTORIAL

Estadistica II Tema 0. Repaso de conceptos básicos. Curso 2009/10

INDICE. Prólogo a la Segunda Edición

Redes Neuronales Artificiales

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

ALGORITMO ID3. Objetivo

Técnicas de Muestreo Métodos

Inteligencia Artificial e Ingeniería del Conocimiento

CONTENIDOS MÍNIMOS SEPTIEMBRE. DEPARTAMENTO DE MATEMÁTICAS

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

Aprendizaje Supervisado Árboles de Decisión

18 Experimentos aleatorios. Sucesos y espacio muestral. Frecuencia y probabilidad de un suceso.

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

Regresión polinomial y factores

matemáticas como herramientas para solución de problemas en ingeniería. PS Probabilidad y Estadística Clave de la materia: Cuatrimestre: 4

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Análisis Numérico para Ingeniería. Clase Nro. 12

Inteligencia Artificial Técnicas de clasificación

Preliminares Métodos de Ajuste de Curvas AJUSTE DE CURVAS AJUSTE DE CURVAS

PROGRAMA DETALLADO VIGENCIA TURNO UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA DE LA FUERZA ARMADA 2009 DIURNO INGENIERÌA EN SISTEMAS ASIGNATURA

Análisis y Complejidad de Algoritmos. Arboles Binarios. Arturo Díaz Pérez

UTILIZACIÓN DE LA CAPACIDAD INSTALADA EN LA INDUSTRIA MANUFACTURERA - SEGUNDO TRIMESTRE DE

Facultad de Ciencias e Ingeniería. Escuela Académico Profesional de Comunicación SÍLABO

CONTENIDOS MÍNIMOS MATEMÁTICAS 2º Y 4º E.S.O.

Metaheurísticas y heurísticas. Algoritmos y Estructuras de Datos III

4ta. Práctica. Búsqueda en árbol con contrincante: MiniMax con poda Alfa-Beta. Inteligencia Artificial Prácticas 2004/2005

Modelos Gráficos Probabilistas L. Enrique Sucar INAOE. Sesión 10: Redes Bayesianas Inferencia. 1era parte. [Neapolitan 90]

I.E.S. DE INGENIO Avda. de los Artesanos, INGENIO POC-PC EVALUACIÓN CONTENIDOS MÍNIMOS CURSO CURSO: 1º BACH.

Aprendizaje Automático

Modelos de distribuciones discretas y continuas

OPTIMIZACIÓN Y SIMULACIÓN PARA LA EMPRESA. Tema 4 Optimización no Lineal

METODOS ESTADÍSTICOS

Bachillerato Internacional. Matemáticas Nivel Medio. Programa para el curso 1º ( )

1: INTRODUCCIÓN AL USO DE LA HOJA DE CALCULO EXCEL COMO HERRAMIENTA PARA DESARROLLAR PROBLEMAS EN INGENIERÍA. SOLVER, REGRESION LINEAL MULTIPLE

UNIDAD 1: NÚMEROS NATURALES OBJETIVOS

MÉTODOS DE APRENDIZAJE INDUCTIVO (continuación)

VIII Jornadas de Usuarios de R

MINISTERIO DE EDUCACIÓN. Educación Técnica y Profesional. Familia de especialidades: Economía. Programa: Estadística

Grafos Eulerianos y Hamiltonianos. Algoritmos y Estructuras de Datos III

Tema 1: Distribuciones en el muestreo

JUEGOS. Área de aplicación de los algoritmos heurísticos Juegos bi-personales: oponente hostil

CALCULO DE INCERTIDUMBRE DE LAS MEDICIONES DE ENSAYOS

Cómo se usa Data Mining hoy?

Estimar la adecuación de un nodo para ser expandido.

(e) Con la poda alfa-beta se eliminan nodos que nunca serán alcanzados

Probabilidad y Estadística

Estadística Descriptiva y Probabilidad FORMULARIO

Parte de Algoritmos de la asignatura de Programación Master de Bioinformática. Búsqueda exhaustiva

Introducción a los árboles. Lección 11

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

Selección de fuentes de datos y calidad de datos

Dada f : [a, b] R R, continua, se plantea el problema de encontrar ceros de f, es decir raíces de la ecuación

Syllabus. Curso:SEXTO. Materia:ESTUDIOS MATEMÁTICOS

Métodos de Clasificación sin Métrica. Reconocimiento de Patrones- 2013

Cap. 5 : Distribuciones muestrales

Arboles de Decisión (II) Carlos Hurtado L. Depto de Ciencias de la Computación, Universidad de Chile

RESOLUCIÓN DE SISTEMAS LINEALES

Transcripción:

id3 id3 como búsqueda Cuestiones Adicionales Regresión Lineal. Árboles y Reglas de Regresión Ingeniería Informática Fernando Fernández Rebollo y Daniel Borrajo Millán Grupo de Planificación y Aprendizaje (PLG) Departamento de Informática Escuela Politécnica Superior Universidad Carlos III de Madrid 27 de febrero de 2009

En Esta Sección: 3 Árboles y Reglas de Decisión id3 id3 como búsqueda Cuestiones Adicionales 4 5 Introducción El Teorema de Bayes Fronteras de Decisión Estimación de Parámetros Clasificadores Bayesianos 6 Aprendizaje Basado en Instancias () K-NN

Regresión Árboles y Reglas de Decisión Un proceso de regresión lineal es aquel en el que se intenta aproximar una función f (x) (supuestamente lineal) con una función lineal ˆf (x). ˆf ( x) = w 0 + w 1 a 1 ( x) + w 2 a 2 ( x) + + w n a n ( x) (1) donde a i ( x) denota el atributo i-ésimo del ejemplo x El objetivo de la regresion es minimizar el error entre la función aproximada y el valor de la aproximación Una posible medida de error es la suma del error cuadrático sobre el conjunto de entrenamiento total, D: E = 1 (f (x) ˆf (x)) 2 (2) 2 x D

Minimizando el Error El problema de definir la función ˆf ( x) = w 0 + w 1 a 1 ( x) + w 2 a 2 ( x) + + w n a n ( x) se traslada a un problema de definir el vector de pesos w Distintos vectores de pesos dan distintos valores en la función de error Se debe encontrar el vector w que minimice la función de error: problema de búsqueda en el espacio de pesos Aproximación: descenso de gradiente

La función de Error Función de Error 500 400 300 200 100 0 10 5 w0 0 5 10 10 5 0 w1 5 10

Algoritmo de Descenso de Gradiente Gradiente del error respecto a w: [ E E[ w], E, E ] w 0 w 1 w n Regla de entrenamiento: w = η E[ w] i.e., w i = η E w i

Derivada del Error E = 1 w i w i 2 = 1 2 d = 1 2 d (t d o d ) 2 d w i (t d o d ) 2 2(t d o d ) w i (t d o d ) = (t d o d ) (t d w x d ) w i d E w i = (t d o d )( x i,d ) d

Algoritmo de Descenso de Gradiente Descenso de Gradiente(ejemplos entrenamiento, η) Cada ejemplo de entrenamiento es un par de la forma x, t, donde x es el vector de valores de entrada, y t es el valor de salida objetivo. η es el ratio de aprendizaje. Inicializar cada w i a algún valor aleatorio pequeño Hasta que la condición de fin sea alcanzada, hacer Inicializar cada w i a cero. Para cada x, t en ejemplos entrenamiento, hacer Calcular el valor o = ˆf ( x) para la instancia de entrada x Para cada peso w i, hacer Para cada peso, w i, hacer w i w i + η(t o)x i w i w i + w i

Bibliografía Árboles y Reglas de Decisión Machine Learning, Tom Mitchell. Capítulos 4 y 8

m5 (Quinlan, 93) Muchas veces las clases son numéricas y continuas Tradicionalmente, se ha utilizado la regresión cuando esto ocurría, pero los modelos obtenidos eran numéricos m5 genera árboles de decisión similares a los producidos por id3 m5 es una variación de cart (Breiman et al., 84) Las hojas en cart son valores numéricos en lugar de modelos lineales cart elige aquél atributo que maximice la reducción esperada en varianza o en desviación absoluta

Algoritmo Árboles y Reglas de Decisión 1 Construir el modelo (árbol de decisión con modelos lineales de clases) 2 Estimar el error 3 Construir modelos lineales en cada nodo intermedio del árbol 4 Simplificar los modelos lineales 5 Podar nodos 6 Suavizar

Características de m5 Heurística: minimizar la variación interna de los valores de la clase dentro de cada subconjunto Medida concreta: elegir aquél atributo que maximice la reducción del error, de acuerdo a la siguiente fórmula: error = sd(e) i E i E sd(e i) E es el conjunto de ejemplos en el nodo a dividir, E i son los ejemplos con valor i del atributo a considerar, y sd(c) es la desviación típica de los valores de la clase para los ejemplos en C

Características de m5 Heurística: minimizar la variación interna de los valores de la clase dentro de cada subconjunto Medida concreta: elegir aquél atributo que maximice la reducción del error, de acuerdo a la siguiente fórmula: error = sd(e) i E i E sd(e i) E es el conjunto de ejemplos en el nodo a dividir, E i son los ejemplos con valor i del atributo a considerar, y sd(c) es la desviación típica de los valores de la clase para los ejemplos en C

Características de m5 Hojas: se calcula un modelo lineal utilizando regresión estándar en función de los valores de los atributos, que proporciona un valor numérico (clase predecida) Criterio de parada en cada nodo: pocos ejemplos, o poca variación de los valores de la clase

Características de m5 Hojas: se calcula un modelo lineal utilizando regresión estándar en función de los valores de los atributos, que proporciona un valor numérico (clase predecida) Criterio de parada en cada nodo: pocos ejemplos, o poca variación de los valores de la clase

Estimación del error Para estimar el error en posteriores instancias, calcula la media del error residual producido al clasificar con el modelo creado, m, cada instancia del conjunto de test I : e(i, m) = 1 c(i) c(m, i) n i I n = I, c(i) es la clase de la instancia i, y c(m, i) es la clasificación con el modelo m de la instancia i

Estimación del error Como esto subestima el error en posteriores instancias, se multiplica por (ν es el número de atributos en el modelo m): n + ν n ν Esto consigue incrementar el error en modelos construidos con muchos parámetros y pocas instancias.

Siguientes pasos Árboles y Reglas de Decisión Construcción de modelos lineales: se calculan para cada nodo del árbol, considerando sólo los atributos que aparecen en su subárbol como test o en modelos lineales Simplificación de los modelos lineales: en cada modelo lineal se eliminan atributos, utilizando escalada, para reducir el error estimado. Esto, normalmente, hace que aumente el error residual, pero también reduce el factor por el que luego se multiplica. Puede llegar a dejar sólo una constante Poda: cada nodo interno del árbol tiene ahora un modelo simplificado lineal y un modelo subárbol. Se elige aquél que minimice el error. Si es el modelo lineal, el subárbol se queda reducido a ese nodo Suavizar el árbol: se tienen en cuenta los demás modelos desde el nodo hoja al nodo raíz

Siguientes pasos Árboles y Reglas de Decisión Construcción de modelos lineales: se calculan para cada nodo del árbol, considerando sólo los atributos que aparecen en su subárbol como test o en modelos lineales Simplificación de los modelos lineales: en cada modelo lineal se eliminan atributos, utilizando escalada, para reducir el error estimado. Esto, normalmente, hace que aumente el error residual, pero también reduce el factor por el que luego se multiplica. Puede llegar a dejar sólo una constante Poda: cada nodo interno del árbol tiene ahora un modelo simplificado lineal y un modelo subárbol. Se elige aquél que minimice el error. Si es el modelo lineal, el subárbol se queda reducido a ese nodo Suavizar el árbol: se tienen en cuenta los demás modelos desde el nodo hoja al nodo raíz

Siguientes pasos Árboles y Reglas de Decisión Construcción de modelos lineales: se calculan para cada nodo del árbol, considerando sólo los atributos que aparecen en su subárbol como test o en modelos lineales Simplificación de los modelos lineales: en cada modelo lineal se eliminan atributos, utilizando escalada, para reducir el error estimado. Esto, normalmente, hace que aumente el error residual, pero también reduce el factor por el que luego se multiplica. Puede llegar a dejar sólo una constante Poda: cada nodo interno del árbol tiene ahora un modelo simplificado lineal y un modelo subárbol. Se elige aquél que minimice el error. Si es el modelo lineal, el subárbol se queda reducido a ese nodo Suavizar el árbol: se tienen en cuenta los demás modelos desde el nodo hoja al nodo raíz

Siguientes pasos Árboles y Reglas de Decisión Construcción de modelos lineales: se calculan para cada nodo del árbol, considerando sólo los atributos que aparecen en su subárbol como test o en modelos lineales Simplificación de los modelos lineales: en cada modelo lineal se eliminan atributos, utilizando escalada, para reducir el error estimado. Esto, normalmente, hace que aumente el error residual, pero también reduce el factor por el que luego se multiplica. Puede llegar a dejar sólo una constante Poda: cada nodo interno del árbol tiene ahora un modelo simplificado lineal y un modelo subárbol. Se elige aquél que minimice el error. Si es el modelo lineal, el subárbol se queda reducido a ese nodo Suavizar el árbol: se tienen en cuenta los demás modelos desde el nodo hoja al nodo raíz

Ejemplo de salida Salario Cliente Edad Hijos Crédito 4,5 2,3 9,5 1,2 1 0 0 1 34 27 51 29............ 1 2 2 3 12,3 14,4 4,6 21,7.................. Cart M5 Sí Crédito=0,8*Salario 0,7 Salario<4,1? No Edad<30? Sí Crédito=0,9*Edad+0,2*Salario 0,3 No Crédito=0,2*Edad 0,4*Salario 0,4

Resumen Árboles y Reglas de Decisión Árboles de Decisión Criterio de división de hojas basada en la entropía Generación de reglas de decisión a partir de los árboles Aspectos metodológicos Árboles de regresión

Bibliografía Árboles y Reglas de Decisión Machine Learning, Tom Mitchell. Capítulo 3 Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Capítulo 6