3. Árboles de decisión

Documentos relacionados
Aprendizaje Automatizado. Árboles de Clasificación

Aprendizaje Automatizado. Árboles de Clasificación

Aprendizaje Automatizado. Árboles de Clasificación

Tema 7: Aprendizaje de árboles de decisión

Tema 8: Árboles de decisión

Aprendizaje Automático Segundo Cuatrimestre de Árboles de Decisión

I. CARACTERISTICAS DEL ALGORITMO ID3

Qué son los árboles de decisión? Inducción de árboles de decisión. Tipos de problemas abordables. Ejemplo: árbol de decisión 1

Inducción de árboles de decisión. Qué son los árboles de decisión? Tipos de problemas abordables. Ejemplo de árbol de decisión 2

Aprendizaje inductivo

CI5438. Inteligencia Artificial II Clase 4: Aprendizaje en Árboles. Cap 18.3: RN

Arboles de Decisión Representación de los árboles de decisión

Inducción de Árboles de Decisión ID3, C4.5

SISTEMAS INTELIGENTES

Aprendizaje Automático

Proyecto 6. Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial.

Aprendizaje Automático: Arboles de Decisión.

Árboles de decisión en aprendizaje automático y minería de datos

Conjuntos de Clasificadores (Ensemble Learning)

Inducción de Árboles de Decisión ID3, C4.5

Aprendizaje Automático. Objetivos. Funciona? Notas

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

Aprendizaje de árboles de decisión. Aprendizaje de árboles de decisión

Árboles de Decisión. Tomás Arredondo Vidal 26/3/08

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 11 -

2. Algoritmos genéticos y redes neuronales 3. Inducción de árboles clasificadores. Inducción de árboles de clasificación. Aprendizaje UPM UPM

Jesús García Herrero TÉCNICAS DE INDUCCIÓN-II

Aprendizaje Automático

Tema 12: Arboles de decisión

ALGORITMO ID3. Objetivo

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Arboles de Decisión (II) Carlos Hurtado L. Depto de Ciencias de la Computación, Universidad de Chile

Aprendizaje Automatizado

Sesión 11 Árboles de decisión

Métodos de Clasificación sin Métrica. Reconocimiento de Patrones- 2013

Tema 8: Árboles de Clasificación

ARBOLES DE DECISION. Miguel Cárdenas-Montes. 1 Introducción. Objetivos: Entender como funcionan los algoritmos basados en árboles de decisión.

Aprendizaje Automatizado

Carteras minoristas. árbol de decisión. Ejemplo: Construcción de un scoring de concesión basado en un DIRECCIÓN GENERAL DE SUPERVISIÓN

~ ALGORITMO C4.5 ~ INGENIERÍA EN SISTEMAS COMPUTACIONALES INTELIGENCIA ARTIFICIAL ING. BRUNO LÓPEZ TAKEYAS

Tema 4: Aprendizaje de conceptos

Aprendizaje inductivo no basado en el error Métodos competitivos supervisados.

Aprendizaje de Conceptos Introducción a los Árboles de Decisión

Apellidos:... Nombre:...

Métodos de Inteligencia Artificial

Aux 6. Introducción a la Minería de Datos

MATRIZ DE ARBOLES DE DECISION

Tema 7: Sesgo inductivo

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

Redes Neuronales. Las redes neuronales son modelos computacionales que buscan imitar el funcionamiento

Inteligencia Artificial e Ingeniería del Conocimiento

Inducción de Reglas Proposicionales

Clustering: Auto-associative Multivariate Regression Tree (AAMRT)

Fundamentos de Inteligencia Artificial

Qué es machine learning? Algunos Tipos de Machine Learning. Generalización & Exploración. Aprendizaje a partir de Ejemplos. Inferencia Inductiva

Minería de Datos. Arturo Olvera López

Métodos para Determinar el Atributo Distinguido en Multiredes Bayesianas

Problemas de programación entera: El método Ramifica y Acota. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

Técnicas de aprendizaje sobre series temporales

Aprendizaje de Conceptos

Tema AA-4: Sesgo inductivo

Unidad 5: Entropía y Fuente del Teorema de Codificación de Shannon

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Minería de Datos Web. Cursada 2018

Modelos Gráficos Probabilistas L. Enrique Sucar INAOE. Sesión 10: Redes Bayesianas Inferencia. 1era parte. [Neapolitan 90]

Aprendizaje Automático Segundo Cuatrimestre de Aprendizaje de Conceptos

El uso de la estadística en los trabajos de titulación. Pedro F Quintana Ascencio

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.

ANÁLISIS DE DATOS. Jesús García Herrero

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Lingüística computacional

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Métodos de Remuestreo en Aprendizaje Automático

Selección de Atributos. Dr. Jesús Ariel Carrasco Ochoa Oficina 8311

Arboles de Decisión (II) Carlos Hurtado L. Depto de Ciencias de la Computación, Universidad de Chile

APRENDIZAJE DE REGLAS. Eduardo Morales y Jesús González

Selección de características. Reconocimiento de Patrones 2013

Jesús García Herrero CLASIFICADORES KNN II: APRENDIZAJE DE PROTOTIPOS

Análisis y Diseño de Algoritmos (AyDA) Isabel Besembel Carrera

Minería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria

Minería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria

Jesús García Herrero METODOLOGÍA DE ANÁLISIS DE DATOS

Heurísticas en el recorrido de árboles de soluciones

Métodos de Búsqueda para juegos humano-maquina. PROF: Lic. Ana María Huayna D.

Técnicas de clasificación. Prof. Dra. Silvia Schiaffino ISISTAN - CONICET. Inteligencia Artificial

Métodos de Inteligencia Artificial

RECONOCIMIENTO DE PATRONES DRA. LETICIA FLORES PULIDO

Estadística con R. Clasificadores

TRABAJO FIN DE ASIGNATURA

Guía de Ejercicios Aprendizaje de Máquinas Inteligencia Articial (CC52A)

Aprendizaje basado en ejemplos.

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Aprendizaje automático mediante árboles de decisión

Clasificación mediante conjuntos

El Juego como Problema de Búsqueda

Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL

Archivos Indice. Indexación y. Asociación. Conceptos Básicos Indices Ordenados Arboles. Asociación. Docente: Albert A.

Transcripción:

3.1 Introducción Método para aproximación de funciones objetivo que tengan valores discretos (clasificación) Uno de los métodos mas extensamente usados para inferencia inductiva Capaz de aprender hipótesis que se conformen de una disjunción (busca un espacio de hipótesis completamente expresivo) Resultado puede ser representado con reglas ifthen Sesgo inductivo: preferencia por árboles pequeños (navaja de Occam)

3.2 Representación de árboles de decisión Cada nodo prueba algún atributo de la instancia siendo evaluada Se va ramificando la búsqueda hasta llegar a una hoja - > función objetivo Un árbol de decisión representa (en toda su extensión) una disjunción de conjunciones de restricciones sobre los atributos Ejemplo: (Outlook=Sunny? Humidity=Normal)? (Outlook = Overcast)? (Outlook=Rain? Wind=Weak)

Ejemplo: PlayTennis

Árbol de decisión para ejemplo PlayTennis

3.3 Problemas apropiados para Árboles de Decisión (DTL) Las instancias pueden ser representadas por pares (atributo, valor) La función objetivo tiene valores discretos (o pueden ser discretizados) Pueden ser requeridas descripciones en forma de disjunción Posiblemente existen errores en los datos de entrenamiento (robustos al ruido) Posiblemente falta información en algunos de los datos de entrenamiento

3.4 El algoritmo básico para obtener un DTL Búsqueda exhaustiva, de arriba hacia abajo, a través del espacio de posibles árboles de decisión (ID3 y C4.5) Raíz: el atributo que mejor clasifica los datos Cuál atributo es el mejor clasificador?? respuesta basada en la ganancia de información

Entropía Entropía(S)? - p log 2 p - p log 2 p p ( ) = proporción de ejemplos positivos (negativos) La entropía especifíca el número de bits de informacion necesarios para codificar la clase de un conjunto de miembros de S (mensaje) En general: Entropía(S) = -? i=1,c p i log 2 p i

Ganancia de Información Mide la reducción esperada de entropía sabiendo el valor del atributo A Gain(S,A)? Entropía(S) -? v? Valores(A) ( S v Entropía(S v )/ S ) Valores(A): Conjunto de posibles valores del atributo A S v : Subconjunto de S en el cual el atributo A tiene el valor v

Ejemplo

Eligiendo el próximo atributo

Problema PlayTennis Gain(S,Outlook) = 0.246 Gain(S,Humidity) = 0.151 Gain(S,Wind) = 0.048 Gain(S,Temperature) = 0.029? Outlook es el atributo del nodo raíz

3.5 Búsqueda por el Espacio de Hipótesis en Árboles de decisión El espacio de hipótesis del ID3 es un espacio completo de funciones finitas El ID3 mantiene sólo una hipótesis mientras busca otra por el espacio El ID3 en su forma pura no realiza backtracking El ID3 usa todos los ejemplos de entrenamiento en cada paso de la búsqueda (realiza estadísticas)

Búsqueda por el Espacio de Hipótesis

3.6 Sesgo Inductivo en DTL Sesgo inductivo aproximado del ID3: Se prefieren Árboles más cortos. Se prefieren árboles que ubiquen una ganancia de información alta cerca de la raíz. El ID3 busca incompletamente en un Espacio de Hipótesis completo (sesgo de prefencia)

Por qué se prefieren hipótesis pequeñas? Navaja de Occam: Preferir la hipótesis más simple que explica el fenómeno

3.7 Cuestiones en DTLs Evitar el sobreentrenamiento Parar de crecer el árbol temprano Postprocesamiento del árbol (poda) Cómo? Usar un conjunto de ejemplos de validación Usar estadísticas

Podado para reducir error Los nodos son podados iterativamente, siempre eligiendo que al removerlo incrementa mejor la exactitud del DTL sobre el conjunto de validación

DTL Avanzados Incorporar atributos con valores continuos Otras medidas para seleccionar atributos Manejo de datos con valores de atributos faltantes Manejo de atributos con diferente peso