2. Algoritmos genéticos y redes neuronales 3. Inducción de árboles clasificadores. Inducción de árboles de clasificación. Aprendizaje UPM UPM

Documentos relacionados
SISTEMAS INTELIGENTES

Aux 6. Introducción a la Minería de Datos

I. CARACTERISTICAS DEL ALGORITMO ID3

Aprendizaje Automatizado. Árboles de Clasificación

Algoritmos de recubrimiento: AQ y derivados

Tema 7: Aprendizaje de árboles de decisión

Aprendizaje Automatizado. Árboles de Clasificación

Tema 8: Árboles de decisión

Aprendizaje inductivo

Aprendizaje Automático Segundo Cuatrimestre de Árboles de Decisión

Inducción de Árboles de Decisión ID3, C4.5

Inducción de Árboles de Decisión ID3, C4.5

ÑÔÐÓ Ð Ñ Ü ½ Ü ¾ ½ Ü ½ ܾ Ð Ñ Üµ ½ Ü ½ Ð Ñ Ü ½ ¾ Ü ½ Ä Ñ Ø Ð Ø Ö Ð Ä Ú ÖØ Ð ÓÒ ÔÙÒØ ÖÖ Ó Ó ÕÙ ÙØ Ð Þ Ò Ô Ö Ò Ð Ö ÓÑÓ Ø Ò Ð Ú Ö Ð Ò Ô Ò ÒØ ÙÒ Ú ÐÓÖ Ø Ö

3. Árboles de decisión

D conjunto de N patrones etiquetados, cada uno de los cuales está caracterizado por n variables predictoras X 1,..., X n y la variable clase C.

5. Minería de datos. Minería de datos. Aprendizaje UPM UPM. c 2010 DIT-ETSIT-UPM Minería de datos transp. 1

Dom(R 1 ) = {1;2} Rang(R 1 ) = {1;2}

Aprendizaje de árboles de decisión. Aprendizaje de árboles de decisión

Conjuntos de Clasificadores (Ensemble Learning)

Minería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria

Minería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria

(1+i) (1+i) n (1+i)

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Árboles de decisión en aprendizaje automático y minería de datos

L(G) = L((a + b) b) ¾º S b as Sa SS. L(G) = L((a + b) b(a + b) ) º S a Sa bss SbS SSb. L(G) = {w {a,b} : w a > w b } A aabb B bbaa A ε

Clasificadores Débiles - AdaBoost

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 11 -

Aprendizaje Automático. Objetivos. Funciona? Notas

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

~ ALGORITMO C4.5 ~ INGENIERÍA EN SISTEMAS COMPUTACIONALES INTELIGENCIA ARTIFICIAL ING. BRUNO LÓPEZ TAKEYAS

Métodos de Clasificación sin Métrica. Reconocimiento de Patrones- 2013

ALGORITMO ID3. Objetivo

Aprendizaje Automatizado

Aprendizaje Automatizado

Complementación y ampliación de la currícula de la Maestría 2017 Maestría en Generación y Análisis de Información Estadística

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

Clasificación Supervisada. Métodos jerárquicos. CART

Evitando el Ciclaje CO-3411 (S08) 08/02/ Como mencionamos arriba, el fenómeno de ciclaje es raro y construir un problema para hacer que el

Aprendizaje Automatizado. Árboles de Clasificación

Tema 8: Árboles de Clasificación

Sistemas inteligentes, o «inteligencia artificial»

Ð ØÙ Ó Ø ÖÖ ÑÓØÓ Ý ÓÒ Ñ ÕÙ ÔÖÓÔ Ò ÒØÖÓ Ý Ë ÑÓÐÓ Ð ÙÔ Ö Ð Ì ÖÖ º ÍÒ Ø ÖÖ ÑÓØÓ Ò ÓÑÓ ÙÒ Ú ÒØÓ Ò ØÙÖ Ð ÒØÖÓ Ó Ö Ì ÖÖ ÕÙ Ñ Ø Ò Ö Ø Ò Ò Ò ÓÖÑ ÓÒ º Ì Ð ÓÑÓ

Jesús García Herrero TÉCNICAS DE INDUCCIÓN-II

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

ÅÙÐØ ÔÐ ÓÒ ¾ ÑÔÐÓ ¾ Ò Ö Ø Ö Ú Ù Ð Ö ÔÖ ÒØ Ú Ð ÑÙÐØ ÔÐ ÓÒ ÓÒ ÙÒ ÔÙÒØÓ Ò Ö ÐÐ ÙØ Ð Þ Ö ÑÓ Ô Ö Ø Ó Ð ÒÓ µ ÑÔÐÓ Ü Ú ÓÒ ¾ ÑÔÐÓ ÆÓØ ÙÒÕÙ Ð ÒÓ Ú ØÓ Ô Ö Ð Ú Ó

Inducción de Reglas Proposicionales

Introducción a los sistemas Multiclasificadores. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.

Fra tales ¾Cuál es el omún denominador de las siguientes imágenes? L. Torres. Fra tales en. obras de arte 4 / 40

Examen Parcial. Attr1: A, B Attr2: A, B, C Attr3 1, 2, 3 Attr4; a, b Attr5: 1, 2, 3, 4

P = P 0 e λt ; H = P 0 (1 e λt ) T 1/2 = 0.693/λ

Ë Ó ÖÚ ÕÙ ÒÓ Ø Ö Ð Ô ÖÒØ Ð Ö ÙÐØÓ Ö ÓØÖÓ ¾½ ¾ Å ÑÔÐÓ ½ ½µ ½ Ý ÕÙ Ö Ø ÖÐ Ð Ú ÐÓÖ Ð ÜÔÖ ÓÒ Ò ÖÖ ÒØÖ Ô ÖÒØ ½ ½¾ ½ ½¾ ½ ½ ÊÑÔÐ Þ Ò Ó Ð ÜÔÖ ÓÒ Ð Ô ÖÒØ ÔÓÖ

º {x Z : x < 4} A º A = { 3, 2, 1,0,1,2,3} (A C) (A B) (B C),

i (m) J (m) = m i (m) i (m) = J(m) i (m) = (1+i) 1 m 1 (m) V (m) 0 = C 1 (m) = 1 Ä 1+i (m)ä nm

1 0 2 ii) Calcula la matriz X siendo A = y B = b) Calcula las soluciones de la ecuación: 1 1 x

Aprendizaje Automático

Clasificación estadística de patrones

1 1 + (x/d) 2n. f(x) = (D/x) 2n

a 1 = a 2 = a 3 = = a n 1 = 0 a n = C 0 (1+i) n

Proyecto 6. Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial.

º ÒØÓÒ Ó Ö ÖÖ ØÓ ÁÒ Ø ØÙØÓ ØÖÓÒÓÑ ¹ÍÆ Å ¼¼ ½ Ä Ñ Ò ÓÒ Ö Ð Ø Ú Ð Ì ÖÖ ÄÙÒ Ý ËÓÐ Ö Ø ÖÓ ÔÙ Ø ÖÑ Ò Ö Ð Ø Ò Ö Ð Ø Ú Ð ËÓÐ Ð Ì ÖÖ Ð Ò Ò Ó Ô Ö ÖÖÓÐÐ Ö ÙÒ Ø

Introducción a las Operaciones Financieras. Juan Carlos Mira Navarro

i n = R b i n = R n i e = R b i e = R n

Aprendizaje Automático


Aprendizaje: Boosting y Adaboost

Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL

10 Ohm R 4 R 1. 5Ohm R 3 I Ohm R 2

ÓÒØ Ò Ó ½ Ë Ø Ñ Ý Ð Ò Ø Ñ ¾ ÇÔ Ö ÓÒ Ý ØÖ Ò ÓÖÑ ÓÒ Ð Ð ¾» ¾

Qué es el APRENDIZAJE?

NEWTON TREES. Árboles de Estimación Estocástica de Probabilidades:

Arboles de Decisión (II) Carlos Hurtado L. Depto de Ciencias de la Computación, Universidad de Chile

Introducción a SPSS Árboles de Clasificación. Jorge Del Río L. Consultor Estadístico

Ë ÒØÓÒ ÕÙ Ð Ò ÙÑ ÖÓ Ø Ð ÚÓ Ð Ò Ý Ð Ð Ò Ð Ò ÙÑ ÖÓ ÐÐ Ñ Ð ÔÓØ Ò Ý Ð Ò ÙÑ ÖÓ Ò ÐÐ Ñ ÜÔÓÒ ÒØ Ð ÔÓØ Ò Ä ÔÓØ Ò ÜÔÓÒ ÒØ ¼ ÑÔÖ ½ Ù ÐÕÙÖ Ð Ò ÖÐÐ Ð ÜÔÓÒ ÒØ ÙÒ Ô

Métodos de Inteligencia Artificial

Jesús García Herrero METODOLOGÍA DE ANÁLISIS DE DATOS

Tema 4: Aprendizaje de conceptos

10 EXÁMENES

ANÁLISIS DE DATOS. Jesús García Herrero

ÁÒ Ò Ö Ð ½ º Ä Â Ù ½ ½ ½ º½ºÂ Ù ¹ Ð ÀÓÑ Ö º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º º ½ ½ º¾ºÄ Ê Ð ÓÒ Â Ù º º º º º º º

Clustering: Auto-associative Multivariate Regression Tree (AAMRT)

Entrevista a Claude Shannon: Depende de lo que entendamos por «pensar», «inteligencia»... and we both think, don t we? Inteligencia artificial?

Sesión 11 Árboles de decisión

Ø Ø Ð Ö ÓÒÓ Ñ ÒØÓ Ô ØÖÓÒ Ö Å ÖØ Ò Þ Ñ ÖØ Ò Þ Ì ºÙÒк Ùº Ö ÁÒØ Ð Ò ÓÑÔÙØ ÓÒ Ð Á À¹ÍÆÄ Ø Ñ Ö ¾¼½½

C 0 = C n (1 r) C 0 = C n (1 d n) d 1 d n. i =

x 1 = 1 x 2 = 2 y = x 2 y = 3x 2 x 2 = 3x 2 0 t < 0 t 2 t 0 t 2 1 = 2 t 1 = 2 R t 2 2 = 0.25 t 2 = 0.5 Q R

Aprendizaje Supervisado Árboles de Decisión

Comparación de métodos de aprendizaje sobre el mismo problema

Carteras minoristas. árbol de decisión. Ejemplo: Construcción de un scoring de concesión basado en un DIRECCIÓN GENERAL DE SUPERVISIÓN

Proyectos en la cadena de suministro

µ (m 4 m 2 ) : m 5 µ (x 3 x 2 ) : (x x 4 )

Minería de Datos. Arturo Olvera López

Guía de Ejercicios Aprendizaje de Máquinas Inteligencia Articial (CC52A)

TRABAJO FIN DE ASIGNATURA

Conclusiones. Somos la suma de nuestras decisiones. WOODY ALLEN Delitos y Faltas (1989)

ARBOLES DE DECISION. Miguel Cárdenas-Montes. 1 Introducción. Objetivos: Entender como funcionan los algoritmos basados en árboles de decisión.

Aprendizaje inductivo no basado en el error Métodos competitivos supervisados.

Ò ½ ÁÒØÖÓ Ù Ò ¾» ½½

Transcripción:

1. Preliminares Aprendizaje 2. Algoritmos genéticos y redes neuronales 3. Inducción de árboles clasificadores 4. Inducción de reglas 5. Minería de datos c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 1 Inducción de árboles de clasificación Árboles de clasificación Procedimiento CLS Valor informativo de un atributo Construcción del árbol Algoritmo ID3 y derivados c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 2

Clasificadores: Árboles de clasificación: ejemplo Una red neuronal de tipo MLP, una vez entrenada, clasifica objetos caracterizados por atributos numéricos Un árbol de clasificación, una vez construido, clasifica objetos caracterizados por atributos nominales (o binarios) Ejemplo: pelo N C - + R V ojos O + - Si (v(pelo) = «negro») entonces Si (v(pelo) = «castaño») entonces «+» Si (v(pelo) = «rubio») y (v(ojos) = «verdes») entonces «+» Si (v(pelo) = «rubio») y (v(ojos) = «oscuros») entonces c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 3 Inducción de árboles de clasificación Años 60: modelos informales de psicología cognitiva: elección de atributos más significativos para formar conceptos Hunt et al. (1966): CLS (Concept Learning System) CHAID (Chi-squared Automatic Interaction Detection) (Hartigan, 1975) CART (Classification And Regression Trees) (Friedman, 1977; Briemen et al. 1984) ID3 (Iterative Dichotomizer) (Quinlan, 1979) C4.5 (Quinlan, 1993) y C5.0 (comercial) c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 4

Procedimiento CLS Dado E ={e}, con e={ x e, f( x e ) } ={ v(a 1 ),v(a 2 ),...v(a n ),C j } genera árbol de clasificación (clasificador) mínimo (nodos: atributos; arcos: valores) ÔÖÓ Ñ ÒØÓ ÄË µ ØÓ Ó Ø Ò Ø ÖÑ Ò Ö ÓÒ Ó ÒÓ Ö Ö ÒÓ Ó ØÖ ÙØÓ Ñ ÓÖ Ô ÖØ ÓÒ Ö ÔÓÖ Ú ÐÓÖ ØÖ ÙØÓ Ô Ö Ô ÖØ Ò ÄË Ô ÖØ Òµ c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 5 Cuál es el mejor atributo? El que más información da Volumen (páginas) v23 v22 v21 Precio v11 v12 v13 v14 Autor : clase 1: se ha interesado : clase 2: no se ha interesado Es mejor Precio o Volumen? c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 6

Por qué es mejor Volumen? Entropía Porque da más información (reduce más la incertidumbre) Medida de la incertidumbre: entropía H = (p k lg 2 p k ) k p k : probabilidad de que un ejemplo esté en la clase k: p k = n k k n k con n k = número de ejemplos en la clase k Si hay dos clases, 0 H 1 c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 7 Entropía en el ejemplo Entropía inicial: H 0 = ( 5 10 lg 5 10 ) ( 5 10 lg 5 10 ) = 1 bit Volumen (páginas) v23 v22 v21 v11 v12 v13 v14 Precio Autor : clase 1: se ha interesado : clase 2: no se ha interesado Entropía media tras conocer el valor de Precio: H P = 10 2 0+ 10 ( 1 3 3 lg 1 3 2 3 lg 2 3 )+ 10 ( 2 3 3 lg 2 3 1 3 lg 1 3 )+ 10 2 0 = 0,55 bits Entropía media tras conocer el valor de Volumen: H V = 10 3 0+ 10 ( 1 4 2 lg 1 2 1 2 lg 1 2 )+ 10 3 0 = 0,4 bits Ganancia de información por Precio: H 0 H P = 0,45 bits Ganancia de información por Volumen: H 0 H V = 0,6 bits c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 8

v(a1)=v1 N1 v2 N2 Valor informativo de un atributo 1 1 2 2 N0 p = n /(n + n ) 1 1 1 2 p = n /(n + n ) 2 2 1 2 vi p = n /(n + n ) i1 i1 i1 i2 Ni p i2 = n i2 /(n + n i2 ) i1 i1 1 i2 2 H(N0) = -(p log p + p log p ) 1 2 1 2 2 2 H(Ni ) = -(p log p + p log p ) i1 2 i1 i2 2 i2 H(N0 A1) = Pr{v(A1) = vi}*h(ni) = [(n + n )/(n + n )]*H(Ni) i1 i2 1 2 i i Reducción de entropía = información ganada por A1 = H(N 0 ) H(N 0 A1) c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 9 Construcción del árbol (1) Atrib. Valores Clases talla Alto, Bajo +, pelo Negro, Cast., Rubio ojos Verdes, Oscuros Inicialmente: p + = 3/8; p = 5/8; H(N 0 )= ( 3 8 lg 2 3 8 + 5 8 lg 2 5 8 ) = 0,954 bits talla pelo ojos clase B R V + A R O A C V + B N V A N V A R V + A N O B R O Ejemplo de Quinlan (1983). Trivial, pero ilustra aplicaciones reales: descubrir criterio de selección, factores que influyen en comportamiento (violencia, hábitos de compra... ) c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 10

Construcción del árbol (2) talla A ARO ACV+ ANV ARV+ ANO (5/8) B BRV+ BNV BRO+ (3/8) Valor informativo de «talla»: H(N 0 A)= ( 3 5 lg 2 3 5 + 2 5 lg 2 2 5 )=0,971 H(N 0 B)= ( 1 3 lg 2 1 3 + 2 3 lg 2 2 3 )=0,918 H(N 0 talla)= 5 8 0,971+ 3 8 0,918=0,951 Ganancia de información por «talla»: H(N 0 ) H(N 0 talla)=0,954 0,951=0,003 bits c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 11 Construcción del árbol (3) Valor informativo de «pelo»: N pelo C R H(N 0 N)= ( 3 3 lg 2 3 3 + 3 0 lg 2 0 3 )=0 H(N 0 C)=0 BRV+ ARO- ARV+ BRO- BNV- ANV- ANO- (3/8) AVC+ (1/8) (4/8) H(N 0 R)= ( 1 2 lg 2 1 2 + 2 1 lg 2 1 2 )=1 H(N 0 pelo)= 3 8 0+ 1 8 0+ 8 4 1=0,5 Ganancia de información por «pelo»: H(N 0 ) H(N 0 pelo)=0,954 0,5=0,454 bits c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 12

ojos Construcción del árbol (4) Valor informativo de «ojos»: V BRV+ ACV+ BNV- ANV- ARV+ (5/8) O ARO- ANO- BRO- (3/8) H(N 0 V)= ( 5 2 lg 2 2 5 + 5 3 lg 2 3 5 )=0,971 H(N 0 O)=0 H(N 0 ojos)= 5 8 0,971+ 8 3 0=0,607 Ganancia de información por «ojos»: H(N 0 ) H(N 0 ojos)=0,954 0,657=0,347 bits c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 13 Construcción del árbol (5) Mejor atributo hasta ahora: pelo Árbol provisional: pelo N C R - + BRV+ ARO- ARV+ BRO- H(N1)=1 c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 14

Construcción del árbol (6) Dado el valor de «pelo» quedan 4 ejemplos, 2 «+» y 2 talla: A ARO- ARV+ talla B BRV+ BRO- H(N talla) = 1 Ganancia: 0 ojos: ARO- BROojos V BRV+ ARV+ O H(N ojos) = 0 Ganancia: 1 c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 15 Construcción del árbol (7) Árbol resultante: Reglas: pelo Si (v(pelo) = «negro») entonces - N C + R ojos V O + - Si (v(pelo) = «castaño») entonces «+» Si (v(pelo) = «rubio») y (v(ojos) = «verdes») entonces «+» Si (v(pelo) = «rubio») y (v(ojos) = «oscuros») entonces c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 16

p k = n k n 1 + n 2 +...+n K ; ID3: generalización para K clases H(N)= K k=1 (p k lg 2 p k ); 0 H(N) lg 2 K Partición por el atributo A con valores v1, v2,... : p ik = n ik n i1 +n i2 +... +n ik H i = k (p ik lg 2 p ik ) v(a)=v1 N1 1 1 p 1 = n 1 /(n 1 + n 2 +... + n K ) p = n /(n + n +... + n ) 2 2 2 2 1 2 K --- --- p = n /(n + n +... + n ) K K K K 1 2 K v2 N2 N vi Ni i1 1 i2 2 --- ik K Valor medio de la entropía después de saber el valor de A: H(N A) = n i=1 Pr(v(A)=v i ) H i = n i=1 ( k n ik ) H i i k n ik Reducción media de la entropía = información ganada por A = H(N) H(N A) c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 17 Es la ganancia la mejor medida? En el ejemplo de Quinlan supongamos un cuarto atributo: un número de identificación Qué árbol se induce? H(N 0 1)=H(N 0 2)=...=H(N 0 8)=0 Es decir, H(N 0 ID)=0! ID talla pelo ojos clase 1 B R V + 2 A R O 3 A C V + 4 B N V 5 A N V 6 A R V + 7 A N O 8 B R O Causa: con la ganancia se da preferencia a atributos con muchos valores posibles que conducen a nodos con pocos ejemplos. Una solución: ponderar la ganancia del atributo teniendo en cuenta el número de nodos resultantes y el número de ejemplos en cada uno, independientemente de la clasificación de estos ejemplos en cada nodo c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 18

Entropía de un atributo Medida de la cantidad de información necesaria para determinar a qué partición (rama del árbol) se asigna un ejemplo: a más ramas y a menos ejemplos por rama, más entropía. v(a1)=v1 N1 v2 N2 1 1 2 2 N0 p = n /(n + n ) 1 1 1 2 p = n /(n + n ) 2 2 1 2 vi p = n /(n + n ) i1 i1 i1 i2 Ni p i2 = n i2 /(n + n i2 ) i1 i1 1 i2 2 H(N0) = -(p log p + p log p ) 1 2 1 2 2 2 H(Ni ) = -(p log p + p log p ) i1 2 i1 i2 2 i2 H(N0 A1) = Pr{v(A1) = vi}*h(ni) = [(n + n )/(n + n )]*H(Ni) i1 i2 1 2 i i Entropía de A1 en N 0 : H(A1)= i (p i lg 2 p i ) donde: p i = n i /n, con n i = n i1 + n i2 y n= i n i c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 19 Ganancia ponderada, o tasa de ganancia G P (A)= H(N) H(N A) H(A) En el ejemplo, en N 0 H(ID)= ( 8 1 lg 2 1 ) 8=3(8 ramas, 1 ejemplo por rama) 8 H(talla)=H(ojos)= ( 8 5 lg 2 5 8 + 8 3 lg 2 3 8 )=0,954 (dos ramas, 5 + 3 ejemplos) H(pelo)= ( 3 8 lg 2 3 8 + 8 1 lg 2 1 8 + 4 8 lg 2 4 8 )=1,406 Y el mejor atributo es... ID talla pelo ojos Ganancia, G 0,954 0,003 0,454 0,347 Entropía, H 3,0 0,954 1,406 0,954 G P = G/H 0,318 0,003 0,323 0,364 c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 20

Árbol resultante en el ejemplo con la ganancia ponderada ID talla pelo ojos Ganancia, G 0,954 0,003 0,454 0,347 Entropía, H 3 0,954 1,406 0,954 G P = G/H 0,318 0,003 0,323 0,364 ID talla pelo Ganancia, G 0,971 0,020 0,971 Entropía, H 2,322 0,951 1,522 G P = G/H 0,418 0,0021 0,638 N V pelo C ojos R O + + c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 21 Mejoras sobre ID3 Datos con «ruido» evitando sobreajuste Atributos con valores continuos Ejemplos incompletos Costes de los atributos Muchas implementadas en C4.5 (Quinlan, 1993) y derivados c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 22

Sobreajuste (overfitting) (1) Una hipótesis h H sobreajusta los datos del conjunto de entrenamiento (ejemplos) si existe una hipótesis alternativa h H tal que: h tiene menor error que h sobre los ejemplos, pero h tiene menor error que h sobre el universo (E) Causa: Unos pocos ejemplos con ruido hacen crecer artificialmente al árbol c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 23 Heurístico: poda Sobreajuste (overfitting) (2) temprana (durante la construcción del árbol) tardía (después de construido) Criterios para la poda: un segundo conjunto de entrenamiento (conjunto de validación) pruebas estadísticas para estimar si la expansión (o la poda) de un nodo puede mejorar la precisión sobree medidas de la complejidad de la enumeración de los ejemplos y de la descripción del árbol (Minimum Description Length) c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 24

Discretización Atributos con valores continuos Dependiente del conocimiento de base del dominio Por ejemplo: Edad {niño, joven, adulto, viejo} Temperatura {baja, normal, alta} Automática. Por ejemplo: v(a) 40 48 60 72 80 90 - - + + + - 54 85 puntos de corte v(a) {v(a) > 54, v(a) > 85} c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 25 Ejemplos incompletos Estimación del valor de un atributo en un ejemplo en el que falta: valor = «desconocido» el más frecuente entre los ejemplos que sí lo tienen (atributos nominales) un valor medio, ponderado o no (atributos numéricos) c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 26

Costes de medida de atributos 1. Definición de una función de coste, C(A) 2. Ponderación de la función Ganancia (muy dependiente del dominio): G 2 (A) C(A) (Tan, 1993: robótica) 2 G(A) 1 (C(A)+1) α (Núñez, 1991: diagnóstico médico) c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 27 Software para inducción de árboles C4.5: ØØÔ»»ÛÛÛºÖÙÐ Õ٠غÓÑ»È Ö ÓÒ Ð» Integrado (con distintas variantes) en muchas herramientas de minería de datos ITI (Incremental Tree Inducer) ØØÔ»»ÛÛÛ¹ÐÖÒº ºÙÑ º Ù» Ø» Ò Üº ØÑÐ Enlaces a programas comerciales y libres en: ØØÔ»»ÛÛÛº ÒÙ Ø ºÓÑ» Ó ØÛ Ö» Ð Ø ÓÒ¹ ÓÒ¹ØÖ º ØÑÐ c 2010 DIT-ETSIT- Aprendizaje: árboles transp. 28