Inducción de Árboles de Decisión ID3, C4.5

Transcripción

1 Inducción de Árboles de Decisión ID3, C4.5

2 Contenido 1. Representación mediante árboles de decisión. 2. Algoritmo básico: divide y vencerás. 3. Heurística para la selección de atributos. 4. Espacio de búsqueda y bias inductivo. 5. Sobreajuste. 6. Mejoras a ID3. 7. Poda de árboles: C Interpretación geométrica aprendizaje con árboles. 9. Conclusiones y ejemplos de aplicación. Inducción de árboles de decisión 2

3 7. Poda de árboles: C4.5 Inducción de árboles de decisión 3

4 7. Poda de árboles: C4.5 Cuando el concepto objetivo no se puede describir con una función booleana, ID3 tiende a general árboles complicados que sobreajustan los datos. Ejemplo (concepto que no responde a una función booleana) 10 atributos, valores binarios, probabilidad 0.5 clase binaria, SI probabilidad 0.25, NO probabilidad instancias, selección aleatoria 500 ejemplos entrenamiento, restantes 500 para prueba. produce árbol con 119 nodos y tasa error 35% un árbol, con una única hoja, NO, tendría un error esperado del 25% Inducción de árboles de decisión 4

5 Simplificación de Árboles Métodos de simplificación o poda : Prepoda: no hacer crecer más una rama cuando la información disponible no es suficientemente fiable. Inconveniente: no se sabe cual es el mejor criterio. Postpoda: crear el árbol completo y eliminar subárboles poco fiables Mayor coste computacional, pero mejores resultados. Habitualmente se prefiere la Postpoda (poda) La Predoda puede terminar antes de encontrar el concepto El árbol completo puede contener atributos irrelevantes pero suele incluir los atributos necesarios para describir el concepto Inducción de árboles de decisión 5

6 Postpoda Se parte de un árbol completo Problema: algunos subárboles pueden no ser de interés Selección aleatoria de instancias, ruido Simplificar el árbol comenzando por los nodos hoja (botton-up) Dos operaciones de poda: Reemplazar subárbol (subtree replacement) Elevar subárbol (subtree raising) Realizar operación de poda según algún criterio Por ejemplo, estimación del error Inducción de árboles de decisión 6

7 Reemplazar subárbol Consiste en remplazar nodos internos por nodos hoja Comenzar nodos terminales de mayor profundidad Remplazar nodo padre por nodo terminal con clase con más ejemplos (si se cumple algún criterio) Cuando no se pueda simplificar más un subárbol, examinar nodos terminales de otros subárboles Inducción de árboles de decisión 7

8 Remplazar subárbol I [Witten, Frank, Mark. Data Mining, third edition, 2011] Inducción de árboles de decisión 8

9 Remplazar subárbol II Inducción de árboles de decisión 9

10 Remplazar subárbol III Inducción de árboles de decisión 10

11 Elevar subárbol Reemplazar nodo padre por subárbol Redistribuir ejemplos Más costoso Solo se intenta con las ramas más pobladas Inducción de árboles de decisión 11

12 Cuando realizar la operación de poda? Métodos basados en el error: Cuanto la estimación de la tasa de error no aumente al podar Estimación de la tasa de error de un subárbol (antes de la poda): media ponderada de la estimación de la tasa de error de sus hijos Inducción de árboles de decisión 12

13 Estimación tasa error subárbol antes de la poda, conocida en hojas e=0,51 (6 * 0,47 +2 * 0, * 0,47) / 14 e=0,47 6 ejemplos e=0,72 2 ejemplos e=0,47 6 ejemplos Inducción de árboles de decisión 13

14 Métodos de poda basados en el error Utilizan una estimación de la tasa de error de un árbol para realizar la poda Observar que la poda del árbol siempre incrementa la tasa de error del árbol calculada sobre los ejemplos de entrenamiento (aumenta error resubstitución). Distintas familias de técnicas según el método de estimación de errores: Entrenamiento y validación (reduced-error-pruning). Métodos pesimistas. Inducción de árboles de decisión 14

15 Poda mediante entrenamiento y validación Separar D en tres conjuntos disjuntos: T, conjunto de entrenamiento. V, conjunto de validación. P, conjunto para prueba (estimación del error). Crear árbol con T, hasta valor mínimo e r. Podar árbol hasta que la estimación de e D, según V, empeore. Inducción de árboles de decisión 15

16 Efecto de la poda mediante entrenamiento y validación [Mitchel, Machine Learning, 1997] Inducción de árboles de decisión 16

17 Inconvenientes de la poda mediante entrenamiento y validación Se precisa un número elevado de datos por la necesidad de usar tres conjuntos disjuntos. Alternativa: evitar el uso de V para guiar la poda. Método pesimista (Quinlan 87): realizan las operación de poda si una estimación pesimista del error después de la poda no es peor que la estimación pesimista del error antes de la poda Es decir, la poda reduce o mantiene la estimación de la tasa de error del subárbol afectado por la poda Inducción de árboles de decisión 17

18 C4.5 Método de inducción de árboles basado en ID3. Mejoras para atributos continuos, desconocidos, con múltiples valores. Poda pesimista. Generación de reglas. Algún parámetro adicional. Por ejemplo, Número mínimo ejemplos para dividir (2 por defecto) Última versión (investigación): C4.8 (implementado en WEKA como J4.8). Última versión comercial: C5.0 Inducción de árboles de decisión 18

19 Estimación pesimista del error en C4.5 Heurística. Parte de que la distribución del error puede describirse por una distribución binomial. Lo detallaremos en el siguiente tema. Por ahora: Clasificación instancia no vista: suceso aleatorio con dos posible resultados: clasificación correcta o incorrecta Pero: estima el error a partir de los datos de entrenamiento (error de resubstitución) Error hoja: (ejemplos entrenamiento mal clasificados por hoja)/ (ejemplos en la hoja) Pesimista?: reemplaza el error por el extremo superior de su intervalo de confianza considerando distribución binomial. Inducción de árboles de decisión 19

20 Estimación error nodo hoja: Extremo superior intervalo confianza e=[f + z 2 /2N +z( f/n f 2 /N + z 2 /4N 2 ) 1/2 ]/(1 + z 2 /N) con f: error en la hoja sobre el conjunto de entrenamiento N: instancias clasificadas por la hoja Si c=25%, z= 0.69 (c: probabilidad error verdadero en intervalo de confianza, z: unidades de desviación estándar, de las tablas) Por defecto: c=25%. Heurística ad hoc, pero que funciona bien Inducción de árboles de decisión 20

21 Ejemplo estimación error antes poda e=0,51 (6 * 0,47 +2 * 0, * 0,47) / 14 N=6 f=2/6=0,33 e=0,47 N=2 f=1/2=0,5 e=0,72 N=6 f=2/6=0,33 e=0,47 Inducción de árboles de decisión 21

22 Estimación error después poda N=14 f=5/14 e=0,46 (< 0.51 : podar) Inducción de árboles de decisión 22

23 Votación congreso: árbol sin podar [Quinlan, C4.5, 1993] 23

24 Votación congreso: árbol podado Inducción de árboles de decisión 24

25 Coste computacional n ejemplos entrenamiento, m atributos binarios Profundidad árbol: O(log n) Árbol equilibrado: suficientes ejemplos diversos Construcción árbol sin podar O(m n log n) Reemplazar subárbol O(n) Elevar subárbol O(n (log n) 2 ) Coste total: O(m n log n) + O(n (log n) 2 ) Inducción de árboles de decisión 25

26 9. Interpretación geométrica aprendizaje con árboles Inducción de árboles de decisión 26

27 Interpretación geométrica del aprendizaje en árboles (I) Descripción ejemplos: vector de características. Ejemplo: punto en espacio N-dimensional (N atributos). Interpretación geométrica del aprendizaje: dividir el espacio en regiones etiquetadas con una sola clase. Clasificación ejemplos no vistos: según región en que se sitúen. En el caso de los árboles: hiperrectángulos. Inducción de árboles de decisión 27

28 Ejemplo interpretación geométrica (I) Suponer dos atributos X, Y continuos, discretizados (X < C, Y < C`) Cada test: hiperplano ortogonal al eje del atributo C` C Inducción de árboles de decisión 28

29 Buen funcionamiento si las clases se distribuyen en hiperrectángulos C` C Inducción de árboles de decisión 29

30 Buen funcionamiento si las clases se distribuyen en hiperrectángulos C` C Inducción de árboles de decisión 30

31 Dificultades si el concepto objetivo no responde a hiperrectángulos Concepto objetivo: suponer recta pendiente no nula. C` C Inducción de árboles de decisión 31

32 Ejemplo interpretación geométrica (II) ID3 aproxima el concepto introduciendo tantos umbrales (y regiones) como sea necesario (sobrejuste) C` C Inducción de árboles de decisión 32

33 Cuándo no usar árboles Regiones con baja densidad de puntos: mucha holgura para determinar fronteras Regiones con puntos de distintas clases: distribución probabilística que no se representa bien con un árbol. Inducción de árboles de decisión 33

34 9. Conclusiones y ejemplos de aplicación Inducción de árboles de decisión 34

35 Conclusiones Método robusto y transportable a distintas tareas. Coste computacional pequeño (entrenamiento y prueba). Hipótesis comprensibles (especialmente en árboles pequeños). Uno de los métodos básicos que siempre es interesante probar. Comparable a redes de neuronas, como clasificador: Precisiones comparables, con ligera ventaja para Redes Árboles: menor coste computacional, conocimiento explícito. Redes: mayor coste computacional, conocimiento implícito. Especialmente adecuados si se requiere conocimiento explícito. Inducción de árboles de decisión 35

36 Ejemplos de aplicación Quinlan, 79, ID3, finales de ajedrez 1,4 millones posiciones, 49 atributos binarios: 715 configuraciones distintas Entrenamiento 20%, aleatorio Tasa acierto: 84% Induction of decision trees, Machine learning, 1, , Inducción de árboles de decisión 36

37 Ejemplos de aplicación Soybean (semillas de soja) R.S. Michalski and R.L. Chilausky, Diagnosis de enfermedades en las semillas de soja. 19 clases (15 significativas). 35 atributos. 307 Instancias. Tasa error 11% (C4.5) J.W. Shavlik, R.J. Mooney, and G.G. Towell. Symbolic and neural learning algorithms: an experimental comparison, machine learning. Machine Learning, 6(2): , 1991 Inducción de árboles de decisión 37

38 Ejemplos de aplicación Quinlan, hipotiroides, principio 80. Varios miles ejemplo. 7 atributos continuos, 23 discretos. 3-8 clases. Tasa error < 1% Quinlan J. R. Comparing connectionist and symbolic learning methods. In: Rivest R. L. ed. Computational Learning Theory and Natural Learning Systems, vol.1, Cambridge, MA: MIT Press, 1994, pp Inducción de árboles de decisión 38

39 Ejemplos de aplicación Console, Picardi, Theseider. Temporal Decision Trees: Model-based Diagnosis of Dynamic Systems On-Board. Journal of Artificial Intelligence Research 19 (2003) Árboles de decisión con restricciones temporales. Aplicación: Diagnosis on board para automóviles. Inducidos a partir de ejemplos generados mediante técnicas de diagnosis basada en modelos. Inducción de árboles de decisión 39