Métodos de Clasificación sin Métrica. Reconocimiento de Patrones- 2013

Transcripción

1 Métodos de Clasificación sin Métrica Reconocimiento de Patrones- 03

2 Métodos de Clasificación sin Métrica Datos nominales sin noción de similitud o distancia (sin orden). Escala nominal: conjunto de categorías mutuamente excluyentes y globalmente exhaustivas. Ej: Clasificación de frutas Características: color, textura, sabor, tamaño x={rojo, brillante, dulce, pequeño} Características cualitativas (categóricas): Ordinales (grado de educación) Nominales (profesión) Cómo aprender clases usando datos sin métrica? Cuál es la forma más eficiente de aprender usando datos nominales para clasificar?

3 Árboles de Decisión Es un clasificador con una estructura de árbol. Regla de decisión para clasificar datos usando atributos. El árbol consiste de nodos interiores y nodos terminales. Nodo interior : pregunta sobre un atributo concreto (ramas mutuamente distintas y excluyentes) Nodo terminal u hoja: asociado a una clase. Tamaño? Grande Verde Color? Rojo Amarillo Tamaño? Medio Chico Medio Chico SANDIA MANZANA UVA MANZANA FRUTILLA

4 Arboles de Clasificación Aprendizaje. Construcción del árbol a partir de un conjunto de muestras. Clasificación. Preguntas sobre los valores de los atributos, empezado por el nodo raíz y siguiendo el camino determinado por las respuestas a las preguntas de los nodos internos, hasta llegar a un nodo hoja. La etiqueta asignada a esta hoja es la que se asignará al patrón a clasificar.

5 Árboles de Decisión Fácilmente interpretables: interpretación de las clases en función de los atributos. Ej: MANZANA=(verde y medio) o (rojo y medio). Permite explicar decisiones. Adecuados para datos cuantitativos y cualitativos. Clasificación es rápida. Permite incluir conocimiento a priori de expertos Explicitan utilidad de las características. Benchmarck (referencia) para evaluar desempeño, a veces alcanza el desempeño de clasificadores complejos.

6 Requerimientos Objetos expresables en términos de una colección fija de atributos o propiedades. Es necesario discretizar atributos continuos o lo debe hacer el algoritmo. Las clases deben estar predefinidas (aprendizaje supervisado. Datos suficientes: usualmente cientos o miles de muestras de entrenamiento. Construcción del árbol a partir de un conjunto de muestras de entrenamiento.

7 Construcción de árboles de decisión (CART, ID3, C4.5) Cart: (classification and regression trees) Breimer 984 ID3, C4.5 Quinlann 99 Partimos de patrones etiquetados (D)??? Principio fundamental: simplicidad del árbol (principio parsimonia o navaja de Occam )

8 Construcción Proceso recursivo: dados los patrones que llegan a un nodo: declarar el nodo terminal- asigna clase ó encontrar una nueva característica y volver a dividir los patrones. Preguntas: Dos ramificaciones o más? Qué atributo en cada nodo? Cuando un nodo es terminal? Cómo asignar la clase?

9 Árboles Binarios Número de ramificaciones: Binarias No binarias si si Color verde? Color amarillo? no Cualquier decisión (cualquier árbol) puede representarse usando sólo decisiones binarias. Nos concentraremos en árboles binarios (son los usados en algoritmos prácticos) : Poder expresivo universal de los árboles binarios. Simplicidad comparativa del entrenamiento.

10 Construcción del árbol de clasificación Nodo raíz- tiene a todos los prototipos Parto el nodo raíz: Para una característica elijo la mejor partición que separe a los prototipos en clases más puras. Realizo lo mismo para las otras características. Repito para los nodos hijos hasta llegar a condición de parada (nodo hoja). Los prototipos asociados a un nodo hoja agrupamiento homogéneo, al nodo se le asigna una etiqueta.

11

12

13 Selección de las particiones De qué forma se hacen las particiones y se selecciona la mejor de entre las posibles en cada momento? Objetivo de una partición: es incrementar la homogeneidad de los conjuntos resultantes que sean mas puros. Medida de pureza nodo: Impureza del nodo N: i(n).

14 Criterios de partición Función de impureza N forma i d,d...d Impureza máxima Impureza mínima N Pw, Pw... Pw c Pw tales que: d estan representadas en la misma patronesson de una clase. max min definida : cuando c j 0 : cuando 0 y /c, /c,... /c sobre c - uplas de la j c, 0,...0 d proporción. j Pˆ( x w clases todos los j / N) # # j N N

15 Bondad de una partición N P I s P D N I N D Bondad de la partición s en un nodo s,n :decrecimie nto en impureza N s,n Δis,N in -P in P in I I D D

16 Impureza de un árbol I T IN in P N NT NT La selección continua de particiones que maximizan Δ i(s,n) es equivalente a encontrar las particiones que minizan la impureza global conjunto de nodos terminales. I T. La suma es en el

17 Criterios de medida de impureza Impureza de entropía Información (ID3, C4.5) i i N Pw log Pw N 0 in log c in 0 min c j j máx j

18 Criterios de medida de impureza Impureza de Gini (varianza) (CART) c c N i N i w P N i w P w P N i c w P w P N i máx c j j j c j i i ) ( ) ( 0 ) ( ) ( / ) ( ) ( ) ( ) ( ) ( ) ( ) ( min

19 Interpretación- Gini Esta es la Tasa de error esperado en el nodo N : si la clase a asignar al nodo N se sortea en forma aleatoria usando la distribución de clases presente en el nodo N. 3 ) ( ) ( ) ( )) ( )( ( )) ( )... ( ) ( )( ( )) ( )( ( i i i i i i i i i c w P w P w P w P w P w P w P w P w P w P w P

20 Criterios de medida de impureza Impureza de error de clasificación i( N) máx( P( wj j )) Error de clasificación si se asigna al nodo N la clase de la mayoría. Es la medida más picuda de las tres cuando las probabilidades son iguales. Derivadas discontinuas, complica búsqueda de decisión optima.

21 Fig: Hastie

22 Entropía y Gini más sensibles Gini más picudo cuando las probabilidades son iguales. Entropía o Gini se usan para crecer el árbol y error de clasificación para podarlo. Ej: Error de clasificación Gini Entropía (90,0) 0, 0,09 0,33 (45,5) (5,45) 0, 0,09 0,33 (70,0) (0,0) 0, 0,066 0,9

23 Criterios de partición Cuál es la mejor característica? La que maximiza el decremento de impureza i N in PiN P in I Características nominales (color verde?): probar con cada una y seleccionar la de mayor i. Decisiones sobre características ordinales o continuas: primero encontrar el límite de decisión óptimo para cada característica y luego elegir la mejor. I I D

24 Ejemplo /spam palabra clave: free,gift, offer, price presente/ausente : x={,, 0,} free? m =e+s si offer? si no spam si no m =e +s m =e +s spam Obs: no se repiten las características

25 Ejemplo log log log log log log ) ( m s m s m e m e m m m s m s m e m e m m m s m s m e m e N i si no m =e+s m =e +s m =e +s

26 Incorporación de atributos continuos Requiere la discretización de las características para poder incluirlas en el proceso de aprendizaje. Genero una característica por ejemplo booleana comparando la característica continua contra un umbral. Eligiendo el umbral que produzca la mejor ganancia de entropía.

27 Ejemplo Característica continua: frecuencia de aparición Se determina primero el límite de decisión óptimo free frec.% spam spam spam offer frec.% spam spam spam Punto medio o promedio ponderado

28 Límites de decisión si free<0,5? offer<0,35? z R R R R R Capacidad expresiva limitada de los límites de decisión free<0,65? si no no spam spam z x x x x z z x x x x Obs: Se puede volver a usar una característica. z z Pierde facilidad de interpretación

29 Optimalidad de la solución Optimalidad de decisión local: elegir el mejor atributo en cada nodo). No garantiza la optimalidad global (por ejemplo el número mínimo de nodos) La elección de la función de impureza no es tan determinante como la elección del criterio de parada y los métodos de podado. Árbol muy grande sobreajustará a los datos, muy pequeño puede perder capacidad de discriminación. Tamaño: parámetro que gobierna la complejidad del modelo. Debe elegirse de acuerdo a los datos. Se busca árbol más simple, más compacto. Occam s razor.

30 Criterio de parada Hacen crecer el árbol hasta el mínimo de impureza. Desventaja: sobre-ajuste (overfiting) Alternativas: Pre-podado: Detener el crecimiento Pos- podado: Crecer hasta el límite y luego podar

31 Criterios de Parada. Validación (cruzada): entrenamiento (90%), test (0%). Desventaja: se usan menos datos para entrenar. Paro partición cuando error comienza a crecer. E test entrenamiento. Umbral sobre la reducción de impureza: i (N) β. Árbol depende del β elegido por diseñador. 3. Umbral sobre la cantidad de patrones en un nodo. Continuar creciendo el árbol con pocos patrones produciría sobreajuste. (Particiones chicas en zonas densas y grandes en zonas dispersas similar k-vecinos).

32 Criterios de parada 4. Penalizar la complejidad del árbol min C T min i N T m T Tamaño: # nodos, #hojas. Depende de elección de α.>0 MDL: descripción de largo mínimo- si se utiliza impureza basada en entropía. Minimiza la suma de la complejidad del modelo y la descripción de los patrones dado el modelo. Dificultad determinar relación entre α y desempeño del clasificador.

33 Criterios de parada 5. Test de hipótesis- mide si reducción de impureza es estadísticamente significativa. Compara la distribución de clases en un nodo con la distribución de clases luego de hacer la ramificación y establecer si son significativamente distintos usando un test de hipótesis. Test ji-cuadrado: (o Pearson). Determinar si la distribución de eventos observados en una muestra es consistente con una cierta distribución teórica. (Eventos excluyentes y probabilidad total =)

34 x<x s n I =n I +n I n D =n D +n D n=n I +n D distinta de randomica. partición s es la ver si queremos, D I I D D I I e e e I e e I I n n n n n n n Pn n n n n n n n n n n w w C Criterios de parada

35 Hipótesis nula: las distribuciones son iguales Umbral para cierto nivel de confianza 0.0() 6.64 Nivel de confianza Grados de libertad: c : 0 0 rechazamos H 0 : hacemos ramificación aceptamos H 0 : se detiene crecimiento (nodo terminal) umbral establecido por el usuario árbol completo podado severo

36 Métodos de podado (pos-podado) Efecto horizonte: al detener el crecimiento podemos perder ramificaciones posteriores beneficiosas. Alternativa: crecer el árbol completamente y podarlo luego. Preferible si es computacionalmente tolerable. Idea: estimar error con y sin la ramificación y decidir si vale la pena (si no unir los nodos) x<x s?

37 Métodos de podado. Remplazo de sub-árbol Conjunto independiente para podado. Comenzando desde hojas y hacia la raíz, remplazo nodo con hoja etiquetada por clase mayoritaria. Calculo error en el conjunto de podado si es menor remplazo nodo por hoja. Obtengo árbol óptimo (para conjunto podado). El podado por mínimo costo- complejidad puede remplazar un sub-árbol complejo por una hoja directamente.

38 Poda por mínimo coste-complejidad Complejidad de un subarbol como el número de nodos terminales, T. Error de clasificación R(T). Medida de coste-complejidad : R (T) = R(T) + T 0:parámetro de complejidad R ( T( )) min T T max R ( T)

39 Selección del mejor árbol podado Escoger aquel que tenga asociado el menor error R * (T k ) cómo estimar honestamente R * (T k )?. Estimación por validación cruzada.

40 Métodos de podado. Elevación de Sub- árbol Usando todo los datos para entrenamiento Es más compleja y no necesariamente siempre es útil: Usada en C4.5. Estima el error cometido en un nodo cuando sustituyo sub-árbol por una de sus ramas. Top/down.

41 C4.5 Usa heurística para podado basada en la significancia estadística de las particiones. Terminamos con un conjunto de reglas simplificada que definen cada nodo terminal. No usa características sustitutas cuando faltan datos. No siempre sigue una estructura de árbol.

42 Árboles Inestabilidad: sensibles al conjunto de entrenamiento, alta varianza. Pequeño cambio en los datos puede generar gran cambio en particiones, haciendo interpretación precaria. Alternativas: Bagging, Random Forest, Option Trees. Priors y costos: Es posible incluir priors o costos pesando los patrones de entrenamiento con el prior o los costos. Ej: Índice de Gini: i( N) P( w ) P( w ) i, j i, j i j

43 Datos faltantes Construir el árbol usando los patrones que tienen definida la característica. Ej: Si falta x para un patrón x={x, x, x 3 } i(n) con n patrones para x y x 3, con n- para x Procedimiento: Luego de elegir una característica para una ramificación, elegir características suplentes en orden (surrogante) considerando la correlación entre características.

44 Datos faltantes Ej: correlación =# patrones a la izquierda por ambas decisiones + # patrones a la derecha por ambas decisiones En la clasificación si el atributo sobre el que hay que decidir falta se usa el siguiente suplente.

45 Duda

46 Qué clasificador es mejor? Algunos criterios: Criterio de crecimiento: impureza de entropía funciona bien - regla defecto. Podado preferible a parada con validación cruzada. Aunque podado de conjunto de datos grandes puede ser inabordable. No hay un árbol superior a otro. Logran desempeño similar a otros métodos como redes neuronales, k-vecinos. Particularmente útiles con datos no métricos.

47 Fortalezas y debilidades de Arboles Interpretabilidad de las reglas de decisión Bajo costo computacional para clasificar Pueden usar características continuas y categóricas Entrenamiento computacionalmente caro (postpoda) No tratan bien regiones no-rectangulares.