Clasificación Supervisada

Transcripción

1 Clasificación Supervisada Ricardo Fraiman 26 de abril de 2010

2 Resumen Reglas de Clasificación

3 Resumen Reglas de Clasificación

4 Descripción del problema Muestra de entrenamiento (X 1, Y 1 ),..., (X n, Y n ) E {1,..., m}. Típicamente E = R d. Los valores Y i son etiquetas que indican al grupo en que pertenece X i. características observadas (X i ) etiquetas indicando la naturaleza de las observaciones

5 Descripción del problema Muestra de entrenamiento (X 1, Y 1 ),..., (X n, Y n ) E {1,..., m}. Típicamente E = R d. Los valores Y i son etiquetas que indican al grupo en que pertenece X i. características observadas (X i ) etiquetas indicando la naturaleza de las observaciones Muestra de Clasificación características observadas (X ) etiquetas desconocidas

6 Descripción del problema Muestra de entrenamiento (X 1, Y 1 ),..., (X n, Y n ) E {1,..., m}. Típicamente E = R d. Los valores Y i son etiquetas que indican al grupo en que pertenece X i. características observadas (X i ) etiquetas indicando la naturaleza de las observaciones Muestra de Clasificación características observadas (X ) etiquetas desconocidas Problema: clasificar un nuevo dato X del cual no se conoce la etiqueta.

7 El clasificador Dado x E, queremos saber a que grupo y {1,..., m} pertenece. Para ello utilizaremos un Clasificador g : E {1,..., m}, o sea una función que a cada x asigne una etiqueta y.

8 Reglas de clasificación Análisis discriminante de Fisher

9 Reglas de clasificación Análisis discriminante de Fisher Vecinos más cercanos

10 Reglas de clasificación Análisis discriminante de Fisher Vecinos más cercanos CART

11 Error de Bayes Sea (X, Y ) E {1,..., m} un par aleatorio. Cometemos un Error cuando g(x ) Y.

12 Error de Bayes Sea (X, Y ) E {1,..., m} un par aleatorio. Cometemos un Error cuando g(x ) Y. La probabilidad de clasificar erróneamente usando g es L(g) = P[g(X ) Y ].

13 Error de Bayes Sea (X, Y ) E {1,..., m} un par aleatorio. Cometemos un Error cuando g(x ) Y. La probabilidad de clasificar erróneamente usando g es L(g) = P[g(X ) Y ]. El mejor clasificador posible es la función g que minimiza L(g).

14 Que implicancia tiene la ecuación anterior?

15 Que implicancia tiene la ecuación anterior? Hay problemas fáciles y otros difíciles. Para los difíciles por más grande que sea la muestra cometeremos muchos errores!!

16 Que implicancia tiene la ecuación anterior? Hay problemas fáciles y otros difíciles. Para los difíciles por más grande que sea la muestra cometeremos muchos errores!! Si L(g ) = 0,2, entonces...

17 Clasificadores basados en la muestra de entrenamiento Consideramos la muestra de entrenamiento de pares independientes {(X i, Y i ) : 1 i n}.

18 Clasificadores basados en la muestra de entrenamiento Consideramos la muestra de entrenamiento de pares independientes {(X i, Y i ) : 1 i n}. Un clasificador basado en la muestra de entrenamiento es g n ( ; X 1, Y 1,..., X n, Y n ) : E {1,..., m}

19 Clasificadores basados en la muestra de entrenamiento Consideramos la muestra de entrenamiento de pares independientes {(X i, Y i ) : 1 i n}. Un clasificador basado en la muestra de entrenamiento es g n ( ; X 1, Y 1,..., X n, Y n ) : E {1,..., m} El desempeño se mide por la probabilidad condicional de g n de cometer un error. L n (g n ) = P [g n (X ; X 1, Y 1,..., X n, Y n ) Y X 1, Y 1,..., X n, Y n ].

20 Consistencia Consideremos para cada n a la función g n : E (E {1,..., m}) n {1,..., m} que llamamos un clasificador. Una sucesión de clasificadores se denomina regla de clasificación {g n : n 1}. Una regla es consistente si ĺım n L n (g n ) = L.

21 El clasificador óptimo. Reglas Plug-in En lo que sigue consideraremos por simplicidad de notación m = 2. Por tanto supondremos que disponemos de información dada por la muestra de entrenamiento {(X i, Y i ), 1 i n}, donde X i, i = 1,..., n, son observaciones independientes de la variable X a valores en E y las Y i s son los valores correspondientes a las variables indicadoras Y que toman valores 0 o 1 de acuerdo a si el individuo pertenece a P 0 or P 1.

22 El clasificador óptimo. La regla de Bayes Luego el problema es encontrar una regla de clasificación que minimize el error de Bayes, (o riesgo de Bayes) o sea, g : E {0, 1} minimizando P (g(x ) Y ). No es dificil probar (ver por ejemplo Devroye et al. 1996, p. 11) que la regla óptima de clasificación (o regla de Bayes) esta dada por g (x) = 1 {η(x)>1/2}, (1) donde 1 A denota la función indicatriz del conjunto A y η(x) = E(Y X = x).

23 Como aproximar al clasificador óptimo Como la expresión exacta de η(x) es desconocida, (1) no se puede aplicar directamente. Usaremos la información provista por la muestra de entrenamiento, para construir clasificadores D n = (X i, Y i ), 1 i n) g n (x) = g n (x; D n ), con g n : E {0, 1} cuyo error condicional L n = P (g n (X ) Y D n ) este lo mas cerca posible del error de Bayes L = P(g (X ) Y ).

24 La expresión (1) sugiere claramente que un procedimiento plug-in para obtener clasificadores es reemplazar la función de regresión no paramétrica η(x) por un estimador de ella basada en los datos. Para ello debemos entonces estimar la función de regresión no paramétrica (la Esperanza Condicional) η(x). Como hacerlo? Tenemos un problema no paramétrico (infinito dimensional...

25 Estimación de la distribución condicional y la esperanza condicional Supongamos que tenemos pares D n = ((X i, Y i ), 1 i n) de vectores aleatorios, y queremos estimar E(Y X = x). Si la distribución de (X, Y ) es discreta, y toma un número finito de valores como estimaríamos P(Y = y X = x)? y P(Y y X = x)?

26 Estimación no paramétrica de la distribución condicional Tomaríamos la distribución empírica de las Y s cuyos X s fueran iguales a x. F n (Y y X = x) = n i=1 1 (,y](y i )1 {Xi =x} n i=1 1. {X i =x} E Pn (Y X = x) = n i=1 Y i1 {Xi =x} n i=1 1 {X i =x}, o sea el promedio de las Y s cuyas X s sean iguales a x.

27 Estimación no paramétrica de la distribución condicional: caso general Como hacemos la estimación cuando X no es una variable discreta?? Lo razonable será estimar la esperanza condicional como el promedio de las observaciones Y s cuyos X s estén cerca de x. Claro que debemos formalizar que quiere decir cerca de x. Este problema fué considerado por Stone en el año 1977 dando una respuesta muy completa al problema.

28 Una familia muy general de estimadores de la esperanza condicional Stone consideró una familia muy general de estimadores de la función de regresión (Esperanza condicional) de la forma n W ni (x)y i, (2) i=1 donde los pesos W ni (x) = W ni (x, X 1,..., X n ) se concentran en aquellos X i que están cerca de x. Más precisamente los pesos verifican las siguientes hipótesis.

29 Hipótesis sobre los pesos Supongamos que para cualquier distribución de X, los pesos W ni (x) verifican las siguientes tres condiciones: (i) Existe una constante c tal que, para toda función no negativa y medible f que verifica que E(f (X )) <, ( n ) E W ni (X )f (X i ) ce(f (X )). (ii) Para todo a > 0, ĺım E n i=1 ( n ) W ni (X )1 { Xi X >a} = 0. i=1 (iii) ( ) ĺım E máx W ni(x ) = 0. n 1 i n

30 A partir de este resultado, Stone (1977) probó la consistencia universal para una clase muy general de reglas de clasificación de la forma n 1 si W ni (x)i g n (x) = {Yi =1} > i=1 0 sino, n W ni (x)i {Yi =0} i=1 o equivalentemente, n 1 si W ni (x)y i > 1/2 g n (x) = i=1 0 sino, donde los pesos W ni (x) = W ni (x, X 1,..., X n ) verifican las hipótesis anteriores.

31 Theorem (Stone 1977) Bajo las hipótesis sobre los pesos enunciadas, la regla g n es universalmente consistente. O sea que cualquiera sea la distribución del par (X, Y ) la familia de reglas de clasificación g n convergen a la regla óptima de Bayes.

32 Otra forma de obtener clasificadores: Minimizando el riesgo empírico Otra forma de obtener clasificadores es definir el riesgo de Bayes empírico y proponer clasificadores que lo minimicen. En efecto, como la distribución de (X, Y ) es en general desconocida, el valor exacto del riesgo de un clasificador es desconocido, aunque puede estimarse por el riesgo empírico, ˆL n = ˆL n (g) = 1 n n 1 {gn(xi ) Y i } (3) Luego, otra forma de conseguir clasificadores es la de elegir primero una familia de reglas de clasificación C (con una estructura simple o otra propiedad interesante) y resolver el problema de minimización en dicha clase. i=1 g n = argmin g CˆLn (g) (4)

33 Veremos a continuación las reglas de clasificación mas conocidas. Los tres métodos más habituales son: La regla de Fisher Las reglas de vecinos más cercanos CART La mas clásica es la regla de clasificación de Fisher.

34 Regla de Fisher de clasificación lineal El clasificador lineal de Fisher es posiblemente la regla de clasificación más popular entre los usuarios. La regla de Fisher se aplica típicamente en el caso homocedástico en el cual las dos poblaciones P 0 y P 1 tienen la misma matriz de covarianza Σ pero diferentes vectores de medias µ 0 y µ 1. La regla está basada en una transformación lineal: x β t x de modo que x se asigna a la población P 0 siempre que β t x está más cerca de β t µ 0 que de β t µ 1.

35 La transformación lineal se elige maximizando (en β) la separación entre las medias proyectadas β t µ 0 y β t µ 1. Para que el problema anterior tenga solución, la maximización se hace sujeta a la restricción que la varianza común β t Σβ de β t X sea 1. Esto reduce el problema a maximizar en β el siguiente cociente entre varianza entre clases y la varianza dentro de clases, (β t µ 0 β t µ 1 ) 2 β t Σβ

36 Basta mirar la distancia de Mahalanobis a las medias El clasificador resultante es equivalente a asignar una nueva observación x minimizando la distancia de Mahalanobis a las medias µ 0 y µ 1, o sea, x se asigna a P 0 si (x µ 0 ) t Σ 1 (x µ 0 ) < (x µ 1 ) t Σ 1 (x µ 1 )

37 Ejemplos de la Regla de Fisher en clase 4