Tema 2: Análisis Discriminante P 1 P 2 Problema de clasificación: Ténemos observaciones que corresponden a 2 grupos P_1, P_2. Si nos dan uno nuevo x_0 a que grupo pertenece?
Guión 1. Motivación 2. Clasificación con la distancia de Mahalanobis 3. Clasificación con la función discriminante de Fisher 4. Evaluación de la clasificación 5. Clasificación usando información previa (teoría de la decisión) 6. Clasificación penalizando errores
Ejemplos de Problemas de clasificación Ingenieria: (Pattern Recognition) Reconocer sonidos, clasificar Billetes o monedas, clasificar cartas según código postal Biologia: P1 Setosa P2 Versicolor P3 Virginica P1 Tortugas Hembra P2 Tortugas Macho P1 Larva Nauplius P2 Larva Metanauplius Medicina: P1 Paciente sano P2 Paciente Enfermo
Mas ejemplos Asignar un texto de Procedencia desconocida a un autor Cuadro falso/auténtico Persona votante de un partido u otro Clasificar SPAM en el correo electrónico
Enfoque 1: Clasificación via Mahalanobis Contexto: 2 Poblaciones P1 y P2 con sus respetivos vectores de medias que llamamos m1 y m2 y sus respectivas matrices de varianzas covarianzas S1 y S2 d ( x, m ) ( x m ) S ( x m ) M 1 2 1 0 1 0 1 1 0 1 d ( x, m ) ( x m ) S ( x m ) M 2 2 1 0 2 0 2 2 0 2
Regla de clasificación 2 2 0 1 M 0 2 d ( x, m ) d ( x, m ) M 1 2 x se clasifica en P 0 1
x0 P1
Caso sencillo S S S 1 2 1 1 0 1 0 1 0 2 0 2 x m )' S ( x m ) ( x m )' S ( x m ) Vector Discriminante m m ' ' ( 1 2) 0 2 w x w 1 w S m2 m1 ( )
Regla de clasificación es lineal. La región límite forma un hiperplano en un espacio de P dimensiones
Distribución normal multivariantes
Ejemplo con datos normales
w' x La proyección de x en la dirección dada por w
La región limite no es lineal!
Nota sobre muestra y poblaciones, son los valores que corresponden a toda la población m y S son los valores que calculamos dependientes de la muestra Si aceptamos la hipotesis 1 2 ˆ n n 1 1 2 S 1 n n 2 1 2 S 2 S w Estimador de La varianza= Matriz Intragrupos Combinada
En la practica 1 wˆ S w( m m ) S ( x x ) 2 1 w 2 1 1 Estimación del vector discriminante
=Sano =Enfermo
Y Finalmente la estimación para el vector discriminante!
Enfoque de Fisher Idea de Fisher: Busca la dirección que separe lo mas posible la distancia de las dos poblaciones. La mejor proyección de los Datos. El mejor vector a Maximizamos la variabilidad entre los grupos y a la vez minimizamos la variabilidad común. a x a x 1 2 a a Derivando 1 ( 2 1 a m m ) cte
El SPSS elige una constante dando lugar a lo que se llama el vector discriminante canónico wˆ ( x x 2 1 ) Constante de centralización 0
Mas notación Puntuación Discriminante canónica Centroides Función discriminante x x 1 0, x 2 Intuitivamente x pertenece a la población 1 si está mas cerca del centroide 1. Es decir si su puntuación discriminante es más cercana a la del centroide 1 que la del centroide 2 x x x x 1 2
Ventajas del enfoque de Fisher El vector discriminante nos da una indicación de que variables tienen mas poder Discriminante, pero cuidado esto tiene sentido si las variables están tipificadas!
EVALUAMOS EL ERROR Idea: Usar la regla de clasificación para evaluar los datos que ya sabemos a que grupo pertenecen y ver cuanto acertamos Tasa de error aparente Muestra de Entrenamineto TEA Total de mal clasificados n 100 Problema. Este método subestima el error real ya que los datos que son clasi ficados intervienen en la regla de clasificación. Se les usa dos veces
Notación Tipos de Errores e(1 2) e(2 1) Individuo que pertenece a P2 seclasifica en P1 Individuo que pertenece a P1 seclasifica en P2
Una solución: Tasa de Validación cruzada Se deja una observación fuera de las n y se clasifica con la regla que tiene en Cuenta los otros datos. Por pasos 1. Omitimos un dato y generamos una regla de clasificacion con los n restantes (Ejemplo vector discriminante de Fisher) 2. Clasificamos la observación apartada 3. Repetimos (1) y (2) con cada uno de los datos Tasa de error valoración cruzada Total de mal clasificados TEA n 100
Sobre la hipótesis 1 2 Cuándo decidimos si es cierta? Test M-Box Contraste de hipótesis H H : 0 1 2 : 1 1 2 SPSS p-valor Si el p-valor es pequeño se acepta H1
El p-valor en este test SPSS lo llama Sig
Qué hacer si no son iguales? Opción 1: Usar la distancia de Mahalanobis (Poblaciones Normales Ok) Opción 2: Proyectar en la misma dirección discriminante Pero hallar la distancia estandarizada por las varianzas Distintas de los grupos
Nota: SPSS no hace validación cruzada en este caso
Clasificación incorporando información previa Contexto: Consideramos 2 poblaciones P1 y P2 pero una es mucho Mas frecuente que otra (mas probable que otra). P( P ), P( P ) 1 1 2 2 1 2 1 Ejemplo: La primera población es mucho mas grande que la segunda.
Cómo se hace cuantitativo? Criterio de máxima verosimilitud P( P x ) se compara con P( P x ) 1 0 2 0 Depende de la distribución de P1 y de P2. Por la regla de Bayes se se reduce a f ( x ) f ( x ) 1 1 0 2 2 0 Función de Densidad en P1 Función de Densidad en P2
Distribuciones normales con Varianzas Covarianzas iguales Nueva regla de clasificación 0 x x ( 1 2 ) ( 2 ) 2 1 w x w Ln
Tipos de Probabilidad previa Caso 1 0.5 1 2 Distintos tamaños poblacionales Caso n 2, n 1 2 1 2 n n n n 1 2 1 2
Consecuencias Motivación : No todos los errores son iguales! Ejemplos : Medicina, Maquina expendedora Solución : Introducir costes c(1 2), c(2 1) Coste de clasificar en P1 un elemento de P2 Coste de clasificar en P2 un elemento de P1 Nota: El coste puede ser algo artificial. Porque unos errores los queremos Cometer menos que otros
Minimizamos costes Regla: Clasificamos el nuevo dato x de manera que minimizemos el Coste esperado c(2 1) f ( x ) c(1 2) f ( x ) 1 1 0 2 2 0
Distribuciones normales con matrices de varianzas covarianzas iguales Nueva regla de clasificación x x c(1 2) ( ) ( ) w x w 1 2 Ln 2 0 2 c (2 1) 1 Nota: SPSS no sabe incluir costes ni otra informacion previa
Mas de dos poblaciones Enfoque de Mahalanobis Enfoque de Fisher
d M Enfoque de Mahalanobis Dado un nuevo dato, se le asigna a la población cuyo vector de medias Este mas cercano. i.e 2 2 0 1 M 0 2 d ( x, m ) d ( x, m ) M 2 2 0 1 M 0 3 d ( x, m ) d ( x, m ) M 1 3 1 2 Y x0 P1
Enfoque de Fisher Si tenemos tres poblaciones buscamos la mejor proyección en Dos variables de manera que tenemos 2 puntuaciones discriminantes, 2 funciones discriminantes canónicas Centroides con dos coordenadas Si tenemos n variables tenemos n-1 de todo lo demás!
Si elegimos 2 variables al azar las variables no estan muy bien separadas
Las puntuaciones discriminantes si estan muy bien separadas
Regla de clasificación: Se calcula la puntuacion discriminante del nuevo Dato y se verifica de que centroide esta mas cerca
d M Enfoque de Fisher Dado un nuevo dato, se le asigna a la población cuyo centroide Este mas cercano. i P( x ) P( x ) P( x ) P( x ) 0 1 0 2 Y P( x ) P( x ) P( x ) P( x ) 0 1 0 3 x0 P1