Tema 8: Análisis Discriminante. Clasificación. Aurea Grané Departamento de Estadística Universidad Carlos III de Madrid. Análisis discriminante



Documentos relacionados
Clasificación. Aurea Grané. Análisis Discriminante

Procesos Estacionarios. Francisco J. González Serrano. Universidad Carlos III de Madrid

Tema 10. Estimación Puntual.

UNIVERSIDAD DE ATACAMA FACULTAD DE INGENIERÍA / DEPARTAMENTO DE MATEMÁTICA

Valores y vectores propios de una matriz. Juan-Miguel Gracia

Distribuciones Multivariantes. Distribuciones Multivariantes. Distribuciones Multivariantes. Objetivos del tema:

Sistemas de Generación de Energía Eléctrica HIDROLOGÍA BÁSICA. Universidad Tecnológica De Pereira

Selectividad Septiembre 2009 SEPTIEMBRE Opción A

Tema 1: Fundamentos de lógica, teoría de conjuntos y estructuras algebraicas: Apéndice

Una función es una relación entre dos conjuntos de tal manera que para cada elemento del primer conjunto corresponde un solo elemento del segundo

Optimización, Solemne 2. Semestre Otoño 2012 Profesores: Paul Bosch, Rodrigo López, Fernando Paredes, Pablo Rey Tiempo: 110 min.

Ejercicios Propuestos Tema 2

Selectividad Septiembre 2013 OPCIÓN B

Definición Se llama suceso aleatorio a cualquier subconjunto del espacio muestral.

TEMA 2. CÁLCULO DE PROBABILIDADES

Juegos Cooperativos. Core

Examen de Estadística Ingeniería de Telecomunicación

Programación lineal (+ extensiones). Ejemplos.

Cadenas de Markov y Perron-Frobenius

Tema 5: Vectores aleatorios bidimensionales.

UNIVERSIDADES DE ANDALUCÍA PRUEBA DE ACCESO A LA UNIVERSIDAD OPCIÓN A

VECTORES. Módulo, dirección y sentido de un vector fijo En un vector fijo se llama módulo del mismo a la longitud del segmento que lo define.

Unidad III: Programación no lineal

Solución del examen de Variable Compleja y Transformadas I. T. I. Electrónica y Electricidad 29 de enero de 2004

Contenido. 1 Definiciones y propiedades. 2. Método de la potencia. 3. Método de la potencia inversa. 4. Método de la potencia inversa desplazada.

MATEMÁTICAS CCSS JUNIO 2010 (COMÚN MODELO5) SELECTIVIDAD ANDALUCÍA

MATEMÁTICAS APLICADAS A LAS C.C. SOCIALES

Análisis y cuantificación del Riesgo

Tema 1. Inferencia estadística para una población

1. Derivadas parciales

PRUEBAS DE ACCESO A LA UNIVERSIDAD PARA ALUMNOS DE BACHILLERATO LOGSE Septiembre 2008

Matemáticas C.C.S.S. Repaso de Selectividad 1. Se desea obtener dos elementos químicos a partir de las sustancias A y B. Un kilo de A contiene 8

Soluciones Examen de Estadística Ingeniería Superior de Telecomunicación

9. INTRODUCCIÓN A DISTRIBU- CIONES MULTIVARIANTES

Tema 3: Aplicaciones de la diagonalización

Este documento ha sido generado para facilitar la impresión de los contenidos. Los enlaces a otras páginas no serán funcionales.

Vectores aleatorios. Estadística I curso

UNIVERSIDAD DE ATACAMA

Capítulo 1. Vectores en el plano Introducción

UNIVERSIDAD CARLOS III DE MADRID MATEMÁTICAS PARA LA ECONOMÍA II PROBLEMAS (SOLUCIONES )

Soluciones a los problemas Olimpiada de Matemáticas Fase local Extremadura Enero de 2015

Funciones vectoriales de variable vectorial. Son aplicaciones entre espacios eucĺıdeos, IR n, f : X IR n Y IR m

1. Hallar a qué velocidad hay que realizar un tiro parabólico para que llegue a una altura máxima de 100 m si el ángulo de tiro es de 30 o.

Test ( o Prueba ) de Hipótesis

Tema 5. Variables aleatorias discretas

2.5 Linealización de sistemas dinámicos no lineales

Análisis de la varianza (un factor): ANOVA

PROBLEMAS RESUELTOS DE TEORÍA DE COLAS. (M/M/1: Un servidor con llegadas de Poisson y tiempos de servicio Exponenciales)

UNIDAD 6. Programación no lineal

1. Introducción a la estadística 2. Estadística descriptiva: resumen numérico y gráfico de datos 3. Estadística inferencial: estimación de parámetros

1. Conceptos de teoría de la probabilidad

Comparación de medias

Inversión en el plano

Estimación de la densidad

Los valores de las respuesta son las puntuaciones que, de cada individuo, o cluster, obtenemos semanalmente durante cinco semanas consecutivas:

). (Nota: también lo es en cada uno de los demás intervalos de definición de la función tangente, pero no de manera global en toda la recta real).

ANEXO I. MATERIAS DE BACHILLERATO

13.TRANSFORMACIONES LINEALES DEFINICIÓN DE TRANSFORMACIÓN LINEAL DETERMINACIÓN DE UNA TRANSFORMACIÓN LINEAL

"CONTRASTES DE HIPÓTESIS" 4.4 Parte básica

Soluciones de los ejercicios de Selectividad sobre Probabilidad de Matemáticas Aplicadas a las Ciencias Sociales II

Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1

Clasificación de métricas.

Métodos Iterativos para Resolver Sistemas Lineales

Selectividad Junio 2008 JUNIO 2008 PRUEBA A

Definición operacional, independientemente de cualquier sistema de referencia

Geometría Tridimensional

Sistemas de ecuaciones lineales

Tema 7: Juegos con información incompleta

Universidad de Costa Rica Escuela de Matemática CONARE-PROYECTO RAMA. Funciones

Prof. Claudio del Pino O.

Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11

Álgebra Vectorial. Principios de Mecánica. Licenciatura de Física. Curso

La aplicación derivada sobre el espacio E de los polinomios en una variable, E D E, es

PROBLEMAS ADICIONALES RESUELTOS SOBRE VARIABLES ALETORIAS

Matrices Invertibles y Elementos de Álgebra Matricial

TEMA 5. MUESTREO PARA LA ACEPTACIÓN.

Cálculo de las Acciones Motoras en Mecánica Analítica

Relaciones entre conjuntos

Tema 3 VARIABLE ALEATORIA DISCRETA. PRINCIPALES DISTRIBUCIONES

Control Automático. Introducción al filtro de Kalman. Ing. Gabriela Ortiz León

Dinámica. Fuerza es lo que produce cualquier cambio en la velocidad de un objeto. Una fuerza es lo que causa una aceleración

Objetivos: Al inalizar la unidad, el alumno:

T.3 ESTIMACIÓN PUNTUAL

Probabilidad: problemas resueltos

Propuesta A. 2 0 b) Dada la ecuación matricial: X =, despeja y calcula la matriz X (0.75 ptos) 1 1

Tema 3: Variables aleatorias y vectores aleatorios bidimensionales

Diferenciabilidad de funciones de R n en R m

METODOS ESTADISTICOS.

Covarianza y coeficiente de correlación

2. Integrales dobles sobre regiones no rectangulares.

4.1 El espacio dual de un espacio vectorial

De la teoría a la demostración.

Diferenciabilidad, Regla de la Cadena y Aplicaciones

4. Se considera la función f(x) =. Se pide:

Estadística aplicada y modelización. 15 de junio de 2005

UNIVERSIDAD DE ATACAMA FACULTAD DE INGENIERÍA DEPARTAMENTO DE MATEMÁTICA

8. Estimación puntual

5 Ecuaciones lineales y conceptos elementales de funciones

UNIVERSIDAD DE ATACAMA

1. Ecuaciones no lineales

Transcripción:

Aurea Grané. Máster en Estadística. Universidade Pedagógica. 1 Aurea Grané. Máster en Estadística. Universidade Pedagógica. 2 Análisis discriminante Tema 8: Análisis Discriminante y Clasificación Aurea Grané Departamento de Estadística Universidad Carlos III de Madrid Supongamos que tenemos g poblaciones conocidas Ω 1,...,Ω g y en cada una de ellas observamos una muestra de cierto vector de interés X = X 1,...,X p ). El análisis discriminante se ocupa de describir, mediante las variables X i, los rasgos diferenciales entre las poblaciones. Se trata de encontrar funciones discriminantes o reglas de decisión h = hx 1,...,x p ) cuyos valores en los distintos grupos o poblaciones) estén lo más separados posible. Es decir, buscamos funciones h sencillas que permitan asignar cada uno de los individuos a una población concreta Ω α, α = 1,...,g, minimizando la tasa de error en dicha asignación. La más conocida es la regla discriminante lineal de Fisher, donde h es una función lineal de x = x 1,...,x p ). Aurea Grané. Máster en Estadística. Universidade Pedagógica. 3 Aurea Grané. Máster en Estadística. Universidade Pedagógica. 4 1. Discriminador lineal Clasificación en dos poblaciones Clasificación Dado un nuevo individuo ω, cuya población de procedencia se desconoce, y sobre el cual se pueden medir las variables, X 1,...,X p, es decir, x = x 1,...,x p ), donde x i = X i ω), para i = 1,...,p, el problema de clasificación trata de asignar éste individuo a alguna de las poblaciones Ω α, para α = 1,...,g. Para ello se utilizan las funciones discriminantes construidas a partir de la muestra. Sean µ 1,µ 2 los vectores de medias de las poblaciones Ω 1,Ω 2, respectivamente. Sea Σ la matriz de covarianzas común para ambas poblaciones. Sea ω el individuo a clasificar, para el cual se ha observado x = x 1,...,x p ) El criterio geométrico, consiste en asignar el individuo ω a la población más próxima, utilizando la distancia de Mahalanobis: δ 2 Mx,µ i ) = x µ i ) Σ 1 x µ i ), i = 1,2. La regla de decisión es la siguiente: ω se asigna a Ω 1 si δ 2 M x,µ 1) < δ 2 M x,µ 2), ω se asigna a Ω 2 en caso contrario.

Aurea Grané. Máster en Estadística. Universidade Pedagógica. 5 Aurea Grané. Máster en Estadística. Universidade Pedagógica. 6 A partir de la diferencia δm 2 x,µ 2) δm 2 x,µ 1), se construye la función discriminante lineal Lx) = x 1 2 µ 1 + µ 2 )) Σ 1 µ 1 µ 2 ) y se expresa la regla de decisión en función de ésta: ω se asigna a Ω 1 si Lx) > 0, en caso contrario, se asigna ω a Ω 2. Esta función discriminante es el discriminador lineal de Fisher. Ejercicio: Expresar Lx) como una diferencia entre δ 2 M x,µ 2) y δ 2 M x,µ 1). Clasificación cuando los parámetros son estimados En las aplicaciones prácticas, µ 1, µ 2 y Σ son desconocidas y se deberán estimar a partir de muestras de tamaños n 1, n 2 de las dos poblaciones Ω 1 y Ω 2. Sean x 1, x 2 y S 1, S 2 los vectores de medias y las matrices de covarianzas muestrales. La versión muestral del discriminador lineal de Fisher es ˆLx) = x 1 ) 2 x 1 + x 2 ) S 1 P x 1 x 2 ), donde S P = n 1 S 1 + n 2 S 2 )/n 1 + n 2 2), es la pooled within matrix. De forma análoga, ω se asigna a Ω 1 si ˆLx) > 0. Aurea Grané. Máster en Estadística. Universidade Pedagógica. 7 Aurea Grané. Máster en Estadística. Universidade Pedagógica. 8 Ejemplo 1: Problema 9.4 Un enólogo analiza dos componentes X 1 y X 2 en sendas muestras de dos tipos de vinos Datos de Newman et al., 1998). Vino 1 Vino 2 X 1 X 2 X 1 X 2 14.23 1065 12.37 520 13.20 1050 12.33 680 13.16 1185 12.64 450 14.37 1480 13.67 630 13.24 735 12.37 420 14.20 1450 12.17 355 14.39 1290 12.37 678 14.06 1295 13.11 502 14.83 1045 12.37 510 13.86 1045 13.34 750 14.10 1510 12.21 718 14.12 1280 12.29 870 13.75 1320 13.86 410 14.75 1150 13.49 472 14.38 1547 12.99 985 13.63 1310 14.30 1280 13.83 1130 14.19 1680 13.64 845 x 2 1600 1400 1200 1000 800 600 400 Vino 1 Vino 2 12.5 13 13.5 14 14.5 x 1 Clasificar mediante el discriminador lineal de Fisher la nueva observación x = 13.05,515).

Aurea Grané. Máster en Estadística. Universidade Pedagógica. 9 Aurea Grané. Máster en Estadística. Universidade Pedagógica. 10 Calculamos los vectores de medias y las matrices de covarianzas muestrales. Para el primer tipo de vino: x 1 = 14.0115,1234.6000) 0.2115 42.6801, S 1 =, 42.6801 52947.0400 y para el segundo tipo de vino: x 2 = 12.7720,596.6667) 0.3400 6.4900, S 2 =. 6.4900 33019.9524 La matriz de covarianzas ponderada es: 0.2827 22.9167 S p = 20S 1 + 15S 2 )/33 = 22.9167 47098.1844 El valor del discriminador lineal de Fisher para la nueva observación x = 13.05,515) es: ˆLx) = x 1 2 x 1 + x 2 ) ) S 1 p x 1 x 2 ) = 13.05 1 26.7835 0.2827 22.9167 515 2 1831.2667 22.9167 47098.1844 = 5.9288. 1 Puesto que ˆLx) < 0, asignaremos la nueva observación al segundo tipo de vino. Observad que nos hemos creído una hipótesis que no hemos comprobado cuál es? qué contraste deberíamos realizar? 1.2395 637.9333 Aurea Grané. Máster en Estadística. Universidade Pedagógica. 11 Aurea Grané. Máster en Estadística. Universidade Pedagógica. 12 Criterio geométrico: la regla del discriminador lineal de Fisher equivale a asignar el nuevo individuo a la población más próxima según la distancia de Mahalanobis: δ 2 Mx,x i ) = x x i ) S 1 p x x i ), i = 1,2. 1800 1600 1400 1200 1000 En nuestro caso, tenemos que: δ 2 Mx,x 1 ) = 12.3709, δ 2 Mx,x 2 ) = 0.5134. 800 600 400 200 Eje canónico Y=1.0148 X 1 +0.0035 X 2 Puesto que δ 2 M x,x 2) < δ 2 M x,x 1), la nueva observación se asigna al segundo tipo de vino. 0 12 12.5 13 13.5 14 14.5 15

Aurea Grané. Máster en Estadística. Universidade Pedagógica. 13 Aurea Grané. Máster en Estadística. Universidade Pedagógica. 14 2. Regla de máxima verosimilitud Sean Ω 1 y Ω 2 dos poblaciones y X = X 1,...,X p ) un vector con distribución de probabilidad conocida, dependiente de un parámetro θ que toma el valor θ 1 si X Ω 1 y θ 2 si X Ω 2. Sea x = x 1,...,x p ) el vector de observaciones de X sobre un individuo ω. La probabilidad o verosimilitud de la observación x en Ω i es L i x) = fx 1,...,x p ;θ i ). La regla discriminante de máxima verosimilitud consiste en asignar ω a la población Ω i para la cual la verosimilitud de la observación es mayor. Esta regla tiene asociada la siguiente función discriminante V x) = log L 1 x) log L 2 x). Si V x) > 0, ω se asigna a Ω 1. En caso contrario, ω se asigna a Ω 2. 3. Regla de Bayes En ciertas situaciones, se conocen las probabilidaddes a priori de que ω pertenezca a cada una de las poblaciones: q 1 = Pω Ω 1 ), q 2 = Pω Ω 2 ), q 1 + q 2 = 1. Una vez se dispone de las observaciones x = x 1,...,x p ), la probabilidad a posteriori de que ω pertenezca a las poblaciones teorema de Bayes) es: Pω Ω i x) = q i L i x) q 1 L 1 x) + q 2 L 2 x), i = 1,2. La regla discriminante de Bayes consiste en asignar ω a la población Ω i para la que Pω Ω i x) es máxima. Aurea Grané. Máster en Estadística. Universidade Pedagógica. 15 Aurea Grané. Máster en Estadística. Universidade Pedagógica. 16 La regla de Bayes tiene asociada la siguiente función discriminante, que se conoce como discriminador de Bayes: Bx) = log L 1 x) log L 2 x) + logq 1 /q 2 ), Si Bx) > 0, ω se asigna a Ω 1 y, en caso contrario, se asigna ω a Ω 2. Clasificación en poblaciones normales Supongamos ahora que: X = X 1,...,X p ) N p µ 1,Σ 1 ) en Ω 1 X = X 1,...,X p ) N p µ 2,Σ 2 ) en Ω 2, es decir: L i x) = Σ i 1/2 exp 2 π) p/2 { 1 } 2 x µ i) Σ 1 i x µ i ), i = 1,2. Propiedades: 1. Cuando q 1 = q 2 = 1/2, entonces Bx) = V x). 2. La regla de Bayes minimiza la probabilidad de clasificación errónea. Caso 1: Si µ 1 µ 2 y Σ 1 = Σ 2 = Σ, entonces: a) Los clasificadores de máxima verosimilitud y lineal coinciden: V x) = log L 1 x) log L 2 x) = 1 ) x µ 2 2 ) Σ 1 x µ 2 ) x µ 1 ) Σ 1 x µ 1 ) = Lx).

Aurea Grané. Máster en Estadística. Universidade Pedagógica. 17 Aurea Grané. Máster en Estadística. Universidade Pedagógica. 18 b) Si x R p proviene de alguna de las poblaciones Ω i, para i = 1,2, entonces el discriminador lineal de Fisher tiene distribución normal: Lx) = x 1 2 µ 1 + µ 2 )) Σ 1 µ 1 µ 2 ) = x µ) a = a x µ), donde a = Σ 1 µ 1 µ 2 ) y µ = µ 1 + µ 2 )/2. Su varianza y esperanza son: varlx)) = var a x µ)) = a Σa = M 2, 1 ELx)) = a 2 Ex µ) = a µ 1 µ 2 ) = 1 2 M2, si x Ω 1, 1 2 a µ 1 µ 2 ) = 1 2 M2, si x Ω 2, Por tanto, Lx) N 1 2 M2,M 2) si x Ω 1,Lx) N 1 2 M2,M 2) si x Ω 2. Puesto que Lx) tiene distribución de probabilidad conocida, puede calcularse la probabilidad de clasificación errónea. Se dice que el individuo x se clasifica erróneamente cuando se asigna a la población Ω 1 y en realidad proviene de Ω 2, o bien, cuando se asigna a la población Ω 2 y en realidad proviene de Ω 1. Luego la probabilidad de clasificación errónea es: 1 2 P Lx) > 0 x Ω 2) + 1 2 P Lx) < 0 x Ω 1) = Φ M ), 2 donde Φ es la función de distribución de la ley N0,1). c) Si conocemos las probabilidades a priori q 1 = Pω Ω 1 ), q 2 = Pω Ω 2 ), con q 1 + q 2 = 1, entonces el discriminador de Bayes es: Bx) = Lx) + logq 1 /q 2 ). Aurea Grané. Máster en Estadística. Universidade Pedagógica. 19 Aurea Grané. Máster en Estadística. Universidade Pedagógica. 20 Caso 2: Si µ 1 µ 2 y Σ 1 Σ 2, entonces: a) La regla de máxima verosimilitud proporciona el discriminador cuadrático: V x) = log L 1 x) log L 2 x) = 1 2 x Σ 1 2 Σ 1 1 )x + x Σ 1 1 µ 1 Σ 1 2 µ 2 ) + 1 2 µ 2 Σ 1 2 µ 2 1 2 µ 1 Σ 1 1 µ 1 + 1 2 log Σ 2 1 2 log Σ 1 = Qx), b) Si conocemos las probabilidades a priori q 1 = Pω Ω 1 ), q 2 = Pω Ω 2 ), con q 1 + q 2 = 1, entonces el discriminador de Bayes es: Bx) = Qx) + logq 1 /q 2 ). Clasificación en g 2 poblaciones Criterio geométrico. Se asigna el nuevo individuo a la población más próxima según la distancia de Mahalanobis, min 1 i g δ2 Mx,µ i ). Máxima verosilimitud. Se asigna el nuevo individuo a la población con mayor verosimilitud, max 1 i g L ix) = max 1 i g fx 1,...,x p ;θ i ). Regla de Bayes. Se asigna el nuevo individuo a la población con mayor probabilidad a posteriori, max Pω Ω q i L i x) i x) = max g 1 i g 1 i g i=1 q il i x), donde q i = Pω Ω i ) son las a priori con g i=1 q i = 1.