Tema 2: Análisis Discriminante

Documentos relacionados
Capítulo 8. Análisis Discriminante

Clasificación. Aurea Grané. Análisis Discriminante

MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN

Clasificación y regresión logística

Tema 3: Análisis multivariante para la agrupación. Objetivo: Encontrar los grupos naturales en los que se divide la población.

RECONOCIMIENTO DE PAUTAS

Estadística II Tema 1: Distribución normal multivariante

Análisis de Datos Curso 2009/2010 Licenciatura en Biología. Análisis exploratorio de datos multivariantes

ANÁLISIS DISCRIMINANTE (AD)

ANÁLISIS DISCRIMINANTE

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

Juan Carlos Colonia INFERENCIA ESTADÍSTICA

Análisis Multivariante de Datos en Psicología. Ana María López Curso

EXAMEN DE ESTADÍSTICA Septiembre 2011

Guía docente 2007/2008

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

Unidad 15 Estadística inferencial. Estimación por intervalos. Pruebas de hipótesis

Examen de Septiembre de TACCIII y TAI (Modelo 2)

Tema 2 Datos multivariantes

ANX-PR/CL/ GUÍA DE APRENDIZAJE. ASIGNATURA Estadistica. CURSO ACADÉMICO - SEMESTRE Primer semestre

Sistemas de Reconocimiento de Patrones

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Tema 8. Fundamentos de Análisis discriminante

Estadística Multivariada Computacional Introducción al Aprendizaje Automático (parte 1)


Aprendizaje Supervisado Máquinas Vectoriales de Soporte

EJERCICIOS SOBRE CONTRASTE DE HIPÓTESIS

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

ESTADÍSTICA. Tema 4 Regresión lineal simple

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

Espacios vectoriales.

6. Inferencia con muestras grandes. Informática. Universidad Carlos III de Madrid

1. Muestreo e Inferencia Estadística

PRÁCTICA I. Ejercicios Teóricos

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Estrategia de análisis estadístico de los datos. Inferencia Estadística y contraste de hipótesis

TEMA 4 Modelo de regresión múltiple

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Tema 10: Introducción a los problemas de Asociación y Correlación

PRACTICAS DE TAMAÑO DE EFECTO Y POTENCIA

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Departamento de Matemática Aplicada a la I.T. de Telecomunicación

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso

ÍNDICE INTRODUCCIÓN... 21

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

TEMA 5: Especificación y Predicción en el MRL

ANÁLISIS DE LA SEPARABILIDAD LINEAL DE UNA BASE DE DATOS Data base linear separability analysis

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Teoría de muestras. Distribución de variables aleatorias en el muestreo. 1. Distribución de medias muestrales

Análisis Factorial clásico. Análisis de Correlación Canónica. Análisis Discriminante. Modelos Lineales multivariantes.

Probabilidad y Verosimilitud

ESTRUCTURA DEL EXAMEN DE MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II PARA ALUMNOS DE BACHILLERATO

7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL. Jorge Eduardo Ortiz Triviño

Marcel Goic

Tema 8: Regresión y Correlación

Índice general. Pág. N. 1. Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN. Diseño. Población. Muestra. Individuo (Observación, Caso, Sujeto) Variables

TEORIA DE LA DECISION DE BAYES

Estimación. Introducción. Sea X la variable aleatoria poblacional con distribución de probabilidad f θ donde. es el parámetro poblacional desconocido

Tema 13: Contrastes No Paramétricos

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA

Análisis Estadístico. Dra. Adela Del Carpio Rivera Doctor En Medicina

Introducción Climatología y variabilidad climática (espacial y temporal). Datos climáticos. Revisión sobre el concepto de probabilidad.

ANOVA. Análisis de la Varianza. Univariante Efectos fijos Muestras independientes

> plot(salmon[,- 1],col=as.factor(salmon[,1]))

Diplomado en Estadística Aplicada

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

Probabilidad y Estadística

Repaso de conceptos de álgebra lineal

5. Análisis de cúmulos

Aplicaciones Lineales

Análisis de datos Categóricos

Regresión con variables independientes cualitativas

Caso 105. Tamaño de muestra y potencia de una prueba. Diseño de experimentos. Jesús López Fidalgo

Tema 1. Introducción: el modelo econométrico

1 Cómo introducir datos de archivos de Excel (.xls) en SPSS/PC?

Fundamentos para la inferencia. Unidad 3 Parte II Estadísca Prof. Tamara Burdisso

ANÁLISIS DE REGRESIÓN

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

INDICE. Introducción Capitulo uno. La idea nace un proyecto de investigación Como se originan las investigaciones? 2 Resumen Conceptos básicos

Modelo de 5 Etapas. Decisiones de transporte (urbano) Dónde localizar actividades? Qué actividades realizar? Cómo viajar?

Estadística para la toma de decisiones

Unidad V: Estadística aplicada

JUNIO Encuentra, si existen, matrices cuadradas A, de orden 2, distintas de la matriz identidad, tales que: A

Capítulo 23. Análisis discriminante: El procedimiento Discriminante. Introducción

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

Mínimos Cuadrados Generalizados

Módulo de Estadística

PRINCIPIOS DE PSICOMETRÍA

Prueba t para muestras independientes

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.

Estudio descriptivo de dos variables

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Capítulo 23 Análisis discriminante: El procedimiento Discriminante Introducción

Econometría III Examen. 29 de Marzo de 2012

Tema 8: Introducción a la Teoría sobre Contraste de hipótesis

Estadística Inferencial. Resúmen

Transcripción:

Tema 2: Análisis Discriminante P 1 P 2 Problema de clasificación: Ténemos observaciones que corresponden a 2 grupos P_1, P_2. Si nos dan uno nuevo x_0 a que grupo pertenece?

Guión 1. Motivación 2. Clasificación con la distancia de Mahalanobis 3. Clasificación con la función discriminante de Fisher 4. Evaluación de la clasificación 5. Clasificación usando información previa (teoría de la decisión) 6. Clasificación penalizando errores

Ejemplos de Problemas de clasificación Ingenieria: (Pattern Recognition) Reconocer sonidos, clasificar Billetes o monedas, clasificar cartas según código postal Biologia: P1 Setosa P2 Versicolor P3 Virginica P1 Tortugas Hembra P2 Tortugas Macho P1 Larva Nauplius P2 Larva Metanauplius Medicina: P1 Paciente sano P2 Paciente Enfermo

Mas ejemplos Asignar un texto de Procedencia desconocida a un autor Cuadro falso/auténtico Persona votante de un partido u otro Clasificar SPAM en el correo electrónico

Enfoque 1: Clasificación via Mahalanobis Contexto: 2 Poblaciones P1 y P2 con sus respetivos vectores de medias que llamamos m1 y m2 y sus respectivas matrices de varianzas covarianzas S1 y S2 d ( x, m ) ( x m ) S ( x m ) M 1 2 1 0 1 0 1 1 0 1 d ( x, m ) ( x m ) S ( x m ) M 2 2 1 0 2 0 2 2 0 2

Regla de clasificación 2 2 0 1 M 0 2 d ( x, m ) d ( x, m ) M 1 2 x se clasifica en P 0 1

x0 P1

Caso sencillo S S S 1 2 1 1 0 1 0 1 0 2 0 2 x m )' S ( x m ) ( x m )' S ( x m ) Vector Discriminante m m ' ' ( 1 2) 0 2 w x w 1 w S m2 m1 ( )

Regla de clasificación es lineal. La región límite forma un hiperplano en un espacio de P dimensiones

Distribución normal multivariantes

Ejemplo con datos normales

w' x La proyección de x en la dirección dada por w

La región limite no es lineal!

Nota sobre muestra y poblaciones, son los valores que corresponden a toda la población m y S son los valores que calculamos dependientes de la muestra Si aceptamos la hipotesis 1 2 ˆ n n 1 1 2 S 1 n n 2 1 2 S 2 S w Estimador de La varianza= Matriz Intragrupos Combinada

En la practica 1 wˆ S w( m m ) S ( x x ) 2 1 w 2 1 1 Estimación del vector discriminante

=Sano =Enfermo

Y Finalmente la estimación para el vector discriminante!

Enfoque de Fisher Idea de Fisher: Busca la dirección que separe lo mas posible la distancia de las dos poblaciones. La mejor proyección de los Datos. El mejor vector a Maximizamos la variabilidad entre los grupos y a la vez minimizamos la variabilidad común. a x a x 1 2 a a Derivando 1 ( 2 1 a m m ) cte

El SPSS elige una constante dando lugar a lo que se llama el vector discriminante canónico wˆ ( x x 2 1 ) Constante de centralización 0

Mas notación Puntuación Discriminante canónica Centroides Función discriminante x x 1 0, x 2 Intuitivamente x pertenece a la población 1 si está mas cerca del centroide 1. Es decir si su puntuación discriminante es más cercana a la del centroide 1 que la del centroide 2 x x x x 1 2

Ventajas del enfoque de Fisher El vector discriminante nos da una indicación de que variables tienen mas poder Discriminante, pero cuidado esto tiene sentido si las variables están tipificadas!

EVALUAMOS EL ERROR Idea: Usar la regla de clasificación para evaluar los datos que ya sabemos a que grupo pertenecen y ver cuanto acertamos Tasa de error aparente Muestra de Entrenamineto TEA Total de mal clasificados n 100 Problema. Este método subestima el error real ya que los datos que son clasi ficados intervienen en la regla de clasificación. Se les usa dos veces

Notación Tipos de Errores e(1 2) e(2 1) Individuo que pertenece a P2 seclasifica en P1 Individuo que pertenece a P1 seclasifica en P2

Una solución: Tasa de Validación cruzada Se deja una observación fuera de las n y se clasifica con la regla que tiene en Cuenta los otros datos. Por pasos 1. Omitimos un dato y generamos una regla de clasificacion con los n restantes (Ejemplo vector discriminante de Fisher) 2. Clasificamos la observación apartada 3. Repetimos (1) y (2) con cada uno de los datos Tasa de error valoración cruzada Total de mal clasificados TEA n 100

Sobre la hipótesis 1 2 Cuándo decidimos si es cierta? Test M-Box Contraste de hipótesis H H : 0 1 2 : 1 1 2 SPSS p-valor Si el p-valor es pequeño se acepta H1

El p-valor en este test SPSS lo llama Sig

Qué hacer si no son iguales? Opción 1: Usar la distancia de Mahalanobis (Poblaciones Normales Ok) Opción 2: Proyectar en la misma dirección discriminante Pero hallar la distancia estandarizada por las varianzas Distintas de los grupos

Nota: SPSS no hace validación cruzada en este caso

Clasificación incorporando información previa Contexto: Consideramos 2 poblaciones P1 y P2 pero una es mucho Mas frecuente que otra (mas probable que otra). P( P ), P( P ) 1 1 2 2 1 2 1 Ejemplo: La primera población es mucho mas grande que la segunda.

Cómo se hace cuantitativo? Criterio de máxima verosimilitud P( P x ) se compara con P( P x ) 1 0 2 0 Depende de la distribución de P1 y de P2. Por la regla de Bayes se se reduce a f ( x ) f ( x ) 1 1 0 2 2 0 Función de Densidad en P1 Función de Densidad en P2

Distribuciones normales con Varianzas Covarianzas iguales Nueva regla de clasificación 0 x x ( 1 2 ) ( 2 ) 2 1 w x w Ln

Tipos de Probabilidad previa Caso 1 0.5 1 2 Distintos tamaños poblacionales Caso n 2, n 1 2 1 2 n n n n 1 2 1 2

Consecuencias Motivación : No todos los errores son iguales! Ejemplos : Medicina, Maquina expendedora Solución : Introducir costes c(1 2), c(2 1) Coste de clasificar en P1 un elemento de P2 Coste de clasificar en P2 un elemento de P1 Nota: El coste puede ser algo artificial. Porque unos errores los queremos Cometer menos que otros

Minimizamos costes Regla: Clasificamos el nuevo dato x de manera que minimizemos el Coste esperado c(2 1) f ( x ) c(1 2) f ( x ) 1 1 0 2 2 0

Distribuciones normales con matrices de varianzas covarianzas iguales Nueva regla de clasificación x x c(1 2) ( ) ( ) w x w 1 2 Ln 2 0 2 c (2 1) 1 Nota: SPSS no sabe incluir costes ni otra informacion previa

Mas de dos poblaciones Enfoque de Mahalanobis Enfoque de Fisher

d M Enfoque de Mahalanobis Dado un nuevo dato, se le asigna a la población cuyo vector de medias Este mas cercano. i.e 2 2 0 1 M 0 2 d ( x, m ) d ( x, m ) M 2 2 0 1 M 0 3 d ( x, m ) d ( x, m ) M 1 3 1 2 Y x0 P1

Enfoque de Fisher Si tenemos tres poblaciones buscamos la mejor proyección en Dos variables de manera que tenemos 2 puntuaciones discriminantes, 2 funciones discriminantes canónicas Centroides con dos coordenadas Si tenemos n variables tenemos n-1 de todo lo demás!

Si elegimos 2 variables al azar las variables no estan muy bien separadas

Las puntuaciones discriminantes si estan muy bien separadas

Regla de clasificación: Se calcula la puntuacion discriminante del nuevo Dato y se verifica de que centroide esta mas cerca

d M Enfoque de Fisher Dado un nuevo dato, se le asigna a la población cuyo centroide Este mas cercano. i P( x ) P( x ) P( x ) P( x ) 0 1 0 2 Y P( x ) P( x ) P( x ) P( x ) 0 1 0 3 x0 P1