Tema 4. Análisis multivariante de la varianza

Documentos relacionados
Tema 3. El modelo lineal general multivariante

TEMA 2 Diseño de experimentos: modelos con varios factores

Wenceslao González Manteiga.

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

1 El Análisis de Varianza

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Métodos Estadísticos Multivariados

Modelo de Análisis de la Covarianza. Introducción al modelo de Medidas Repetidas

2 Modelo de Diseño de Experimentos con dos factores sin interacción. Hipótesis del modelo

Análisis de la varianza. Magdalena Cladera Munar Departamento de Economía Aplicada Universitat de les Illes Balears

DISEÑOS EXPERIMENTALES DE DOS GRUPOS Y MULTIGRUPO

Diseño de Experimentos. Diseños Factoriales

Diseño de Bloques al azar. Diseño de experimentos p. 1/25

TEMA 4 Modelo de regresión múltiple

Estadística; 3º CC. AA. Examen final, 23 de enero de 2009

Índice. Diseños factoriales. José Gabriel Palomo Sánchez E.U.A.T. U.P.M. Julio de 2011

Análisis de la varianza

ANOVA. Análisis de la Varianza. Univariante Efectos fijos Muestras independientes

2. Modelos con regresores endógenos

Bloque 3 Tema 14 ANÁLISIS DE LA VARIANZA. PRUEBA F

Soluciones a los ejercicios propuestos del Tema 6

Econometría II. Hoja de Problemas 1

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

Prácticas Tema 4: Modelo con variables cualitativas

EXAMEN DE ESTADÍSTICA II Junio de 2002 SOLUCIÓN (tiempo:100 minutos)

Tema 4. Regresión lineal simple

Tema 10: Introducción a los problemas de Asociación y Correlación

Test ANOVA. Prof. Jose Jacobo Zubcoff 1 ANOVA ANOVA. H 0 : No existen diferencias entre los k niveles H 1 : La hipótesis nula no es cierta

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

ANOVA I ES EL ANÁLISIS DE LA VARIANZA DE UN FACTOR

DISEÑO EN PARCELAS DIVIDIDAS

Intervalo para la media si se conoce la varianza

Tema 8: Contraste de hipótesis

Ideas básicas del diseño experimental

REGRESIÓN LINEAL SIMPLE

Tema 3 Normalidad multivariante

Capítulo 6. Análisis de la covarianza ANÁLISIS DE LA COVARIANZA UNIFACTORIAL INTRODUCCIÓN

ANOVA mul)factorial. Dept. of Marine Science and Applied Biology Jose Jacobo Zubcoff

DISEÑOS MULTIFACTORIALES CON RESTRICCIONES DE ALEATORIZACIÓN. Diseños en bloques completos aleatorizados con dos tratamientos

Análisis de la varianza (ANOVA)

Hipótesis Alternativa H 1 : ϑ Θ 1

ESQUEMA GENERAL. Definición Clasificación Diseño simple de medidas repetidas Diseño factorial de medidas repetidas Diseño factorial mixto

Pruebas de Hipótesis Multiples

Tema 2 Datos multivariantes

Análisis Multivariante de Datos

Anova unifactorial Grados de Biología y Biología sanitaria

Tema 8. Fundamentos de Análisis discriminante

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

ANEXO I. ANÁLISIS DE LA VARIANZA.

Tema 1. Preliminares. 1.1 Resultados algebraicos

Curso de nivelación Estadística y Matemática

Caso particular: Contraste de homocedasticidad

Ejercicio 1. Ejercicio 2

Universidad Nacional Autónoma de México Laboratorio de Cómputo Científico, F. C.

Econometría Aplicada

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Técnicas de Inferencia Estadística II. Tema 2. Contrastes de hipótesis en poblaciones normales

Tema 8: Regresión y Correlación

Análisis de Correspondencias Simple

2. EL DISEÑO UNIFACTORIAL (COMPARACION DE TRATAMIENTOS)

Estadística II Tema 1: Distribución normal multivariante

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

AMD - Análisis Multivariante de Datos

Tema 3: Análisis de datos bivariantes

ANÁLISIS DE REGRESIÓN

Diseños Factoriales. Diseño de experimentos p. 1/18

Estas dos clases. ANOVA I - Conceptos generales - Supuestos - ANOVA de una vía - Transformación de datos - Test a Posteriori - ANOVA de dos vías

Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste.

T2. El modelo lineal simple

CONTRASTES NO PARAMÉTRICOS: ALEATORIEDAD Y LOCALIZACIÓN

Diseños Factoriales. Diseño de experimentos p. 1/25

Prácticas Tema 2: El modelo lineal simple

Ejemplos Resueltos Tema 4

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

Diseño de experimentos Hugo Alexer Pérez Vicente

Ejercicios Resueltos: Estimación de ecuaciones simultáneas

Sistemas de Ecuaciones Lineales y Matrices

Diseños factoriales con tres factores

Información sobre Gastos de Consumo Personal y Producto Interno Bruto ( ) en miles de millones de dólares de 1992.

Análisis de la Varianza (ANOVA) y Correlación

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo

Tema 6: Introducción a la Inferencia Bayesiana

Estadística II Examen final junio - 17/06/16 Curso 2015/16 Soluciones Duración del examen: 2 h. y 45 min.

Tema 13: Contrastes No Paramétricos

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

UNA PROPUESTA PARA LA MAXIMIZACIÓN DE LA ESTADÍSTICA Q K

Modelos lineales. Tema 2: Inferencia en el modelo de regresión lineal simple. 6 de febrero de Carmen Armero

DISEÑO FACTORIAL MODELO JERÁRQUICO (0 ANIDADO)

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Método de cuadrados mínimos

Experimentos con factores aleatorios. Diseño de experimentos p. 1/36

ESTADÍSTICA. Tema 4 Regresión lineal simple

ANALISIS FACTORIAL. Jorge Galbiati R.

Algunos Tipos de matrices. Matrices. Algunos Tipos de matrices. Algunos Tipos de matrices

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

CAPÍTULO IV TRABAJO DE CAMPO Y PROCESO DE CONTRASTE DE LAS HIPÓTESIS

Contrastes para los parámetros de dos poblaciones Normales independientes. Varianzas desconocidas iguales

Multicolinealidad. Universidad de Granada. RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17

Teorema Central del Límite (1)

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN MÚLTIPLE Julián de la Horra Departamento de Matemáticas U.A.M.

Transcripción:

Máster en Técnicas Estadísticas Análisis Multivariante Año 2008 2009 Profesor: César Sánchez Sellero Tema 4 Análisis multivariante de la varianza 4 Presentación del modelo Se trata de comparar las medias de I poblaciones normales multivariantes independientes y con matriz de dispersión común Consideremos I muestras independientes Y Y 2 Y n de una población N d (µ, Σ Y 2 Y 22 Y 2 n2 de una población N d (µ 2, Σ Y I Y I2 Y I ni de una población N d (µ I, Σ Cada una de las I muestras está formada por variables independientes y con la misma distribución Se trata, por tanto, de I muestras aleatorias simples Además se supone que las I muestras son, entre sí, independientes Nótese que a las medias se les permite ser distintas, pero las varianzas se suponen todas iguales Por suponerse las varianzas iguales diremos que el modelo es homocedástico La única diferencia respecto del modelo univariante de análisis de la varianza radica en que las variables Y ij ahora pueden ser vectores 42 Descomposición de la variabilidad Contraste de igualdad de medias Podemos expresar este modelo en la forma del modelo lineal general multivariante así: Y U Y n Y µ U n U Y n = µ 2 + U n µ I Y I U I Y In I U In I Los parámetros de este modelo, que son los I vectores de medias µ,, µ I, se pueden estimar 39

40 Máster en Técnicas Estadísticas por mínimos cuadrados mediante el procedimiento general del modelo lineal, donde ahora n Y j n j= n 2 n 2 X X = X Y 2j Y = j= n I n I Y entonces ( X X X Y = Ȳ Ȳ 2 Ȳ I por lo que las medias muestrales resultan ser los estimadores bajo este modelo Ahora planteamos el contraste de la igualdad de todas las medias, esto es, el contraste de la hipótesis nula: H 0 : µ = µ 2 = = µ I Esta hipótesis se puede formular de modo equivalente así µ µ I = µ 2 µ I = = µ I µ I = 0 lo cual admite esta forma matricial AB = µ µ 2 µ I j= Y Ij = 0 (4 Bajo esta restricción lineal, que reduce los parámetros a una única media común µ, podemos considerar el nuevo modelo con ese único parámetro que se estimaría mediante la media global: ˆµ = I Y ij = n j= Ȳ i = Ȳ El contraste de la hipótesis de igualdad se puede llevar a cabo por el método basado en la Λ de Wilks, que compara la matriz de covarianzas de los residuos bajo el modelo general y bajo la hipótesis nula Así, si la hipótesis nula es cierta, el estadístico de contraste verica Λ(d, q, n p E + H

Análisis Multivariante 4 siendo E la matriz de covarianzas de los residuos bajo el modelo general y E H = E +H la matriz de covarianzas de los residuos bajo la hipótesis nula, p el número de parámetros independientes bajo el modelo general y p q el número de parámetros independientes bajo la hipótesis nula Esto da lugar a una descomposición de la matriz de covarianzas, que en este caso se suele representar mediante la llamada tabla del análisis multivariante de la varianza o tabla MANOVA: Fuente de variación Matriz de covarianzas Grados de libertad Entre poblaciones H = (Ȳi (Ȳi Ȳ Ȳ I Error E = Total E H = j= ( ( Yij Ȳi Yij Ȳi ( j= ( ( Yij Ȳ Yij Ȳ j= Observamos que esta tabla no es más que una extensión de la tabla ANOVA al caso multivariante Así, como y además sondependientes, tenemos que H Wishart d (Σ, I E Wishart d (Σ, n I Λ(d, I, n I E + H El sentido común nos invita a rechazar la hipótesis nula cuando la variabilidad proveniente de las diferencias entre poblaciones (que medimos mediante la matriz H sea grande comparada con la proveniente del error (medida por E Por tanto, rechazaremos la hipótesis nula cuando el estadístico / E + H tome un valor menor que el cuantil α de la distribución Λ(d, I, n I, siendo α el nivel de signicación jado de antemano Al igual que en el modelo lineal general multivariante, aquí también podemos plantear el procedimiento de uniónintersección para el contraste de la hipótesis nula de igualdad de todas las medias En ese caso, el estadístico de contraste sería φ max = máximo autovalor de HE y rechazaremos la hipótesis nula cuando φ max > φ max,α siendo φ max,α el cuantil α de la distribución de φ max Ejemplo 4 Sobre los datos de los lirios de Fisher, vamos a efectuar el contraste de igualdad del vector de medias para las tres especies Lo haremos suponiendo que cada individuo tiene distribución normal multivariante, las muestras sondependientes y tienen la misma matriz de covarianzas

42 Máster en Técnicas Estadísticas 43 Comparaciones múltiples Para un modelo lineal general tenemos { ( P a ABb a A ˆBb φ max,α a A (X X A ab Eb, a A ˆBb + φ max,α a A (X X A ab Eb } a, b = α obteniendo así un conjunto de intervalos de conanza simultáneos para a ABb, con nivel de conanza α En nuestro caso, las matrices A y B se encuentran en la expresión (4 y entonces a AB = (a, a 2,, a I (µ µ I (µ 2 µ I (µ I µ I = a (µ µ I + a 2 (µ 2 µ I + + a I (µ I µ I = c i µ i siendo c i = a i i {,, I } y c I = I a i De este modo, pasamos de considerar cualquier vector a a considerar cualquier vector (c,, c I que verique I c i = 0 De igual modo, A continuación observamos que a A ˆB = c i Ȳ i ( I a A = a,, a I, a i = (c,, c I de modo que a A ( X X A a = (c,, c I /n /n I c c I = Luego, nos queda el siguiente conjunto de intervalos de conanza simultáneos c i Ȳ c 2 i b Eb, c i Ȳ b Eb i b ( i b + (

Análisis Multivariante 43 para I c iµ i b con nivel de conanza α El vector (c,, c I indica qué poblaciones vamos a comparar, mientras que el vector b indica qué componentes del vector respuesta Y vamos a utilizar para la comparación De nuevo, φ max,α es el cuantil α de la distribución de φ max Así, si tomamos c r =, c s = y c i = 0 si i r, i s, quedando el vector (0,, 0,, 0,, 0,, 0,, 0, y b j =, b k = 0 si k j, para obtener b = (0,, 0,, 0,, 0, entonces (( ( Ȳ r Ȳs b ± φ max,α + b n r n Eb s r, s {,, I} j {,, d} es un conjunto de intervalos de conanza simultáneos para la comparación de las poblaciones résima y sésima en cada una de las componentes del vector Y Nótese que en este caso b Eb es la suma de cuadrados de los residuos relativos a la componente jésima En general, b Eb es la evaluación de la forma cuadrática E en el vector b, y contiene la suma de cuadrados de las combinaciones lineales de los residuos según el vector b Ejemplo 42 Sobre el ejemplo de los lirios, vamos a efectuar las comparaciones múltiples de los vectores de medias de cada especie 44 MANOVA con dos factores de variación Hasta aquí hemos considerado la comparación de poblaciones clasicadas según un único criterio En esta sección suponemos que hay dos factores: A y B Del factor A podemos distinguir I niveles, mientras que en el factor B podemos encontrar J niveles En cada una de las I J posibilidades realizamos K observaciones de un vector aleatorio Y El objetivo será estudiar la inuencia de los factores A y B, o de su interacción, en la media del vector Y Así, planteamos el siguiente modelo: Y ijk = µ + α i + β j + γ ij + U ijk k {,, K} i {,, I} j {,, J} siendo U ijk N d (0, Σ El parámetro µ representa la media global, los parámetros α i representan el efecto principal del factor A, los parámetros β j representan el efecto principal del factor B y los parámetros γ ij representan la interacción de los factores A y B Además verican α i = β j = j= γ ij = γ ij = 0 Este modelo también se puede ver como un caso particular del modelo lineal general multivariante Así, aplicaremos los resultados conocidos para el modelo lineal general, tanto en lo relativo a la estimación por mínimos cuadrados de los parámetros como en lo concerniente a contrastes de hipótesis referidas al modelo En este sentido planteamos hipótesis del tipo: H A : α i = 0 i H B : β j = 0 j j= H AB : γ ij = 0 i, j

44 Máster en Técnicas Estadísticas que se estudian en base a la siguiente descomposición de la variabilidad, mediante lo que llamaremos tabla MANOVA II: Fuente de variación Matriz de covarianzas Grados de libertad Factor A H A = JK (Ȳi (Ȳi Ȳ Ȳ I Factor B Interacción H B = IK H AB = K Error E = Total j= j= (Ȳ j (Ȳ j Ȳ Ȳ J (Ȳij Ȳi Ȳ j + Ȳ (I (J ( Ȳ ij Ȳi Ȳ j + K Ȳ ( ( Yijk Ȳij Yijk Ȳij IJ(K j= k= j= k= K ( Yijk Ȳ ( Yijk Ȳ IJK De este modo la hipótesis H A : α i = 0 i se contrasta en base al estadístico Λ (d, I, IJ(K E + H A la hipótesis H B : β j = 0 j se contrasta en base al estadístico Λ (d, J, IJ(K E + H B y la hipótesis H AB : γ ij = 0 i, j se contrasta en base al estadístico Λ (d, (I (J, IJ(K E + H AB Ejemplo 43 En una especie de cesped, denominada Paspalum, se está investigando el efecto que experimenta al ser infectada con un hongo Al mismo tiempo se tiene en cuenta la temperatura, dentro de un diseño con cuatro valores diferentes: 4, 8, 22, 26 o C En cada realización del experimento se miden tres variables: Y = El peso fresco de las raíces (medido en gramos Y 2 = La longitud máxima de las raíces (medida en milímetros Y 3 = El peso fresco de las hojas (medido en gramos Los datos se encuentran en el chero "tema4ejemplo3txt" Vamos a contrastar el efecto del tratamiento con hongos, el efecto de la temperatura y la posible interacción entre ambos efectos

Análisis Multivariante 45 Comparaciones múltiples Con la misma forma de proceder que en el MANOVA con un factor de variación, vamos a obtener intervalos de conanza simultáneos para combinaciones lineales de los parámetros de este modelo Lo haremos con los efectos principales del factor A La hipótesis H A se puede expresar en cualquiera de estas formas equivalentes: α = α 2 = = α I = 0 µ = µ 2 = = µ I µ µ I = µ 2 µ I = = µ (I µ I = 0 µ µ I µ 2 AB = µ I = 0 µ (I µ I Razonando igual que en el MANOVA I, llegamos a a AB = c i µ i con I c i = 0 De igual modo, a A ˆB = I c iȳ conjunto de intervalos de conanza simultáneos ( c i Ȳ i b c 2 i φmax,α b JK Eb, c i Ȳ i i b + Finalmente, obtenemos el siguiente ( JK b Eb para I c i µ i b con nivel de conanza α, siendo φ max,α el cuantil α de la distribución del autovalor más grande de H A E 45 Diseño por bloques aleatorizados Queremos estudiar el efecto de ciertos tratamientos sobre un vector aleatorio, pero en la experimentación debemos tener en cuenta la presencia de otro efecto debido a una variable de tipo bloque Para ello, elaboramos un diseño experimental en el que cada tipo de tratamiento se observará en cada nivel de la variable bloque No consideramos replicación Como resultado obtenemos los vectores aleatorios: Y ij que representa el vector aleatorio observado bajo el tratamiento iésimo y en el bloque jésimo Adoptamos el modelo siguiente: Y ij = µ + α i + β j + U ij i {,, I} j {,, J} siendo U ij N d (0, Σ El parámetro µ representa la media global, los parámetros α i representan el efecto del tratamiento y los parámetros β j representan el efecto bloque Observamos la gran semejanza con el modelo MANOVA II anterior, del que se diferencia en la ausencia de replicación, lo cual impide la estimación de interacciones Además, en el presente modelo distinguimos entre los tratamientos, que constituyen el objetivo primordial del estudio, y la variable bloque, que se considera únicamente para controlar su efecto sobre la variable respuesta

46 Máster en Técnicas Estadísticas Se verica α i = β j = 0 j= Este modelo también se puede ver como un caso particular del modelo lineal general multivariante Así, aplicaremos los resultados conocidos para el modelo lineal general, tanto en lo relativo a la estimación por mínimos cuadrados de los parámetros como en lo concerniente a contrastes de hipótesis referidas al modelo En este sentido planteamos hipótesis del tipo: H T : α i = 0 i H B : β j = 0 j que se estudian en base a la siguiente descomposición de la variabilidad: Fuente de variación Matriz de covarianzas Grados de libertad Tratamientos H T = J (Ȳi (Ȳi Ȳ Ȳ I Efecto Bloque H B = I Error E = Total j= j= j= (Ȳ j (Ȳ j Ȳ Ȳ J ( Yij Ȳi Ȳ j + Ȳ (I (J ( Y ij Ȳi Ȳ j + Ȳ ( ( Yij Ȳ Yij Ȳ IJ De este modo la hipótesis H T : α i = 0 i se contrasta en base al estadístico Λ (d, I, (I (J E + H T y la hipótesis H B : β j = 0 j se contrasta en base al estadístico Λ (d, J, (I (J E + H B Ejemplo 44 En las islas Cook se realizó un experimento en bloques aleatorizados para estudiar el efecto de seis tratamientos para combatir un parásito de las plantas de las alubias Se midieron tres variables Y = El número de parásitos por hoja Y 2 = El peso de las alubias por planta (medido en kilogramos Y 3 = sen ( p, donde p es la proporción de hojas infestadas con el parásito Los datos se encuentran en el chero "tema4ejemplo4txt" Vamos a contrastar si hay diferencias entre los tratamientos

Análisis Multivariante 47 Comparaciones múltiples También podemos considerar intervalos de conanza simultáneos para combinaciones lineales de los parámetros de este modelo Así, podemos obtener el siguiente conjunto de intervalos de conanza simultáneos c i Ȳ i b ( J b Eb, c i Ȳ i b + ( J b Eb para I c i µ i b con nivel de conanza α, siendo φ max,α el cuantil α de la distribución del autovalor más grande de H T E Bibliografía Johnson, RA y Wichern, DW (982 Applied multivariate statistical analysis Prentice-Hall Mardia, KV, Kent, JT y Bibby, JM (979 Multivariate analysis Academic Press Seber, GAF (984 Multivariate observations Wiley