Tema 4. Análisis multivariante de la varianza

Máster en Técnicas Estadísticas Análisis Multivariante Año 2008 2009 Profesor: César Sánchez Sellero Tema 4 Análisis multivariante de la varianza 4 Presentación del modelo Se trata de comparar las medias de I poblaciones normales multivariantes independientes y con matriz de dispersión común Consideremos I muestras independientes Y Y 2 Y n de una población N d (µ, Σ Y 2 Y 22 Y 2 n2 de una población N d (µ 2, Σ Y I Y I2 Y I ni de una población N d (µ I, Σ Cada una de las I muestras está formada por variables independientes y con la misma distribución Se trata, por tanto, de I muestras aleatorias simples Además se supone que las I muestras son, entre sí, independientes Nótese que a las medias se les permite ser distintas, pero las varianzas se suponen todas iguales Por suponerse las varianzas iguales diremos que el modelo es homocedástico La única diferencia respecto del modelo univariante de análisis de la varianza radica en que las variables Y ij ahora pueden ser vectores 42 Descomposición de la variabilidad Contraste de igualdad de medias Podemos expresar este modelo en la forma del modelo lineal general multivariante así: Y U Y n Y µ U n U Y n = µ 2 + U n µ I Y I U I Y In I U In I Los parámetros de este modelo, que son los I vectores de medias µ,, µ I, se pueden estimar 39

40 Máster en Técnicas Estadísticas por mínimos cuadrados mediante el procedimiento general del modelo lineal, donde ahora n Y j n j= n 2 n 2 X X = X Y 2j Y = j= n I n I Y entonces ( X X X Y = Ȳ Ȳ 2 Ȳ I por lo que las medias muestrales resultan ser los estimadores bajo este modelo Ahora planteamos el contraste de la igualdad de todas las medias, esto es, el contraste de la hipótesis nula: H 0 : µ = µ 2 = = µ I Esta hipótesis se puede formular de modo equivalente así µ µ I = µ 2 µ I = = µ I µ I = 0 lo cual admite esta forma matricial AB = µ µ 2 µ I j= Y Ij = 0 (4 Bajo esta restricción lineal, que reduce los parámetros a una única media común µ, podemos considerar el nuevo modelo con ese único parámetro que se estimaría mediante la media global: ˆµ = I Y ij = n j= Ȳ i = Ȳ El contraste de la hipótesis de igualdad se puede llevar a cabo por el método basado en la Λ de Wilks, que compara la matriz de covarianzas de los residuos bajo el modelo general y bajo la hipótesis nula Así, si la hipótesis nula es cierta, el estadístico de contraste verica Λ(d, q, n p E + H

Análisis Multivariante 4 siendo E la matriz de covarianzas de los residuos bajo el modelo general y E H = E +H la matriz de covarianzas de los residuos bajo la hipótesis nula, p el número de parámetros independientes bajo el modelo general y p q el número de parámetros independientes bajo la hipótesis nula Esto da lugar a una descomposición de la matriz de covarianzas, que en este caso se suele representar mediante la llamada tabla del análisis multivariante de la varianza o tabla MANOVA: Fuente de variación Matriz de covarianzas Grados de libertad Entre poblaciones H = (Ȳi (Ȳi Ȳ Ȳ I Error E = Total E H = j= ( ( Yij Ȳi Yij Ȳi ( j= ( ( Yij Ȳ Yij Ȳ j= Observamos que esta tabla no es más que una extensión de la tabla ANOVA al caso multivariante Así, como y además sondependientes, tenemos que H Wishart d (Σ, I E Wishart d (Σ, n I Λ(d, I, n I E + H El sentido común nos invita a rechazar la hipótesis nula cuando la variabilidad proveniente de las diferencias entre poblaciones (que medimos mediante la matriz H sea grande comparada con la proveniente del error (medida por E Por tanto, rechazaremos la hipótesis nula cuando el estadístico / E + H tome un valor menor que el cuantil α de la distribución Λ(d, I, n I, siendo α el nivel de signicación jado de antemano Al igual que en el modelo lineal general multivariante, aquí también podemos plantear el procedimiento de uniónintersección para el contraste de la hipótesis nula de igualdad de todas las medias En ese caso, el estadístico de contraste sería φ max = máximo autovalor de HE y rechazaremos la hipótesis nula cuando φ max > φ max,α siendo φ max,α el cuantil α de la distribución de φ max Ejemplo 4 Sobre los datos de los lirios de Fisher, vamos a efectuar el contraste de igualdad del vector de medias para las tres especies Lo haremos suponiendo que cada individuo tiene distribución normal multivariante, las muestras sondependientes y tienen la misma matriz de covarianzas

42 Máster en Técnicas Estadísticas 43 Comparaciones múltiples Para un modelo lineal general tenemos { ( P a ABb a A ˆBb φ max,α a A (X X A ab Eb, a A ˆBb + φ max,α a A (X X A ab Eb } a, b = α obteniendo así un conjunto de intervalos de conanza simultáneos para a ABb, con nivel de conanza α En nuestro caso, las matrices A y B se encuentran en la expresión (4 y entonces a AB = (a, a 2,, a I (µ µ I (µ 2 µ I (µ I µ I = a (µ µ I + a 2 (µ 2 µ I + + a I (µ I µ I = c i µ i siendo c i = a i i {,, I } y c I = I a i De este modo, pasamos de considerar cualquier vector a a considerar cualquier vector (c,, c I que verique I c i = 0 De igual modo, A continuación observamos que a A ˆB = c i Ȳ i ( I a A = a,, a I, a i = (c,, c I de modo que a A ( X X A a = (c,, c I /n /n I c c I = Luego, nos queda el siguiente conjunto de intervalos de conanza simultáneos c i Ȳ c 2 i b Eb, c i Ȳ b Eb i b ( i b + (

Análisis Multivariante 43 para I c iµ i b con nivel de conanza α El vector (c,, c I indica qué poblaciones vamos a comparar, mientras que el vector b indica qué componentes del vector respuesta Y vamos a utilizar para la comparación De nuevo, φ max,α es el cuantil α de la distribución de φ max Así, si tomamos c r =, c s = y c i = 0 si i r, i s, quedando el vector (0,, 0,, 0,, 0,, 0,, 0, y b j =, b k = 0 si k j, para obtener b = (0,, 0,, 0,, 0, entonces (( ( Ȳ r Ȳs b ± φ max,α + b n r n Eb s r, s {,, I} j {,, d} es un conjunto de intervalos de conanza simultáneos para la comparación de las poblaciones résima y sésima en cada una de las componentes del vector Y Nótese que en este caso b Eb es la suma de cuadrados de los residuos relativos a la componente jésima En general, b Eb es la evaluación de la forma cuadrática E en el vector b, y contiene la suma de cuadrados de las combinaciones lineales de los residuos según el vector b Ejemplo 42 Sobre el ejemplo de los lirios, vamos a efectuar las comparaciones múltiples de los vectores de medias de cada especie 44 MANOVA con dos factores de variación Hasta aquí hemos considerado la comparación de poblaciones clasicadas según un único criterio En esta sección suponemos que hay dos factores: A y B Del factor A podemos distinguir I niveles, mientras que en el factor B podemos encontrar J niveles En cada una de las I J posibilidades realizamos K observaciones de un vector aleatorio Y El objetivo será estudiar la inuencia de los factores A y B, o de su interacción, en la media del vector Y Así, planteamos el siguiente modelo: Y ijk = µ + α i + β j + γ ij + U ijk k {,, K} i {,, I} j {,, J} siendo U ijk N d (0, Σ El parámetro µ representa la media global, los parámetros α i representan el efecto principal del factor A, los parámetros β j representan el efecto principal del factor B y los parámetros γ ij representan la interacción de los factores A y B Además verican α i = β j = j= γ ij = γ ij = 0 Este modelo también se puede ver como un caso particular del modelo lineal general multivariante Así, aplicaremos los resultados conocidos para el modelo lineal general, tanto en lo relativo a la estimación por mínimos cuadrados de los parámetros como en lo concerniente a contrastes de hipótesis referidas al modelo En este sentido planteamos hipótesis del tipo: H A : α i = 0 i H B : β j = 0 j j= H AB : γ ij = 0 i, j

44 Máster en Técnicas Estadísticas que se estudian en base a la siguiente descomposición de la variabilidad, mediante lo que llamaremos tabla MANOVA II: Fuente de variación Matriz de covarianzas Grados de libertad Factor A H A = JK (Ȳi (Ȳi Ȳ Ȳ I Factor B Interacción H B = IK H AB = K Error E = Total j= j= (Ȳ j (Ȳ j Ȳ Ȳ J (Ȳij Ȳi Ȳ j + Ȳ (I (J ( Ȳ ij Ȳi Ȳ j + K Ȳ ( ( Yijk Ȳij Yijk Ȳij IJ(K j= k= j= k= K ( Yijk Ȳ ( Yijk Ȳ IJK De este modo la hipótesis H A : α i = 0 i se contrasta en base al estadístico Λ (d, I, IJ(K E + H A la hipótesis H B : β j = 0 j se contrasta en base al estadístico Λ (d, J, IJ(K E + H B y la hipótesis H AB : γ ij = 0 i, j se contrasta en base al estadístico Λ (d, (I (J, IJ(K E + H AB Ejemplo 43 En una especie de cesped, denominada Paspalum, se está investigando el efecto que experimenta al ser infectada con un hongo Al mismo tiempo se tiene en cuenta la temperatura, dentro de un diseño con cuatro valores diferentes: 4, 8, 22, 26 o C En cada realización del experimento se miden tres variables: Y = El peso fresco de las raíces (medido en gramos Y 2 = La longitud máxima de las raíces (medida en milímetros Y 3 = El peso fresco de las hojas (medido en gramos Los datos se encuentran en el chero "tema4ejemplo3txt" Vamos a contrastar el efecto del tratamiento con hongos, el efecto de la temperatura y la posible interacción entre ambos efectos

Análisis Multivariante 45 Comparaciones múltiples Con la misma forma de proceder que en el MANOVA con un factor de variación, vamos a obtener intervalos de conanza simultáneos para combinaciones lineales de los parámetros de este modelo Lo haremos con los efectos principales del factor A La hipótesis H A se puede expresar en cualquiera de estas formas equivalentes: α = α 2 = = α I = 0 µ = µ 2 = = µ I µ µ I = µ 2 µ I = = µ (I µ I = 0 µ µ I µ 2 AB = µ I = 0 µ (I µ I Razonando igual que en el MANOVA I, llegamos a a AB = c i µ i con I c i = 0 De igual modo, a A ˆB = I c iȳ conjunto de intervalos de conanza simultáneos ( c i Ȳ i b c 2 i φmax,α b JK Eb, c i Ȳ i i b + Finalmente, obtenemos el siguiente ( JK b Eb para I c i µ i b con nivel de conanza α, siendo φ max,α el cuantil α de la distribución del autovalor más grande de H A E 45 Diseño por bloques aleatorizados Queremos estudiar el efecto de ciertos tratamientos sobre un vector aleatorio, pero en la experimentación debemos tener en cuenta la presencia de otro efecto debido a una variable de tipo bloque Para ello, elaboramos un diseño experimental en el que cada tipo de tratamiento se observará en cada nivel de la variable bloque No consideramos replicación Como resultado obtenemos los vectores aleatorios: Y ij que representa el vector aleatorio observado bajo el tratamiento iésimo y en el bloque jésimo Adoptamos el modelo siguiente: Y ij = µ + α i + β j + U ij i {,, I} j {,, J} siendo U ij N d (0, Σ El parámetro µ representa la media global, los parámetros α i representan el efecto del tratamiento y los parámetros β j representan el efecto bloque Observamos la gran semejanza con el modelo MANOVA II anterior, del que se diferencia en la ausencia de replicación, lo cual impide la estimación de interacciones Además, en el presente modelo distinguimos entre los tratamientos, que constituyen el objetivo primordial del estudio, y la variable bloque, que se considera únicamente para controlar su efecto sobre la variable respuesta

46 Máster en Técnicas Estadísticas Se verica α i = β j = 0 j= Este modelo también se puede ver como un caso particular del modelo lineal general multivariante Así, aplicaremos los resultados conocidos para el modelo lineal general, tanto en lo relativo a la estimación por mínimos cuadrados de los parámetros como en lo concerniente a contrastes de hipótesis referidas al modelo En este sentido planteamos hipótesis del tipo: H T : α i = 0 i H B : β j = 0 j que se estudian en base a la siguiente descomposición de la variabilidad: Fuente de variación Matriz de covarianzas Grados de libertad Tratamientos H T = J (Ȳi (Ȳi Ȳ Ȳ I Efecto Bloque H B = I Error E = Total j= j= j= (Ȳ j (Ȳ j Ȳ Ȳ J ( Yij Ȳi Ȳ j + Ȳ (I (J ( Y ij Ȳi Ȳ j + Ȳ ( ( Yij Ȳ Yij Ȳ IJ De este modo la hipótesis H T : α i = 0 i se contrasta en base al estadístico Λ (d, I, (I (J E + H T y la hipótesis H B : β j = 0 j se contrasta en base al estadístico Λ (d, J, (I (J E + H B Ejemplo 44 En las islas Cook se realizó un experimento en bloques aleatorizados para estudiar el efecto de seis tratamientos para combatir un parásito de las plantas de las alubias Se midieron tres variables Y = El número de parásitos por hoja Y 2 = El peso de las alubias por planta (medido en kilogramos Y 3 = sen ( p, donde p es la proporción de hojas infestadas con el parásito Los datos se encuentran en el chero "tema4ejemplo4txt" Vamos a contrastar si hay diferencias entre los tratamientos

Análisis Multivariante 47 Comparaciones múltiples También podemos considerar intervalos de conanza simultáneos para combinaciones lineales de los parámetros de este modelo Así, podemos obtener el siguiente conjunto de intervalos de conanza simultáneos c i Ȳ i b ( J b Eb, c i Ȳ i b + ( J b Eb para I c i µ i b con nivel de conanza α, siendo φ max,α el cuantil α de la distribución del autovalor más grande de H T E Bibliografía Johnson, RA y Wichern, DW (982 Applied multivariate statistical analysis Prentice-Hall Mardia, KV, Kent, JT y Bibby, JM (979 Multivariate analysis Academic Press Seber, GAF (984 Multivariate observations Wiley