Análisis de la Varianza (ANOVA) y Correlación

Transcripción

1 Universidad de Chile Rodrigo Assar FCFM MA34B Andrés Iturriaga DIM Víctor Riquelme Análisis de la Varianza (ANOVA) y Correlación Resumen El test ANOVA analiza la relación entre una variable numérica y una categórica, y ve si hay relación funcional entre ambas. La correlación nos da una medida de la relación lineal entre dos variables numéricas. 1. ANOVA 1.1. Razón de Correlación Supongamos tenemos dos variables aleatorias X e, tales que toma valores numéricos (digamos continuos), y X toma valores en un conjunto de categorías finito (digamos {x 1,..., x p }). Entonces queremos analizar la relación entre y X (o sea si depende de la categoría a la que pertenezca X). Definamos ȳ j = 1 n j nj k=1 y jk media en el grupo j. ȳ = 1 n p j=1 n jȳ j media total. s 2 y = 1 n n l=1 (y l ȳ) 2 = 1 p nj n j=1 k=1 (y jk ȳ) 2 varianza muestral (y jk es el dato del individuo k ésimo que pertenece al grupo j). w 2 j = 1 n j nj k=1 (y jk ȳ j ) 2 la varianza al interior del grupo j. b 2 = 1 n p j=1 n j(ȳ j ȳ) 2 la varianza ponderada entre-grupos. ω 2 = 1 n p j=1 n jw 2 j = 1 n p j=1 nj k=1 (y jk ȳ j ) 2 la varianza intra-grupos. 1

2 1 ANOVA 2 Obs: Se tiene que s 2 y = b 2 + ω 2 (esta es una descomposición de la varianza). Definamos η 2 X = b2 s 2 y la razón de correlación. Si ω 2 = 0 (o sea, η 2 X = 1), entonces w2 j = 0 j; o sea, al interior de los grupos no hay diferencia y se concluye que el pertenecer a un grupo define completamente a la variable (relación funcional estricta entre X e ). Si b 2 = 0 (o sea, η 2 X = 0), entonces no hay difenencia entre las medias de los grupos, por lo que pertenecer a algún grupo no define a la variable (no hay relación funcional). En el caso intermedio (o sea, η 2 X (0, 1)), se tiene cierta tendencia funcional. Luego, η 2 X da una medida de la relación funcional entre y X ANOVA a un factor Supongamos que las observaciones en cada grupo j son normales de varianza σ 2 j. Entonces n j w 2 j σ 2 j χ 2 n j 1. Suponiendo que σj 2 = σ 2 j, se tiene que nω2 σ 2 (suma de las varianzas de los p grupos). Consideremos el estadístico χ 2 n p. También, que nb2 σ 2 χ 2 p 1 F = nb 2 /σ 2 (p 1) nω 2 /σ 2 n p = b2 /(p 1) ω 2 /(n p) F p 1,n p Nuestra hipótesis nula será H 0 : µ 1 = µ 2 =... = µ p Como ya vimos, si no hay relación funcional entre y X, b 2 es chico y las medias serían muy parecidas, por lo que si el p valor es chico (menor a cierto nivel de significación) se rechaza la hipótesis (recordemos que el p valor es P ( F F ) ). Esto significa que el factor es significativo. Podemos escribir nuestra información en una tabla, como sigue: S.C. G.L. C.M. F p valor Factor nb 2 p 1 nb 2 nb /(p 1) 2 /(p 1) P ( F > F ) nω 2 /(n p) Errores nω 2 n p nω 2 /(n p) Total ns 2 y n 1

3 2 COVARIANZA CORRELACIÓN 3 2. Covarianza y Correlación 2.1. Teóricos Primero, recordemos la definición de covarianza y correlación. Definición 1 Sean X e dos variables aleatorias con alguna distribución conjunta; sean E [X] = µ X, E [ ] = µ, Var (X) = σ 2 X, Var ( ) = σ 2. Definimos la covarianza entre X e, denotada por Cov (X, ), por: Cov (X, ) = E [(X µ X )( µ )] También, definamos la correlación entre X e por ρ (X, ) = Cov (X, ) σ X σ Hay una propiedad que permite decir algo importante acerca de la correlación: Teorema 1 (Desigualdad de Schwarz) Para cualquier par de variables aleatorias U, V se tiene que E [UV ] (E [ U 2] E [ V 2] ) 1 2 Dem Si E [ U 2] = 0 entonces P (U = 0) = 1. Luego, P (UV = 0) = 1, por lo que E [UV ] = 0, y la desigualdad se tiene. Si E [ U 2] =, la desigualdad se tiene trivialmente. Supongamos que 0 < E [ U 2] <, 0 < E [ V 2] <. Sabemos que a, b (a 2 E [ U 2] + b 2 E [ V 2] ) 2abE [UV ] y de igual manera 0 E [ (au + bv ) 2] = a 2 E [ U 2] + b 2 E [ V 2] + 2abE [UV ] 0 E [ (au bv ) 2] = a 2 E [ U 2] + b 2 E [ V 2] 2abE [UV ] 2abE [UV ] (a 2 E [ U 2] + b 2 E [ V 2] ) Elegimos a = E [ V 2], b = E [ U 2]. Entonces 2 E [ U 2] E [ V 2] E [UV ] (E [ V 2] E [ U 2] + E [ U 2] E [ V 2] ) 2 E [ U 2] E [ V 2] E [UV ] 2E [ U 2] E [ V 2] E [UV ] E [ U 2] E [ V 2]

4 2 COVARIANZA CORRELACIÓN 4 de igual forma E [ U 2] E [ V 2] E [UV ] y eso concluye el resultado. Ahora, lo que nos interesa es lo siguiente: si llamamos U = X µ X, V = µ, obtenemos que E [(X µ X )( µ )] E [ (X µ X ) 2] E [ ( µ ) 2] Cov (X, ) Var (X)Var ( ) Entonces, ρ (X, ) [ 1, 1]. Proposición 1 Para cualquier par de variables aleatorias X e, con σx 2 <, σ2 tiene que Cov (X, ) = E [X ] E [X]E [ ] <, se Dem Cov (X, ) = E [(X µ X )( µ )] = E [X Xµ µ X + µ X µ ] = E [X ] E [X]µ E [ ]µ X + µ X µ = E [X ] µ X µ Proposición 2 Si X e son variables aleatorias independientes con 0 < σ 2 X <, 0 < σ2 <, entonces Cov (X, ) = ρ (X, ) = 0 Dem Como X e son independientes, entonces E [X ] = E [X]E [ ]. Por la proposición anterior, se concluye. Proposición 3 Suponga que X es una variable aleatoria con varianza positiva finita, y que = ax + b para algunas constantes a, b, a 0. Entonces, si a > 0, ρ (X, ) = 1; si a > 0, ρ (X, ) = 1 Dem Primero vemos que E [ ] = E [ax + b] = ae [X] + b = aµ X + b Var ( ) = Var (ax + b) = a 2 Var ( ) = a 2 σ 2 X. ρ (X, ) = Cov (X, ) Var (X)Var ( )

5 2 COVARIANZA CORRELACIÓN 5 = E [(X µ x)(ax + b aµ X b)] σ 2 X a 2 σx 2 = ae [ (X µ X ) 2] a σx 2 = a a = a a Var (X) σ 2 X Si a > 0, lo anterior vale 1, y si a < 0, lo anterior vale 1. Obs: Para constantes a, b, Cov (ax, b ) = abcov (X, ) pues Cov (ax, b ) = E [(ax)(b )] E [ax]e [b ] = ab(e [X ] E [X]E [ ]) Teorema 2 Si X 1,..., X n son v.a. con varianza finita, entonces ( n ) n n Var X i = Cov (X j, X k ) = i=1 i=1 Var (X i ) + j,k j k Dem Propuesta (para n = 2 se ve fácil). i=1 Var (X i ) + 2 j,k j<k Cov (X j, X k ) 2.2. Empíricos Ahora consideremos una muestra aleatoria bivariada {(x i, y i )} n i=1 del par de variables aleatorias (X, ). Denotemos: x = 1 n n i=1 x i, ȳ = 1 n n i=1 y i las medias empíricas. s 2 x = 1 n n i=1 (x i x) 2 = 1 n n i=1 x2 i x 2, s 2 y = 1 n n i=1 (y i ȳ) 2 = 1 n n i=1 y2 i ȳ 2 las varianzas empíricas. cov x,y = 1 n n i=1 (x i x)(y i ȳ) = 1 n n i=1 x iy i xȳ la covarianza empírica. r X, = covx,y s xs y es el coeficiente de correlación empírico. Calculando el valor r X, se puede decir algo acerca de la correlación entre X e, de forma análoga a lo dicho para ρ (X, ).

6 3 PROBLEMAS 6 3. Problemas 3.1. Problema 1 [Ajuste χ 2 ] Se ha tomado una muestra de 90 motores de cierta marca y se ha medido el tiempo de funcionamiento en miles de horas, hasta que fallan por primera vez, obteniendose los siguientes resultados: Tiempo Frecuencia (0, 1] 35 (1, 2] 26 (2, 3] 12 (3, 4] 6 Más de 4 11 Se puede aceptar que el tiempo hasta el fallo de estos motores sigue una distribución exponencial? 3.2. Problema 2 [ANOVA] Un agricultor quiere analizar la influencia de 4 grupos F1S1,F2S2,F1S2,F2S1 del factor fertilizantesuelo con la producción de choclos. Se obtiene la siguiente tabla: Fertilizante-Suelo Frecuencia Media producción Desviación Standard F1S F2S F1S F2S Total Haga un test que indique o que le permita deducir la igualdad de las medias para los 4 grupos Problema 3 (a) Supóngase que X e son variables aleatorias que representan las mediciones de la alturas del padre y del hijo respectivamente, donde µ X = µ = µ, σx 2 = σ2 = σ2. Sean X, v.a. tales que X = X + ɛ; = + η donde ɛ, η son los errores de medición, y X, son los valores reales de las alturas; supóngase también que η, ɛ son independientes de X e

7 4 RESOLUCIÓN DE LOS PROBLEMAS 7 e independientes entre si. Exprese la correlación entre X e en términos de la correlación entre X e. Concluya. (b) Se obtiene una muestra de familias y se obtienen los siguientes resultados: x = ; ȳ = i=1 x2 1 i = 29239; i=1 x iy i = i=1 y2 i = Deduzca el coeficiente de correlación entre las tallas observadas del padre y del hijo. Si se supone que la varianza de los errores de medición es 9, de una estimación de la correlación ρ (X, ) entre las tallas verdaderas X,. Comente 4. Resolución de los problemas 4.1. Problema 1 Primero, para postular la distribución a ser testeada, estimamos el parámetro de la exponencial. H 0 : T Exp(ˆλ) ˆλ = 1 T = = = Ahora necesitamos el vector de probabilidades a testear. En este caso, será el vector p R 5 tal que p i = P (T I i ) (I 1 = (0, 1], I 2 = (1, 2], I 3 = (2, 3], I 4 = (3, 4], I 5 = (4, ], y una distribución exponencial de parametro ˆλ). P (α < T β) = P (α T ) P (β T ) = e ˆλα e ˆλβ Luego, p = (0.43; 0.25; 0.14; 0.08; 0.1). Entonces el estadístico (distribuido como χ ) (se resta uno más por la estimación del parámetro) toma el valor Q = El p valor es P (Q > 1.57) (0.6, 0.7) > 0.05, con lo que se concluye que no se rechaza la hipótesis de que los tiempos de falla sean exponenciales.

8 4 RESOLUCIÓN DE LOS PROBLEMAS Problema 2 Calculemos las varianzas entregrupo e intragrupo: b 2 = 4 j=1 n j n (ȳ j ȳ) 2 = 7.04 Entonces, haciendo la tabla ω 2 = 4 j=1 n j n w2 j = S.C. G.L. C.M. F p valor Factor = Errores = Total Analizando el p valor, rechazamos la hipótesis, y por lo tanto concluimos que el tipo de suelo es relevante para la producción de choclos. Ahora, la razón de correlación es η 2 X = b2 s 2 y = nb2 ns 2 y = = 0.7 Podemos concluir que existe una tendencia funcional entre la producción de choclos y el tipo de fertilizante Problema 3 Parte (a) Primero calculemos la varianza de X: Var (X) = Var (X + ɛ) = Var (X ) + Var (ɛ) = σ 2 X + Var (ɛ) σ2 X De igual manera, para : σ 2 X σ 2 X Var ( ) = Var ( + η) = Var ( ) + Var (η) = σ 2 + Var (η) σ2 σ 2 σ 2

9 4 RESOLUCIÓN DE LOS PROBLEMAS 9 Ahora, la covarianza entre X e : Cov (X, ) = Cov (X + ɛ, + η) = Cov (X, ) + Cov (X, η) + Cov (ɛ, ) + Cov (ɛ, η) Cov (X, ) = Cov (X, ) Luego, ρ (X, ) = Cov (X, ) σ X σ = Cov (X, ) (σx 2 + Var (ɛ))(σ 2 + Var (η)) ρ (X, ) ρ (X, ) Podemos concluir que la correlación de los datos de la muestra subestima la correlación de los datos reales. Parte (b) Como estimador de la correlación entre X e usaremos el coeficiente de correlación empírico r X, r X, = = = 1 1 i=1 (x i x)(y i ȳ) i=1 (x i x) 2 1 i=1 (y i ȳ) 2 1 i=1 x iy i xȳ 1 i=1 x2 i x2 1 i=1 y2 i ȳ = = = Para estimar la correlación entre los valores reales, consideremos donde r X, = σ Xσ r X, σ X σ σx 2 = σx 2 + Var (ɛ) = σ 2 X + 9 σ X = 8.39

10 REFERENCIAS 10 Luego, σ 2 = σ 2 + Var (η) = σ σ = r X, = = = 0.91 Aquí se nota cuanto se subestima la correlación de los valores reales con el uso de los datos muestrales Referencias [DeGroot;1986] DeGroot, M.H.; Probability and Statistics, Second Edition ; Addison-Wesley S.A.; pp ; [Lacourly;04] Lacourly, N.; Estadística ; Depto. de Publicaciones DIM ; pp ; 04.