ANOVA I 19-8-2014
Estas dos clases ANOVA I - Conceptos generales - Supuestos - ANOVA de una vía - Transformación de datos - Test a Posteriori - ANOVA de dos vías ANOVA II - ANOVA factorial - ANCOVA (análisis de covarianza) - ANOVA anidada - ANOVA de medidas repetidas - Repaso transformación de datos y test a priori y a posteriori
Cuartiles En estadística descriptiva, un cuartil es uno de los tres valores que dividen el set de datos en cuatro partes iguales, cada parte representa un cuarto de la muestra o la población Primer cuartil (Q1) = Percentil 25: 25% de datos mas bajos Segundo cuartil (Q2) = Mediana: Percentil 50. Tercer cuartil (Q3) = Percentil 75: 75% de los datos quedan abajo La diferencia entre Q3 y Q1 se llama Rango intercuartil.
Boxplots
Varianza, SD y GL (DF) n i1 ( x ) i n 1 2 s 2, varianza Grados de libertad n i1 ( x ) i n 1 2 s Desviación estándar El término grado de libertad (gl o df) es una medida del número de piezas independientes de información en la que se basa la precisión de la estimación de un parámetro. Good J (1973) What are Degrees of Freedom? American Statistician. 27: 227-228
Diseño experimental y Método estadístico 0.99 26 3.875 2345 28 435 39% 44% 34 P = F = t = X 2 = Los datos cumplen las exigencias mínima para el test a realizar?
Test paramétricos 1.- Normalidad: QQ plots, Residuales Shapiro test 2.- Homocedasticidad: Bartlett test Levene test 3.- Independencia: deber del investigador
Transformación de datos Conocemos algunas transformaciones: Si distribución de datos es binomial = arcsen (y) Si es binomial negativa = arcsen(y) Poisson = y ½
Transformación Box Cox Box, GEP & DR Cox (1964) "An analysis of transformations". Journal of the Royal Statistical Society, Series B 26 (2): 211 252. Basado en una familia de transformaciones Importante: -2-1 0 0.5 1 2 Lambda (λ) Power (Power Family) 1/y 2 1/y log y y ½ y y 2
De t de Student a F de Fisher M1 M2 - Comparar dos grupos de datos : t Student
De t de student a F de Fisher Si se tiene tres grupos de datos: M1 M2 M3 Podemos utilizar test de t En total: tres comparaciones independientes Problemas: 1. Aumenta el error Tipo I, se ven más diferencias cuando no existen. En otras palabras algunas comparaciones pueden mostrar diferencias significativas cuando no existen.
Problemas: 2. La estructura del test Solo considera la varianza de los dos y no tres grupos
Diseño experimental y Método estadístico Variable dependiente Variable independiente Variable respuesta (una o varias) Factor (es) (una o varias)
Tratamientos y niveles Niveles de un factor H1 H2 T1 T2 T3 Tratamientos: combinación de niveles de los factores Ejemplo: - 2 Factores - 6 tratamientos
ANOVA Modelo aditivo o lineal y ij = + i + ij Var dependiente o Var respuesta Promedio de los parámetros Efecto aleatorio o error Efecto provocado por los tratamientos H O : µ 1 = µ 2 = µ 3 H 1 : al menos un tratamiento es diferente
Dos vías de variación En ANOVA, una estimación de la variabilidad entre grupos es comparada con la variabilidad dentro de los grupos. Variación Total Variación dentro grupos: Variación debido al azar entre individuos del mismo tratamiento Variación entre grupos: Variación debido al azar y el efecto del tratamiento (si existe)
Variabilidad entre grupos 6 tratamientos (I al VI): variabilidad entre las medias Las grandes diferencias entre medias probablemente no es azar Se rechaza HO: hay efecto del tratamiento en al menos un grupo
Variabilidad dentro de los grupos 6 tratamientos: gran variabilidad entre medias de los grupos. Pero se observa mas variabilidad dentro de los grupos Probablemente no se pueda rechazar HO
F de Fisher del ANOVA F Variabilidad entre los grupos Variabilidad dentro de los grupos Variación Total Variación dentro grupos: Variación debido al azar entre individuos del mismo tratamiento Variación entre grupos: Variación debido al azar y el efecto del tratamiento (si existe)
Ejemplo 1 F Variabilid ad entre los grupos Variabilid ad dentro de los grupos F 1
Ejemplo 2 F Variabilid ad entre los grupos Variabilid ad dentro de los grupos F 1
F de Fisher Variación Total Variación dentro grupos Variación entre grupos Cuadrados medios dentro Cuadrados medios entre F MS MS entre dentro Cuadrados medios entre cuadrados medios dentro
F de Fisher F MS MS entre dentro Suma de cuadrados dentro MS dentro SS df dentro dentro grados de libertad dentro Suma de cuadrados entre MS entre SS df entre entre grados de libertad entre s 2 (X X ) 2 n 1 Suma de cuadrados Grados de libertad
Suma de cuadrados total SS total SS entre SS dentro Grados de libertad total df total df entre df dentro
Factor T 1 T 2... Tt TOTAL y 11 y 21... y t1 y 12 y 22... y t2............ y 1n y 2n... y tn TOTALES (n) Y 1o Y 2o... Y to Y oo PROMEDIOS y 1o y 2o... y to y oo (y ij -y oo ) 2
(y ij -y oo ) 2 (y ij -y oo ) 2 = (y ij -y io ) 2 + (y io -y oo ) 2 Suma de cuadrados total (SCT) Suma de Cuadrados dentro tratamientos (SCD) Suma de Cuadrados entre tratamientos (SCE) PARTICION DE LA VARIANZA
Factor T 1 T 2... Tt TOTA L y 11 y 21... y t1 y 12 y 22... y t2............ y 1n y 2n... y tn TOTALES (n) Y 1o Y 2o... Y to Y oo PROMEDIOS y 1o y 2o... y to y oo s 2 Varianza ( x ) i x n 1 2 (y ij -y oo ) 2 = (y ij -y io ) 2 + (y io -y oo ) 2
Esquema de una ANOVA Fuente de Suma de Cuadrados Gl Cuadrados medios F P Variación T (entre) t-1 SCE/GL entre CM entre /CM dentro i 2 2 ( Y / n) Y / nt i 0 00 (dentro error) o 2 ij ij y Y / n i 2 i0 t(n-1) SCE/GL dentro TOTAL ij y 2 2 ij Y00 / nt nt-1 Tres elementos importantes: i ( Y / n) 2 i0 i, j 2 y ij Y 2 / nt 00 n = total de muestras t = tratamientos
Comparaciones múltiples (a posteriori) Dunnett Tukey = test mas recomendado Scheffe = bastante error Tipo I Student-Newman- Keuls(SNK) = bastante error Tipo I LSD (Fisher) Hay sensibilidad al desbalance de los datos
Controlando error tipo I Tabla de datos M1 M2 M3 Tabla de Comparaciones múltiples M1 M2 M3 M1 X X M2 X M3 Corrección Bonferroni α/n donde n el número de comparaciones
ANOVA dos vías y ijk = + i + j + j i + k(ij) SS T SS i SS j SS ij SS E
Fuente de Variación Suma de Cuadrados Entre i t-1 SCE/GL entre CM entre /CM dentro Gl Cuadrados medios F P Entre j Interaccion i*j (dentro o error) TOTAL nt-1 SCE/GL dentro
ANOVA dos vías: datos J1 30 34 23 J2 43 54 44.. j3 34 45 56.. i1 i2 i3 i4 20 24 23 33 34 34.. 24 35 26.. 50 54 53 53 54 54.. 54 55 56.. 40 44 43 43 44 44.. 44 45 46.. Suma de cuadrados i = Suma de Cuadrados de j = Suma de Cuadrados Interacción i*j=
Interpretación de la interacción Dos factores Dos niveles cada uno
Ver tarea 1