Análss de la varanza de un factor El test t de muestras se aplca cuando se queren comparar las medas de dos poblacones con dstrbucones normales con varanzas guales y se observan muestras ndependentes para cada poblacón. Ahora consderaremos una generalzacón para el caso en que se queren comparar tres o más medas. Ejemplo: En la tabla sguente se muestran los resultados obtendos en una nvestgacón acerca de la establdad de un reactvo fluorescente en dferentes condcones de almacenamento. Se conservaron tres muestras en cada una de 4 condcones. Supongamos (porque a veces puede ocurrr) que para una de las condcones, la medcón no pudo realzarse o se detectó una falla y fue elmnada. Los datos observados son:
Condcones Recentemente preparada Una hora en la oscurdad Una hora con luz tenue Una hora con luz brllante Medcones observadas (señales de fluorescenca) Meda Muestral 0 00 0 0 0 0 04 0 97 95 99 97 9 94 93 Mrando los promedos muestrales se ven dferencas y nos preguntamos s las condcones de almacenamento no nfluyeron sobre la fluorescenca de las muestras (ésta será nuestra H 0 ), cuál es la probabldad de que por smple azar se observen dferencas de esta magntud entre las medas muestrales?
Para generalzar podemos pensar que observamos muestras (en el ejemplo 4). Suponemos el sguente modelo: Modelo de muestras normales ndependentes con varanzas guales. Muestra : X, X,... X n v. a...d N(µ, σ )... Muestra :... Muestra : X,..., X X n v. a...d N(µ, σ ) X,..., X X n v. a...d N(µ, σ ) y asummos que las v. a. de una muestra son ndependentes de las v. a. de otra muestra. Llamaremos X y s a la meda y la varanza muestrales de la muestra,,...,. Vamos a testear: H 0 : µ µ... µ vs. H : exsten y j para los cuales µ µ j
Parece natural proponer un estmador de σ basado en un promedo ponderado de las varanzas de cada muestra s, tal como se hacemos con el s P cuando comparamos dos muestras. Se puede demostrar que el mejor estmador nsesgado de σ bajo el modelo anteror es: s p ( n ) * s +... + ( n )* s n +... + n ( n ) * s n SSW n () En la últma expresón hemos llamado al número total de observacones. n n Bajo la hpótess nula: H 0 : µ µ... µ todas las observacones tenen la msma dstrbucón.
Llamemos X n n X j j n n X a la meda general de todas las observacones. El estadístco para el test óptmo para este problema, tene al estmador de la varanza (dado por ()) en el denomnador y una medda de las dferencas (smlar a la varanca) entre las medas de las dstntas muestras en el numerador. Esta medda es: n ( X X ) SSB ()
El estadístco del test se obtene dvdendo () sobre (): n SS SS s X X n F W B p / / ) ( / ) ( (3) S H 0 fuera certa, el denomnador y el numerador serían parecdos, por lo tanto el cocente sería cercano a. S las medas poblaconales no son todas guales, como vmos en el gráfco, el numerador tende a ser mayor que el denomnador y por lo tanto, el cocente será mayor a.
Test F: er. paso: Calculo el estadístco F n ( X X ) s p / ( ) SS SS B W / / n Nota: S H 0 : µ µ... µ es certa, este estadístco tene dstrbucón F con - grados de lbertad en el numerador y n- grados de lbertad en el denomnador. De dónde surgen los grados de lbertad? Se puede demostrar, que s se satsfacen los supuestos del análss de varanza que hemos realzado, entonces: Bajo H 0 : ) SS W B ~ χ ) SS ~ n χ σ σ y además son ndependentes. do. paso: S F > F -,n-;α, rechazamos H 0.
Con frecuenca los resultados del Análss de Varanza se presentan una tabla como la que sgue: Análss de Varanza Fuente SS gl MS F Prob > F Between SSB - MSB SSB/- Wthn SSW n- MSW SSW/n- MSB/MSW Total SST n- MST SST/n-
Veamos como quedaría en nuestro ejemplo: Fuente gl SS MS F P ------- ---- --------- --------- ------ ------ BETWEEN 3.8 40.773 5.84 0.007 WITHIN 7 8.000.5743 TOTAL 0 40.8 Rechazamos la hpótess H 0 : µ µ µ 3 µ 4 al nvel 0.0, es decr las medas de la fluorescenca dferen sgnfcatvamente a este nvel. O dcho de otro modo: conclumos que la meda de la fluorescenca depende de las condcones de almacenamento. La pregunta ahora es: cuáles son las que dferen?
Comentaros sobre la tabla del análss de la varanza. Se puede demostrar que vale la sguente gualdad: n j ( X j X ) n ( X X ) + n j ( X j X ) En la expresón anteror aparecen tres sumas de cuadrados : suma de cuadrados entre grupos (SS B : Between ) suma de cuadrados dentro de grupos (SS W : Wthn) suma de cuadrados total (SS T : Total)
Suposcones del modelo. Dagnóstco. El test F ha sdo deducdo bajo el supuesto de que las muestras aleatoras tenen dstrbucón normal, con gual varanza y son ndependentes. Cuando el tamaño de la muestra de cada grupo es grande, el test F es váldo en forma aproxmada (el valor p calculado es aproxmado) aunque la varable no tenga dstrbucón exactamente normal. En la práctca no es esperable que el modelo se cumpla exactamente, pero sí en forma aproxmada. Al gual que con el test t, hay que analzar los datos para detectar s el modelo es aproxmadamente certo o s en cambo es falso.
Boxplots Paralelos Cuando hay una cantdad sufcente de observacones se pueden realzar boxplots paralelos de las observacones orgnales por tratamento. En el presente ejemplo, hay solo 3 y hasta observacones por caslla, con lo cual no parece muy razonable este gráfco. En su lugar podemos realzar un boxplot de los resduos todos juntos. Para cada observacón, el resduos r j se calcula como: r j X j X
El sguente gráfco muestra el boxplot correspondente a los resduos del ejemplo de fluorescenca: boxplot(salda$res) Los resduos parecen tener una dstrbucón smétrca y no se observan datos atípcos, por lo que no parece haber mportantes apartamentos de la normaldad.
QQ-plot y Test de Shapro-Wl en nuestro ejemplo qqnorm(salda$res) qqlne(salda$res)
shapro.test(salda$res) Shapro-Wl normalty test data: salda$res W 0.908, p-value 0.35 En nuestro ejemplo el estadístco del test de Shapro-Wl es 0.908 y el p-valor correspondente es de 0.35, con lo cual no rechazamos el supuesto de normaldad.
Tests para estudar s las varanzas son guales Para estudar la suposcón de gualdad de varanzas podemos grafcar y tambén se pueden realzar algunos tests. Respecto del gráfco podemos consderar un scatter-plot o dagrama de dspersón de los promedos muestrales versus los resduos. En el ejemplo de Fluorescenca resultaría: Se observan algunas dferencas en la dspersón de los resduos, pero no parece haber grandes apartamentos del supuesto de homoscedastcdad en este caso. Sn embargo, deberíamos aplcar un test para chequear este supuesto.
Respecto de tests exsten algunas alternatvas. Consderemos el modelo X j N(µ,σ ) (,...,; j,...,n ) ndependentes y la hpótess a testear será H 0 : σ σ... σ Hay varos tests. El más antguo es el test de Bartlett. Se basa en un estadístco que tene dstrbucón aproxmadamente χ - bajo H 0.
S hay muestras con tamaño n y varanzas de las muestras, como en nuestro problema, entonces estadístco de prueba de Bartlett, que se basa en una escala logarítmca, es: El numerador tende a dar valores grandes cuando las varanzas muestrales dferen mucho, por lo tanto se rechaza la hpótess nula de gualdad de varanzas cuando el estadístco es grande. La zona de rechazo es X >
bartlett.test(fluor,luz.f) Bartlett test of homogenety of varances data: FLUOR and luz.f Bartlett's K-squared 0.755, df 3, p-value 0.86 En nuestro ejemplo el estadístco del test de Bartlett es 0.755 con un p-valor de 0.86, por lo tanto no rechazamos el supuesto de homogenedad de varanzas Sn embargo, este test tene una alta sensbldad a la falta de normaldad. Por esta razón, es necesaro dsponer de alguna alternatva más resstente a la falta de normaldad.
Un test que es poco sensble a la falta de normaldad es el test de Modfcado de Levene. Para aplcarlo, prmero se calculan ~ d X X X ~ j j donde denota la medana del tratamento. Luego se calcula el estadístco F del análss de un factor a los d j. S la hpótess H: σ σ... σ es certa y los n no son muy pequeños, el estadístco tene dstrbucón aproxmadamente F con - y n- grados de lbertad. Esto permte aplcar un test aproxmado de la hpótess de gualdad de varanzas. Rechazamos la gualdad de varanzas s el estadístco toma un valor muy grande. medans<-tapply(fluor,luz.f,medan) abs.df<- abs(fluor-medans[luz.f]) summary(aov(abs.df~luz.f)) Df Sum Sq Mean Sq F value Pr(>F) luz.f 3 0.667 0. 0.67 0.96 Resduals 7 9.333.3333 Como el p-valor 0.96, no rechazamos el supuesto de homoscedastcdad.