Práctica 9: Anova (2) Dedicamos esta práctica al estudio de modelos bifactoriales del análisis de la varianza Veremos concretamente diseños bifactoriales con y sin interacción, diseño por bloques al azar y diseño jerarquizados 91) En el archivo Fibrasav se encuentran diversas mediciones del nivel de resistencia de cierta fibra sintética elaborada por 4 máquinas diferentes que son manipuladas por tres operarios Para cada operario y cada máquina se se obtienen 2 mediciones, lo que hace un total de 24 datos Se trata pues de un diseño bifactorial, en principio con interacción Al ejecutar el anova se obtienen los siguientes resultados: Variable dependiente: Resist OPERADOR OPERADOR * 217,458 a 11 19,769 5,214,004 302626,042 1 302626,042 79813,462,000 160,333 2 80,167 21,143,000 12,458 3 4,153 1,095,389 44,667 6 7,444 1,963,151 45,500 12 3,792 302889,000 24 262,958 23 a R cuadrado =,827 (R cuadrado corregida =,668) En el apartado operador-máquina se contrasta la nulidad de los parámetros correspondientes a la interacción entre los factores considerados El resultado es no significativo, lo cual puede conducirnos a considerar el modelo sin interacciones, más sencillo Así lo hacemos; tras ejecutar nuevamente el anova, obtenemos lo siguiente: Variable dependiente: Resist OPERADOR 172,792 a 5 34,558 6,899,001 302626,042 1 302626,042 60413,332,000 160,333 2 80,167 16,004,000 12,458 3 4,153,829,495 90,167 18 9 302889,000 24 262,958 23 a R cuadrado =,657 (R cuadrado corregida =,562) En el apartado máquina se contrasta si la de la variable depende (H1) o no (H0) de dicho factor El resultado no es significativo, por lo que concluimos que no depende Sin embargo, el contraste para el operario sí es significativo Por lo tanto, podríamos concluir que el nivel de resistencia de la fibra depende únicamente del operario que controla la máquina y no de la máquina que lo fabrica En ese caso, correspondería efectuar comparaciones múltiples para los tres operarios El procedimiento de Tuckey aporta los resutados siguientes: Página 1
Variable dependiente: Resist (I) OPERADOR (J) OPERADOR Basado en las s observadas * La diferencia de s es significativa al nivel,05 95% (I-J) típ inferior superior -1,2500 1,11907,516-4,1060 1,6060-6,0000* 1,11907,000-8,8560-3,1440 1,2500 1,11907,516-1,6060 4,1060-4,7500* 1,11907,001-7,6060-1,8940 6,0000* 1,11907,000 3,1440 8,8560 4,7500* 1,11907,001 1,8940 7,6060 * Se ha detectado el símbolo,05 donde se esperaba un paréntesis de cierre en el subcomando TEST a,b Resist OPERADOR N 1 2 8 109,8750 8 111,1250 8 115,8750,516 0 Se muestran las s para los grupos en subconjuntos homogéneos Basado en la suma de tipo III El término error es la cuadrática () = 9 a Usa el tamaño muestral de la armónica = 8,000 b Alfa =,05 Según estos resultados, el operario nº3 obtiene diferencias significativas a su favor en la resistencia de la fibra fabricada 92) Una empresa desea comparar el consumo medio de cinco modelos de coches en un circuito mixto de 400km Para ello se seleccionaron 4 conductores, conduciendo cada uno de ellos los cinco modelos y contabilizando el consumo Los 20 datos obtenidos se encuentran en el archivo cochessav Se trata de un modelo de bloques al azar Tras aplicar el anova se obtiene lo siguiente: Variable dependiente: y COCHE CONDUCTO 79,768 a 7 11,395 6,093,003 22606,088 1 22606,088 12086,663,000 38,092 4 9,523 5,092,012 41,676 3 13,892 7,428,005 22,444 12 1,870 22708,300 20 102,212 19 a R cuadrado =,780 (R cuadrado corregida =,652) Según se puede ver en los contrastes para coche y conductor, ambos factores son causa de variabilidad, es decir, que influyen en la de la variable Podemos considerar pues comparariones múltiples Veremos las de los coches que son las que realmente interesan: Página 2
Variable dependiente: y (I) COCHE (J) COCHE Basado en las s observadas * La diferencia de s es significativa al nivel,05 95% (I-J) típ inferior superior -,4500,96704,989-3,5324 2,6324 1,7500,96704,412-1,3324 4,8324 3,4250*,96704,027,3426 6,5074 1,5500,96704,523-1,5324 4,6324,4500,96704,989-2,6324 3,5324 2,2000,96704,218 -,8824 5,2824 3,8750*,96704,012,7926 6,9574 00,96704,294-1,0824 5,0824-1,7500,96704,412-4,8324 1,3324-2,2000,96704,218-5,2824,8824 1,6750,96704,452-1,4074 4,7574 -,2000,96704 0-3,2824 2,8824-3,4250*,96704,027-6,5074 -,3426-3,8750*,96704,012-6,9574 -,7926-1,6750,96704,452-4,7574 1,4074-1,8750,96704,349-4,9574 1,2074-1,5500,96704,523-4,6324 1,5324-00,96704,294-5,0824 1,0824,2000,96704 0-2,8824 3,2824 1,8750,96704,349-1,2074 4,9574 * Se ha detectado el símbolo,05 donde se esperaba un paréntesis de cierre en el subcomando TEST a,b y COCHE N 1 2 4 31,4500 4 33,1250 33,1250 4 33,3250 33,3250 4 34,8750 4 35,3250,349,218 Se muestran las s para los grupos en subconjuntos homogéneos Basado en la suma de tipo III El término error es la cuadrática () = 1,870 a Usa el tamaño muestral de la armónica = 0 b Alfa =,05 Según el método de Tuckey, los modelos 1 y 2 tienen un consumo medio significativamente más alto que el del modelo 4 Por otra parte, hemos de tener en cuenta que el hecho de introducir el factor conductor se debe al propósito de explicar la mayor variabilidad posible Si el conductor explica una parte sustancial de la variabilidad, como sucede en nuestro caso, controlar dicho factor reducirá la varianza del modelo y permitirá una mayor potencia a la hora de contrastar el factor principal De hecho, si no hubiésemos considerado el conductor tendríamos un diseño completamente aleatorizado Tras aplicar el anova corespondiente se concluiría que el modelo de coche no influye en el consumo medio, según se observa debajo Página 3
Variable dependiente: y COCHE 38,092 a 4 9,523 2,228,115 22606,088 1 22606,088 5288,386,000 38,092 4 9,523 2,228,115 64,120 15 4,275 22708,300 20 102,212 19 a R cuadrado =,373 (R cuadrado corregida =,205) 93) Se estudia el grosor (y) del remate de piezas metálicas elaboradas por 4 máquinas diferentes con el objeto de contrastar si existen diferencias significativas entre las s de las distintas máquinas Con el objeto de controlar una posible causa de variabilidad, cada máquina es manipulada por tres operarios, tomándose 2 mediciones para cada uno de ellos Dado que las máquinas se encuentrasn en lugares distantes entre sí, los tríos de operarios asignados a cada máquina son distintos Los 24 datos se muestran el archivo rematesav Se trata pues de un modelo bifactorial jerarquizado Tras aplicar el anova se obtienen los resultados siguientes: Variable dependiente: Y OBRERO * 6435,333 a 11 585,030 6,923,001 104016,667 1 104016,667 1230,966,000 3617,667 3 1205,889 14,271,000 2817,667 8 352,208 4,168,013 1010 12 84,500 111466,000 24 7449,333 23 a R cuadrado =,864 (R cuadrado corregida =,739) Tanto el factor principal como el factor subordinado son causas de variabilidad, según los tests Presentamos a continuación las comparaciones múltiples para el factor principal Página 4
Variable dependiente: Y (I) (J) Basado en las s observadas * La diferencia de s es significativa al nivel,05 95% (I-J) típ inferior superior -14,5000 5,30723,075-30,2566 1,2566 6,1667 5,30723,660-9,5900 21,9233 19,6667* 5,30723,014 3,9100 35,4233 14,5000 5,30723,075-1,2566 30,2566 20,6667* 5,30723,010 4,9100 36,4233 34,1667* 5,30723,000 18,4100 49,9233-6,1667 5,30723,660-21,9233 9,5900-20,6667* 5,30723,010-36,4233-4,9100 13,5000 5,30723,103-2,2566 29,2566-19,6667* 5,30723,014-35,4233-3,9100-34,1667* 5,30723,000-49,9233-18,4100-13,5000 5,30723,103-29,2566 2,2566 * Se ha detectado el símbolo,05 donde se esperaba un paréntesis de cierre en el subcomando TEST a,b Y N 1 2 3 6 49,0000 6 62,5000 62,5000 6 68,6667 68,6667 6 83,1667,103,660,075 Se muestran las s para los grupos en subconjuntos homogéneos Basado en la suma de tipo III El término error es la cuadrática () = 84,500 a Usa el tamaño muestral de la armónica = 6,000 b Alfa =,05 94) Se estudia la influencia de la presión y la temperatura en la obtención de cierta sustancia nte un procedimiento químico Para ello se combinan tres niveles de presión con otro tres de temperatura midiéndose por dos veces en cada una de las nueve situaciones posibles la cantidad en gramos de la sustancia en cuestión Los 18 datos obtenidos se encuentran en el archiivo procesosav Se trata nuevamente de un modelo bifactorial con interacción Tras aplicar el anova se obtiene lo siguiente: Página 5
Variable dependiente: produccion TEMPERA PRESION TEMPERA * PRESION 1,138 a 8,142 8,000,003 147135,042 1 147135,042 8276346,1,000,301 2,151 8,469,009,768 2,384 21,594,000,069 4,017,969,470,160 9,018 147136,340 18 1,298 17 a R cuadrado =,877 (R cuadrado corregida =,767) Como podemos ver, no se aprecia una interacción significativa entre presión y temperatura, lo cual nos conduce a un modelo sin interacción que ofrece los siguientes resultados: Variable dependiente: produccion TEMPERA PRESION 1,069 a 4,267 15,177,000 147135,042 1 147135,042 8356699,0,000,301 2,151 8,551,004,768 2,384 21,803,000,229 13,018 147136,340 18 1,298 17 a R cuadrado =,824 (R cuadrado corregida =,769) Por lo tanto, tanto la temperatura como la presión influyen en la cantidad del producto obtenido Si queremos saber en qué sentido debemos efectuar las comparaciones múltiples Variable dependiente: produccion (I) temperatura (J) temperatura Basado en las s observadas * La diferencia de s es significativa al nivel,05 95% (I-J) típ inferior superior,1500,07661,162 -,0523,3523,3167*,07661,003,1144,5189 -,1500,07661,162 -,3523,0523,1667,07661,113 -,0356,3689 -,3167*,07661,003 -,5189 -,1144 -,1667,07661,113 -,3689,0356 * Se ha detectado el símbolo,05 donde se esperaba un paréntesis de cierre en el subcomando TEST Página 6
a,b produccion temperatura N 1 2 6 90,2500 6 90,4167 90,4167 6 90,5667,113,162 Se muestran las s para los grupos en subconjuntos homogéneos Basado en la suma de tipo III El término error es la cuadrática () =,018 a Usa el tamaño muestral de la armónica = 6,000 b Alfa =,05 Variable dependiente: produccion (I) PRESION 21 (J) PRESION 21 21 Basado en las s observadas * La diferencia de s es significativa al nivel,05 95% (I-J) típ inferior superior -,3167*,07661,003 -,5189 -,1144,1833,07661,078 -,0189,3856,3167*,07661,003,1144,5189,5000*,07661,000,2977,7023 -,1833,07661,078 -,3856,0189 -,5000*,07661,000 -,7023 -,2977 * Se ha detectado el símbolo,05 donde se esperaba un paréntesis de cierre en el subcomando TEST a,b produccion PRESION 21 N 1 2 6 90,1833 6 90,3667 6 90,6833,078 0 Se muestran las s para los grupos en subconjuntos homogéneos Basado en la suma de tipo III El término error es la cuadrática () =,018 a Usa el tamaño muestral de la armónica = 6,000 b Alfa =,05 La aditividad o ausencia de interacción entre ambos factores se traduce en el paralelismo entre los perfiles de las s, como se aprecia en el siguiente gráfico: Página 7
9 90,80 temperatura produccion 90,60 90,40 90,20 90,00 20 210,00 21 presion 220,00 22 95) Volvamos a considerar los datos correspondientes al archivo Linthurst Datasav Vimos en la prácticca anterior que la covariable acidez del terreno (ph) junto con el factor localización geográfica explicaban de manera bastante satisfactoria la producción de espartina (801%) Un resultado muy similar se obtenía si se consideraba la acidez junto con el factor tipo de vegetación Veamos qué sucede si intentamos explicar la acidez nte los dos factores mencionados (prescindiendo del ph), lo cual supone considerar un diseño bifactorial con interacción y equilibrado: Variable dependiente: Aerial biomass LOC TYPE LOC * TYPE 16818176,000 a 8 210227 32,167,000 45072028,800 1 45072028,8 689,647,000 817013,333 2 408506,667 6,251,005 10875931,733 2 5437965,87 83,206,000 5125230,933 4 1281307,73 19,605,000 2352787,200 36 65355,200 64242990 45 19170963,200 44 a R cuadrado =,877 (R cuadrado corregida =,850) Como podemos ver, el tipo de vegetación, la localización geográfica y la interaccion entre ambos factores influyen en la producción de espartina Y no sólo eso, pues nte ambos factores se consigue explicar un 877% de la variabilidad total de biomasa, que es lo mejor obtenido hasta el momento Veamos qué pasa si añadimos ph como covariable: Variable dependiente: Aerial biomass PH LOC TYPE LOC * TYPE 16829769,410 a 9 1869974,38 27,955,000 68775,038 1 68775,038 1,028,318 11593,410 1 11593,410,173,680 541333,713 2 270666,857 4,046,026 1425252,527 2 712626,264 10,654,000 1742713,298 4 435678,324 6,513,001 2341193,790 35 66891,251 64242990 45 19170963,200 44 a R cuadrado =,878 (R cuadrado corregida =,846) Podemos apreciar que en presencia de los dos factores, ph deja de ser significativo De hecho el coeficiente de correlación múltiple apenas experimenta crecimiento (el corregido ) De Página 8
hecho, podemos comprobar que ambos factores pueden explicar casi perfectamente la acidez del terreno En definitiva, la mejor forma de predecir la producción de biomasa se basa en el conocimiento de la localización geográfica y del tipo de vegetación existente El gráfico siguiente puede ser de utilidad 3000 2000 95% IC Aerial biomass 1000 0 N = 5 5 5 5 5 5 5 5 5 Devegetated Short Tall Localization Oak Island Smith Island Snow s Marsh Types of spartina vegetation Página 9