Práctica : Lineal Múltiple () Esta práctica está dedicada a resolver un problema de Lineal sin atender a ninguna cuestión relativa al cumplimiento de los supuestos del modelo, a la presencia de valores influyentes o a la existencia de multicolinealidad entre las variables explicativas En prácticas posteriores resolveremos problemas de regresión atendiendo a todas esas contiongencias Consideraremos los datos del archivo Linthurst Datasav y, según hemos comentado, daremos por hecho en todo momento que se satisfacen los supuestos del modelo de regresión lineal bviando cualquier consideración relativa al problema de multicolinealidad o a la presencia de valores influyentes Así mosmo, se ignorarán incialmente las variables cualitativas (factores) que arecen en las dos primeras columnas del archivo Conviene empezar, en todo caso, con un diagrama de dispersión matricial Deberíamos ser bastante críticos con el que corresponde a nuestros datos, pero no es ése el objetivo que nos hemos marcado biomass A continuació ejecutamos la regrasión lineal En principio, consideraremos el modelo completo con las cinco variables explicativas Variables introducidas/eliminadas b Variables introducidas, Variables eliminadas Método, Introducir,, a a Todas las variables solicitadas introducidas b Variable dependiente: Aerial biomass Página
Resumen del modelo R R cuadrado R cuadrado corregida Error típ de la estimación,8 a,677,66 98,77 a Variables predictoras:,,,,, Como podemos ver, el 677% de la variabilidad de Biomasa es explicado por las condiciones del terreno A continuación se contrasta si esto es significativo, lo cual equivaldría a afirmar que el vector compuesto por los coeficientes de las variables difiere significativamente de 0 Tal es el caso Debemos saber interpretar perfectamente todos y cada uno de los términos que aparecen el el ANOVA ANOVA b cuadrados gl cuadrática F Sig 9859,9 5 59698,8 6,7,000 a 6867,08 9 586,905 97096, a Variables predictoras:,,,,, b Variable dependiente: Aerial biomass A continuación se procede a realizar los contrastes parciales Sólo la variable ph resulta significativa No debemos fiarnos de este resultado También aparecen las estimaciones de los coeficientes Coeficientes a Coeficientes no estandarizados a Variable dependiente: Aerial biomass Coeficientes estandarizad os B Error típ Beta t Sig 5,89,88,0,7-0,9,0 -,7 -,60,5 05,50 87,88,577,76,00 -,85,8 -,9 -,89,8 -,009,06 -,090 -,5,590-0,678 5,055 -,59 -,7,77 También se puede ejecutar la regresión lineal a través de la opción Lineal Univariante, que será de utilidad en estudios más generales de an laisis de la varianza y covarianza El resultado es el siguiente: Página
Variable dependiente: Aerial biomass Pruebas de los efectos inter-sujetos Fuente corregido Intersección SAL PH K NA ZN Error corregida cuadrados tipo III gl cuadrática F Significación 9859,89 a 5 59698,8 6,7,000 697,98 697,98,09,7 5998,6 5998,6,589,5 97080,76 97080,76,086,00 069,67 069,67,670,8 690,805 690,805,96,590 996,98 996,98,886,77 6867,08 9 586,905 699,000 5 97096,00 a R cuadrado =,677 (R cuadrado corregida =,66) Cada fuente equivale a un subespacio lineal Las siete primeras llevan asociadas una hipótesis a contrastar, W, de manera que el subespacio lineal en cuestiones se corresponde con <X> W, siendo la suma de cuadrados la norma euclídea al cuadrado de la proyección del vector de datos sobre dicho subespacio y gl la dimensión del mismo Para aplicar el test F se debe dividir en todo caso la suma cuadrática por gl, obteniéndose la media cuadrática Dicha media cuadrática se divide por la media cuadrática asociada al error Esta última se asocia a la proyección sobre el ortogonal a <X> Es, por lo tanto, el EIMV de la varianza del modelo La fuente total corregida hace referencia al subespacio ortogonal a las costantes En consecuencia, su suma de cuadrados dividida entre el gl da lugar al EIMV de la varianza de la variable respuesta La fuente total hace referencia a todo el espacio En definitiva, el alumno debe saber interpretar de manera clara y concisa qué significa cada término de la tabla anterior y cómo se utiliza Variable dependiente: Aerial biomass Pruebas de los efectos inter-sujetos Fuente corregido: <_n,z,z,z,z,z5> <_n> Intersección : <_n,z,z,z,z,z5> <Z,Z,Z,Z,Z5> SAL: <_n,z,z,z,z,z5> <_n,z,z,z,z5> PH: <_n,z,z,z,z,z5> <_n,z,z,z,z5> K: <_n,z,z,z,z,z5> <_n,z,z,z,z5> NA: <_n,z,z,z,z,z5> <_n,z,z,z,z5> ZN: <_n,z,z,z,z,z5> <_n,z,z,z,z> Error: R^n <_n,z,z,z,z,z5> : R^n corregida: R^n <_n> cuadrados tipo III gl cuadrática 9859,89 a 5 59698,8 697,98 697,98 5998,6 5998,6 97080,76 97080,76 069,67 069,67 690,805 690,805 996,98 996,98 6867,08 9 586,905 699,000 5 97096,00 Página
Variable dependiente: Aerial biomass Pruebas de los efectos inter-sujetos Fuente corregido: <_n,z,z,z,z,z5> <_n> Intersección : <_n,z,z,z,z,z5> <Z,Z,Z,Z,Z5> SAL: <_n,z,z,z,z,z5> <_n,z,z,z,z5> PH: <_n,z,z,z,z,z5> <_n,z,z,z,z5> K: <_n,z,z,z,z,z5> <_n,z,z,z,z5> NA: <_n,z,z,z,z,z5> <_n,z,z,z,z5> ZN: <_n,z,z,z,z,z5> <_n,z,z,z,z> Error: R^n <_n,z,z,z,z,z5> : R^n corregida: R^n <_n> a R cuadrado =,677 (R cuadrado corregida =,66) F Significación 6,7,000,09,7,589,5,086,00,670,8,96,590,886,77 Observemos que R cuadrado se obtiene como cociente entre las SC del modelo corregido y del total corregido La intersección no coincide con <_n> y, por lo tanto, junto con la total corregida no suma la total POR QUÉ? SAL, PH, K, NA y ZN no suman el modelo corregido POR QUÉ? Qué condiciones deberían darse que sumaran correctamente? Pues <X> debería descomponer en suma ORTOGONAL de los subespacios <_n>,<z>,<z>,<z>,<z>,<z5>, lo cual equivale a que las variables explicativas sean incorreladas y de media 0 POR QUÉ? Aunque exceda los concimientos que se supone tenemos a estas alturas, hemos de decir que eso puede conseguirse reemplazando las variables explicativas originales por sus componentes principales La componentes principales son 5 ciertas combinaciones lineales incorreladas de las 5 variables originales que, por lo tanto, generan el mismo subsepacio <X>, de ahí que el modelo sea equivalente en cierto sentido De hecho, el valor de R y el resultado del test principal deben permanecer invariantes POR QUÉ? No así los resultados de los tests parciales Ofrecemos a continuación el resultado de la regresión de Biomasa respecto a las componentes principales (será de gran utilidad cuando afrontemos el problema de multicolinealidad) comprobar cómo se suman los valores SC Variable dependiente: Aerial biomass Pruebas de los efectos inter-sujetos Fuente corregido Intersección FAC_ FAC_ FAC_ FAC_ FAC5_ Error corregida cuadrados tipo III gl cuadrática F Significación 9859,89 a 5 59698,8 6,7,000 50708,800 50708,8 8,,000 89800,98 89800,0 5,,000 9,5 9,5 8,,007 60,5 60, 0,877,000 7769,90 7769,90,87,89 60, 60,,00,8 6867,08 9 586,905 699,000 5 97096,00 a R cuadrado =,677 (R cuadrado corregida =,66) Procedemos a ejecutar nuevamente la regresión lineal por el procedimiento inicial pero seleccionando las variables explicativas mediante el método Forward Página
Variables introducidas/eliminadas a Variables introducidas Variables eliminadas a Variable dependiente: Aerial biomass Método adelante Prob de F entrar <=,050) adelante Prob de F entrar <=,050) Podemos apreciar que las dos únicas variabes introducidas son ph (primera) y Sodio (segunda) El modelo reducido con ambas explica un 658% de la variabilidad de Biomasa Resumen del modelo R R cuadrado R cuadrado corregida Error típ de la estimación,77 a,599,590,6,8 b,658,6 9,859 a Variables predictoras:, b Variables predictoras:,, En ambos modelos (ph y ph-sodio) se obtienen contrastes totales significativos ANOVA c a Variables predictoras:, cuadrados gl cuadrática F Sig 9088, 9088, 6,9,000 a 768057,8 7868,09 97096, 6597,6 698,79 0,79,000 b 65865,6 559,67 97096, b Variables predictoras:,, c Variable dependiente: Aerial biomass A continuación se presentan las estimaciones de los coeficientes y los contrasates parciales en ambos modelos Obsérvese que el el modelo reducido el Sodio sí es significativo, cosa que no ocurría ante la presencia del resto de variables Cómo es posible? Página 5
Coeficientes a Coeficientes no estandarizados a Variable dependiente: Aerial biomass Coeficientes estandarizad os B Error típ Beta t Sig -885,, -,66,00 09,80 5,09,77 8,0,000-75,77 7,5 -,79,089 0,955 7,770,765 8,77,000 -,0,009 -, -,695,00 Aquí aparecen las variables excluidas Interesa el modelo definitivo () Podemos observar que los coeficientes de correlación parcial entre cada una de ellas y Biomasa, dadas las variables ph y Sodio, son muy bajos, de ahí que los contrastes parciales resulten no significativos Variables excluidas c Estadísticos de Correlación colinealidad Beta dentro t Sig parcial Tolerancia -,06 a -,65,57 -,00,997 -,0 a -,97,0 -,7,000 -, a -,695,00 -,8,999 -,7 a -,978, -,9,78 -,05 b -,7,787 -,0,97 -,07 b -,8,6 -,075,70 -,09 b -,698,89 -,08,70 a Variables predictoras en el modelo:, b Variables predictoras en el modelo:,, c Variable dependiente: Aerial biomass Probaremos ahora con un algoritmo de selección backward Salen del modelo, por este orden, Sodio, y Salinidad Se quedan ph y Potasio Página 6
Variables introducidas/eliminadas b Variables Variables introducidas eliminadas Método,, Introducir,, a atrás Prob de F eliminar >=,00) atrás Prob de F eliminar >=,00) atrás Prob de F eliminar >=,00) a Todas las variables solicitadas introducidas b Variable dependiente: Aerial biomass Aquí están los coeficientes de correlación múltiple de los distintos modelos En el modelo reducido final se explica el 68% de la variabilidad de Biomasa Obsérvese que, mientras que el coeficiente de correlación va disminuyendonecesariamente, no ocurre lo mismo con el corregido Resumen del modelo R cuadrado Error típ de la R R cuadrado corregida estimación,8 a,677,66 98,77,8 b,675,6 9,755,808 c,65,67 0,8,805 d,68,6 0,079 a Variables predictoras:,,,,, b Variables predictoras:,,,, c Variables predictoras:,,, d Variables predictoras:,, Tenemos los ANOVAs los modelos El del modelo (completo) se realizó ya al principio Página 7
ANOVA e cuadrados gl cuadrática F Sig 9859,9 5 59698,8 6,7,000 a 6867,08 9 586,905 97096, 97689,,7 0,756,000 b 67, 0 558,85 97096, 5089, 676, 5,66,000 c 6668069,867 665,850 97096, 65,9 6076,95 8,587,000 d 675609,0 6086,507 97096, a Variables predictoras:,,,,, b Variables predictoras:,,,, c Variables predictoras:,,, d Variables predictoras:,, e Variable dependiente: Aerial biomass Aquí tenemos la estimación de los coeficientes de regresión y los contrastes parciales en los cuatro modelos Obsérvese que la variable Sodio, incluida en el método forward, sale prematuramente en el modelo completo Debajo tenemos una descripciónde las variables excluidas Coeficientes a Coeficientes no estandarizados a Variable dependiente: Aerial biomass Coeficientes estandarizad os B Error típ Beta t Sig 5,89,88,0,7-0,9,0 -,7 -,60,5 05,50 87,88,577,76,00 -,85,8 -,9 -,89,8 -,009,06 -,090 -,5,590-0,678 5,055 -,59 -,7,77 505,88,69,8,9-5,9,76 -,0 -,67,0 9,86 8,7,555,79,00 -,9,0 -,98 -,68,06 -,5,00 -,9 -,670,0 -,5 58,55 -,5,8 -,057 6,69 -,068 -,77,66 0,07 8,87,775 8,0,000 -,90,0 -, -,98,0-506,977 79,77 -,8,077,00 8,98,778 8,96,000 -,87,0 -,0 -,97,0 Página 8
Variables excluidas d Estadísticos de Correlación colinealidad Beta dentro t Sig parcial Tolerancia -,090 a -,5,590 -,087,00 -,68 b -,06,95 -,65,9 -,9 b -,670,0 -,55,6 -,86 c -,, -,90,70 -,098 c -,79,70 -,,7 -,068 c -,77,66 -,,997 a Variables predictoras en el modelo:,,,, b Variables predictoras en el modelo:,,, c Variables predictoras en el modelo:,, d Variable dependiente: Aerial biomass Cuál es la conclusión? Según el método forward tenemos la ecuación Biomasa=-7577+0955pH-00Na Según el método backward, la ecuación final será Biomasa=-506977+00pH-087K El hecho de que las conclusiones sean dispares es síntoma de que existen problemas a la hora de aplicar la regresión Uno de ellos puede ser la presencia de multicolinealidad entre las variables explicativas En todo caso, se hace necesario un estudio del problema a otro nivel Para realizar predicciones basta intrducir los datos de as variables explicativas selecconadas y dejar en blanco la Biomasasa nte la opción guardar tenemos la posibilidad de salvar la predicción correspondiente junto con intervalos de confianza la misma y el valor medio esperado Página 9