Práctica 4: Regresión Lineal Múltiple (1).

Documentos relacionados
Práctica7: Regresión Lineal Múltiple (4)

PRÁCTICA 3. REGRESIÓN LINEAL SIMPLE CON SPSS Ajuste de un modelo de regresión lineal simple Porcentaje de variabilidad explicado

SPSS Aplicación práctica: Base de datos del HATCO

MÉTODOS ESTADÍSTICOS 4º Biológicas Septiembre 2009 PRIMER EJERCICIO

TEMA 4 Modelo de regresión múltiple

Tema 2: Regresión. Grado en Fisioterapia, 2010/11. Jesús Montanero Fernández. Cátedra de Bioestadística Universidad de Extremadura

Práctica 6: Regresión Lineal Múltiple (3)

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Análisis Multivariado: Modelo Predictivo de Regresión Lineal Múltiple

EXTENSIONES DEL MODELO DE REGRESIÓN

Práctica 9: Anova (2).

Regresión. Notas. Página 1 13-DEC :24:11. Salida creada Comentarios

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

Estadística; 3º CC. AA. Examen final, 23 de enero de 2009

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Universidad Nacional Abierta Estadística Aplicada (Cód. 746) Vicerrectorado Académico Cód. Carrera: Área de Matemática Fecha:

Regresión con variables independientes cualitativas

Tema 10: Introducción a los problemas de Asociación y Correlación

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Contenido. vii. Prólogo... i Presentación... iii Grupo de trabajo...v. 1. Introducción y conceptos preliminares...1

GUÍA DE STATGRAPHICS 5.1

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso Septiembre Primera Parte

Al nivel de confianza del 95%, las puntuaciones típicas son: 2- La hipótesis alternativa es; A) ; B) ; C).

EXAMEN DE ESTADÍSTICA II Junio de 2002 SOLUCIÓN (tiempo:100 minutos)

Método de cuadrados mínimos

REGRESIÓN LINEAL CON SPSS

Tema 8: Regresión y Correlación

Práctica 10: Introducción a Modelos Lineales Generalizados.

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

Prueba t para muestras independientes

Ejemplo Diseño Completamente aleatorizado (Pág. 470 Montgomery)

CORRELACION Y REGRESION

Regresión Lineal Simple y Múltiple Regresión Logística

Análisis de Correlación Canónica y Análisis discriminante

Regresión con efecto interactivo

Objetivo: Proponer modelos para analizar la influencia

Elaborado por: Pelay, C. y Pérez, J. Prueba t para muestras independientes

TEMA 4 FASE ESTADÍSTICO-ANALÍTICA: RECURSOS PARA EL ANÁLISIS DE DATOS

ESTADÍSTICA. Tema 4 Regresión lineal simple

Tema 4. Regresión lineal simple

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

ANÁLISIS DE REGRESIÓN

TEMA 2 Diseño de experimentos: modelos con varios factores

Prácticas Tema 2: El modelo lineal simple

1. Realice la prueba de homogeneidad de variancias e interprete los resultados.

ESQUEMA GENERAL Concepto y formato del Diseño de grupo control no equivalente (DGCNE) Clasificación

TEMA 3 Modelo de regresión simple

MÉTODOS DE INVESTIGACIÓN EN EDUCACIÓN. Tema 9

7. De acuerdo con la gráfica siguiente, el contraste estadístico es:

ESTADISTICA AVANZADA MODULO I

CLAVE - LAB 12 - Regresión Múltiple y Selección de Variables

TEMA 10 COMPARAR MEDIAS

REGRESIÓN LINEAL SIMPLE

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Qué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y)

Análisis de Regresión.

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II

Análisis de la varianza. Magdalena Cladera Munar Departamento de Economía Aplicada Universitat de les Illes Balears

Fundamentos de Biología Aplicada I Estadística Curso Práctica 5: Regresión Lineal Múltiple

Unidad Temática 3: Estadística Analítica. Unidad 9 Regresión Lineal Simple Tema 15

Tema 3: Análisis de datos bivariantes

Lic. Rodrigo De Urioste Nardin

Regresión con variables independientes categóricas

Estadística para la Economía y la Gestión IN 3401 Clase 5

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso

Estadística II Examen final enero 19/1/17 Curso 2016/17 Soluciones Duración del examen: 2 h y 15 min

Problema 1.- Tengamos las puntuaciones de X, las predichas y las residuales:

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

U ED Tudela Introducción al Análisis de Datos - Tema 4

Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez.

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II

Información sobre Gastos de Consumo Personal y Producto Interno Bruto ( ) en miles de millones de dólares de 1992.

Lucila Finkel Temario

peso edad grasas Regresión lineal simple Los datos

SCORING DE SEVERDIDAD (LGD) PROPUESTA DE UNA METODOLOGIA PARA CALCULAR LA TASA DE RECUPERCIÓN (Tr) Y LA SEVERDIDAD (LGD) DE UNA OPERACIÓN DE CREDITO

Estadística II Ejercicios Tema 5

ESTAD2 - Estadística II

Transcripción:

Práctica : Lineal Múltiple () Esta práctica está dedicada a resolver un problema de Lineal sin atender a ninguna cuestión relativa al cumplimiento de los supuestos del modelo, a la presencia de valores influyentes o a la existencia de multicolinealidad entre las variables explicativas En prácticas posteriores resolveremos problemas de regresión atendiendo a todas esas contiongencias Consideraremos los datos del archivo Linthurst Datasav y, según hemos comentado, daremos por hecho en todo momento que se satisfacen los supuestos del modelo de regresión lineal bviando cualquier consideración relativa al problema de multicolinealidad o a la presencia de valores influyentes Así mosmo, se ignorarán incialmente las variables cualitativas (factores) que arecen en las dos primeras columnas del archivo Conviene empezar, en todo caso, con un diagrama de dispersión matricial Deberíamos ser bastante críticos con el que corresponde a nuestros datos, pero no es ése el objetivo que nos hemos marcado biomass A continuació ejecutamos la regrasión lineal En principio, consideraremos el modelo completo con las cinco variables explicativas Variables introducidas/eliminadas b Variables introducidas, Variables eliminadas Método, Introducir,, a a Todas las variables solicitadas introducidas b Variable dependiente: Aerial biomass Página

Resumen del modelo R R cuadrado R cuadrado corregida Error típ de la estimación,8 a,677,66 98,77 a Variables predictoras:,,,,, Como podemos ver, el 677% de la variabilidad de Biomasa es explicado por las condiciones del terreno A continuación se contrasta si esto es significativo, lo cual equivaldría a afirmar que el vector compuesto por los coeficientes de las variables difiere significativamente de 0 Tal es el caso Debemos saber interpretar perfectamente todos y cada uno de los términos que aparecen el el ANOVA ANOVA b cuadrados gl cuadrática F Sig 9859,9 5 59698,8 6,7,000 a 6867,08 9 586,905 97096, a Variables predictoras:,,,,, b Variable dependiente: Aerial biomass A continuación se procede a realizar los contrastes parciales Sólo la variable ph resulta significativa No debemos fiarnos de este resultado También aparecen las estimaciones de los coeficientes Coeficientes a Coeficientes no estandarizados a Variable dependiente: Aerial biomass Coeficientes estandarizad os B Error típ Beta t Sig 5,89,88,0,7-0,9,0 -,7 -,60,5 05,50 87,88,577,76,00 -,85,8 -,9 -,89,8 -,009,06 -,090 -,5,590-0,678 5,055 -,59 -,7,77 También se puede ejecutar la regresión lineal a través de la opción Lineal Univariante, que será de utilidad en estudios más generales de an laisis de la varianza y covarianza El resultado es el siguiente: Página

Variable dependiente: Aerial biomass Pruebas de los efectos inter-sujetos Fuente corregido Intersección SAL PH K NA ZN Error corregida cuadrados tipo III gl cuadrática F Significación 9859,89 a 5 59698,8 6,7,000 697,98 697,98,09,7 5998,6 5998,6,589,5 97080,76 97080,76,086,00 069,67 069,67,670,8 690,805 690,805,96,590 996,98 996,98,886,77 6867,08 9 586,905 699,000 5 97096,00 a R cuadrado =,677 (R cuadrado corregida =,66) Cada fuente equivale a un subespacio lineal Las siete primeras llevan asociadas una hipótesis a contrastar, W, de manera que el subespacio lineal en cuestiones se corresponde con <X> W, siendo la suma de cuadrados la norma euclídea al cuadrado de la proyección del vector de datos sobre dicho subespacio y gl la dimensión del mismo Para aplicar el test F se debe dividir en todo caso la suma cuadrática por gl, obteniéndose la media cuadrática Dicha media cuadrática se divide por la media cuadrática asociada al error Esta última se asocia a la proyección sobre el ortogonal a <X> Es, por lo tanto, el EIMV de la varianza del modelo La fuente total corregida hace referencia al subespacio ortogonal a las costantes En consecuencia, su suma de cuadrados dividida entre el gl da lugar al EIMV de la varianza de la variable respuesta La fuente total hace referencia a todo el espacio En definitiva, el alumno debe saber interpretar de manera clara y concisa qué significa cada término de la tabla anterior y cómo se utiliza Variable dependiente: Aerial biomass Pruebas de los efectos inter-sujetos Fuente corregido: <_n,z,z,z,z,z5> <_n> Intersección : <_n,z,z,z,z,z5> <Z,Z,Z,Z,Z5> SAL: <_n,z,z,z,z,z5> <_n,z,z,z,z5> PH: <_n,z,z,z,z,z5> <_n,z,z,z,z5> K: <_n,z,z,z,z,z5> <_n,z,z,z,z5> NA: <_n,z,z,z,z,z5> <_n,z,z,z,z5> ZN: <_n,z,z,z,z,z5> <_n,z,z,z,z> Error: R^n <_n,z,z,z,z,z5> : R^n corregida: R^n <_n> cuadrados tipo III gl cuadrática 9859,89 a 5 59698,8 697,98 697,98 5998,6 5998,6 97080,76 97080,76 069,67 069,67 690,805 690,805 996,98 996,98 6867,08 9 586,905 699,000 5 97096,00 Página

Variable dependiente: Aerial biomass Pruebas de los efectos inter-sujetos Fuente corregido: <_n,z,z,z,z,z5> <_n> Intersección : <_n,z,z,z,z,z5> <Z,Z,Z,Z,Z5> SAL: <_n,z,z,z,z,z5> <_n,z,z,z,z5> PH: <_n,z,z,z,z,z5> <_n,z,z,z,z5> K: <_n,z,z,z,z,z5> <_n,z,z,z,z5> NA: <_n,z,z,z,z,z5> <_n,z,z,z,z5> ZN: <_n,z,z,z,z,z5> <_n,z,z,z,z> Error: R^n <_n,z,z,z,z,z5> : R^n corregida: R^n <_n> a R cuadrado =,677 (R cuadrado corregida =,66) F Significación 6,7,000,09,7,589,5,086,00,670,8,96,590,886,77 Observemos que R cuadrado se obtiene como cociente entre las SC del modelo corregido y del total corregido La intersección no coincide con <_n> y, por lo tanto, junto con la total corregida no suma la total POR QUÉ? SAL, PH, K, NA y ZN no suman el modelo corregido POR QUÉ? Qué condiciones deberían darse que sumaran correctamente? Pues <X> debería descomponer en suma ORTOGONAL de los subespacios <_n>,<z>,<z>,<z>,<z>,<z5>, lo cual equivale a que las variables explicativas sean incorreladas y de media 0 POR QUÉ? Aunque exceda los concimientos que se supone tenemos a estas alturas, hemos de decir que eso puede conseguirse reemplazando las variables explicativas originales por sus componentes principales La componentes principales son 5 ciertas combinaciones lineales incorreladas de las 5 variables originales que, por lo tanto, generan el mismo subsepacio <X>, de ahí que el modelo sea equivalente en cierto sentido De hecho, el valor de R y el resultado del test principal deben permanecer invariantes POR QUÉ? No así los resultados de los tests parciales Ofrecemos a continuación el resultado de la regresión de Biomasa respecto a las componentes principales (será de gran utilidad cuando afrontemos el problema de multicolinealidad) comprobar cómo se suman los valores SC Variable dependiente: Aerial biomass Pruebas de los efectos inter-sujetos Fuente corregido Intersección FAC_ FAC_ FAC_ FAC_ FAC5_ Error corregida cuadrados tipo III gl cuadrática F Significación 9859,89 a 5 59698,8 6,7,000 50708,800 50708,8 8,,000 89800,98 89800,0 5,,000 9,5 9,5 8,,007 60,5 60, 0,877,000 7769,90 7769,90,87,89 60, 60,,00,8 6867,08 9 586,905 699,000 5 97096,00 a R cuadrado =,677 (R cuadrado corregida =,66) Procedemos a ejecutar nuevamente la regresión lineal por el procedimiento inicial pero seleccionando las variables explicativas mediante el método Forward Página

Variables introducidas/eliminadas a Variables introducidas Variables eliminadas a Variable dependiente: Aerial biomass Método adelante Prob de F entrar <=,050) adelante Prob de F entrar <=,050) Podemos apreciar que las dos únicas variabes introducidas son ph (primera) y Sodio (segunda) El modelo reducido con ambas explica un 658% de la variabilidad de Biomasa Resumen del modelo R R cuadrado R cuadrado corregida Error típ de la estimación,77 a,599,590,6,8 b,658,6 9,859 a Variables predictoras:, b Variables predictoras:,, En ambos modelos (ph y ph-sodio) se obtienen contrastes totales significativos ANOVA c a Variables predictoras:, cuadrados gl cuadrática F Sig 9088, 9088, 6,9,000 a 768057,8 7868,09 97096, 6597,6 698,79 0,79,000 b 65865,6 559,67 97096, b Variables predictoras:,, c Variable dependiente: Aerial biomass A continuación se presentan las estimaciones de los coeficientes y los contrasates parciales en ambos modelos Obsérvese que el el modelo reducido el Sodio sí es significativo, cosa que no ocurría ante la presencia del resto de variables Cómo es posible? Página 5

Coeficientes a Coeficientes no estandarizados a Variable dependiente: Aerial biomass Coeficientes estandarizad os B Error típ Beta t Sig -885,, -,66,00 09,80 5,09,77 8,0,000-75,77 7,5 -,79,089 0,955 7,770,765 8,77,000 -,0,009 -, -,695,00 Aquí aparecen las variables excluidas Interesa el modelo definitivo () Podemos observar que los coeficientes de correlación parcial entre cada una de ellas y Biomasa, dadas las variables ph y Sodio, son muy bajos, de ahí que los contrastes parciales resulten no significativos Variables excluidas c Estadísticos de Correlación colinealidad Beta dentro t Sig parcial Tolerancia -,06 a -,65,57 -,00,997 -,0 a -,97,0 -,7,000 -, a -,695,00 -,8,999 -,7 a -,978, -,9,78 -,05 b -,7,787 -,0,97 -,07 b -,8,6 -,075,70 -,09 b -,698,89 -,08,70 a Variables predictoras en el modelo:, b Variables predictoras en el modelo:,, c Variable dependiente: Aerial biomass Probaremos ahora con un algoritmo de selección backward Salen del modelo, por este orden, Sodio, y Salinidad Se quedan ph y Potasio Página 6

Variables introducidas/eliminadas b Variables Variables introducidas eliminadas Método,, Introducir,, a atrás Prob de F eliminar >=,00) atrás Prob de F eliminar >=,00) atrás Prob de F eliminar >=,00) a Todas las variables solicitadas introducidas b Variable dependiente: Aerial biomass Aquí están los coeficientes de correlación múltiple de los distintos modelos En el modelo reducido final se explica el 68% de la variabilidad de Biomasa Obsérvese que, mientras que el coeficiente de correlación va disminuyendonecesariamente, no ocurre lo mismo con el corregido Resumen del modelo R cuadrado Error típ de la R R cuadrado corregida estimación,8 a,677,66 98,77,8 b,675,6 9,755,808 c,65,67 0,8,805 d,68,6 0,079 a Variables predictoras:,,,,, b Variables predictoras:,,,, c Variables predictoras:,,, d Variables predictoras:,, Tenemos los ANOVAs los modelos El del modelo (completo) se realizó ya al principio Página 7

ANOVA e cuadrados gl cuadrática F Sig 9859,9 5 59698,8 6,7,000 a 6867,08 9 586,905 97096, 97689,,7 0,756,000 b 67, 0 558,85 97096, 5089, 676, 5,66,000 c 6668069,867 665,850 97096, 65,9 6076,95 8,587,000 d 675609,0 6086,507 97096, a Variables predictoras:,,,,, b Variables predictoras:,,,, c Variables predictoras:,,, d Variables predictoras:,, e Variable dependiente: Aerial biomass Aquí tenemos la estimación de los coeficientes de regresión y los contrastes parciales en los cuatro modelos Obsérvese que la variable Sodio, incluida en el método forward, sale prematuramente en el modelo completo Debajo tenemos una descripciónde las variables excluidas Coeficientes a Coeficientes no estandarizados a Variable dependiente: Aerial biomass Coeficientes estandarizad os B Error típ Beta t Sig 5,89,88,0,7-0,9,0 -,7 -,60,5 05,50 87,88,577,76,00 -,85,8 -,9 -,89,8 -,009,06 -,090 -,5,590-0,678 5,055 -,59 -,7,77 505,88,69,8,9-5,9,76 -,0 -,67,0 9,86 8,7,555,79,00 -,9,0 -,98 -,68,06 -,5,00 -,9 -,670,0 -,5 58,55 -,5,8 -,057 6,69 -,068 -,77,66 0,07 8,87,775 8,0,000 -,90,0 -, -,98,0-506,977 79,77 -,8,077,00 8,98,778 8,96,000 -,87,0 -,0 -,97,0 Página 8

Variables excluidas d Estadísticos de Correlación colinealidad Beta dentro t Sig parcial Tolerancia -,090 a -,5,590 -,087,00 -,68 b -,06,95 -,65,9 -,9 b -,670,0 -,55,6 -,86 c -,, -,90,70 -,098 c -,79,70 -,,7 -,068 c -,77,66 -,,997 a Variables predictoras en el modelo:,,,, b Variables predictoras en el modelo:,,, c Variables predictoras en el modelo:,, d Variable dependiente: Aerial biomass Cuál es la conclusión? Según el método forward tenemos la ecuación Biomasa=-7577+0955pH-00Na Según el método backward, la ecuación final será Biomasa=-506977+00pH-087K El hecho de que las conclusiones sean dispares es síntoma de que existen problemas a la hora de aplicar la regresión Uno de ellos puede ser la presencia de multicolinealidad entre las variables explicativas En todo caso, se hace necesario un estudio del problema a otro nivel Para realizar predicciones basta intrducir los datos de as variables explicativas selecconadas y dejar en blanco la Biomasasa nte la opción guardar tenemos la posibilidad de salvar la predicción correspondiente junto con intervalos de confianza la misma y el valor medio esperado Página 9