Modelos Lineales. Regresión Lineal Múltiple. Práctica 5

Documentos relacionados
Intervalos de confianza con STATGRAPHICS

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Aplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas

peso edad grasas Regresión lineal simple Los datos

Tercera práctica de REGRESIÓN.

Contraste de hipótesis con STATGRAPHICS

Los datos siguientes contienen indicadores demográficos y criminales sobre 47

Multiple Linear Regression

Estadística Industrial. Universidad Carlos III de Madrid Series temporales Práctica 5

INTRODUCCION AL ECONOMETRIC VIEWS. Aquí se introduce la frecuencia y las fechas de comienzo y final de los datos.

T2. El modelo lineal simple

PRÁCTICA 8: CONTRASTES DE HIPÓTESIS PARAMÉTRICOS

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Ventanas de SPSS 1 y resultados de los análisis estadísticos descriptivos

Estadística II Examen final junio - 17/06/16 Curso 2015/16 Soluciones Duración del examen: 2 h. y 45 min.

Manual de bolsillo del MegaStat * * MegaStat es un complemento estadístico para el Excel elaborado por el profesor J. B. Orris de Butler University.

Práctica 3: Regresión simple con R

ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

Ejemplos del Suplemento 1 resueltos con Minitab

Segunda práctica de REGRESIÓN.

DEPARTAMENTO DE CIENCIAS BASICAS AREA DE ESTADISTICA

T R A B A J O D E I N V E S T I G A C I O N D E O P E R A C I O N E S I

Diseño de Experimentos

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

LAMPIRAN-LAMPIRAN LAMPIRAN- LAMPIRAN

(a) Calculate a point estimate of the mean pull-off force of all connectors in the population. State which estimator you used and why.

Un modelo para representar una relación aproximadamente

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

Tema 4. Regresión lineal simple

Selección del Modelo de Regresión

ANÁLISIS DE REGRESIÓN

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

ANALISIS DE LA ESTATURA

(5 x 3) ( 3 x 5) ( 5 x 1) b1 335, ,3-26, ,59 b2 = 0, , ,8 12,85 = 2,94 b3-26,79 13,8 2, ,31

Cointegración del Índice de Precios al Consumidor y Liquidez monetaria ( ). Venezuela.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA ESCUELA DE CIENCIAS AGRICOLA, PECUARIAS Y DEL MEDIO AMBIENTE ECAPMA

UNIVERSIDAD NACIONAL DE TRUJILLO ESCUELA PROFESIONAL DE ECONOMÍA APUNTES DE CLASE ECUACIONES SIMULTÁNEAS: EJERCICIO 19.

Prácticas Tema 4: Modelo con variables cualitativas

Estadísticas Pueden ser

Tema 10: Introducción a los problemas de Asociación y Correlación

Análisis de los resultados de la evaluación del aprendizaje de procedimientos de análisis descriptivo en ingeniería informática

Prácticas Tema 2: El modelo lineal simple

PRÁCTICA 5: CONTRASTES DE HIPÓTESIS PARAMÉTRICOS

Práctica de MODELOS DE PROBABILIDAD

Prácticas Tema 5. Ampliaciones del Modelo lineal básico

EXAMEN DE ESTADÍSTICA II Junio de 2002 SOLUCIÓN (tiempo:100 minutos)

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

Parte de las notas tomadas de: Prof. Edgar Acuña UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

Má M s á ter e Se S c e tor o Fa F r a ma m c a éu é t u ico Es E tad a í d stica a ap a l p icad a a d Teresa Villagarcía

DIPLOMADO EN RELACIONES LABORALES Estadística Asistida por Ordenador Curso

TEMA 2 Diseño de experimentos: modelos con varios factores

74 Prime Time. conjetura Suposición acerca de un patrón o relación, basada en observaciones.

Práctica de SIMULACIÓN

Ajuste de Regresión Lineal Simple

INTRODUCCIÓN A REGRESIÓN LINEAL. Simple y Múltiple

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

ECONOMETRÍA II PRÁCTICAS DE ORDENADOR. Práctica 3

Tema 8: Regresión y Correlación

ESTADÍSTICA. Tema 4 Regresión lineal simple

ANOVA (Análisis de varianza)

PRÁCTICA 3. REGRESIÓN LINEAL SIMPLE CON SPSS Ajuste de un modelo de regresión lineal simple Porcentaje de variabilidad explicado

EXAMEN ECONOMETRÍA I GRUPO 53 - DADE 8 de septiembre de 2005 Prof. Rafael de Arce

ANÁLISIS DE LA VARIANZA CON UN FACTOR (ANOVA)

UNIVERSIDAD NACIONAL DE TRUJILLO ESCUELA PROFESIONAL DE ECONOMÍA APUNTES DE CLASE

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

APÉNDICE B ANOVA para las salsas comerciales

Pregunta 1 Suponga que una muestra de 35 observaciones es obtenida de una población con media y varianza. Entonces la se calcula como.

1. Identifica y abre el programa STATA. La pantalla de inicio se muestra a continuación:

PRÁCTICA 6: CONTASTE DE HIPÓTESIS

Estadística II Tema 4. Regresión lineal simple. Curso 2010/11

Creating your Single Sign-On Account for the PowerSchool Parent Portal

TEMA 4 Modelo de regresión múltiple

UNIVERSIDAD DE GUAYAQUIL FACULTAD DE ODONTOLOGÍA ESCUELA DE POSTGRADO Dr. José Apolo Pineda

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

INTRODUCCIÓN AL PROGRAMA AMOS 5.0.

CAPÍTULO 10 ESTIMACIÓN POR PUNTO Y POR INTERVALO 1.- ESTIMACIÓN PUNTUAL DE LA MEDIA Y DE LA VARIANZA 2.- INTERVALO DE CONFIANZA PARA LA MEDIA

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.

Introducción a la Econometría (LE y LADE, mañana) Prof. Magdalena Cladera ANÁLISIS DE REGRESIÓN CON EXCEL Y SPSS

Método de cuadrados mínimos

Estadística. Convocatoria ordinaria. 23 de mayo de Nombre Grupo.. Titulación.Número de Examen..

Cálculos de Regresión Logística en R, Caso de una covariable.

TEMA 10 COMPARAR MEDIAS

PARTE IV: RESULTADOS CAPÍTULO 13:

PROYECTO FAMILIAR: SUDODDKU PROYECTO FAMILIAR. UCI Math CEO Meeting 4 (FEBRUARY 8, 2017) Estimado estudiante,

Práctica 5 Prueba de Hipótesis

Análisis de dos muestras

Métodos Estadísticos de la Ingeniería Tema 11: Contrastes de Hipótesis Grupo B

Regresión Lineal. 15 de noviembre de Felipe Bravo Márquez

Análisis de diferencias de medias entre centros educativos chilenos según grupo socioeconómico y dependencia administrativa

Índice General de Ventas en Grandes Almacenes y su logaritmo

Prácticas de Fiabilidad

Información sobre Gastos de Consumo Personal y Producto Interno Bruto ( ) en miles de millones de dólares de 1992.

TEMA 3: Contrastes de Hipótesis en el MRL

Ejemplo 6.4. Pilar González y Susan Orbe. Dpto. Economía Aplicada III (Econometría y Estadística)

Viernes 7 de octubre de 2005 Mate 3026 Estadística con Programación Prof. José N. Díaz Caraballo

Práctica 5. Contrastes paramétricos en una población

III CONGRESO NACIONAL DE ATENCIÓN SANITARIA AL PACIENTE CRÓNICO - 19 Y 20 DE MAYO

CURSO: ECONOMETRÍA Y ANÁLISIS DE POLÍTICAS FISCALES INSTRUCTOR: HORACIO CATALÁN ALONSO

Economía Aplicada. Modelos con variables dependiente binarias. Departamento de Economía Universidad Carlos III de Madrid

Transcripción:

Práctica 5 Vamos a analizar con STATGRAPHICS el problema de estimación, descomposición de la variabilidad, contraste de regresión, intervalos de confianza para los parámetros, y predicciones, sobre un modelo de regresión lineal múltiple. Para ello, consideraremos las observaciones sobre 8 provincias españolas de un vector tridimensional (X 1, X 2, Y ), donde la variable Y está dada por un indicador global del consumo, y las variables X 1 y X 2 representan, respectivamente, el número de automóviles y teléfonos por cada 1000 habitantes. Dichas observaciones, almacenadas en el fichero P5.SF3, se recogen en la siguiente tabla: Ind. Global Automóviles Teléfonos 64 58 111 78 84 131 83 78 158 88 81 147 89 82 121 99 102 165 101 85 174 102 102 169 Vamos a trabajar con el modelo de regresión de Y sobre X 1 y X 2. Estimación y contrastes de nulidad sobre los parámetros del modelo. Tabla ANO- VA y contraste de regresión. Debemos ejecutar la opción RELATE/MULTIPLE REGRESSION, y entonces establecer la variable Y como dependiente, y las variables X 1 y X 2 como independientes. Al hacer click sobre el botón OK se obtiene la siguiente salida: Multiple Regression Analysis Dependent variable: Y Standard T Parameter Estimate Error Statistic P-Value CONSTANT 9.05385 14.9631 0.605079 0.5715 1

X1 0.520279 0.231662 2.24585 0.0747 X2 0.239746 0.137752 1.74042 0.1423 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 1011.65 2 505.827 14.34 0.0085 Residual 176.345 5 35.2691 Total (Corr.) 1188.0 7 R-squared = 85.1561 percent R-squared (adjusted for d.f.) = 79.2185 percent Standard Error of Est. = 5.93878 Mean absolute error = 3.96034 Durbin-Watson statistic = 1.94516 The StatAdvisor --------------- The output shows the results of fitting a multiple linear regression model to describe the relationship between Y and 2 independent variables. The equation of the fitted model is Y = 9.05385 + 0.520279*X1 + 0.239746*X2 Since the P-value in the ANOVA table is less than 0.01, there is a statistically significant relationship between the variables at the 99% confidence level. The R-Squared statistic indicates that the model as fitted explains 85.1561% of the variability in Y. The adjusted R-squared statistic, which is more suitable for comparing models with different numbers of independent variables, is 79.2185%. The standard error of the estimate shows the standard deviation of the residuals to be 5.93878. This value can be used to construct prediction limits for new observations by selecting the Reports option from the text menu. The mean absolute error (MAE) of 3.96034 is the average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there is any significant correlation based on the order in which they occur in 2

your data file. Since the DW value is greater than 1.4, there is probably not any serious autocorrelation in the residuals. In determining whether the model can be simplified, notice that the highest P-value on the independent variables is 0.1423, belonging to X2. Since the P-value is greater or equal to 0.10, that term is not statistically significant at the 90% or higher confidence level. Consequently, you should consider removing X2 from the model. The StatAdvisor da una ligera explicación de los resultados de mayor relevancia. La explicación detallada debe ser establecida por el alumno. Toda la información obtenida se interpreta como sigue: Modelo estimado. Contrastes H 0 : β 0 = 0, H 0 : β 1 = 0 y H 0 : β 2 = 0. La primera tabla muestra los coeficientes de regresión estimados, en la columna Estimate; la estimación de la desviación típica de los coeficientes de regresión, en la columna Standard Error; los valores del estadístico t exp para contrastar si los verdaderos coeficientes de regresión son nulos, en la columna T Statistic; y los P-valores asociados a los contrastes anteriores, esto es, la probabilidad de encontrar un valor de una T n 3 mayor o igual en valor absoluto que t exp, en la columna P-value. Resulta ˆβ 0 = CONST ANT = 9.05385, ˆβ 1 = X1 = 0.520279, ˆβ 2 = X2 = 0.239746 SE(β0 ) = 14.9631, T exp = 0.605079 para H 0 : β 0 = 0 SE(β1 ) = 0.231662, T exp = 2.24585 para H 0 : β 1 = 0 SE(β2 ) = 0.137752, T exp = 1.74042 para H 0 : β 2 = 0 Entonces, el plano de regresión estimado está dada por Ŷ = 9.05385 + 0.520279 X 1 + 0.239746 X 2. Así, cuando las variables X 1 y X 2 tomen el valor 0, predeciremos el valor medio de la variable Y por Ŷ = 9.05385. Además, por cada unidad que aumentemos la variable X 1, manteniendo constante X 2, la variable Y aumentará por término medio en 0.520279 unidades; y, por cada unidad que aumentemos la variable X 2, manteniendo constante X 1, la variable Y aumentará por término medio en 0.239746 unidades. Fijado un nivel de significación α = 0.05 se concluye, dado que todos los P-valores son mayores que α, que hay evidencia empírica para admitir que cualquiera de los coeficientes de regresión puedan ser nulos. Notemos que dichos contrastes se hacen por separado, y que esto no significa que simultáneamente dos cualesquiera de los parámetros, o los tres, sean nulos. De hecho, para admitir o rechazar que Y se relaciona de forma lineal con X 1 y X 2 debemos resolver el contraste de regresión H 0 : R 2 = 0 mediante la tabla ANOVA, o equivalentemente, resolver el contraste H 0 : β 1 = 0, β 2 = 0. 3

Valores del P-valor muy próximos a α con un número reducido de datos, como ocurre en este caso con el P-valor para β 1 que resulta ser 0.0747 y α = 0.05, requieren aumentar el tamaño muestral para confirmar si se acepta o rechaza la hipótesis nula. Tabla ANOVA. Contraste H 0 : R 2 = 0. La lectura de la tabla ANOVA nos indica que la variabilidad total, VT = Total Sum of Squares = 1188, se descompone en variabilidad explicada, VE = Model Sum of Squares = 1011.65 y no explicada o residual, VNE = Residual Sum of Squares = 176.345. El estadístico de contraste F exp toma el valor 14.34. Nuevamente el P-value asociado a este contraste representa la probabilidad de encontrar un valor de una F 1,n 3 mayor o igual que F exp. Puesto que el P-valor asociado es 0.0085 < α = 0.05, entonces debemos rechazar H 0 : R 2 = 0, esto es, no hay evidencia empírica para rechazar una relación lineal entre las variables. La tabla ANOVA también proporciona el valor de la varianza residual, dada por σ 2 = Residual Mean Square = 35.2691. Su raiz cuadrada, esto es, la estimación por mínimos cuadrados de la desviación típica σ de los errores, resulta ser σ = Standard Error of Est. = 5.93878. El valor del coeficiente de determinación R 2 = R-squared = 85.1561 indica que el 85.1561 % de la variabilidad total de la variable dependiente es explicada por el plano de regresión. Intervalos de confianza para los parámetros del modelo. Debemos ejecutar el icono Tabular options que aparece debajo de la barra del título de la ventana Multiple Regression. Aparece así, un menú con casillas de verificación. Por defecto está activada la casilla correspondiente a la opción Analysis Summary, que produce la salida descrita en la sección anterior. Con el ratón debemos activar además la casilla de verificación correspondiente a la opción Confidence Intervals. Al hacer click sobre el botón OK se obtiene la siguiente salida: 95.0% confidence intervals for coefficient estimates Standard Parameter Estimate Error Lower Limit Upper Limit CONSTANT 9.05385 14.9631-29.4101 47.5178 X1 0.520279 0.231662-0.0752289 1.11579 4

X2 0.239746 0.137752-0.114357 0.593849 The StatAdvisor --------------- This table shows 95.0% confidence intervals for the coefficients in the model. Confidence intervals show how precisely the coefficients can be estimated given the amount of available data and the noise which is present. La tabla anterior muestra de nuevo en sus dos primeras columnas los coeficientes de regresión estimados, en la columna Estimate, y la estimación de la desviación típica de los coeficientes de regresión, en la columna Standard Error. En la tercera columna aparecen los intervalos de confianza al 95 % para cada parámetro. Obsérvese como cada uno de ellos contiene al valor 0, por lo que puede admitirse que cualquiera de los parámetros pueda ser nulo. No obstante para admitir o rechazar valores de los parámetros muy próximos a los extremos de cada intervalo deberíamos aumentar el tamaño muestral, que es muy pequeño. Podemos cambiar el nivel de confianza haciendo click con el botón derecho del ratón y seleccionando la opción Pane Options... Predicciones. Para llevar a cabo predicciones con el modelo estimado, debemos añadir al final del fichero de datos un caso por cada valor a predecir con los valores de las variables independientes, dejando vacía la celda correspondiente a la variable dependiente. Por ejemplo, si queremos predecir el valor del Indicador de Consumo para dos provincias, la primera con 75 automóviles y 150 teléfonos por cada 1000 habitantes, y la segunda con 90 automóviles y 120 teléfonos por cada 1000 habitantes; debemos añadir dichos valores como observaciones de las variables correspondientes en las filas 9 y 10 del fichero de datos. Entonces, volveremos a la ventana Multiple Regression y ejecutaremos el icono Tabular options que aparece debajo de la barra del título. A continuación, debemos activar con el ratón la casilla de verificación correspondiente a la opción Reports. Al hacer click sobre el botón OK se obtiene la siguiente salida: Regression Results for Y ---------------------------------------------------------------------- Fitted Stnd. Error Lower 95.0% CL Upper 95.0% CL Row Value for Forecast for Forecast forforecast ---------------------------------------------------------------------- 9 84.0367 6.74094 66.7085 101.365 10 84.6485 7.93164 64.2595 105.038 ---------------------------------------------------------------------- 5

--------------------------------- Lower 95.0% CL Upper 95.0% CL for Mean for Mean --------------------------------- 75.8385 92.2349 71.1335 98.1635 --------------------------------- The StatAdvisor --------------- This table contains information about Y generated using the fitted model. The table includes: (1) the predicted value of Y using the fitted model (2) the standard error for each predicted value (3) 95.0% prediction limits for new observations (4) 95.0% confidence limits for the mean response Each item corresponds to the values of the independent variables in a specific row of your data file. To generate forecasts for additional combinations of the variables, add additional rows to the bottom of your data file. In each new row, enter values for the independent variables but leave the cell for the dependent variable empty. When you return to this pane, forecasts will be added to the table for the new rows, but the model will be unaffected. La tabla anterior muestra para cada fila de observaciones de las variables independientes, y de izquierda a derecha, las siguientes columnas: número de fila, valores predichos de la variable dependiente según el plano de regresión estimado, intervalos de confianza para la variable independiente e intervalos de confianza para la media de la variable independiente. Modelo sin término constante. Al realizar los contrastes de nulidad sobre los parámetros del modelo pudimos comprobar que al nivel de significación α = 0.05 había evidencia para admitir que el plano de regresión pasara por el origen, esto es, que β 0 = 0. Es posible obtener con Statgraphics el modelo reestimado bajo esta hipótesis, es decir, el modelo sin término constante. Para ello debemos situarnos sobre la ventana Multiple Regression Analysis y hacer click con el botón derecho del ratón. Entonces seleccionaremos Analysis Options... y desactivaremos la casilla de verificación Constant in Model. Automáticamente todas las ventanas de regresión actualizarán sus salidas para adaptarse a un modelo sin término constante. 6