Estadística II Curso 2010/11. Guión de la Práctica 2 El modelo de regresión lineal y su tratamiento en Statgraphics

Documentos relacionados
Estadística II Curso 2011/12

Primera práctica de REGRESIÓN.

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Práctica 4 EJERCICIOS 1.- REGRESIÓN LINEAL SIMPLE 5.1 Regresión de Peso sobre Altura Datos en Encuesta.sgd a) Estudio descriptivo de ambas variables

peso edad grasas Regresión lineal simple Los datos

Intervalos de confianza con STATGRAPHICS

Estadística II Ejercicios Tema 5

Tercera práctica de REGRESIÓN.

Modelos Lineales. Regresión Lineal Múltiple. Práctica 5

Aplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas

Segunda práctica de REGRESIÓN.

Estadística II Ejercicios Tema 4

CORRELACION Y REGRESION

Contraste de hipótesis con STATGRAPHICS

Considere la tasa de nacimiento (B) como la variable respuesta y la actividad económica de las mujeres (W) como variable regresora.

Estadística I Curso 2011/2012. Guion de la Práctica 1: Introducción a Statgraphics Centurion XVI; Estadística Descriptiva.

Bioestadística. Curso Práctica: La recta de regresión

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Práctica 5 ANÁLISIS DE UNA MUESTRA INTERVALOS DE CONFIANZA CONTRASTE DE HIPÓTESIS

Estadística I Solución Examen Final- 19 de junio de Nombre y Apellido:... Grupo:...

Estadística II Examen final junio 27/6/17 Curso 2016/17 Soluciones

Estadística Industrial. Universidad Carlos III de Madrid Series temporales Práctica 5

Distribuciones de Probabilidad.

Práctica de contraste de hipótesis

ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

Análisis de los resultados de la evaluación del aprendizaje de procedimientos de análisis descriptivo en ingeniería informática

Estadística II Examen final junio - 17/06/16 Curso 2015/16 Soluciones Duración del examen: 2 h. y 45 min.

Estadística I Solución Examen Final - 28 Mayo de 2009

Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística

PRÁCTICA 3. REGRESIÓN LINEAL SIMPLE CON SPSS Ajuste de un modelo de regresión lineal simple Porcentaje de variabilidad explicado

Ejemplo 6.4. Pilar González y Susan Orbe. Dpto. Economía Aplicada III (Econometría y Estadística)

EJERCICIO T1 NOMBRE: Correctas Incorrectas En Blanco Puntos

Práctica de MODELOS DE PROBABILIDAD

Estadística I Examen Final - 28 Mayo de 2009 Tiempo: 2.5h - Total: 40 puntos. Nombre:... Grupo:...

PRACTICA 3. CONTRASTES Y PREDICCION.

Como usar Excel para resolver una regresión lineal usando la función predefinida estimacion.lineal.

Práctica de variables aleatorias (modelos)

Un modelo para representar una relación aproximadamente

REGRESIÓN LINEAL SIMPLE

PRÁCTICA 8: CONTRASTES DE HIPÓTESIS PARAMÉTRICOS

Relación 3 de problemas

PRÁCTICA 2: LA RECTA DE REGRESIÓN

PRÁCTICA 6: CONTASTE DE HIPÓTESIS

1. Cómo introducir datos en SPSS/PC? - Recordatorio

GUÍA DE STATGRAPHICS 5.1

Estadística II Examen Final 19/06/2015 Soluciones. Responda a las preguntas siguientes en los cuadernillos de la Universidad

Comparación de poblaciones independientes con STATGRAPHICS -Intervalos de Confianza y Contrastes de Hipótesis-

Estadística I Curso 2011/2012 Guion de la Práctica 3: Simulación de muestras y bondad de ajuste; Teorema Central del Límite; Intervalos de confianza.

Estadística Descriptiva Bivariante con STATGRAPHICS -Dependencia lineal y Regresión-

Econometría I (LADE). Curso 2001/2002 PRÁCTICA 08

Prácticas de Fiabilidad

Javier Roca Pardiñas Prof. Titular de Universidade Dpto. Estatística e I.O. Universidade de Vigo

Práctica de SIMULACIÓN

Estadística I Examen Final - 19 de junio de Nombre:... Grupo:...

Ejemplo de Regresión Lineal Simple.

Vamos a estudiar: Relación entre variables. Cómo influye una variable X sobre otra variable Y

INTRODUCCION AL ECONOMETRIC VIEWS. Aquí se introduce la frecuencia y las fechas de comienzo y final de los datos.

CAPÍTULO 5. Proyecciones de las Fuentes de Empleo Características Generales del Modelo de Regresión Lineal Múltiple de las Fuentes

Práctica 2: Regresión lineal

Estadística Descriptiva Univariante

Ejemplo de Análisis de la Covarianza

PRÁCTICA 5: CONTRASTES DE HIPÓTESIS PARAMÉTRICOS

Modelos linealizables.

Intervalos de Confianza

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Estadística Descriptiva Bivariante e Intervalos de Confianza

Prácticas Excel Estadística II. Práctica 1: Intervalos de confianza y contrastes de hipótesis para una y dos poblaciones

PRÁCTICA: ESTADÍSTICA DESCRIPTIVA CON SPSS 1

ANALISIS DE LA ESTATURA

Modelos Lineales. Regresión Lineal Simple. Práctica 3. Vamos a analizar el problema de contraste de las hipótesis básicas de un modelo de regresión

ESTADÍSTICA 3º CC. AMBIENTALES PRÁCTICA 1: Introducción al SPSS

Los datos siguientes contienen indicadores demográficos y criminales sobre 47

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

Tema 4. Regresión lineal simple

Objetivo: Proponer modelos para analizar la influencia

Práctica 3: Regresión simple con R

Quinta Entrega. 3. Diagnosis: se comprueba que los residuos verifican la hipótesis de ruido blanco.

Ajuste de Regresión Lineal Simple

Estadística II Examen final enero 19/1/17 Curso 2016/17 Soluciones Duración del examen: 2 h y 15 min

TABLAS DE CONTINGENCIA

con los supuestos clásicos, uno de ellos es que ninguna de las variables X 1, X 2,, X K es

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

TEMA 10 COMPARAR MEDIAS

Regresión Múltiple b=read.table("datoempleado.dat",header=t,sep="\t")

ESTADÍSTICA 1º AMBIENTALES TERCERA PRÁCTICA: INTERVALOS DE CONFIANZA & CONTRASTES DE HIPÓTESIS (GUIADA & RESUELTA)

Regresión Lineal Simple y Múltiple Regresión Logística

Estadística II Tema 4. Regresión lineal simple. Curso 2010/11

Modelos de Probabilidad con Statgraphics

LADE/LADE-DER. 229, , , , , ,333 y. 3 i 1. y ij /3

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

Grado en IIAA y Grado en IHJ Asignatura: Estadística Aplicada. Curso SEPTIEMBRE 2014 NOMBRE:...APELLIDOS:... ESPECIALIDAD:...

LA HOJA DE CÁLCULO DE OPENOFFICE

Práctica de INTERVALOS DE CONFIANZA

Ajustando Curva SnapStat

Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Firma electrónica de documentos PDF Universidad de Las Palmas de Gran Canaria FIRMA ELECTRÓNICA DE DOCUMENTOS PDF

Transcripción:

Estadística II Curso 2010/11 Guión de la Práctica 2 El modelo de regresión lineal y su tratamiento en Statgraphics 1. Contenidos de la práctica - Introducción - El modelo de regresión lineal simple o Estimación de los parámetros del modelo o Intervalos de confianza y contrastes para los parámetros del modelo o Estimación para respuestas promedio y predicciones o Diagnosis del modelo - Relaciones no lineales y linealización - Regresión lineal múltiple - Ejercicio de aplicación 2. Introducción En esta práctica veremos una introducción al empleo de Statgraphics para el tratamiento de modelos de regresión lineal. Para motivar las distintas tareas que vamos a realizar, nos vamos a basar en la resolución de uno de los ejercicios del ema 4 (el problema 4): Una gasolinera ha recogido información acerca de su recaudación diaria durante una semana, así como del número de clientes que acudieron a la misma en cada día: Recaudación 1,5 10 8 3 5 15 2 Número de clientes 3 6 5 3,5 4 8 3,2 a) Realizar un ajuste lineal que exprese la recaudación en función del número de clientes. b) Determinar cuál sería la recaudación media prevista para aquellos días en los que lleguen a la gasolinera 720 clientes (7,2). Obtener un intervalo de confianza al 95 % para dicha predicción. c) Determinar cuál sería la recaudación prevista para un día en el que lleguen a la gasolinera 720 clientes (7,2). Obtener un intervalo de confianza al 95 % para dicha predicción. El primer paso que debemos dar consiste en introducir en Statgraphics los datos anteriores. Una manera posible (ver el guión de la práctica 1) de hacer esto es entrar en Statgraphics y seleccionar Cancel en el StatWizard para salir del mismo. A continuación introducimos manualmente en dos columnas de una ventana en blanco los datos anteriores. En lo que sigue asumiremos que en Col_1 se han introducido los datos de recaudación y en Col_2 se han introducido los datos de número de clientes. 3. El modelo de regresión lineal simple 3.1 Estimación de los parámetros del modelo Comenzamos calculando los valores de los parámetros del modelo de regresión lineal simple correspondiente a los valores de la muestra que hemos introducido. Para ello

seleccionamos el menú Relate, y en el mismo escogemos Simple Regression... e introducimos en el cuadro de diálogo Col_1 para la variable Y y Col_2 para la variable X, ya que parece razonable considerar el número de clientes como la variable independiente en este caso. Relate Simple Regression Y: Col_1, X: Col_2 ras pulsar OK, Statgraphics genera dos ventanas y en la ventana izquierda (la ventana de texto) obtenemos la salida siguiente: Regression Analysis - Linear model: Y = a + b*x Dependent variable: Col_1 Independent variable: Col_2 Intercept -6,31226 0,547767-11,5236 0,0001 Slope 2,7121 0,110348 24,5778 0,0000 Model 145,156 1 145,156 604,07 0,0000 Residual 1,20148 5 0,240296 otal (Corr.) 146,357 6 Correlation Coefficient = 0,995887 R-squared = 99,1791 percent Error of Est. = 0,4902 La ventana derecha muestra un gráfico de dispersión con el modelo ajustado. En la salida anterior podemos encontrar los valores de los diferentes parámetros del modelo (indicados en rojo). En particular, obtenemos las siguientes estimaciones Intercepto -6,31226 Pendiente 2,7121 Varianza de los errores 0,240296 El modelo de regresión estimado será y = -6,31226 + 2,7121 x Observamos que en la salida anterior aparece también el valor de R 2, el coeficiente de determinación. Este valor nos indica la variación en la recaudación que se puede explicar si se conoce el número de clientes. En este caso el valor es igual al 99,18% (valor en azul en la salida), esto es, es un valor muy elevado y el ajuste del modelo a los datos es muy bueno, como se puede verificar en el gráfico de dispersión (ventana derecha). 3.2 Intervalos de confianza y contrastes para los parámetros del modelo Un paso importante a dar una vez estimado el modelo es contrastar el cumplimiento de las hipótesis de dicho modelo de regresión lineal. En esta práctica vamos a dejar

este paso para más adelante (Diagnosis del modelo), y seguiremos con el orden de las de las materias visto en clase, que se corresponde con el orden de preguntas en el ejercicio. Supondremos por el momento que dichas hipótesis se cumplen razonablemente. Supongamos que queremos contrastar al 5% de significación si la pendiente del modelo es diferente de cero. Para ello podemos calcular el p-valor asociado al estadístico t para la pendiente, visto en clase. Dicho valor aparece en la tabla de resultados generada por Statgraphics, y está indicado a continuación en rojo. Regression Analysis - Linear model: Y = a + b*x Dependent variable: Col_1 Independent variable: Col_2 Intercept -6,31226 0,547767-11,5236 0,0001 Slope 2,7121 0,110348 24,5778 0,0000 Model 145,156 1 145,156 604,07 0,0000 Residual 1,20148 5 0,240296 otal (Corr.) 146,357 6 Correlation Coefficient = 0,995887 R-squared = 99,1791 percent Error of Est. = 0,4902 Este p-valor es el correspondiente a un contraste bilateral con hipótesis nula que establece que la pendiente sea igual a cero. Por tanto, en este caso dado que el p- valor vale 0,0000, rechazamos dicha hipótesis nula al 5%, y concluimos que tenemos suficiente evidencia para considerar que la pendiente es distinta de cero. Supongamos ahora que estamos interesados en obtener un intervalo de confianza para esta pendiente del modelo de regresión (para un nivel de confianza del 95%, por ejemplo). Este intervalo se puede calcular aplicando las fórmulas vistas en clase, dado que disponemos de la estimación del parámetro y la varianza residual, y solo tendríamos que calcular la varianza de la variable independiente y el cuantil de la distribución t. Esto lo haríamos siguiendo los procedimientos vistos en la primera práctica. Una manera más sencilla de calcular dichos intervalos en Statgraphics consiste en realizar una regresión múltiple, esto es, seleccionar Multiple Regression... en el menú Relate, Relate Multiple Regression Dependent Variable: Col_1 Independent Variables: Col_2 ras pulsar OK obtenemos dos ventanas y la siguiente salida en la ventana izquierda Multiple Regression Analysis Dependent variable: Col_1

CONSAN -6,31226 0,547767-11,5236 0,0001 Col_2 2,7121 0,110348 24,5778 0,0000 Model 145,156 1 145,156 604,07 0,0000 Residual 1,20148 5 0,240296 otal (Corr.) 146,357 6 R-squared = 99,1791 percent R-squared (adjusted for d.f.) = 99,0149 percent Error of Est. = 0,4902 Mean absolute error = 0,358632 Durbin-Watson statistic = 2,19937 con los mismos valores de los parámetros que en el caso anterior. Haciendo esto tenemos la ventaja de que al pulsar el icono abular Options podemos marcar la casilla Confidence Intervals en el cuadro de diálogo (I) abular options Confidence Intervals OK para obtener la salida 95,0% confidence intervals for coefficient estimates Parameter Estimate Error Lower Limit Upper Limit CONSAN -6,31226 0,547767-7,72034-4,90417 Col_2 2,7121 0,110348 2,42845 2,99576 y el intervalo de confianza al 95% para la pendiente corresponde a los valores indicados en rojo. Si se quisiera cambiar el nivel de confianza, se pulsaría el botón derecho del ratón en la ventana izquierda y seleccionaríamos Pane Options. 3.3 Estimación para respuestas promedio y predicciones Describimos a continuación la manera de responder a las preguntas b) y c) del ejercicio introducido al comienzo de la práctica. En particular, queremos calcular una estimación puntual y un intervalo de confianza para la recaudación media prevista para aquellos días en los que lleguen a la gasolinera 720 clientes (x0 = 7,2), y para la recaudación prevista para un día en el que lleguen a la gasolinera 720 clientes. Queremos por tanto llevar a cabo inferencia sobre respuestas promedio y predicciones. Podemos emplear los estadísticos vistos en clase, al final del ema 4. Alternativamente, y directamente desde Statgraphics, con los datos introducidos obtenemos el modelo de regresión mediante

Relate Simple Regression Y: Col_1, X: Col_2 Una vez generadas las ventanas de resultados, pulsamos el icono abular Options y marcamos la casilla Forecasts para obtener las predicciones y los intervalos de confianza deseados. Para modificar el valor de la variable independiente a 7,2, pulsamos con el botón derecho en la ventana izquierda, seleccionamos Pane Options e introducimos en el campo de la ventana emergente Forecast at X: el valor deseado. (I) abular Options Forecasts (BD) Pane Options Forecast at X: 7,2 El resultado es el siguiente: Predicted Values - 95,00% 95,00% Predicted Prediction Limits Confidence Limits X Y Lower Upper Lower Upper - 7,2 13,2149 11,6887 14,741 12,3539 14,0759 - El valor predicho correspondiente a las dos preguntas es el mismo, 13,2149. Sin embargo, obtenemos dos intervalos: uno para la predicción puntual, correspondiente a los valores [11,6887, 14,741] y otro para la estimación de la respuesta promedio, dado por [12,3539, 14,0759] Estos valores proporcionan las respuestas a los apartados c) y b) respectivamente (ya que por defecto están calculados para un nivel de confianza del 95%). 3.4 Diagnosis del modelo En este apartado retomamos la valoración del cumplimiento de las hipótesis del modelo, que dejamos pendiente anteriormente. Una manera de llevar a cabo este análisis, al menos de forma gráfica, consiste en generar un diagrama de los residuos, y verificar en dicho diagrama las propiedades de los mismos. Para obtener los diagramas de residuos, generamos en primer lugar el modelo de regresión, Relate Simple Regression Y: Col_1, X: Col_2 y a continuación seleccionamos el botón Graphical Options (el tercer botón en la parte superior), y marcamos la caja Residuals versus Predicted, como se indica en la imagen siguiente. (I) Graphical Options Residuals versus Predicted OK

El gráfico resultante (que aparece en la ventana derecha generada por Statgraphics) presenta los valores de los residuos estudentizados (esto es, divididos por la estimación de su desviación típica, sr) frente a los valores predichos para la variable dependiente (la recaudación) y se incluye a continuación.

Para estudiar el cumplimiento de las hipótesis del modelo podemos comprobar si en este gráfico los valores de los residuos no muestran estructura. Si se cumplen dichas hipótesis, los valores de estos residuos deben corresponder a valores independientes obtenidos de una variable aleatoria normal con media cero y desviación típica igual a uno. En este caso por ejemplo podemos observar una cierta estructura no lineal en los mismos, y podríamos dudar del cumplimiento de la condición de linealidad en la relación entre las variables. 4. Relaciones no lineales y linealización En algunos casos los datos de que disponemos parecen seguir una relación no lineal, pero podemos aplicar una transformación no lineal que haga que los datos transformados se aproximen mejor a través de una relación lineal. Para ilustrar el uso de estas transformaciones en Statgraphics empleamos algunos de los datos del fichero undata.sf3 (datos de la UNECE Statistical Database). Almacenamos dichos datos en una carpeta adecuada, y a continuación los leemos en Statgraphics empleando File Open Open Data File Vamos a estudiar la relación entre las variables correspondientes al GDP per capita y la mortalidad infantil (Infant_Mortality_Rate). Para ello seleccionamos Relate Simple Regression Y: Infant_Mortality_Rate, X: GDP_per_Capita Los resultados obtenidos se pueden ver en la salida siguiente: Regression Analysis - Linear model: Y = a + b*x Dependent variable: Infant_Mortality_Rate Independent variable: GDP_per_Capita Intercept 11,3761 0,941033 12,089 0,0000 Slope -0,000184079 0,0000312106-5,89798 0,0000 Model 386,703 1 386,703 34,79 0,0000 Residual 489,13 44 11,1166 otal (Corr.) 875,833 45 Correlation Coefficient = -0,664474 R-squared = 44,1526 percent Error of Est. = 3,33415 En particular, el valor de R 2 es 0.44, que no es demasiado elevado.

Vamos a repetir este ejercicio, pero ahora llevaremos a cabo la regresión empleando los logaritmos de las mismas variables, intentando atenuar el efecto no lineal asociado a los valores mayores de ambas variables. Para ello, seleccionamos Relate Simple Regression y al introducir la definición de las variables escribimos directamente la forma de la transformación no lineal que queremos llevar a cabo. En este caso, en la ventana correspondiente de Statgraphics escribimos log(infant_mortality_rate) para Y y log(gdp_per_capita) para X. Y: log(infant_mortality_rate), X: log(gdp_per_capita) La siguiente captura de pantalla muestra como debe quedar la ventana de selección de variables: Una vez pulsado OK, obtenemos como resultado Regression Analysis - Linear model: Y = a + b*x Dependent variable: log(infant_mortality_rate) Independent variable: log(gdp_per_capita)

Intercept 8,26339 0,743168 11,1191 0,0000 Slope -0,659579 0,0746038-8,8411 0,0000 Model 10,3666 1 10,3666 78,17 0,0000 Residual 5,83546 44 0,132624 otal (Corr.) 16,202 45 Correlation Coefficient = -0,799895 R-squared = 63,9831 percent Error of Est. = 0,364176 y ahora el valor de R 2 pasa a ser 0.64, mejorando el valor anterior. 5. Regresión lineal múltiple Comentamos muy brevemente en este apartado como ajustar modelos de regresión lineal múltiple utilizando Statgraphics. Lo haremos utilizando datos del fichero cardata.sf3, disponibles en la página Web de prácticas de la asignatura. Leemos dichos datos (después de haberlos descargado a una carpeta adecuada) seleccionando File Open Open Data File e indicando la carpeta y el nombre del archivo deseado ( cardata.sf3 ). Supongamos que deseamos calcular los parámetros de un modelo de regresión para explicar los valores de la variable accel (aceleración) en función de la variable horsepower (potencia). Para ello seleccionamos Relate Multiple Regression Dependent Variable: accel Independent Variables: horsepower y obtenemos como resultado la siguiente salida Multiple Regression Analysis Dependent variable: accel CONSAN 20,7949 0,679216 30,6161 0,0000 horsepower -0,0509812 0,00736125-6,92562 0,0000

Model 232,566 1 232,566 47,96 0,0000 Residual 722,463 149 4,84874 otal (Corr.) 955,029 150 R-squared = 24,3517 percent R-squared (adjusted for d.f.) = 23,844 percent Error of Est. = 2,20199 Mean absolute error = 1,73477 Durbin-Watson statistic = 1,52416 y el modelo accel = 20,7949-0,0509812 x horsepower donde ambos coeficientes son significativos (ver sus p-valores) y el valor de R 2 es igual a 23,84% (un valor relativamente bajo). Si ahora añadimos una nueva variable explicativa, y construimos el modelo para accel en función de horsepower y la nueva variable weight (peso) Relate Multiple Regression Dependent Variable: accel Independent Variables: horsepower, weight obtenemos el resultado siguiente Multiple Regression Analysis Dependent variable: accel CONSAN 16,9714 0,594887 28,5287 0,0000 horsepower -0,13636 0,00912925-14,9366 0,0000 weight 0,00426685 0,000369447 11,5493 0,0000 Model 575,037 2 287,518 111,98 0,0000 Residual 379,992 148 2,56751 otal (Corr.) 955,029 150 R-squared = 60,2114 percent R-squared (adjusted for d.f.) = 59,6738 percent Error of Est. = 1,60235 Mean absolute error = 1,19181 Durbin-Watson statistic = 1,95717 El modelo es ahora accel = 16,9714-0,13363 x horsepower + 0,00426685 x weight donde los tres coeficientes son significativos y el valor de R 2 es igual a 59,67% (bastante más elevado que para el modelo anterior).

6. Ejercicio de aplicación En la página Web de la asignatura y para la práctica 1 tienes disponible un conjunto de datos denominado Datos_1, cardata.sf3. Sobre este conjunto de datos se pide que realices las tareas siguientes: I. Calcula los coeficientes del modelo de regresión lineal simple para las variables weight (variable dependiente) en función de horsepower (variable independiente) (Resultados. Intercepto: 896,111, Pendiente: 20,0097, R 2 : 65,57%) II. Determina si el valor de la pendiente es significativo (Respuesta: sí Por qué?) III. Calcula un intervalo de confianza al 98% para el valor de la pendiente IV. (Respuesta: [17,2164 ; 22,803]) Da una estimación para el valor del peso del vehículo correspondiente a una potencia de 130 hp e indica un intervalo de confianza para dicha predicción al 99% (Respuestas: 3497,37 y [2558,57 ; 4436,17]) V. Genera el gráfico de los residuos frente a los valores predichos por el modelo y comenta sobre el cumplimiento de las condiciones del mismo.