REGRESIÓN LINEAL SIMPLE

Documentos relacionados
PRÁCTICA 3. REGRESIÓN LINEAL SIMPLE CON SPSS Ajuste de un modelo de regresión lineal simple Porcentaje de variabilidad explicado

Tema 4. Regresión lineal simple

Tema 8: Regresión y Correlación

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Tema 10: Introducción a los problemas de Asociación y Correlación

ANÁLISIS DE REGRESIÓN

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

TEMA 4 Modelo de regresión múltiple

Definición de Correlación

SPSS Aplicación práctica: Base de datos del HATCO

Lección 3. Análisis conjunto de dos variables

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

Estadística; 3º CC. AA. Examen final, 23 de enero de 2009

TEMA 4 CUESTIONARIO DE AUTOEVALUACIÓN

TEMA 4 FASE ESTADÍSTICO-ANALÍTICA: RECURSOS PARA EL ANÁLISIS DE DATOS

ESTADÍSTICA. Tema 4 Regresión lineal simple

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

CONTRASTES DE HIPÓTESES

EXTENSIONES DEL MODELO DE REGRESIÓN

Teoría de la decisión

Método de cuadrados mínimos

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Módulo de Estadística

Estadística para el análisis de los Mercados S3_A1.1_LECV1. Estadística Descriptiva Bivariada

Tema 3: Análisis de datos bivariantes

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Bioestadística. Tema 3: Estadística descriptiva bivariante y regresión lineal. Relaciones entre variables y regresión

Estadística descriptiva bivariante y regresión lineal.

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

T2. El modelo lineal simple

14 horas. 20 horas

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Tema 2: Análisis de datos bivariantes

UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE CIENCIAS NATURALES Y MUSEO CÁTEDRA DE ESTADÍSTICA CLASE ESPECIAL. Tema:

Curs de Modelització Estadística Bàsica amb Deducer. Anabel Blasco Ana Vázquez Anna Espinal Llorenç Badiella Oliver Valero

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso

Curso de nivelación Estadística y Matemática

peso edad grasas Regresión lineal simple Los datos

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

Regresión: implica la obtención de una ecuación mediante la que podamos estimar el valor medio de una variable.

CORRELACION Y REGRESION

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN SIMPLE Julián de la Horra Departamento de Matemáticas U.A.M.

Ejercicio Heterocedasticidad_2

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN MÚLTIPLE Julián de la Horra Departamento de Matemáticas U.A.M.

TEMA 2 Diseño de experimentos: modelos con varios factores

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso Septiembre Primera Parte

Estadística Inferencial. Sesión No. 9 Regresión y correlación lineal

Ejemplo Diseño Completamente aleatorizado (Pág. 470 Montgomery)

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

Prácticas Tema 5. Ampliaciones del Modelo lineal básico

Tercera práctica de REGRESIÓN.

Técnicas de regresión: Regresión Lineal Simple

INTRODUCCIÓN A REGRESIÓN LINEAL. Simple y Múltiple

Prácticas Tema 2: El modelo lineal simple

Regresión Lineal. Rodrigo A. Alfaro. Rodrigo A. Alfaro (BCCh) Regresión Lineal / 16

El Modelo de Regresión Lineal

Distribuciones Bidimensionales.

Tema 2: Regresión. Grado en Fisioterapia, 2010/11. Jesús Montanero Fernández. Cátedra de Bioestadística Universidad de Extremadura

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

CORRELACIÓN LINEAL SIMPLE

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

Regresión con variables independientes cualitativas

Estadística II Examen final junio - 17/06/16 Curso 2015/16 Soluciones Duración del examen: 2 h. y 45 min.

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

ANÁLISIS DE REGRESIÓN N LINEAL

Tema 2: Análisis de datos bidimensionales

Econometría de Económicas Ejercicios para el tema 2 y 3

Relación funcional Dos variables x e y están relacionadas funcionalmente cuando conocida la primera se

TEMA 3 REGRESIÓN Y CORRELACIÓN

2.3.1 Métodos cuantitativos para los pronósticos. MÉTODOS CUANTITATIVOS

6. Inferencia con muestras grandes. Informática. Universidad Carlos III de Madrid

ANÁLISIS ESTADÍSTICO CORRELACIÓN LINEAL

3. RELACION ENTRE DOS CONJUNTOS DE DATOS.

Técnicas de Investigación Social

Gráfico 1: Evolución del exceso de rentabilidad de la empresa y de la cartera de mercado

Relación entre la altura y la distancia del suelo al ombligo

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.

Coeficiente de Correlación

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

APUNTES DE QUIMIOMETRIA REGRESIO LINEAL

TEMA 2: DISTRIBUCIONES BIDIMENSIONALES

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

Regresión lineal simple y correlación

Elaboró: Luis Casas Vilchis

Métodos Estadísticos por Ordenador Curso

Transcripción:

REGRESIÓN LINEAL SIMPLE 1. El problema de la regresión lineal simple. Método de mínimos cuadrados 3. Coeficiente de regresión 4. Coeficiente de correlación lineal 5. El contraste de regresión 6. Inferencias acerca de los parámetros 7. Inferencias acerca de la predicción 8. Los supuestos del modelo de regresión lineal 9. Un ejemplo en donde no se cumplen los supuestos M. Carmen Carollo Limeres Página 1

1. El problema de la regresión lineal simple El objetivo de un modelo de regresión es tratar de explicar la relación que existe entre una variable dependiente (variable respuesta) Y un conjunto de variables independientes (variables explicativas) X 1,..., X n. En un modelo de regresión lineal simple tratamos de explicar la relación que existe entre la variable respuesta Y y una única variable explicativa X. Ejemplo: En la muestra de la miel vamos a ver si existe relación lineal entre la acidez libre (AcLib) y la acidez total (AcTot). Para ver si un modelo de regresión lineal tiene sentido, comenzamos dibujando un diagrama de dispersión. M. Carmen Carollo Limeres Página

Mediante las técnicas de regresión de una variable Y sobre una variable X, buscamos una función que sea una buena aproximación de una nube de puntos (x i,y i ), mediante una curva del tipo: Y ˆ fx ( ) El modelo de regresión lineal simple tiene la siguiente expresión: Y = α + βx + ε, M. Carmen Carollo Limeres Página 3

En donde es la ordenada en el origen (el valor que toma Y cuando X vale 0), es la pendiente de la recta (e indica cómo cambia Y al incrementar X en una unidad) y una variable que incluye un conjunto grande de factores, cada uno de los cuales influye en la respuesta sólo en pequeña magnitud, a la que llamaremos error. X e Y son variables aleatorias, por lo que no se puede establecer una relación lineal exacta entre ellas. α ϕ β = tg( ϕ) M. Carmen Carollo Limeres Página 4

. Método de mínimos cuadrados Para hacer una estimación del modelo de regresión lineal simple, trataremos de buscar una recta de la forma: de modo que se ajuste a la nube de puntos. Yˆ = ˆ α + ˆ βx = a + bx Para esto utilizaremos el método de mínimos cuadrados. Este método consiste en minimizarla suma de los cuadrados de los errores: n n ei = yi yi i= 1 i= 1 ( ˆ ) Es decir, la suma de los cuadrados de las diferencias entre los valores reales observados (y i ) y los valores estimados ( y ˆi ). M. Carmen Carollo Limeres Página 5

Con este método, las expresiones que se obtiene para a y b son las siguientes: S a = y bx, b =, S XY X En donde x e y denotan las medias muestrales de X e Y (respectivamente), S X es la varianza muestral de X y S XY es la covarianza muestral entre X e Y. M. Carmen Carollo Limeres Página 6

Estos parámetros se calculan como: n n n n n ( ) ( ) ( )( ) Estadística. FBA I 011-01 xi yi xi x yi y xi x yi y i= 1 i= 1 i= 1 i= 1 i= 1 x =, y =, SX =, SY =, SXY =. n n n n n La cantidad b se denomina coeficiente de regresión de Y sobre X, lo denotamos por b Y / X. Ejemplo: Los estadísticos descriptivos anteriores para las variables AcTot y AcLib (acidez total y acidez libre) son los siguientes: x = 37.998, y = 33.877, S S = 90.786, S = 85.459, X Y X = 9.58 S = 9.4439. La recta de regresión ajustada es la siguiente: Y Yˆ = 4.469 + 0.990 X, donde Y es la acidez total y X es la acidez libre. M. Carmen Carollo Limeres Página 7

Para calcular la recta de regresión de X sobre Y se hace aproximando X por ˆX, del modo ˆX = a + by S XY donde a = x by, b =, S Y Es totalmente incorrecto despejar X de la ecuación ˆ Y a bx para calcular la recta de regresión de X sobre Y. Observación: La recta de regresión pasa siempre por el centro de gravedad de la nube de puntos, es decir por el punto XY,. M. Carmen Carollo Limeres Página 8

3. El coeficiente de regresión El coeficiente de regresión nos da información sobre el comportamiento de la variable Y frente a la variable X, de manera que: a) Si b / = 0, para cualquier valor de X la variable Y es constante (es decir, no cambia). Y X b) Si b / > 0, esto nos indica que al aumentar el valor de X, también aumenta el valor de Y. Y X c) Si b / < 0, esto nos indica que al aumentar el valor de X, el valor de Y disminuye. Y X En el ajuste de regresión lineal de la acidez total sobre la acidez libre se obtenía el modelo: Yˆ = 4.469 + 0.990 X, en donde Y es la acidez total y X es la acidez libre. El coeficiente de regresión es b / = 0.990 > 0 y esto indica que al aumentar X aumenta y. Y X M. Carmen Carollo Limeres Página 9

4. El coeficiente de correlación lineal El coeficiente de correlación lineal entre X e Y viene dado por: SXY r =, SXSY y trata de medir la dependencia lineal que existe entre las dos variables. Su cuadrado se denomina coeficiente de determinación, r. Propiedades del coeficiente de correlación: a) No tiene dimensión, y siempre toma valores en [-1,1]. b) Si las variables son independientes, entonces r=0, pero el inverso no tiene por qué ser cierto. c) Si existe una relación lineal exacta entre X e Y, entonces r valdría 1 (relación directa) ó -1 (relación inversa). d) Si r>0, esto indica una relación directa entre las variables (es decir, que si aumentamos X, también aumenta Y). e) Si r<0, la correlación entre las variables es inversa (si aumentamos una, la otra disminuye). M. Carmen Carollo Limeres Página 10

Para nuestro ejemplo el valor de r es 0.960. Como es positivo, esto indica que existe una relación directa entre las variables acidez total y acidez libre. Además su valor es próximo a 1 indicando una dependencia lineal muy fuerte. Relación entre los coeficientes de regresión y de correlación: S SX b = r, b = r. S Y Y / X X / Y SX Los dos coeficientes de regresión y el coeficiente de correlación tienen pues el mismo signo. Y M. Carmen Carollo Limeres Página 11

Descomposición de la variabilidad: y y yˆ y y yˆ i i i i SCtot SCR SCres Coeficiente de determinación (r ): r i yˆi y SCR y y SCtot El coeficiente de determinación puede interpretarse como la proporción de variabilidad de Y que es explicada por X. Mide la proximidad de la recta ajustada a los valores observados de Y. M. Carmen Carollo Limeres Página 1

5. El contraste de regresión En el contraste de regresión contrastamos la hipótesis nula de que la pendiente de la recta es cero, es decir, que no existe relación o dependencia lineal entre las dos variables. H H 0 1 : β = 0 H : β 0 0 : ρ = 0 H : ρ 0 1 En la tabla ANOVA del análisis de regresión el estadístico F nos permite realizar dicho contraste. Ejemplo: En el modelo de regresión para explicar la Acidez Total en función de la Acidez Libre, el análisis proporciona la siguiente tabla ANOVA: M. Carmen Carollo Limeres Página 13

ANOVA S r Suma de Media cuadrados gl cuadrática F Sig. Regres 544.731 1 544.73 759.9.000 Resid 458.379 64 7.16 Total 5901.110 65 Dado que la significación (P-valor) asociada al valor del estadístico F es del 0%, rechazamos la hipótesis nula de que β, o equivalentemente el coeficiente de correlación, sea nulo. Concluimos pues que existe una relación de tipo lineal entre X e Y. M. Carmen Carollo Limeres Página 14

6. Inferencias para los parámetros del modelo a) Contrastes de hipótesis para los parámetros * β = β Contraste H 0 : * β β t = Estadístico del contraste: ˆ * β β s( ˆ β ) que sigue bajo H una t 0 n ( ˆ sr s β ) = n 1 s x Contraste H : * α = α α α 0 * sr = error típico en la estimación de la regresión( lo da el SPSS) = media cuadrática de los residuos Estadístico del contraste: t * ˆ α α = s( ˆ α ) que sigue bajo H una t 0 n sr s( ˆ α ) = 1+ n x s x M. Carmen Carollo Limeres Página 15

El contraste clave para este modelo es β = 0 Contraste H 0 : β 0 Es decir el contraste de regresión. Si aceptamos la hipótesis nula concluimos que no hay evidencias de que haya una relación lineal entre las variables y el modelo, en principio, no es apropiado. Puede haber una relación lineal en la población pero la muestra elegida no la detecta. Si rechazamos la hipótesis nula concluimos que el modelo lineal es apropiado. Puede que exista una relación NO-LINEAL pero los datos son también consistentes con un modelo lineal. M. Carmen Carollo Limeres Página 16

b) Estimaciones por intervalo para los parámetros. IC ˆ α sr 1 para β: ( β t n ) n s x IC s x para α: ( ˆ α t 1 + ) α r n n sx 7. Inferencias acerca de la predicción Nos puede interesar predecir el valor medio de la variable respuesta o bien el valor de la variable respuesta para un valor x que no ha sido considerado en la muestra. El estimador puntual es el mismo para las dos situaciones. M. Carmen Carollo Limeres Página 17

a) Estimación puntual del valor medio de Y para un valor X=x : Estimador: Yˆ = a + bx. 1 sy ( ˆ) = s r + n xi x i ( x x) ( ) 1 error típico de la estimación de la media de Y Intervalo de confianza para el valor medio de la respuesta cuando X=x: ( y) ˆ t s 1 + n xi x i ( x x) ( ) α n r 1 M. Carmen Carollo Limeres Página 18

b) Estimación puntual del valor de Y para un valor X=x no observado Estimador: Yˆ = a + bx. 1 sy ( ˆ) = sr 1+ + n xi x i ( x x) ( ) 1 error típico de la estimación de Y Intervalo de confianza para el valor de la respuesta para una nueva observación X=x: 1 ˆ t s 1+ + n xi x i ( y) ( x x) ( ) α n r 1 M. Carmen Carollo Limeres Página 19

c) Bandas de confianza Banda de confianza para predecir el valor medio de Y en cualquier valor de X: ( y) ˆ ( F ) s 1 + n xi x i ( x x) ( ) α 1, n r 1 Banda de confianza para predecir Y en cualquier valor de X: 1 ˆ ( F ) s 1+ + n xi x i ( y) ( x x) ( ) α 1, n r 1 M. Carmen Carollo Limeres Página 0

El SPSS nos dibuja las correspondientes bandas de confianza. Recta ajustada Banda de confianza para valores medios Banda de confianza para cualquier Y M. Carmen Carollo Limeres Página 1

Riesgos de la extrapolación: Los límites de confianza calculados mediante las expresiones anteriores son válidos únicamente si el modelo es correcto. Un riesgo evidente de extrapolar el modelo fuera del rango de datos mediante el cual se ha construido, es que la relación entre las variables deje de ser lineal. 8. Los supuestos del modelo de regresión lineal Hasta ahora explicamos cómo aproximar el modelo de regresión lineal por la recta Y = α + βx + ε, Yˆ = a + bx. Para garantizar que esta aproximación es válida, se deben cumplir las siguientes condiciones: 1. Independencia: los residuos deben ser independientes entre sí. M. Carmen Carollo Limeres Página

. Homocedasticidad (igualdad de varianzas): para cada valor de la variable X, la varianza de los residuos e ( ˆ i = Yi Yi) debe ser la misma (es decir, que el ajuste es igual de preciso independientemente de los valores que tome X). 3. Normalidad: para cada valor de la variable X, los residuos e i tienen distribución normal de media cero. Por lo tanto, para ver si un modelo de regresión lineal ajustado es válido, debemos comprobar que se cumplen estas tres condiciones sobre los residuos. Ejemplo. En el modelo de regresión ajustado para la acidez total sobre la acidez libre, debemos comprobar la validez del mismo. Para eso veremos que se cumplen las hipótesis de independencia, homocedasticidad y normalidad dos residuos. La independencia podemos comprobarla con el estadístico de Durbin-Watson. Si éste está entre 1.5 e.5, entonces podemos asumir que los residuos son independientes. M. Carmen Carollo Limeres Página 3

Modelo R R R corregida Error típ. de la estimac. Durbin- Watson 1.960.9.91.676 1.64 1 Variables predictoras: (Constante), aclib Para comprobar la homocedasticidad de los residuos, haremos un procedimiento gráfico. Dibujaremos un diagrama de dispersión de las estimaciones (valores predichos por el modelo) tipificadas (ZPRED) frente a los residuos tipificados (ZRESID). Para garantizar que hay homocedasticidad, no se debe mostrar ninguna pauta de asociación (ningún patrón) en la nube de puntos. M. Carmen Carollo Limeres Página 4

Para comprobar la normalidad hacemos los gráficos de normalidad y realizamos el contraste de normalidad (test de Kolmogorov-Smirnov ó test de Shapiro-Wilks) Standardized Residual Pruebas de normalidad Kolmogorov-Smirnov a Shapiro-Wilk Estadístico gl Sig. Estadístico gl Sig.,107 66,061,959 66,07 a. Corrección de la significación de Lilliefors M. Carmen Carollo Limeres Página 5

Algunos casos en los que no se cumplen los supuestos i) Falta de independencia (Autocorrelación negativa en los resíduos, valores por encima de la media tienden a ir seguidos de valores por debajo de ella) ii) Falta de homocedasticidad (La variablidad aumenta al aumentar las predicciones) los valores de las M. Carmen Carollo Limeres Página 6

iii) Falta de linealidad Transformaciones previas a la regresión: Si después de efectuar la diagnosis del modelo vemos que no se cumplen algunas de sus hipótesis básicas, podemos actuar de dos maneras: Efectuar una transformación de los datos de manera que los datos ya cumplan todas las hipótesis del modelo. M. Carmen Carollo Limeres Página 7

Buscar otro tipo de modelo de regresión que no requiera las hipótesis que se han imcumplido, que ajuste adecuadamente a los datos y cuyas nuevas hipótesis sí sean verificadas. Lo más frecuente es intentar primero una transformación de los datos. Las transformaciones más habituales son las de la familia transformaciones de Box-Cox. Esta familia viene dada por la siguiente expresión: λ y 1 ( λ ) λ 0 hy ( ) = y = λ ln y λ = 0 Cada λ produce una transformación diferente, de modo que escogiendo su valor estamos escogiendo la transformación que más nos convenga en cada caso. M. Carmen Carollo Limeres Página 8

9. Un ejemplo en el que no se cumplen los supuestos Los supuestos que deben cumplirse para que el ajuste de un modelo de regresión lineal sea adecuado son: independencia, igualdad de varianzas y normalidad de los residuos. Pero, qué ocurre cuando estos supuestos no se dan? Cuál es el resultado que obtenemos? Fijémonos en la gráfica siguiente (archivo datos_ns.sav). A simple vista, parecería que el ajuste lineal es adecuado: la línea recta ajusta bastante bien la nube de puntos, y el coeficiente de determinación es de 0.81. M. Carmen Carollo Limeres Página 9

Para un modelo de regresión lineal sobre estos datos, los resultados son los siguientes: Resumen del modelo(b) Mod. R R R corregida Error típ. de estimac. Durbin-Watson 1,90,814,813 1,00916,096 Los datos son incorrelados Veamos la normalidad: M. Carmen Carollo Limeres Página 30

Standardized Residual Pruebas de normalidad Kolmogorov-Smirnov Shapiro-Wilk Estadístico gl Sig. Estadístico gl Sig.,136 00,000,776 00,000 a. Corrección de la significación de Lilliefors Vemos que los datos no son normales. En cuanto a la igualdad de varianzas: Hay heterocedasticidad pues la varianza es mayor para valores pronosticados grandes o pequeños. M. Carmen Carollo Limeres Página 31