Regresión lineal múltiple

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Regresión lineal múltiple"

Transcripción

1 Regresión lineal múltiple Tema 6 Estadística 2 Curso 08/09 Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 1 / 91

2 Introducción Introducción Consideramos ahora la extensión del modelo de regresión simple para el caso de k variables explicativas, conocido como el modelo lineal general de regresión. Se supone que: donde: Y = m(x 1,, X k ) + ε = m (X) + ε Y Variable respuesta (o dependiente). X = (X 1,, X k ) vector de variables explicativas (o independientes). ε Error aleatorio. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 2 / 91

3 Introducción Ejemplo Ejemplo Examen junio 07 Una empresa de ventas por internet de productos informáticos está interesada en estudiar que variables in uyen en sus costes mensuales ( variable de interés). Para ello recogieron los costes de distribución (en miles de euros), las ventas (en cientos de miles de euros) y el número de órdenes de compras (en miles) de los últimos 24 meses. costes ventas ordenes costes ventas ordenes Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 3 / 91

4 Introducción Ejemplo Para un análisis descriptivo, es recomendable generar un grá co matricial y calcular la matriz de correlaciones: Correlaciones Costes de distribución Ventas Ordenes Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Costes de distribución Ventas Ordenes 1,842**,919**,000, ,842** 1,800**,000, ,919**,800** 1,000, **. La correlación es significativa al nivel 0,01 (bilateral). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 4 / 91

5 Introducción Ejemplo Supondremos además que la función de regresión es lineal: E (Y j X) = β 0 + β 1 X 1 + β 2 X β k X k donde β = (β 0, β 1,, β k ) 0 es el vector de parámetros (desconocidos). Resumiendo: Suponemos que variable respuesta Y y las variables explicativas (X 1,, X k ) están relacionadas linealmente de la forma: Y = β 0 + β 1 X 1 + β 2 X β k X k + ε = X 0 β + ε NOTA: Para simpli car la notación asumiremos que X 0 = 1 (si incluimos β 0 en el modelo), i.e.: X = (1, X 1,, X k ) Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 5 / 91

6 Objetivos Introducción Ejemplo El objetivo principal es, a partir de una muestra: f(x 1i,, x ki, Y i ) : i = 1,, ng con: Y i = β 0 + β 1 x 1i + + β k x ki + ε i = xi 0 β + ε i. Estimar el hiperplano de regresión teórico: y = β 0 + β 1 x β k x k = x 0 β (i.e. estimar β = (β 0, β 1,, β k ) 0 ) y la distribución del error. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 6 / 91

7 Modelo El modelo lineal general Modelo Se suponen las siguientes hipótesis: 1 Linealidad: Y i = β 0 + β 1 x 1i + + β k x ki + ε i = x 0 i β + ε i. con E (ε i ) = 0. Las variables explicativas se suponen no aleatorias (conocidas). 2 Homodecasticidad: Var(ε i ) = σ 2 3 Normalidad: ε i N(0, σ 2 ) 4 Independencia: los errores son independientes, i.e. no existe correlación entre errores: Cov(ε i, ε j ) = 0, si i 6= j. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 7 / 91

8 El modelo lineal general Modelo Se suponen además dos hipótesis adicionales: 5. El número de datos disponible es como mínimo k + 1 (n de parámetros). 6. Ninguna de las variables explicativas es una combinación lineal de las demás. Los vectores X j = (x j1,, x jn ) 0 vector de observaciones de la variable j, son linealmente independientes. Por tanto: NOTA: E (Y j X = x) = x 0 β Y i = Y j X = x i N x 0 i β, σ 2 Independientes β 0 = valor medio de Y en el origen (X i nulas). β i = efecto lineal de la variable X i ( incremento medio de Y cuando X i aumenta una unidad). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 8 / 91

9 El modelo lineal general Modelo Y i N xi 0 β, σ2 Generacion datos (Click!) Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 9 / 91

10 El modelo lineal general Modelo Ecuaciones en forma matricial El conjunto de ecuaciones: Y i = β 0 + β 1 x 1i + + β k x ki + ε i ; i = 1,, n, se pueden escribir en forma vectorial: Y =β 0 1+β 1 X 1 + +β k X k + ε, siendo: Y = (Y 1,, Y n ) 0 vector de observaciones de la variable Y X j = (x j1,, x jn ) 0 vector de observaciones de la variable X j ε = (ε 1,, ε n ) 0 vector de errores Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 10 / 91

11 El modelo lineal general Modelo En forma matricial: 0 Y 1 Y 2. Y n {z } n1 Y = X β + ε, x 11 x k1 1 x 12 x k2 C = B C B. 1 x 1n x kn {z } n(k+1) β 0 β 1. β k 1 {z } (k+1)1 0 ε 1 ε 2 C + B ε n 1 C A {z } n1 donde X es la denominada matriz del diseño de las variables regresoras: 0 19 x 1 >= B C X = 1 X 1 X k A {z } >; observaciones variables x n Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 11 / 91

12 El modelo lineal general Ejemplo Ejemplo Problema 5.4 Y ="gastos en alimentación de una familia (miles de euros)" X 1 ="ingresos mensuales (miles de euros)" X 2 ="número de miembros de la familia" Muestra aleatoria simple de n = 15 familias: Gasto Ingreso Tamaño Gasto Ingreso Tamaño Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 12 / 91

13 El modelo lineal general Ejemplo 0 Y = = X β + ε = C B C A β 0 β 1 β 2 1 A + ε Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 13 / 91

14 Estimación de los parámetros Estimación de los parámetros Para la estimación de los parámetros del modelo: el vector de parámetros β = (β 0, β 1,, β k ), la varianza de la distribución del error, σ 2 se utiliza también el método de mínimos cuadrados. Como resultado obtendremos el hiperplano de regresión mínimo cuadrático: ŷ = ˆβ 0 + ˆβ 1 x ˆβ k x k = x 0^β que estima el valor medio E (Y j X = x) = β 0 + β 1 x β k x k = x 0 β (estima el hiperplano de regresión teórico). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 14 / 91

15 Estimación de los parámetros Estimación por mínimos cuadrados Estimación por mínimos cuadrados Los estimadores mínimo cuadráticos son los que minimizan la suma de los cuadrados de las diferencias entre los valores reales y las predicciones de la respuesta:: n (β 0,,β k ) i=1 ^β = ( ˆβ 0,, ˆβ k ) = arg min = arg min β (Y X β) 0 (Y X β) (Y i β 0 β 1 x 1i β k x ki ) 2 Este problema de minimización se soluciona derivando e igualando a cero: β Y0 Y 2Y 0 X β + β 0 X 0 X β = 0 obteniéndose las ecuaciones (canónicas) de regresión: X 0 X β =X 0 Y Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 15 / 91

16 Estimación de los parámetros Estimación por mínimos cuadrados La solución del sistema es el estimador mínimo cuadrático de β: ^β = X 0 X 1 X 0 Y NOTAS El sistema tiene solución (la matriz X 0 X es invertible) porque las columnas de X son independientes (aunque pueden aparecer problemas: multicolinealidad). Haciendo uso de la hipótesis de normalidad multivariante, se llega a las mismas expresiones al maximizar la función logarítmica de verosimilitud, por lo que estos estimadores coinciden con los estimadores máximo-verosímiles. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 16 / 91

17 Estimación de los parámetros Ejemplo Ejemplo Gastos en alimentación 0 0 X 0 X n = 15 x 1i = 42 x 2i = 55 0 A X 0 Y x 2 1i = x 1i x 2i = x 2 2i = C A A 0 y i = y i x 1i = y i x 2i = Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 17 / 91

18 Estimación de los parámetros Ejemplo 0 ^β = X 0 X 1 X 0 Y = ^β A A A = A = El modelo de regresión lineal ajustado es: Gasto = Ingreso Tamaño + error Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 18 / 91

19 Estimación de los parámetros Interpretación geométrica Interpretación geométrica El ajuste se puede interpretar geométricamente como encontrar en el subespacio col(x ) = X β el vector más próximo al vector Y. Se trata de minimizar el módulo del error Y X β. Entonces (Y X^β) es ortogonal al subespacio col(x ), i.e. X^β es la proyección ortogonal de Y en col(x ),, X 0 (Y X^β) = 0, X 0 X^β =X 0 Y Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 19 / 91

20 Matriz proyección Estimación de los parámetros Matriz proyección Podemos expresar las predicciones como: ^Y = X^β = X X 0 X 1 X 0 Y = HY donde H= (h ij ) n i,j=1 subespacio col(x ). es la matriz de proyección (matriz hat) en el Se denominan residuos e = (e 1,, e n ) las diferencias entre valores observados y predicciones: e = Y ^Y = (I H) Y NOTA: Teniendo en cuenta las observaciones anteriores los residuos veri can k + 1 restricciones X 0 e = X 0 (Y X^β) = 0 (p.e. e i = 0 ) ē = 0) Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 20 / 91

21 Estimación de los parámetros Suma de cuadrados residual Matriz proyección Se de ne la suma residual de cuadrados: Entonces: SS R = n ei 2 = jej 2 = e 0 e i=1 = Y 0 (I H) 0 (I H) Y = Y 0 (I H) Y = Y 0 Y Y 0 HY = Y 0 Y ^β 0 X 0 Y SS R = n e 2 n i = yi 2 i=1 i=1 β 0 n y i + β 1 i=1 n x 1i y i + β 2 i=1 n x 2i y i β k i=1! n x ki y i, i=1 (util para el cálculo en la práctica). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 21 / 91

22 Varianza residual Estimación de los parámetros Varianza residual A partir de los residuos podemos de nir una medida de la variabilidad de los datos respecto al hiperplano estimado de regresión: S 2 R = 1 n n e 2 i = SS R i=1 n = 1 n n i=1 (y i ŷ i ) 2 que es un estimador sesgado de la varianza del error σ 2 (estimador de máxima verosimilitud). Un estimador insesgado de la varianza es: Ŝ 2 R = SS R n (k + 1) = 1 n (k + 1) que denominaremos varianza residual. n i=1 (y i ŷ i ) 2 Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 22 / 91

23 Estimación de los parámetros Ejemplo Ejemplo Gastos en alimentación A partir del modelo ajustado: ŷ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 = x x 2 se obtienen las predicciones y los residuos asociados a las observaciones muestrales P.e.: x 1,1 = 2.1; x 2,1 = 3; y 1 = 0.43 ŷ 1 = = e 1 = y 1 ŷ 1 = = Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 23 / 91

24 Estimación de los parámetros Ejemplo Predicciones Residuos ss R = e 2 i = ŝ 2 R = ss R 12 = ŝ R = Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 24 / 91

25 Estimación de los parámetros Ejemplo Alternativamente (más fácil): ss R = e 2 i = e 0 e = = Y 0 Y ^β 0 X 0 Y = yi 2 ˆβ 0 y i ˆβ 1 y i x 1i ˆβ 2 y i x 2i = = ( 0.160) ' 0.06 (cuidado con el redondeo). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 25 / 91

26 Estimación de los parámetros Distribución los estimadores Distribución los estimadores de los parámetros Los estimadores de los coe cientes son una combinación lineal de la respuesta: ^β = X 0 X 1 X 0 Y a partir de lo cual se deducen fácilmente sus propiedades principales: Normalidad: Tienen una distribución normal por ser combinación lineal de variables aleatorias normales (independientes) Insesgadez: E (^β) = β Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 26 / 91

27 Estimación de los parámetros Distribución los estimadores Varianzas: Var(^β) = 0 Var( ˆβ 0 ) Cov( ˆβ 0, ˆβ 1 ) Cov( ˆβ 0, ˆβ k ) Cov( ˆβ 0, ˆβ 1 ) Var( ˆβ 1 ) Cov( ˆβ 1, ˆβ k ) Cov( ˆβ 0, ˆβ k ) Cov( ˆβ 1, ˆβ k ) Var( ˆβ k ) = σ 2 (X 0 X ) 1 = σ 2 Q 1 C A ) Var( ˆβ i ) = σ 2 q ii E ciencia (Teorema de Gauss-Markov): ˆβ i tiene la mínima varianza entre los estimadores lineales insesgados (no requiere normalidad). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 27 / 91

28 Estimación de los parámetros Distribución los estimadores ˆβ i N β i, σ 2 q ii Generacion datos (Click!) Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 28 / 91

29 Estimación de los parámetros Distribución los estimadores Equivalentemente: Además se puede ver que: ˆβ i β i σ p N(0, 1) q ii (n k 1)Ŝ 2 R σ 2 χ 2 n k 1 (independiente de ^β ya que (I H) X = 0). Por tanto: ˆβ i β i p t n k 1 Ŝ R qii A partir de los cuales podemos obtener estimaciones por intervalo de con anza y realizar contrastes de hipótesis sobre los distintos parámetros. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 29 / 91

30 Estimación de los parámetros Intervalos de con anza para los parámetros Intervalos de con anza y contrastes sobre los parámetros A partir de los estadísticos anteriores: ˆβ i β i t n k 1, i = 0,, k ˆσ ˆβ i donde: ˆσ ˆβ i = ŜR p qii Se obtienen los intervalos de con anza de nivel 1 del hiperplano de regresión: α para los coe cientes IC (1 α) (β i ) = ˆβ i t n k 1,1 α 2 ˆσ ˆβ i, i = 0,, k. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 30 / 91

31 Estimación de los parámetros Intervalos de con anza y contrastes sobre los parámetros A partir del estadístico: (n k 1)ŜR 2 σ 2 = SS R σ 2 χ 2 n k 1 se obtiene el correspondiente intervalo de con anza para la varianza: IC (1 α) σ 2 = = (n k 1)Ŝ 2 R χ 2 n k 1,1 α 2, (n k 1)Ŝ 2 R SS R χ 2 n k 1,1 α 2, SS R χ 2 n k 1, α 2 χ 2 n k 1, α 2!.! Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 31 / 91

32 Estimación de los parámetros Intervalos de con anza y contrastes sobre los parámetros Contrastes de hipótesis sobre los parámetros Procediendo de la forma habitual se pueden realizar contrastes de hipótesis individuales sobre los parámetros. Por ejemplo, para contrastar si uno de los coe cientes es nulo: H0 : β i = 0 utilizamos el estadístico: H 1 : β i 6= 0 T i = R.A. = ˆβ i ˆσ ˆβ i t n k 1, si H 0 cierta t n k 1,1 α 2, t n k 1,1 α 2 p = 2P t n k 1 ˆT i Los contrastes individuales son de utilidad para estudiar si podemos eliminar alguno de los componentes del modelo (p.e. alguna de las variables explicativas). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 32 / 91

33 Estimación de los parámetros Ejemplo Ejemplo Gastos en alimentación Intervalo de con anza para σ 2 al 90%: SS R σ 2 χ 2 n 3 ) 0.9 = P χ 2 12,0.05 SS R σ 2 χ 2 12,0.95 =! SS =... = R P σ 2 SS R χ 2 12,0.95 IC 90% σ 2 = , = (0.0034, ) χ 2 12,0.05 Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 33 / 91

34 Estimación de los parámetros Ejemplo Varianzas de los estimadores de los coe cientes: dvar ^β = ŝr 2 X0 X = A de donde ˆσ 2 ˆβ 0 = ŝ 2 R q 00 = = ˆσ 2 ˆβ 1 ) ˆσ ˆβ 0 = = ŝr 2 q 11 = = ˆσ 2 ˆβ 2 ) ˆσ ˆβ 1 = = ŝr 2 q 22 = = ) ˆσ ˆβ 2 = Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 34 / 91

35 Estimación de los parámetros Ejemplo Intervalo de con anza para β 0 : ˆβ 0 β 0 ˆσ ˆβ 0 t n (k+1) ) 0.9 = P t 12,0.95 ˆβ 0 β 0 ˆσ ˆβ 0 t 12,0.95 = P ˆβ 0 t 12,0.95 ˆσ ˆβ 0 β0 ˆβ 0 + t 12,0.95 ˆσ ˆβ 0! IC 90% (β 0 ) = ( ) = ( ) = ( 0.321, 0.001) Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 35 / 91

36 Estimación de los parámetros Ejemplo Intervalo de con anza para β 1 (ingreso): IC 90% (β 1 ) = ˆβ 1 t 12,0.95 ˆσ ˆβ 1 = ( ) = ( ) = (0.1314, ) Contraste efecto individual, H 0 : β 1 = 0 la variable ingreso no in uye (linealmente) en el gasto T 1 = ˆβ 1 ˆσ ˆβ 1 t n k 1, si H 0 cierta, ˆT 1 = = > t 12,0.95 = p 1 = 2P (t ) 0.01 ) Se Rechaza H 0 Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 36 / 91

37 Estimación de los parámetros Ejemplo Intervalo de con anza para β 2 (tamaño): IC 90% (β 2 ) = ˆβ 2 t 12,0.95 ˆσ ˆβ 2 = ( ) = ( ) = (0.0412, ) Contraste efecto individual, H 0 : β 2 = 0 la variable tamaño no in uye (linealmente) en el gasto T 2 = ˆβ 2 ˆσ ˆβ 2 t n k 1, si H 0 cierta, ˆT 2 = = > t 12,0.95 = p 2 = 2P (t ) < 0.01 ) Se Rechaza H 0 Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 37 / 91

38 Bondad del ajuste El contraste de regresión Bondad del ajuste: El contraste de regresión Es de especial interés el contraste: H0 : β 1 = = β k = 0 H 1 : β i 6= 0 para algún i que equivaldría a contrastar que no hay relación lineal entre la variable respuesta y las variables explicativas: contraste de regresión. Una forma natural de realizar este contraste es el análisis de la varianza en regresión lineal múltiple. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 38 / 91

39 Bondad del ajuste El contraste de regresión A partir de la descomposición: (y i ȳ) = (y i ŷ i ) + (ŷ i ȳ), se obtiene la identidad de la suma de cuadrados de la regresión lineal múltiple: n i=1 (y i ȳ) 2 = n i=1 (ŷ i ȳ) 2 + SS T = SS E + SS R V T = V E + V R n i=1 (y i ŷ i ) 2 variabilidad total = variabilidad explicada por la regresión + variabilidad residual Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 39 / 91

40 Bondad del ajuste El contraste de regresión V E = V T (V R = 0) ) Ajuste perfecto V E = 0 (V R = V T ) ) No explica nada ŷ = ˆβ 0 = ȳ Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 40 / 91

41 Bondad del ajuste El contraste de regresión Dividiendo las sumas de cuadrados por los correspondientes grados de libertad (numero - restricciones que veri can los sumandos) se obtienen las varianzas o cuadrados medios: Ŝ 2 Y = MS T = SS T n 1 = 1 n 1 Ŝ 2 E = MS E = SS E k = 1 k n i=1 n i=1 (ŷ i ȳ) 2 (y i ȳ) 2 Ŝ 2 R = MS R = SS R n k 1 = 1 n k 1 n i=1 (y i ŷ i ) 2 Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 41 / 91

42 Bondad del ajuste El contraste de regresión Para contrastar la hipótesis nula de que no hay una relación lineal entre las dos variables se utiliza el cociente: F 0 = MS E MS R = Ŝ 2 E Ŝ 2 R F k,n k 1, si H 0 cierta, que tiende a tomar valores grandes cuando la hipótesis nula es falsa. Se rechaza H 0 al nivel de signi cación α si: El nivel crítico del test o p-valor será: ˆF 0 = ms E ms R > F k,n k 1,1 α. p = P F k,n k 1 ˆF 0. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 42 / 91

43 Bondad del ajuste El contraste de regresión La tabla ANOVA correspondiente al contraste: H0 : β 1 = = β k = 0 No hay rel. lineal H 1 : β i 6= 0 para algún i Si hay rel. lineal es: Fuente de variación SS gl MS F p-valor Regresión ss E k ms E = ss E k Residual ss R n k 1 ms R = ss R n k 1 Total ss T n 1 ms T = ss T n 1 ˆF 0 = ms E ms R p NOTA: Si aceptamos la hipótesis nula del contraste de regresión, aceptamos que no hay relación lineal entre las variables explicativas y la respuesta, lo cual podría ser debido a que las variables explicativas no aportan información sobre la respuesta o que la relación no es lineal. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 43 / 91

44 Bondad del ajuste El contraste de regresión El contraste de regresión permite estudiar si el efecto lineal de las variables explicativas es (estadísticamente) signi cativo. No confundir con un contraste de linealidad que permite estudiar si el efecto no lineal es (tendencia no lineal) o no (tendencia lineal) signi cativo. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 44 / 91

45 Bondad del ajuste Ejemplo Ejemplo Gastos en alimentación SS R = (y i ŷ i ) 2 = SS T = (y i ȳ) 2 = y 2 i 15ȳ 2 = SS E = (ŷ i ȳ) 2 = SS T SS R = = F. var. SS gl MS F p-valor Explicado p < Residual Total F 2,12,0.95 ' p = P (F 2,12 > ) < Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 45 / 91

46 Bondad del ajuste El coe ciente de determinación Los coe cientes de determinación y correlación Una medida de la bondad del ajuste (evaluación global del modelo ajustado) es el coe ciente de determinación: R 2 = V E V T = = 1 n i=1 (ŷ i ȳ) 2 n (y i ȳ) 2 i=1 V R V T = 1 (n k 1)Ŝ 2 R (n 1)Ŝ 2 Y que es la proporción de variación explicada por la regresión. Se veri ca que 0 R 2 1 : Si R 2 = 1 todas las observaciones están en el hiperplano ajustado (lo explica todo). Si R 2 = 0 el hiperplano ajustado no explica nada. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 46 / 91

47 Bondad del ajuste Los coe cientes de determinación y correlación Para el caso de dos o más variables explicativas se de ne el coe ciente de correlación múltiple como la raíz cuadrada del coe ciente de determinación: R = (sólo toma valores positivos). NOTAS: r r VE VT = 1 VR VT Se puede ver que el coe ciente de correlación múltiple coincide con el coe ciente de correlación lineal de Pearson entre los datos observados (y i ) y los pronosticados (ŷ i ). Si el ajuste es bueno los pares de puntos (y i, ŷ i ) deben estar próximos a la bisectriz x = y. El estadístico del contraste de regresión se puede expresar también a partir del coe ciente de determinación: (n k 1) R F 0 = 2 k 1 R 2 Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 47 / 91

48 Bondad del ajuste El coe ciente de determinación ajustado Los coe cientes de determinación y correlación Cuando las muestras son pequeñas en relación al número de variables explicativas, el coe ciente de determinación da valores demasiado optimistas, por lo que conviene utilizar en su lugar el coe ciente de determinación ajustado. Teniendo en cuenta que R 2 V = R 1 V T si reemplazamos las variabilidades (sumas de cuadrados) por varianzas, se obtiene el coe ciente de determinación ajustado (por los grados de libertad): R 2 ajus = 1 Ŝ 2 R Ŝ 2 Y = 1 n 1 (1 R 2 ) n k 1 (de utilidad para comparar modelos con distinto número de variables explicativas). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 48 / 91

49 Bondad del ajuste Los coe cientes de determinación y correlación El coe ciente correlación parcial Se llama correlación parcial entre dos variables a aquella que elimina la in uencia de otra(s) variable(s). Se de ne el coe ciente de correlación parcial entre Y y X, eliminando el efecto de Z 1,, Z k, como el coe ciente de correlación lineal entre los residuos resultantes de hacer ajustes lineales para Y y X en función de Z 1,, Z k : e Y.Z,i = y i ( ˆβ 0 + ˆβ 1 z 1i + + ˆβ k z ki ) e X.Z,i = x i ( ˆβ 0 + ˆβ 1 z 1i + + ˆβ k z ki ) Entonces: r YX.Z = r (e Y.Z, e X.Z ) Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 49 / 91

50 Bondad del ajuste Los coe cientes de determinación y correlación En regresión lineal múltiple se suele estudiar la correlación parcial entre la variable respuesta y una de las variables explicativas X i, eliminando el efecto de las demás variables explicativas X ( i) (conjunto de variables explicativas menos X i ). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 50 / 91

51 Bondad del ajuste Los coe cientes de determinación y correlación Se puede ver que el valor observado del estadístico del contraste H0 : β i = 0 H 1 : β i 6= 0 ˆT i = ˆβ i ˆσ ˆβ i es función del correspondiente coe ciente de correlación parcial. De donde se deduce que: r 2 YX i.x ( i) = (util para el cálculo en la práctica). ˆT 2 i ˆT 2 i + (n k 1) Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 51 / 91

52 Bondad del ajuste Ejemplo Ejemplo Gastos en alimentación Coe ciente de determinación: R 2 = ss E ss T = = ) 94.96% de ss T Coe ciente de correlación múltiple: R = p = Coe ciente de determinación corregido: R 2 = 1 ŝr 2 ŝy 2 = = ) 94.13% de ss T R = p = Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 52 / 91

53 Bondad del ajuste Ejemplo Coe ciente de correlación simple entre las variables gasto e ingreso: r YX1 = S YX 1 S Y S X1 = Coe ciente de correlación parcial entre las variables gasto e ingreso, eliminando la in uencia de la variable tamaño: r 2 YX 1.X 2 = = ˆT 1 2 ˆT n k = ) r YX1.X 2 = Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 53 / 91

54 Otros contrastes de interés Otros contrastes de interés Se suelen estudiar hipótesis que relacionan simultáneamente varios coe cientes de regresión: 1 Todos los coe cientes son cero (no hay relación lineal, contraste de regresión visto antes). 2 Un subconjunto de los coe cientes es cero. 3 Un subconjunto de los coe cientes son iguales. El procedimiento para contrastar estas hipótesis puede verse de forma general desde el punto de vista del análisis de la varianza, se trata de comparar la variabilidad explicada por los denominados: modelo completo: modelo considerando todas las variables explicativas sin ninguna restricción. modelo reducido: modelo correspondiente a la hipótesis H 0 que se desea contrastar. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 54 / 91

55 Otros contrastes de interés Si denotamos por ŷ i e ŷi las predicciones obtenidas con el modelo completo y con el modelo reducido,respectivamente, y: V E = V E = n i=1 n i=1 (ŷ i ȳ) 2 (ŷ i ȳ) 2 se de ne el incremento en la variabilidad explicada: V E = V E V E El cociente: F 0 = V E (k+1 I ) V R n k 1 F k+1 l,n k 1, si H 0 cierta, siendo l el número de parámetros distintos en el modelo reducido, tiende a tomar valores grandes cuando H 0 es falsa. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 55 / 91

56 Otros contrastes de interés V E = V E VE = 0 ) No mejora nada (ŷ = ŷ ) V E = V E VE V R ) Mejora signi cativa Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 56 / 91

57 Otros contrastes de interés Se rechaza H 0 al nivel de signi cación α si: ˆF 0 = V E (k+1 l) ŝ 2 R > F k+1 l,n k 1,1 α, i.e. el modelo completo produce un incremento signi cativo en la variabilidad explicada (respecto al modelo reducido). El nivel crítico del test o p-valor será: p = P F k+1 l,n k 1 ˆF 0. Este estadístico también se puede expresar a partir de los coe cientes de determinación como: F = (n k 1) (R 2 R 2 ) (k + 1 l) 1 R 2 siendo R 2 y R 2 los coe cientes de determinación del modelo completo y del reducido respectivamente. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 57 / 91

58 Otros contrastes de interés Ejemplo Ejemplo Gastos en alimentación Contraste individual de la F H0 : y = β 0 + β 1 x 1 + ε H 1 : y = β 0 + β 1 x 1 + β 2 x 2 + ε H0 : β 2 = 0 H 1 : β 2 6= 0 Regresión lineal simple de gasto sobre ingreso: gasto ' ingreso La tabla ANOVA de este modelo es F. var. SS gl MS VE ŝe 2 = VR ŝr 2 = V T ŝy 2 = Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 58 / 91

59 Otros contrastes de interés Ejemplo Incremento en la variabilidad explicada al introducir la variable tamaño: V E (tamaño) = V E V E (ingreso) = = Para realizar el contraste se utiliza el estadístico: F 0 = V E (k+1 I ) V R n k 1 F k+1 l,n k 1, si H 0 cierta ˆF 0 = V E 1 ŝ 2 R = = p = P (F 1,12 > 14.65) < Este contraste proporciona el mismo p individual de la t (salvo redondeo). valor que el contraste Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 59 / 91

60 Predicción Predicción Entre los objetivos de un análisis de regresión pueden estar: Estimar la media de la distribución de la respuesta para X = x 0 = (x 10,, x k0 ), i.e. estimar m 0 = E (Y j X = x 0 ) (= x 0 0 β). Predecir futuros valores de la repuesta en x 0, i.e. predecir Y 0 = Y j X = x 0 Se puede pensar que en el primer caso se intenta estimar el valor medio a largo plazo (de un gran número de experimentos realizados con x 0 ), mientras que en el segundo caso se intenta predecir el resultado de un solo experimento. La estimación puntual de la media y la predicción de la respuesta se obtienen sustituyendo x por x 0 en el hiperplano ajustado: ˆm 0 = by 0 = ˆβ 0 + ˆβ 1 x ˆβ k x k0 = x 0 0^β Sin embargo, la precisión es distinta. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 60 / 91

61 Predicción Ejemplo (regresión lineal simple) Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 61 / 91

62 Predicción Estimación de la media condicionada Estimación de la media condicionada El estimador ˆm 0 = by 0 = x 0 0^β,sigue una distribución normal de parámetros: donde: E ( ˆm 0 ) = x 0 0β = m 0 Var ( ˆm 0 ) = σ 2 h 00 h 00 = x 0 0 X 0 X 1 x0 es el valor de in uencia o leverage asociado x 0, que mide la distancia estandarizada entre x 0 y el centro de la nube X. Para una observación de la muestra (x i, Y i ), el valor de in uencia h ii es el i ésimo elemento de la diagonal de la matriz de proyección: H = X X 0 X 1 X 0. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 62 / 91

63 Predicción Estimación de la media condicionada Se denomina número equivalente de observaciones a: Observaciones: n 0 = 1 h 00 Var ( ˆm 0 ) = σ2 n 0 ) Los datos proporcionan la misma información para estimar m 0 que una muestra de tamaño n 0 univariante para estimar su media. Cuando se realiza una interpolación (estimación dentro del rango de valores observados): 1 n 0 n (= n si x 0 = X). Cuando se extrapola: n 0! 0 ( no hay información sobre la respuesta). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 63 / 91

64 Predicción Estimación de la media condicionada Se veri ca que: ˆm 0 m 0 σ p h 00 N (0, 1). Sustituyendo la varianza desconocida por su estimador insesgado, obtenemos el estadístico pivote: ˆm 0 m 0 Ŝ R p h00 t n k 1, a partir del cual podríamos construir intervalos de con anza: p IC (1 α) (m 0 ) = ˆm 0 Ŝ R h00 t n k 1,1 α 2 o realizar contrastes. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 64 / 91

65 Predicción Predicción de una nueva observación Predicción de una nueva observación El predictor by 0 = x 0 0^β sigue una distribución normal y tiene como media y varianza de predicción (error cuadrático medio de predicción): De donde se deduce que: E (by 0 ) = x 0 0β = E (y 0 ) E (y by 0 ) 2 = Var (y) + Var (by 0 ) = σ 2 (1 + h 00 ) by 0 y 0 σ p N (0, 1) (1 + h 00 ) Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 65 / 91

66 Predicción Predicción de una nueva observación Sustituyendo la varianza desconocida por su estimador insesgado, obtenemos: by 0 y 0 Ŝ R p (1 + h00 ) t n k 1, a partir del cual podríamos construir intervalos de predicción: IP (1 α) (y 0 ) = by 0 Ŝ R q(1 + h 00 ) t n k 1,1. α2 Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 66 / 91

67 Predicción Ejemplo Ejemplo Gastos en alimentación Estimar el gasto medio en alimentación de las familias con ingresos de x 1t = 3.0 y tamaño de x 2t = 4. Valor de in uencia: ˆm t = ˆβ 0 + ˆβ 1 x 1t + ˆβ 2 x 2t = h tt = xt 0 X 0 X 1 xt 0 = = = = ) n t = = Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 67 / 91 1 A

68 Predicción Ejemplo dvar ( ˆm t ) = ŝ 2 R h tt = = ) ˆσ ( ˆm t ) = m t ˆm t ˆσ ( ˆm t ) t 12 ) IC 90% (m t ) = (0.595 t 12, ) = ( ) = ( ) = (0.557, 0.633) Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 68 / 91

69 Predicción Ejemplo Predecir el gasto en alimentación de la familia Pérez, que tiene unos ingresos de x 1t = 3.0 y un tamaño de x 2t = 4. ŷ t = ˆβ 0 + ˆβ 1 x 1t + ˆβ 2 x 2t = dvar (ŷ t ) = ŝ 2 R (1 + h tt ) = ( ) = ) ˆσ (ŷ t ) = IP 90% (y t ) = ( ) = ( ) = (0.452, 0.738) Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 69 / 91

70 Diagnosis del modelo Diagnosis del modelo Es importante recordar que las conclusiones obtenidas con este método se basan en las hipótesis básicas del modelo. Si alguna de estas hipótesis no es cierta, las conclusiones obtenidas pueden no ser ables, o incluso totalmente erroneas. En regresión simple y múltiple: Linealidad Normalidad (homogeneidad) Homocedasticidad Independencia Hipótesis adicional en regresión múltiple: Ninguna de las variables explicativas es combinación lineal de las demás. En el caso de regresión múltiple es además de especial interés el fenómeno de la multicolinealidad (o colinearidad). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 70 / 91

71 Diagnosis del modelo El problema de la multicolinealidad El problema de la multicolinealidad La estimación de los parámetros ^β = (X 0 X ) 1 X 0 Y requiere la inversión de la matriz X 0 X. Si una de las variables explicativas (variables independientes) es combinación lineal de las demás, la matriz será singular y el sistema no tendrá solución única. Sin llegar a esta situación extrema, cuando algunas variables explicativas estén altamente correlacionadas entre sí, tendremos una situación de alta multicolinealidad. En este caso las estimaciones de los parámetros pueden verse seriamente afectadas: Los estimadores ˆβ i tendrán varianzas muy altas (serán poco e cientes). Las estimaciones ˆβ i serán muy dependientes entre sí. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 71 / 91

72 Diagnosis del modelo El problema de la multicolinealidad Fuente: Peña, D. Modelos lineales y series temporales. Grandes cambios en los parámetros al modi car ligeramente el modelo (añadir/eliminar una variable o una observación) Contraste de regresión signi cativo (alto coe ciente de determinación), pero contrastes individuales no signi cativos. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 72 / 91

73 Diagnosis del modelo Detección de la multicolinealidad El problema de la multicolinealidad Se utilizan varias medidas (nosotros las dos primeras): Tolerancia: Si denotamos por: Rj 2 = RX 2 j.x ( j) el coe ciente de determinación del ajuste lineal de la variable explicativa X j en función del resto, se de ne la tolerancia de la variable X j como: Tolerancia(X j ) = 1 R 2 j, i.e. proporción de variabilidad de la variable i-ésima que no se explica por el resto de las variables independientes. Valores pequeños, por ejemplo: Tolerancia(X j ) < 0.1 indicarían una posible multicolinealidad (cuidado, no tiene en cuenta la información que aporta para explicar la respuesta). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 73 / 91

74 Diagnosis del modelo El problema de la multicolinealidad Factor de in ación de la varianza (FIV): Se de ne como el inverso de la tolerancia: VIF (j) = 1 1 R 2 j La varianza de los coe cientes en regresión simple (efecto global) es menor que en regresión múltiple (efecto parcial). Se puede ver que: Var(efecto X j en RLM) = VIF (j)var(efecto X j en RLS) ŜRLS 2 (j) dode ŜRLS 2 (j) es la varianza residual de la regresión simple de Y sobre X j. El factor de in ación de la varianza mide el incremento debido a la multicolinealidad. Valores grandes, por ejemplo: VIF (j) > 10 indican la posible presencia de multicolinealidad. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 74 / 91 Ŝ 2 R

75 Diagnosis del modelo El problema de la multicolinealidad Indice de condicionamiento: Una medida de la singularidad de una matriz es el índice de condicionamiento: r máximo autovalor de la matriz IC = mínimo autovalor de la matriz 1 El valor de esta medida para X 0 X (aunque es preferible calcularlo para la matriz de correlación de las variables explicativas) es una medida de la multicolineadidad entre las variables. En general se suele admitir que: IC > 30 ) alta multicolinealidad. 10 < IC 30 ) multicolinealidad moderada. IC < 10 ) no hay multicolinelidad. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 75 / 91

76 Diagnosis del modelo El problema de la multicolinealidad Es recomendable generar un grá co matricial y calcular la matriz de correlaciones: Correlaciones Costes de distribución Ventas Ordenes Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Costes de distribución Ventas Ordenes 1,842**,919**,000, ,842** 1,800**,000, ,919**,800** 1,000, **. La correlación es significativa al nivel 0,01 (bilateral). (aunque puede ser preferible calcular correlaciones parciales). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 76 / 91

77 Diagnosis del modelo Tratamiento de la multicolinealidad El problema de la multicolinealidad 1 Cuando la recogida de los datos se diseñe a priori, se puede evitar la presencia de multicolinealidad tomando las observaciones de manera adecuada (de forma que X 0 X sea aprox. diagonal, i.e. valores observados de las variables explicativas ortogonales), lo que aumenta considerablemente la precisión de la estimación (objetivo del diseño de experimentos). 2 Una vez que se detecta la presencia de multicolinealidad en la muestra, se puede pensar en: Eliminar variables explicativas (reduciendo el número de parámetros a estimar). Añadir nuevos puntos de observación para las variables colineales que tiendan a disminuir la correlación entre ellas. Utilizar métodos más so sticados que solucionen el problema (como regresión por componentes principales, ). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 77 / 91

78 Diagnosis del modelo Métodos para la selección de variables explicativas Métodos para la selección de variables explicativas Cuando se dispone de un conjunto grande de posibles variables explicativas suele ser especialmente importante determinar cuales de estas deberían ser incluidas en el modelo de regresión. Si alguna de las variables no contiene información relevante sobre la respuesta no se debería incluir (no se complicaría la interpretación del modelo y se evitarían problemas como la multicolinealidad). Se trataría entonces de conseguir un buen ajuste con el menor número de variables explicativas posibles. Lo ideal sería evaluar todos los modelos posibles. Si el número de variables es grande (no sería práctico evaluar todas las posibilidades) se suelen utilizar técnicas para su selección. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 78 / 91

79 Diagnosis del modelo Métodos para la selección de variables explicativas Los métodos que se suelen utilizar (muchas veces combinándolos) son: Selección progresiva (forward): Se parte de una situación en la que no hay ninguna variable y en cada paso se incluye una aplicando un criterio de entrada (hasta que ninguna de las restantes lo veri can). Eliminación progresiva (backward): Se parte del modelo con todas las variables y en cada paso se elimina una aplicando un criterio de salida (hasta que ninguna de las incluidas lo veri can). Regresión paso a paso (stepwise): El más utilizado, se combina la selección progresiva con un criterio de salida. Se parte sin ninguna variable y en cada paso puede haber una inclusión y una exclusión (según criterios de entrada y salida). Inclusión directa: El experimentador indica (según algún criterio:) cuales se incluyen en el modelo (generalmente se aplica a un subconjunto de variables y el resto se seleccionan por uno de los procedimientos anteriores). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 79 / 91

80 Diagnosis del modelo Métodos para la selección de variables explicativas Criterio de entrada Se suele introducir la variable con mayor correlación parcial. Para cada una de la variables excluidas, se contrasta si al incluirlas producen un incremento signi cativo en la proporción de variabilidad explicada: F i = (n k 1) (R2 R 2 ) 1 R 2 > F IN = F 1,n k 1,1 αin donde k es el numero total de variables (i.e. el n de variables ya incluidas más uno), R 2 y R 2 son los coe cientes de determinación con (modelo completo) y sin (modelo reducido) la variable. (equivale a contrastar si su coe ciente es distinto de cero). Es necesario jar un nivel de signi cación α IN o un valor crítico F IN. Entre todas las variables que lo producen se elige aquella con mayor F i (menor p-valor) (resumiendo: la de mayor correlación parcial signi cativa). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 80 / 91

81 Diagnosis del modelo Métodos para la selección de variables explicativas Criterio de salida El criterio de salida es análogo. Para cada una de la variables incluidas se contrasta si al eliminarlas no producen una disminución signi cativa en la proporción de variabilidad explicada: F i = (n k 1) (R2 R 2 ) 1 R 2 F OUT = F 1,n k 1,1 αout donde k es el numero total de variables (i.e. el n de variables incluidas), R 2 y R 2 son los coe cientes de determinación con (modelo completo) y sin (modelo reducido) la variable. (equivale a contrastar si su coe ciente es nulo). Es necesario jar un nivel de signi cación α OUT o un valor crítico F OUT. Entre todas las variables que no producen una disminución signi cativa se elige aquella con menor F i (mayor p-valor) (resumiendo: la de menor correlación parcial no signi cativa). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 81 / 91

82 Diagnosis del modelo Métodos para la selección de variables explicativas Si se utiliza el método de selección paso a paso, para prevenir que una variable sea introducida y eliminada repetidamente, debe veri carse: α OUT > α IN (o equivalentemente F OUT < F IN ). Los métodos anteriores pueden dar lugar a distintos modelos. Para comparar modelos con distinto número de variables explicativas es recomendable utilizar el coe ciente de determinación ajustado. En cualquier caso debemos asegurarnos de que las variables incluidas en el modelo no estén relacionadas linealmente para evitar los inconvenientes de la multicolinealidad. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 82 / 91

83 Observaciones Diagnosis del modelo Observaciones Sobre el resto de las hipótesis básicas del modelo, podrían hacerse las mismas observaciones que en el caso de regresión lineal simple: La falta de linealidad "invalida" las conclusiones obtenidas (cuidado con las extrapolaciones). La falta de normalidad tiene poca in uencia si el número de datos es su cientemente grande (TCL). En caso contrario la estimación de la varianza, los intervalos de con anza y los contrastes podrían verse afectados. Si no hay igualdad de varianzas los estimadores de los parámetros no son e cientes pero sí insesgados. Las varianzas, los intervalos de con anza y contrastes podrían verse afectados. La dependencia entre observaciones puede tener un efecto mucho más grave. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 83 / 91

84 Diagnosis del modelo Residuos y datos atípicos Residuos y datos atípicos Se puede pensar en chequear hipótesis sobre la distribución de los errores teóricos a partir de la de los residuos: e=y ^Y = (I H) Y (Var(e) = σ 2 (I H)). Residuos estandarizados: r i = p N(0, 1), ŝ R 1 hii aprox. Residuos estudentizados: r i = p t n k 2, ŝ R (i) 1 hii obtenida eliminando el dato i) (ŝ 2 R (i) NOTA: r i = r i q n k 1 n k r 2 i Residuos eliminados: e (i) = y i ŷ (i) = e i 1 h ii. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 84 / 91 e i e i

85 Diagnosis del modelo Residuos y datos atípicos Un dato atípico (outlier) es una observación "rara" comparada con el resto de observaciones (anormalmente más grande o más pequeña de lo esperado). Se detectan cuando el correspondiente residuo es un valor inusual (poco probable) en relación a la distribución asociada. Un criterio general es considerar un valor atípico cuando: jr i j > 2 ó 3. (o preferiblemente utilizar j r i j > t n k 2,1 γ ). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 85 / 91

86 Diagnosis del modelo Residuos y datos atípicos Es recomendable generar un grá co de residuos tipi cados o estudentizados frente a predicciones o variables explicativas, para detectar falta de linealidad, heterocedasticidad, valores atípicos e in uyentes o el efecto de un factor omitido. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 86 / 91

87 Diagnosis del modelo Residuos y datos atípicos En regresión lineal múltiple no son de la misma utilidad los grá cos de dispersión simple (p.e. grá cos de dispersión matriciales) para detectar problemas. En su lugar se pueden hacer grá cos parciales de residuos: Si denotamos por e Y.X( j) y e Xj.X ( j) los residuos resultantes de hacer ajustes lineales para Y y X j en función de X ( j), se pueden representar los pares de puntos: e Xj.X ( j),i ; e Y.X( j),i (también hay versiones semi-parciales), que se interpretarían como los grá cos de dispersión en regresión lineal simple (correlaciones parciales). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 87 / 91

88 Diagnosis del modelo Observaciones in uyentes Observaciones in uyentes Si las conclusiones obtenidas dependen en gran medida de una observación (normalmente atípica), esta se denomina in uyente a posteriori y debe ser examinada con cuidado por el experimentador. Las observaciones candidatas a ser in uyentes a posteriori son aquellas en las que x i está muy alejado del resto (i.e. de X), estas se denominan in uyentes a priori. Se pueden detectar comprobando si el valor de in uencia o leverage asociado es grande, p.e.: h ii = x 0 i X 0 X 1 xi > 2 k + 1 n (también se puede utilizar la distancia de Mahalanobis). NOTA: 1 n n i=1 h ii = traza(h ) n = k+1 n (H idempotente). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 88 / 91

89 Diagnosis del modelo Observaciones in uyentes Debe veri carse si las observaciones in uyentes a priori lo son a posteriori. Además pueden producir multicolinealidad.. Las observaciones in uyentes a posteriori se pueden detectar si al eliminarlas hay variación en: la estimación de los parámetros del modelo: ^β y ^β (i ) las predicciones de las observaciones: ^Y e ^Y (i ). Un criterio bastante utilizado es considerar una observación in uyente a posteriori si: r ŷ i ŷ (i)i k jdffits i j = p > 2 ŝ R (i) hii n, NOTA: DFFITS i = r i q hii 1 h ii (equivalente al D-estadístico de Cook). También se pueden utilizar los residuos eliminados. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 89 / 91

90 Alternativas Diagnosis del modelo Alternativas Cuando no se satisfacen los supuestos básicos puede llevarse a cabo una transformación de los datos para corregir falta de linealidad, la heterocedasticidad y/o falta de normalidad (normalmente estas últimas "suelen ocurrir en la misma escala"). Un grá co dispersión-nivel puede ayudar a seleccionar la transformación en el caso de heterocedasticidad. Si no se logra corregir la heterocedasticidad, puede ser adecuado utilizar mínimos cuadrados ponderados (habría que modelar la varianza). Si no se cumple la hipótesis de independencia, se puede intentar modelar la dependencia y utilizar mínimos cuadrados generalizados. Si no se logra corregir la falta de linealidad se puede pensar en utilizar métodos no paramétricos (p.e. regresión aditiva no paramétrica). Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 90 / 91

91 Diagnosis del modelo Alternativas Modelos aditivos E (Y jx) = β 0 + m 1 (X 1 ) + m 2 (X 2 ) + + m r (X r ), con m i, i = 1,..., r, funciones cualesquiera. Hastie, T.J. y Tibshirani, R.J. (1990). Generalized Additive Models. Chapman &Hall. Tema 6 (Estadística 2) Regresión lineal múltiple Curso 08/09 91 / 91

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Regresión múltiple. Demostraciones. Elisa Mª Molanes López Regresión múltiple Demostraciones Elisa Mª Molanes López El modelo de regresión múltiple El modelo que se plantea en regresión múltiple es el siguiente: y i = β 0 + β 1 x 1i + β 2 x 2i +...+ β k x ki +

Más detalles

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso ESTADISTICA II INGENIERIA INFORMATICA, 3 ER Curso 11 - Junio - 2.010 SOLUCIONES Apellidos y Nombre:... D.N.I. :... Nota : En la realización de este examen sólo esta permitido utilizar calculadoras que,

Más detalles

Diseños con una fuente de variación (I): Diseño con un factor completamente aleatorizado

Diseños con una fuente de variación (I): Diseño con un factor completamente aleatorizado Diseños con una fuente de variación (I): Diseño con un factor completamente aleatorizado Tema 3 (I) Estadística 2 Curso 08/09 Tema 3 (I) (Estadística 2) ANOVA I Curso 08/09 1 / 63 Introducción Diseño con

Más detalles

TEMA 4 Modelo de regresión múltiple

TEMA 4 Modelo de regresión múltiple TEMA 4 Modelo de regresión múltiple José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Análisis de Datos - Grado en Biología Estructura de este tema Modelo de regresión múltiple.

Más detalles

Tema 4. Regresión lineal simple

Tema 4. Regresión lineal simple Tema 4. Regresión lineal simple Contenidos El objeto del análisis de regresión La especificación de un modelo de regresión lineal simple Estimadores de mínimos cuadrados: construcción y propiedades Inferencias

Más detalles

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso ESTADISTICA II INGENIERIA INFORMATICA, 3 ER Curso 22 - Diciembre - 2.006 Primera Parte - Test Apellidos y Nombre:... D.N.I. :... Nota : En la realización de este examen sólo esta permitido utilizar calculadoras

Más detalles

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso Septiembre Primera Parte

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso Septiembre Primera Parte ESTADISTICA II INGENIERIA INFORMATICA, 3 ER Curso 13 - Septiembre - 2.004 Primera Parte Apellidos y Nombre:... D.N.I. :... Nota : En la realización de este examen sólo esta permitido utilizar calculadoras

Más detalles

Multicolinealidad Introducción. Uno de los supuestos básicos del modelo lineal general. y = Xβ + u

Multicolinealidad Introducción. Uno de los supuestos básicos del modelo lineal general. y = Xβ + u CAPíTULO 6 Multicolinealidad 6.1. Introducción Uno de los supuestos básicos del modelo lineal general y = Xβ + u establece que las variables explicativas son linealmente independientes, es decir, la igualdad

Más detalles

Estadística II. Laura M. Castro Souto

Estadística II. Laura M. Castro Souto Estadística II Laura M. Castro Souto Segundo Cuatrimestre Curso 2000/2001 Modelos de Regresión Diferencias con el Diseño de Experimentos Los modelos de regresión estudian relaciones numéricas entre variables

Más detalles

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso ESTADISTICA II INGENIERIA INFORMATICA, 3 ER Curso 21 - Junio - 2.004 Primera Parte Apellidos y Nombre:... D.N.I. :... Nota : En la realización de este examen sólo esta permitido utilizar calculadoras que,

Más detalles

T2. El modelo lineal simple

T2. El modelo lineal simple T2. El modelo lineal simple Ana J. López y Rigoberto Pérez Dpto Economía Aplicada. Universidad de Oviedo Curso 2010-2011 Curso 2010-2011 1 / 40 Índice 1 Planteamiento e hipótesis básicas 2 Estimación de

Más detalles

Regresión Lineal Múltiple

Regresión Lineal Múltiple Unidad 4 Regresión Lineal Múltiple Javier Santibáñez (IIMAS, UNAM) Regresión Semestre 2017-2 1 / 35 Introducción La idea de la regresión lineal múltiple es modelar el valor esperado de la variable respuesta

Más detalles

El modelo de regresión múltiple

El modelo de regresión múltiple El de regresión múltiple Simple El de regresión múltiple es la extensión a k variables explicativas del de regresión simple. La estructura del de regresión múltiple es la siguiente: y = f (x 1,..., x k

Más detalles

Econometría 1. Karoll GOMEZ Segundo semestre 2017

Econometría 1. Karoll GOMEZ   Segundo semestre 2017 Econometría 1 Karoll GOMEZ kgomezp@unal.edu.co http://karollgomez.wordpress.com Segundo semestre 2017 II. El modelo de regresión lineal Esperanza condicional I Ejemplo: La distribución de los salarios

Más detalles

ANÁLISIS DE REGRESIÓN

ANÁLISIS DE REGRESIÓN ANÁLISIS DE REGRESIÓN INTRODUCCIÓN Francis Galtón DEFINICIÓN Análisis de Regresión Es una técnica estadística que se usa para investigar y modelar la relación entre variables. Respuesta Independiente Y

Más detalles

T3. El modelo lineal básico

T3. El modelo lineal básico T3. El modelo lineal básico Ana J. López y Rigoberto Pérez Dpto Economía Aplicada. Universidad de Oviedo Curso 2010-2011 Curso 2010-2011 1 / 41 Índice 1 Regresión lineal múltiple Planteamiento Hipótesis

Más detalles

Econometría 1. Karoll GOMEZ Segundo semestre 2017

Econometría 1. Karoll GOMEZ   Segundo semestre 2017 Econometría 1 Karoll GOMEZ kgomezp@unal.edu.co http://karollgomez.wordpress.com Segundo semestre 2017 II. El modelo de regresión lineal Esperanza condicional I Ejemplo: La distribución de los salarios

Más detalles

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10 Estadística II Tema 4. Regresión lineal simple Curso 009/10 Tema 4. Regresión lineal simple Contenidos El objeto del análisis de regresión La especificación de un modelo de regresión lineal simple Estimadores

Más detalles

Estadística aplicada al medio ambiente

Estadística aplicada al medio ambiente Estadística aplicada al medio ambiente III. Regresión lineal 3 o de CC. AA. Departamento de Matemáticas Universidad Autónoma de Madrid 2011/12 Planteamiento Modelo Estimación de parámetros Intervalos de

Más detalles

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r) Correlación El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r) El coeficiente de correlación lineal de Pearson (r) permite medir el grado de asociación entre

Más detalles

UNIVERSIDAD DE ANTIOQUIA FACULTAD NACIONAL DE SALUD PÚBLICA Héctor Abad Gómez. Facultad Nacional de Salud Pública Héctor Abad Gómez

UNIVERSIDAD DE ANTIOQUIA FACULTAD NACIONAL DE SALUD PÚBLICA Héctor Abad Gómez. Facultad Nacional de Salud Pública Héctor Abad Gómez UNIVERSIDAD DE ANTIOQUIA FACULTAD NACIONAL DE SALUD PÚBLICA Héctor Abad Gómez Facultad Nacional de Salud Pública Héctor Abad Gómez La Regresión es una técnica estadística utilizadas para estimar (interpolar)

Más detalles

REGRESIÓN LINEAL SIMPLE

REGRESIÓN LINEAL SIMPLE REGRESIÓN LINEAL SIMPLE 1. El problema de la regresión lineal simple. Método de mínimos cuadrados 3. Coeficiente de regresión 4. Coeficiente de correlación lineal 5. El contraste de regresión 6. Inferencias

Más detalles

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN CURSO DE BIOESTADÍSTICA BÁSICA Y SPSS ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN Amaia Bilbao González Unidad de Investigación Hospital Universitario Basurto (OSI Bilbao-Basurto)

Más detalles

TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS. 1. MULTICOLINEALIDAD: CONCEPTO Y TIPOS.

TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS. 1. MULTICOLINEALIDAD: CONCEPTO Y TIPOS. TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS. 1. MULTICOLINEALIDAD: CONCEPTO Y TIPOS.. CÓMO DETECTAR Y MEDIR EL GRADO DE MULTICOLINEALIDAD. 3. SOLUCIONES: CÓMO AFRONTAR EL PROBLEMA EN

Más detalles

Conceptos básicos de inferencia estadística (IV): Inferencia no paramétrica: Contrastes de aleatoriedad.

Conceptos básicos de inferencia estadística (IV): Inferencia no paramétrica: Contrastes de aleatoriedad. Conceptos básicos de inferencia estadística (IV): Inferencia no paramétrica: Contrastes de aleatoriedad. Tema 1 (IV) Estadística 2 Curso 08/09 Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso

Más detalles

Anomalías en regresión y medidas remediales

Anomalías en regresión y medidas remediales Universidad Nacional Agraria La Molina 2011-2 C:/Users/moranjara/Desktop/trabajo_inf Introducción Introducción En este capítulo se estudiarán algunas medidas de diagnóstico que permitirán vericar si los

Más detalles

Tema 5. Diagnosis y validación del modelo de regresión lineal múltiple

Tema 5. Diagnosis y validación del modelo de regresión lineal múltiple Métodos de Regresión. Grado en Estadística y Empresa Tema 5 1/8 Tema 5. Diagnosis y validación del modelo de regresión lineal múltiple 1. Multicolinealidad 1.1 Identificación y consecuencias 1. Tratamiento.

Más detalles

Tema 10: Introducción a los problemas de Asociación y Correlación

Tema 10: Introducción a los problemas de Asociación y Correlación Tema 10: Introducción a los problemas de Asociación y Correlación Estadística 4 o Curso Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4 o Curso) Tema 10: Asociación y Correlación

Más detalles

Modelo de Regresión Lineal

Modelo de Regresión Lineal Modelo de Regresión Lineal Álvaro José Flórez 1 Escuela de Ingeniería Industrial y Estadística Facultad de Ingenierías Febrero - Junio 2012 Introducción Un ingeniero, empleado por un embotellador de gaseosas,

Más detalles

ECONOMETRÍA I. Tema 6: Heterocedasticidad. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía

ECONOMETRÍA I. Tema 6: Heterocedasticidad. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía ECONOMETRÍA I Tema 6: Heterocedasticidad Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía Alexandra Soberon (UC) ECONOMETRÍA I 1 / 23 Heterocedasticidad El supuesto

Más detalles

Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste.

Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste. Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste. Tema 1 (III) Estadística 2 Curso 08/09 Tema 1 (III) (Estadística 2) Contrastes de bondad de

Más detalles

EXAMEN DE ESTADÍSTICA II Junio de 2002 SOLUCIÓN (tiempo:100 minutos)

EXAMEN DE ESTADÍSTICA II Junio de 2002 SOLUCIÓN (tiempo:100 minutos) EXAMEN DE ESTADÍSTICA II Junio de 2002 SOLUCIÓN (tiempo:100 minutos) PROBLEMA 1 Se quiere comparar la cantidad de energía necesaria para realizar 3 ejercicios o actividades: andar, correr y montar en bici.

Más detalles

TEMA 2 Diseño de experimentos: modelos con varios factores

TEMA 2 Diseño de experimentos: modelos con varios factores TEMA 2 Diseño de experimentos: modelos con varios factores José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Análisis de Datos - Grado en Biología Esquema del tema Modelo bifactorial

Más detalles

Capítulo 8. Selección de variables Introducción

Capítulo 8. Selección de variables Introducción Capítulo 8 Selección de variables 8.1. Introducción En muchos problemas de regresión es posible considerar un número importante de variables predictoras. Un empresario podría estudiar los factores que

Más detalles

Estadística II Examen Final 19/06/2015 Soluciones. Responda a las preguntas siguientes en los cuadernillos de la Universidad

Estadística II Examen Final 19/06/2015 Soluciones. Responda a las preguntas siguientes en los cuadernillos de la Universidad Estadística II Examen Final 19/06/2015 Soluciones Responda a las preguntas siguientes en los cuadernillos de la Universidad Utilice diferentes cuadernillos para responder a cada uno de los ejercicios Indique

Más detalles

Fundamentos del Análisis Econométrico. Dante A. Urbina

Fundamentos del Análisis Econométrico. Dante A. Urbina Fundamentos del Análisis Econométrico Dante A. Urbina Qué es la Econometría? Etimológicamente Econometría significa medición de la economía. En ese contexto, la Econometría es la aplicación de métodos

Más detalles

Estadística para la Economía y la Gestión IN 3401

Estadística para la Economía y la Gestión IN 3401 Estadística para la Economía y la Gestión IN 3401 3 de junio de 2010 1 Modelo de Regresión con 2 Variables Método de Mínimos Cuadrados Ordinarios Supuestos detrás del método MCO Errores estándar de los

Más detalles

Regresión Simple. Leticia Gracia Medrano. 2 de agosto del 2012

Regresión Simple. Leticia Gracia Medrano. 2 de agosto del 2012 Regresión Simple Leticia Gracia Medrano. lety@sigma.iimas.unam.mx 2 de agosto del 2012 La ecuación de la recta Ecuación General de la recta Ax + By + C = 0 Cuando se conoce la ordenada al origen y su pendiente

Más detalles

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado. NORMAS El examen consta de dos partes: 0.0.1. Diez Cuestiones: ( tiempo: 60 minutos) No se permite ningún tipo de material (libros, apuntes, calculadoras,...). No se permite abandonar el aula una vez repartido

Más detalles

TEMA 10 Correlación y regresión. El modelo de regresión simple

TEMA 10 Correlación y regresión. El modelo de regresión simple TEMA 10 Correlación y regresión. El modelo de regresión simple Karl Pearson (1857-1936) 1. Introducción. Modelos matemáticos 2. Métodos numéricos. Resolución de sistemas lineales y ecuaciones no lineales

Más detalles

EJERCICIO T2 NOMBRE: Correctas Incorrectas En Blanco Puntos

EJERCICIO T2 NOMBRE: Correctas Incorrectas En Blanco Puntos ECONOMETRÍA EJERCICIO T APELLIDOS: NOMBRE: FIRMA: GRUPO: DNI: Pregunta A B C En Blanco Pregunta A B C En Blanco Pregunta 3 A B C En Blanco Pregunta 4 A B C En Blanco Pregunta 5 A B C En Blanco Pregunta

Más detalles

Regresión Lineal Simple y Múltiple Regresión Logística

Regresión Lineal Simple y Múltiple Regresión Logística Regresión Lineal Simple y Múltiple Regresión Logística Miguel González Velasco Departamento de Matemáticas. Universidad de Extremadura MUI en Ciencias de la Salud MUI en Ciencias de la Salud (UEx) Regresión

Más detalles

Conceptos básicos de inferencia estadística (II): Contrastes de hipótesis (repaso)

Conceptos básicos de inferencia estadística (II): Contrastes de hipótesis (repaso) Conceptos básicos de inferencia estadística (II): Contrastes de hipótesis (repaso) Tema 1 (II) Estadística 2 Curso 08/09 Tema 1 (II) (Estadística 2) Contrastes de hipótesis Curso 08/09 1 / 21 Contrastes

Más detalles

OBSERVACIONES INFLUYENTES

OBSERVACIONES INFLUYENTES 3 REGRESIÓN LINEAL MÚLTIPLE II 3. DIAGNOSIS DE RESIDUOS OBSERVACIONES INFLUYENTES Una observación (punto muestral) es in uyente si los resultados de la estimación de un modelo cambian notablemente al eliminar

Más detalles

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística Regresión lineal Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística Universidad Católica del Maule Facultad de Ciencias Básicas Pedagogía en Matemática Estadística I 01 de enero de 2012

Más detalles

ECONOMETRÍA I. Tema 4: El Modelo de Regresión Lineal Múltiple: inferencia y validación

ECONOMETRÍA I. Tema 4: El Modelo de Regresión Lineal Múltiple: inferencia y validación ECONOMETRÍA I Tema 4: El Modelo de Regresión Lineal Múltiple: inferencia y validación Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía Alexandra Soberon (UC) ECONOMETRÍA

Más detalles

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN MÚLTIPLE Julián de la Horra Departamento de Matemáticas U.A.M.

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN MÚLTIPLE Julián de la Horra Departamento de Matemáticas U.A.M. MODELO DE REGRESIÓN MÚLTIPLE Julián de la Horra Departamento de Matemáticas U.A.M. 1 Introducción Abordaremos en este capítulo el modelo de regresión lineal múltiple, una vez que la mayor parte de las

Más detalles

Tema1. Modelo Lineal General.

Tema1. Modelo Lineal General. Tema1. Modelo Lineal General. 1. Si X = (X 1, X 2, X 3, X 4 ) t tiene distribución normal con vector de medias µ = (2, 1, 1, 3) t y matriz de covarianzas 1 0 1 1 V = 0 2 1 1 1 1 3 0 1 1 0 2 Halla: a) La

Más detalles

Tema 8: Regresión y Correlación

Tema 8: Regresión y Correlación Tema 8: Regresión y Correlación Estadística. 4 o Curso. Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4 o Curso) Tema 8: Regresión y Correlación Curso 2008-2009 1 / 12 Índice

Más detalles

TEMA 3 Modelo de regresión simple

TEMA 3 Modelo de regresión simple TEMA 3 Modelo de regresión simple José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Análisis de Datos - Grado en Biología Estructura de este tema Planteamiento del problema.

Más detalles

Taller I Econometría I

Taller I Econometría I Taller I Econometría I 1. Considere el modelo Y i β 1 + ɛ i, i 1,..., n donde ɛ i i.i.d. N (0, σ 2 ). a) Halle el estimador de β 1 por el método de mínimos cuadrados ordinarios. Para realizar el procedimiento

Más detalles

Tema 2: Regresión. Grado en Fisioterapia, 2010/11. Jesús Montanero Fernández. Cátedra de Bioestadística Universidad de Extremadura

Tema 2: Regresión. Grado en Fisioterapia, 2010/11. Jesús Montanero Fernández. Cátedra de Bioestadística Universidad de Extremadura Grado en Fisioterapia, 2010/11 Cátedra de Bioestadística Universidad de Extremadura 8 de noviembre de 2010 Índice 1 Regresión lineal simple 2 3 Índice 1 Regresión lineal simple 2 3 Índice 1 Regresión lineal

Más detalles

Regresión lineal simple

Regresión lineal simple Regresión lineal simple Unidad 1 Javier Santibáñez IIMAS, UNAM jsantibanez@sigma.iimas.unam.mx Semestre 2018-2 Javier Santibáñez (IIMAS, UNAM) Regresión simple Semestre 2018-2 1 / 62 Contenido 1 Planteamiento

Más detalles

Capítulo 6 Multicolinealidad Luis Quintana Romero. Econometría Aplicada Utilizando R

Capítulo 6 Multicolinealidad Luis Quintana Romero. Econometría Aplicada Utilizando R Capítulo 6 Multicolinealidad Luis Quintana Romero Objetivo Identificar la multicolinealidad en un modelo econométrico, así como las pruebas de detección de la multicolinealidad y correcciones. Introducción

Más detalles

Conceptos básicos de inferencia estadística (I): Inferencia estadística (repaso)

Conceptos básicos de inferencia estadística (I): Inferencia estadística (repaso) Conceptos básicos de inferencia estadística (I): Inferencia estadística (repaso) Tema 1 (I) Estadística 2 Curso 08/09 Tema 1 (I) (Estadística 2) Inferencia estadística Curso 08/09 1 / 24 Inferencia estadística

Más detalles

Errores de especificación

Errores de especificación CAPíTULO 5 Errores de especificación Estrictamente hablando, un error de especificación es el incumplimiento de cualquiera de los supuestos básicos del modelo lineal general. En un sentido más laxo, esta

Más detalles

Estadística para la Economía y la Gestión IN 3401 Clase 5

Estadística para la Economía y la Gestión IN 3401 Clase 5 Estadística para la Economía y la Gestión IN 3401 Clase 5 Problemas con los Datos 9 de junio de 2010 1 Multicolinealidad Multicolinealidad Exacta y Multicolinealidad Aproximada Detección de Multicolinealidad

Más detalles

Modelación estadística: La regresión lineal simple

Modelación estadística: La regresión lineal simple Modelación estadística: La regresión lineal simple Gabriel Cavada Ch. 1 1 División de Bioestadística, Escuela de Salud Pública, Universidad de Chile. Statistical modeling: Simple linear regression Cuando

Más detalles

Estadística II Ejercicios Tema 5

Estadística II Ejercicios Tema 5 Estadística II Ejercicios Tema 5 1. Considera los cuatro conjuntos de datos dados en las transparencias del Tema 5 (sección 5.1) (a) Comprueba que los cuatro conjuntos de datos dan lugar a la misma recta

Más detalles

1. Conceptos de Regresión y Correlación. 2. Variables aleatorias bidimensionales. 3. Ajuste de una recta a una nube de puntos

1. Conceptos de Regresión y Correlación. 2. Variables aleatorias bidimensionales. 3. Ajuste de una recta a una nube de puntos TEMA 10 (curso anterior): REGRESIÓN Y CORRELACIÓN 1 Conceptos de Regresión y Correlación 2 Variables aleatorias bidimensionales 3 Ajuste de una recta a una nube de puntos 4 El modelo de la correlación

Más detalles

Estadística II Examen final junio 27/6/17 Curso 2016/17 Soluciones

Estadística II Examen final junio 27/6/17 Curso 2016/17 Soluciones Estadística II Examen final junio 27/6/7 Curso 206/7 Soluciones Duración del examen: 2 h y 5 min. (3 puntos) Los responsables de un aeropuerto afirman que el retraso medido en minutos en el tiempo de salida

Más detalles

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis TODO ECONOMETRIA Bondad del ajuste Contraste de hipótesis Índice Bondad del ajuste: Coeficiente de determinación, R R ajustado Contraste de hipótesis Contrastes de hipótesis de significación individual:

Más detalles

EXAMEN FINAL DE ECONOMETRÍA SOLUCIONES Conteste cada pregunta en un cuadernillo diferente en dos horas y media

EXAMEN FINAL DE ECONOMETRÍA SOLUCIONES Conteste cada pregunta en un cuadernillo diferente en dos horas y media EXAMEN FINAL DE ECONOMETRÍA SOLUCIONES Conteste cada pregunta en un cuadernillo diferente en dos horas y media 1. Sean (Y; X; W ) tres variables aleatorias relacionadas por el siguiente modelo de regresión

Más detalles

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

Los estimadores mínimo cuadráticos bajo los supuestos clásicos Los estimadores mínimo cuadráticos bajo los supuestos clásicos Propiedades estadísticas e inferencia Mariana Marchionni marchionni.mariana@gmail.com Mariana Marchionni MCO bajo los supuestos clásicos 1

Más detalles

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia Estudio de Caso: Estudio Morfología Coeficiente de Correlación Considere el archivo Estudio Morfología.sav.

Más detalles

EJERCICIO T1 NOMBRE: Correctas Incorrectas En Blanco Puntos

EJERCICIO T1 NOMBRE: Correctas Incorrectas En Blanco Puntos ECONOMETRÍA EJERCICIO T1 APELLIDOS: NOMBRE: FIRMA: GRUPO: DNI: Pregunta 1 A B C En Blanco Pregunta A B C En Blanco Pregunta 3 A B C En Blanco Pregunta 4 A B C En Blanco Pregunta 5 A B C En Blanco Pregunta

Más detalles

UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE CIENCIAS NATURALES Y MUSEO CÁTEDRA DE ESTADÍSTICA CLASE ESPECIAL. Tema:

UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE CIENCIAS NATURALES Y MUSEO CÁTEDRA DE ESTADÍSTICA CLASE ESPECIAL. Tema: UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE CIENCIAS NATURALES Y MUSEO CÁTEDRA DE ESTADÍSTICA CLASE ESPECIAL Tema: Correlación múltiple y parcial. Ecuaciones y planos de regresión La Plata, septiembre

Más detalles

El Modelo de Regresión Lineal

El Modelo de Regresión Lineal ECONOMETRÍA I El Modelo de Regresión Lineal Dante A. Urbina CONTENIDOS 1. Regresión Lineal Simple 2. Regresión Lineal Múltiple 3. Multicolinealidad 4. Heterocedasticidad 5. Autocorrelación 6. Variables

Más detalles

Regresión Lineal Múltiple

Regresión Lineal Múltiple Universidad Nacional Agraria La Molina 2011-2 Efectos de Diagnósticos de Dos predictores X 1 y X 2 son exactamente colineales si existe una relación lineal tal que C 1 X 1 + C 2 X 2 = C 0 para algunas

Más detalles

GUIÓN TEMA 3. CONTRASTE DE HIPÓTESIS EN EL MRL Contrastes de hipótesis en el MRL

GUIÓN TEMA 3. CONTRASTE DE HIPÓTESIS EN EL MRL Contrastes de hipótesis en el MRL ECONOMETRIA I. Departamento de Fundamentos del Análisis Económico Universidad de Alicante. Curso 011/1 GUIÓN TEMA 3. CONTRASTE DE HIPÓTESIS EN EL MRL Los procedimientos clásicos de contrastes de hipótesis

Más detalles

Contenido. vii. Prólogo... i Presentación... iii Grupo de trabajo...v. 1. Introducción y conceptos preliminares...1

Contenido. vii. Prólogo... i Presentación... iii Grupo de trabajo...v. 1. Introducción y conceptos preliminares...1 Contenido Prólogo... i Presentación... iii Grupo de trabajo...v 1. Introducción y conceptos preliminares...1 2. Tipos de modelos estadísticos lineales...19 Caso 2.1...20 Caso 2.2...26 Caso 2.3...30 3.

Más detalles

Modelo de Regresión Lineal Simple

Modelo de Regresión Lineal Simple 1. El Modelo Modelo de Regresión Lineal Simple El modelo de regresión lineal simple es un caso especial del múltple, donde se tiene una sola variable explicativa. y = β 0 + β 1 x + u (1.1) Donde u representa

Más detalles

ESTADÍSTICA. Tema 4 Regresión lineal simple

ESTADÍSTICA. Tema 4 Regresión lineal simple ESTADÍSTICA Grado en CC. de la Alimentación Tema 4 Regresión lineal simple Estadística (Alimentación). Profesora: Amparo Baíllo Tema 4: Regresión lineal simple 1 Estructura de este tema Planteamiento del

Más detalles

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows. TEMA 12 REGRESIÓN LINEAL Mediante la regresión lineal se busca hallar la línea recta que mejor explica la relación entre unas variables independientes o variables de exposición y una variable dependiente

Más detalles

Prácticas Tema 4: Modelo con variables cualitativas

Prácticas Tema 4: Modelo con variables cualitativas Prácticas Tema 4: Modelo con variables cualitativas Ana J. López y Rigoberto Pérez Departamento de Economía Aplicada. Universidad de Oviedo PRACTICA 4.1- Se dispone de información sobre 16 familias sobre

Más detalles

REGRESIÓN Y ESTIMACIÓN TEMA 1: REGRESIÓN LINEAL SIMPLE

REGRESIÓN Y ESTIMACIÓN TEMA 1: REGRESIÓN LINEAL SIMPLE UNIDAD 3 REGRESIÓN Y ESTIMACIÓN TEMA 1: REGRESIÓN LINEAL SIMPLE Relación entre variables de interés 1 Relación entre variables de interés Muchas decisiones gerenciales se basan en la relación entre 2 o

Más detalles

Estadística II Examen final enero 19/1/17 Curso 2016/17 Soluciones Duración del examen: 2 h y 15 min

Estadística II Examen final enero 19/1/17 Curso 2016/17 Soluciones Duración del examen: 2 h y 15 min Estadística II Examen final enero 19/1/17 Curso 016/17 Soluciones Duración del examen: h y 15 min 1. 3 puntos El Instituto para la Diversificación y Ahorro de la Energía IDAE ha publicado un estudio sobre

Más detalles

Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez.

Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez. Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez. Econometría Regresión Múltiple: Municipio Ocupados Población Analfabeta Mayor de 10 años Total de Viviendas Bejuma 18.874 1.835

Más detalles

Grado en Finanzas y Contabilidad

Grado en Finanzas y Contabilidad Econometría Grado en Finanzas y Contabilidad Apuntes basados en el libro Introduction to Econometrics: A modern Approach de Wooldridge 3.1 Colinealidad Exacta 3.2 Los efectos de la multicolinealidad Del

Más detalles

Prácticas Tema 5. Ampliaciones del Modelo lineal básico

Prácticas Tema 5. Ampliaciones del Modelo lineal básico Prácticas Tema 5. Ampliaciones del Modelo lineal básico Ana J. López y Rigoberto Pérez Dpto. Economía Aplicada, Universidad de Oviedo PRÁCTICA 5.1. Se ha examinado la evolución reciente de las ventas de

Más detalles

Método de cuadrados mínimos

Método de cuadrados mínimos REGRESIÓN LINEAL Gran parte del pronóstico estadístico del tiempo está basado en el procedimiento conocido como regresión lineal. Regresión lineal simple (RLS) Describe la relación lineal entre dos variables,

Más detalles

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple ESTDÍSTIC PLICD Grado en Nutrición Humana y Dietética Planteamiento del problema Tema 4: Regresión lineal simple Recta de regresión de mínimos cuadrados El modelo de regresión lineal simple IC y contrastes

Más detalles

Part VII. Estadística I. Mario Francisco. Introducción a la inferencia. Estimación puntual. Propiedades deseables de los estimadores

Part VII. Estadística I. Mario Francisco. Introducción a la inferencia. Estimación puntual. Propiedades deseables de los estimadores Part VII La inferencia puede definirse como el conjunto de métodos mediante cuales podemos extraer información sobre distintas características de interés de cierta distribución de probabilidad de la cual

Más detalles

ECONOMETRÍA I. Tema 3: El Modelo de Regresión Lineal Múltiple: estimación

ECONOMETRÍA I. Tema 3: El Modelo de Regresión Lineal Múltiple: estimación ECONOMETRÍA I Tema 3: El Modelo de Regresión Lineal Múltiple: estimación Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía Alexandra Soberon (UC) ECONOMETRÍA I 1 / 45

Más detalles

Tema 6. Multicolinealidad. Contenido Multicolinealidad perfecta Multicolinealidad de grado alto

Tema 6. Multicolinealidad. Contenido Multicolinealidad perfecta Multicolinealidad de grado alto Tema 6 Multicolinealidad Contenido 6.1. Multicolinealidad perfecta...................... 108 6.. Multicolinealidad de grado alto................... 110 108 Tema 6. Multicolinealidad A la hora de estimar

Más detalles

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición... Contenidos 1 Introducción al paquete estadístico S-PLUS 19 1.1 Introducción a S-PLUS............................ 21 1.1.1 Cómo entrar, salir y consultar la ayuda en S-PLUS........ 21 1.2 Conjuntos de datos..............................

Más detalles

NORMAS El examen consta de dos partes: Diez Cuestiones: (tiempo: 60 minutos)

NORMAS El examen consta de dos partes: Diez Cuestiones: (tiempo: 60 minutos) NORMAS El examen consta de dos partes: 0.0.1. Diez Cuestiones: (tiempo: 60 minutos) No se permite ningún tipo de material (libros, apuntes, calculadoras,...). No se permite abandonar el aula una vez repartido

Más detalles

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE ESCUELA UNIVERSITARIA DE ENFERMERIA DE TERUEL 1 er CURSO DE GRADO DE ENFERMERIA Estadística en Ciencias de la Salud 7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE PROFESOR Dr. Santiago

Más detalles

peso edad grasas Regresión lineal simple Los datos

peso edad grasas Regresión lineal simple Los datos Regresión lineal simple Los datos Los datos del fichero EdadPesoGrasas.txt corresponden a tres variables medidas en 25 individuos: edad, peso y cantidad de grasas en sangre. Para leer el fichero de datos

Más detalles

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos Metodología de la Investigación en Fisioterapia Miguel González Velasco Departamento de Matemáticas. Universidad de Extremadura M.

Más detalles

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE Jorge Fallas jfallas56@gmail.com 2010 1 Temario Introducción: correlación y regresión Supuestos del análisis Variación total de Y y variación explicada por

Más detalles

ESTADISTICA II INGENIERIA INFORMATICA, 3 ER Curso

ESTADISTICA II INGENIERIA INFORMATICA, 3 ER Curso ESTADISTICA II INGENIERIA INFORMATICA, 3 ER Curso 3 - Septiembre - 2.6 Primera Parte - Test Las respuestas del TEST son las siguientes: Pregunta 2 3 4 5 6 Respuesta C A D C B A Pregunta 7 8 9 2 Respuesta

Más detalles

Práctica 4: Regresión Lineal Múltiple (1).

Práctica 4: Regresión Lineal Múltiple (1). Práctica : Lineal Múltiple () Esta práctica está dedicada a resolver un problema de Lineal sin atender a ninguna cuestión relativa al cumplimiento de los supuestos del modelo, a la presencia de valores

Más detalles

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN SIMPLE Julián de la Horra Departamento de Matemáticas U.A.M.

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN SIMPLE Julián de la Horra Departamento de Matemáticas U.A.M. 1 Introducción MODELO DE REGRESIÓN SIMPLE Julián de la Horra Departamento de Matemáticas U.A.M. Los modelos de regresión sirven, en general, para tratar de expresar una variable respuesta (numérica) en

Más detalles

TODO ECONOMETRIA TEMA 1: MODELO BASICO DE REGRESIÓN LINEAL MULTIPLE (MBRL)

TODO ECONOMETRIA TEMA 1: MODELO BASICO DE REGRESIÓN LINEAL MULTIPLE (MBRL) TODO ECONOMETRIA TEMA 1: MODELO BASICO DE REGRESIÓN LINEAL MULTIPLE (MBRL) NOTA IMPORTANTE - Estas notas son complementarias a las notas de clase del primer semestre correspondientes a los temas de Regresión

Más detalles

Econometría Aplicada

Econometría Aplicada Econometría Aplicada Inferencia estadística, bondad de ajuste y predicción Víctor Medina Intervalos de confianza Intervalos de confianza Intervalos de confianza Intervalos de confianza La pregunta que

Más detalles

Estadística III (P33) Exam, Tipo: A

Estadística III (P33) Exam, Tipo: A 21 de Enero de 2000 Responde a las siguientes preguntas sobre papel ordinario, de forma breve y concisa. Al entregar tu exámen, has de entregar también la Tarea 10, que no fue posible finalizar en periodo

Más detalles

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL OBJETIVO Analizar las Diferentes formas de Describir la Relación entre dos variables numéricas Trazar un diagrama de dispersión

Más detalles

ECONOMETRÍA I. Tema 2: El Modelo de Regresión Lineal Simple. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía

ECONOMETRÍA I. Tema 2: El Modelo de Regresión Lineal Simple. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía ECONOMETRÍA I Tema 2: El Modelo de Regresión Lineal Simple Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía Alexandra Soberon (UC) ECONOMETRÍA I 1 / 42 Modelo de Regresión

Más detalles

Objetivo: Proponer modelos para analizar la influencia

Objetivo: Proponer modelos para analizar la influencia TEMA 3: REGRESIÓN LINEAL SIMPLE Objetivo: Proponer modelos para analizar la influencia de una variable cuantitativa sobre un fenómeno que nos interesa estudiar. 1. Modelo lineal l de regresión 2. Estimación

Más detalles