El modelo de regresión múltiple

Documentos relacionados
Regresión lineal múltiple

Tema 4. Regresión lineal simple

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Índice. Diseños factoriales. José Gabriel Palomo Sánchez E.U.A.T. U.P.M. Julio de 2011

Análisis de la varianza

TEMA 4 Modelo de regresión múltiple

Estadística aplicada al medio ambiente

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

ANÁLISIS DE REGRESIÓN

T3. El modelo lineal básico

Tema 10: Introducción a los problemas de Asociación y Correlación

Regresión Simple. Leticia Gracia Medrano. 2 de agosto del 2012

Multicolinealidad Introducción. Uno de los supuestos básicos del modelo lineal general. y = Xβ + u

Tema 8: Regresión y Correlación

TEMA 10 Correlación y regresión. El modelo de regresión simple

Estadística II Ejercicios Tema 5

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

= 15 CALIFICACION:

Estadística II. Laura M. Castro Souto

TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS. 1. MULTICOLINEALIDAD: CONCEPTO Y TIPOS.

ESTADÍSTICA. Tema 4 Regresión lineal simple

Estadística Diplomado

Econometría 1. Karoll GOMEZ Segundo semestre 2017

Análisis multivariante II

Objetivo: Proponer modelos para analizar la influencia

Errores de especificación

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

Tema 3: Análisis de datos bivariantes

Modelo de Regresión Lineal

El Modelo de Regresión Lineal

Econometría 1. Karoll GOMEZ Segundo semestre 2017

Fundamentos del Análisis Econométrico. Dante A. Urbina

Taller I Econometría I

Regresión Lineal Simple y Múltiple Regresión Logística

REGRESIÓN LINEAL SIMPLE

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso

peso edad grasas Regresión lineal simple Los datos

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso Septiembre Primera Parte

Formulación matricial del modelo lineal general

Representaciones gráficas de las distribuciones bidimensionales de frecuencias... 74

Grado en Finanzas y Contabilidad

1. Conceptos de Regresión y Correlación. 2. Variables aleatorias bidimensionales. 3. Ajuste de una recta a una nube de puntos

Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez.

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

Curso de nivelación Estadística y Matemática

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

TEMA 3 Modelo de regresión simple

Estadística para la Economía y la Gestión IN 3401 Clase 5

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN MÚLTIPLE Julián de la Horra Departamento de Matemáticas U.A.M.

Modelo de Regresión Lineal Simple

T2. El modelo lineal simple

CALIFICACION: 287,33 218, sí 1 sí 1. Se especifica el siguiente modelo de regresión para el precio de las viviendas: G i =

Estadística III (P33) Exam, Tipo: A

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

REGRESIÓN Y ESTIMACIÓN TEMA 1: REGRESIÓN LINEAL SIMPLE

Relación 3 de problemas

Métodos Estadísticos Multivariados

Métodos Estadísticos para Economía y Gestión IN 540 Clase 7

TEMA 2: Propiedades de los estimadores MCO

TODO ECONOMETRIA TEMA 1: MODELO BASICO DE REGRESIÓN LINEAL MULTIPLE (MBRL)

EXAMEN DE ESTADÍSTICA II Junio de 2002 SOLUCIÓN (tiempo:100 minutos)

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Estadística II Examen final junio 27/6/17 Curso 2016/17 Soluciones

Econometría Aplicada

Definición de Correlación

Tercera práctica de REGRESIÓN.

Bioestadística. Curso Práctica: La recta de regresión

Contenido. vii. Prólogo... i Presentación... iii Grupo de trabajo...v. 1. Introducción y conceptos preliminares...1

Regresión Lineal Múltiple

TEMA 2 Diseño de experimentos: modelos con varios factores

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso

2. Modelos con regresores endógenos

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

Estadística para la Economía y la Gestión IN 3401

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN SIMPLE Julián de la Horra Departamento de Matemáticas U.A.M.

Prácticas Tema 4: Modelo con variables cualitativas

Prácticas Tema 5. Ampliaciones del Modelo lineal básico

Modelado y simulación en Ingeniería Química. Manuel Rodríguez

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso

Técnicas de Trabajo Experimental:

ECONOMETRÍA I. Tema 6: Heterocedasticidad. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía

ASIGNATURA: ESTADISTICA II (II-055) Ing. César Torrez

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

1. Objetivos. Introducción 2. ANOVA. Tema 8: Relaciones entre variables Test de hipótesis para el ANOVA. M. Iniesta Universidad de Murcia

Inferencia Estadística. Estimación y Contrastes

Estadística II Examen Final 19/06/2015 Soluciones. Responda a las preguntas siguientes en los cuadernillos de la Universidad

Análisis de regresión y correlación lineal

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

5.5 Modelo de regresión. se especificó en los términos siguientes: (6.3.1) 1,2,3,..N. Donde:

Part I. Descripción estadística de dos variables. Estadística I. Mario Francisco. Variable. bidimensional. Distribuciones de frecuencias

Datos bivariantes: regresión

Tema1. Modelo Lineal General.

Estadística y sus aplicaciones en Ciencias Sociales 7. El modelo de regresión simple. Facultad de Ciencias Sociales - UdelaR

Generalmente, el objetivo de cualquier estudio de econometría es la. búsqueda de relaciones matemáticas que permitan explicar el comportamiento

Fundamentos de Biología Aplicada I Estadística Curso Práctica 5: Regresión Lineal Múltiple

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Estadística II Examen final enero 19/1/17 Curso 2016/17 Soluciones Duración del examen: 2 h y 15 min

Tema 5. Diagnosis y validación del modelo de regresión lineal múltiple

Transcripción:

El de regresión múltiple Simple El de regresión múltiple es la extensión a k variables explicativas del de regresión simple. La estructura del de regresión múltiple es la siguiente: y = f (x 1,..., x k ) + E. El

42 El de regresión múltiple Donde: y es la variable explicada, dependiente o respuesta. x 1,..., x k son las variables explicativas, regresores o variables independientes. y = f (x 1,..., x k ) es la parte determinista del. Simple El E representa el error aleatorio. Contiene el efecto sobre y de todas las variables distintas de x 1,..., x k.

143 El de regresión múltiple Simple El de regresión lineal múltiple tiene la forma: y = β 0 + β 1 x 1 + + β k x }{{ k } Hiperplano +E El

144 El de regresión múltiple Simple En el caso particular en que haya dos regresores, k = 2, el tendría la forma: y = β 0 + β 1 x 1 + β 2 x }{{} 2 Plano +E El

145 El de regresión múltiple Grácamente, el de regresión lineal con dos regresores supone calcular la ecuación de un plano que describa la relación de Y con X 1 y X 2, Y y = β 0 + β 1x 1 + β 2x 2 Simple El X 2 X 1

146 El de regresión múltiple De forma análoga al caso simple, calculado el plano, el valor de y i en cualquier punto (x 1i, x 2i, y i ) se puede descomponer en parte determinista y aleatoria, Y e i y i ŷ = ˆβ 0 + ˆβ 1x 1 + ˆβ 2x 2 Simple El ŷ i = ˆβ 0 + ˆβ 1ix 1 + ˆβ 2x 2i X 2 (x 1i, x 2i) X 1

147 El de regresión múltiple La estimación por mínimos cuadrados de los parámetros del consiste en calcular la ecuación del plano que hace mínimo el valor de e 2 i, con e i = y i ŷ i. e 1 Y e i e n Simple El e 2 X 2 X 1

148 Generalizando, al ajustar un de regresión lineal múltiple se supondrá que se verican las siguientes hipótesis: 1. Fijados los valores x 1i,..., x ki de las variables X 1,..., X k, se tiene que y i = β 0 + β 1 x 1i + + β k x ki + e i 2. Cada error e i N (0, σ 2 ). 3. Cualquier par de errores e i y e j son independientes. Simple El 4. Las variables explicativas son, algebraicamente, linealmente independientes. 5. El número de datos es mayor o igual que k + 2.

Las tres primeras hipótesis del se justican igual que en regresión simple. La condición de la independencia lineal algebraica de los regresores tiene por objeto ajustar la dimensión del problema, ya que si no se cumpliese se podrían eliminar regresores del. Simple El El número de datos debe ser mayor o igual que k + 2 para poder estimar todos los parámetros del.

Las hipótesis impuestas al comportamiento del error del tienen las siguientes consecuencias: 1. Para cada conjunto de valores, x 1i,..., x ki de X 1,..., X k, la variable aleatoria (Y X 1 = x 1i,..., X k = x ki ) tiene una distribución: (Y X 1 = x 1i,..., X k = x ki ) N(β 0 +β 1 x 1i + +β k x ki, σ 2 ) Simple El 2. Las observaciones y i de la variable Y son independientes.

51 Consecuentemente, ŷ i = ˆβ 0 + ˆβ 1 x 1i + + ˆβ k x ki representa la esperanza de la variable Y condicionada por los valores x 1i,... x ki de las variables X 1,..., X k, respectivamente. Además, todas las variables Y i tienen la misma varianza, σ 2. Es decir, son homocedásticas. Simple El

152 Supóngase que para estimar los parámetros del y = β 0 + β 1 x 1 + + β k x k, se dispone del conjunto de datos: X 1 X k Y Individuo 1 x 11 x k1 y 1 Individuo 2 x 12 x k2 y 2.. Simple El Individuo n x 1n x kn y n

Simple Como e i = y i (β 0 + β 1 x 1i + + β k x ki ), resulta que el módulo del vector error es función de β 0,..., β k : e 2 i = S(β 0,..., β k ). El

154 Para que S sea mínimo deberá ser: S β 0 = 0 S β 1 = 0. S β k = 0 Simple El

55 Simple Llamando β = β 0 β 1.. β k, X = 1 x 11 x k1 1 x 12 x k2.. 1 x 1n x kn e Y = y 1 y 2.. y n El

156 Simple Resulta que: ˆβ = (X X ) 1 X Y, donde X representa la matriz transpuesta de X. El

Simple 1. El parámetro ˆβ i, en regresión múltiple, representa el efecto del regresor X i sobre la respuesta Y, cuando el resto de los regresores permanecen constantes. 2. Si los regresores están incorrelados, ρ ij = 0, para todo i, j, los estimadores de los coecientes de regresión estimados en el múltiple y en los distintos s simples coinciden. El

158 Se puede demostrar que: 1. Para todo ˆβ i, con i = 0, 1,..., k, se cumple que E( ˆβ i ) = β i. Es decir ˆβ i es un estimador centrado de β i, para todo i. 2. La matriz de varianzas y covarianzas de ˆβ 0,..., ˆβ k viene dada por la expresión: COV ( ˆβ) = σ 2 (X X ) 1 Simple El 3. ˆβ i sigue una distribución normal, para todo i = 0,..., k.

159 Simple Análogamente al caso de regresión simple, la realización de inferencia sobre los parámetros del requiere una estimación de σ 2. Como en el caso simple, el estimador máximo verosímil de la varianza es: ˆσ 2 = e 2 i n, que no es un estimador centrado de σ 2. El

La resolución del sistema, S β 0 = 0,..., S β k = 0, que se emplea para calcular los estimadores de los parámetros β i, pone de maniesto las siguientes relaciones entre los residuos: ei = 0 ei x 1i = 0. ei x ki = 0 (k + 1) restricciones. Simple El

61 Simple De forma similar al caso simple se dene la varianza residual como: ŝ 2 = e 2 i R n k 1, que será el estimador habitual de σ 2. El

62 1. ŝ 2 R es un estimador centrado de σ2. Esto es: 2. Además: E(ŝ 2 R ) = σ2. (n k 1)ŝ 2 R σ 2 χ 2 n k 1 Simple El Esta distribución permite realizar inferencia respecto de σ 2.

163 de En consecuencia con lo anterior, si la diagonal de la matriz, conocida, (X X ) 1 tiene la forma: D(X X ) 1 d 00 d 11... d ii... d kk Simple El La varianza de ˆβ i será σ 2 d ii.

64 de Por lo tanto, de donde, y ˆβ i N(βi, σ d ii ), ˆβ i βi σ d ii N(0, 1), ˆβ i βi ŝ R d ii t n k 1. Simple El

65 de Simple La última expresión permite realizar, para todo i = 0,... k, el contraste individual de regresión (test de la t): ya que si β i = 0, H 0 : β i = 0 frente a H 1 : β i 0, ˆβ i ŝ R d ii t n k 1. El

166 de Análogamente al caso simple, la aceptación de la hipótesis nula, β i = 0, puede ser debida a que: 1. X i e Y sean independientes. 2. Entre X i e Y haya una relación de dependencia no lineal. En el primer caso, la variable X i debe ser eliminada del. Simple El En el segundo, se debe intentar una transformación que linealice la relación entre X i e Y.

67 de Si se denomina (X X ) 1 0 a la matriz resultante de eliminar la primera la y la primera columna de la matriz d 00 d d 11 (X.. X ) 1 =. d ii..., Simple El d kk

168 de se tiene que la matriz: d 11.. σ 2 (X. X ) 1 0 = σ 2 d ii... d kk es la matriz de varianzas y covarianzas de ˆβ 1,..., ˆβ k. Simple El

de Llamando b al vector: Se puede demostrar que: b = ˆb (X X ) 0ˆb kŝ 2 R ˆβ 1.. ˆβ k F (k,n k 1). Simple El

de Simple Esta distribución permite la realización del contraste fundamental de regresión múltiple: H 0 : β 1 = β 2 = = β k = 0 frente a: H 1 : Existe algún β i con i = 1,..., k tal que β i 0. El

171 de Simple La aceptación de la hipótesis nula del test de la F, puede ser debida a: H 0 : β 1 = β 2 = = β k = 0, Independencia de la variable explicada frente a todos los regresores. Existe dependencia no lineal de la variable explicada frente a algún regresor. El

de Simple El rechazo de la hipótesis nula del test de la F signica que la variable explicada depende linealmente de alguno de los regresores. Para saber cuál o cuáles de los regresores explican signicativamente a la variable dependiente es necesario atender a los contrastes individuales de la t. El

173 de La siguiente tabla contiene el conjunto de los casos posibles al realizar el test de la F y los contrastes de la t en regresión múltiple: Caso Test de la F individuales 1 Signicativo Todos signicativos 2 Signicativo Alguno signicativo 3 Signicativo Ninguno signicativo 4 No signicativo Todos signicativos Simple El 5 No signicativo Alguno signicativo 6 No signicativo Ninguno signicativo

de Caso 1: Cuando el contraste de la F es signicativo y todos los contrastes de la t también lo son, se interpreta que todos los regresores inuyen signicativamente en la variable explicada. Caso 2: Si el contraste de la F es signicativo y sólo algunos de los regresores lo son, se interpreta que los regresores no signicativos deben ser eliminados del, o bien transformados si se intuye relación de dependencia no lineal entre la variable dependiente y alguno de ellos. Simple El

de Caso 3: Cuando el test de la F es signicativo y ninguno de los contrastes individuales lo es, se da una situación paradójica que, frecuentemente, se origina por un problema denominado multicolinealidad. Su análisis y tratamiento se explica más adelante. Casos 4 y 5: Si el test de la F es no signicativo y todos o algunos de los contrastes individuales sí lo son, se origina igualmente una situación paradójica que responden a casos particulares de multicolinealidad. Simple El Caso 6: Si el test de la F no es signicativo y ninguno de los contrastes individuales lo es, no se detecta relación de dependencia lineal entre la variable explicada y los regresores.

Los casos 3, 4, y 5 citados anteriormente se deben habitualmente al problema de multicolinealidad. La multicolinealidad es consecuencia de que todos o una parte de los regresores X 1,..., X k están fuertemente correlados. La detección de la multicolinealidad se realiza a través de: La matriz de correlación de las variables explicativas. Simple El La diagonal de la inversa de esta matriz. Los autovalores de la matriz X X.

177 Simple El tratamiento de la multicolinealidad consiste básicamente en: Eliminar regresores del que tengan alta correlación con el resto, lo que disminuye el número de parámetros que hay que estimar. (Esta es la solución más sencilla, cuando se puede utilizar.) El Incluir información externa a los datos.

178 Coeficiente de Una vez estimado el de regresión múltiple, ŷ = ˆβ 0 + ˆβ 1 x 1 + + ˆβ k x k, se puede completar el conjunto de datos con la nueva columna Ŷ : X 1 X k Y Ŷ Individuo 1 x 11 x k1 y 1 ŷ 1 Individuo 2 x 12 x k2 y 2 ŷ 2.. Simple El Individuo n x 1n x kn y n ŷ n Donde ŷ i = ˆβ 0 + ˆβ 1 x 1i + + ˆβ k x ki.

Coeficiente de Se dene el coeciente de determinación como el coeciente de correlación lineal entre las variables Y e Ŷ. El coeciente de determinación es una medida de bondad del ajuste del y se representa por R 2. La ecacia de R 2 como medida de la bondad de ajuste depende de la relación entre el número de regresores, k y el tamaño muestral, n, siendo más able cuanto menor sea el cociente k/n. Simple El

Coeficiente de El coeciente de determinación tiene las siguientes propiedades: 0 R 2 1. Cuando R 2 = 1, la relación entre la variable explicada y los regresores es exacta. R 2 100 representa el porcentaje de variabilidad de Y explicada por el. Un valor de R 2 100 bajo puede ser debido a la omisión de variables explicativas relevantes en el. R 2 aumenta siempre con la introducción de nuevas variables en el. Para evitar este inconveniente se calcula el coeciente de determinación corregido por grados de libertad. (Ver Peña 2002) Simple El En regresión simple, el coeciente de determinación es el cuadrado del coeciente de correlación lineal.

Simple Al igual que en el caso de la regresión simple, antes de emplear un de regresión es necesario vericar las hipótesis básicas del. Esta vericación (diagnosis) se realiza a través del análisis de los residuos. El

En particular: La normalidad del error se analiza con la representación de los residuos en papel probabilístico normal, o con un histograma. Las hipótesis de linealidad, homocedasticidad e independencia se verican a través del gráco de residuos frente a los valores previstos y frente a los valores de los regresores. La conveniencia de introducir una nueva variable en el se puede analizar por medio del gráco de los residuos frente a esta nueva variable. Simple El La interpretación de los grácos es similar a la que se da a los mismos en regresión simple.

83 Una vez estimado y validado el de regresión, se puede emplear este para hacer predicciones. 1. Se puede emplear ŷ(x 1i,..., x ki ) para predecir el valor de E(Y X 1 = x 1i,..., X k = x ki ). 2. También se puede emplear ŷ(x 1i,..., x ki ) para predecir el valor de un individuo de la variable (Y X 1 = x 1i,..., X k = x ki ). Simple El

Simple Obsérvese que los dos valores se estiman por el mismo número. Igual que en regresión simple, la estimación de la media se realiza con mayor precisión que el valor de un individuo concreto. Pueden consultarse los detalles del cálculo de intervalos de conanza, para ambos casos, en Peña (2002). El

Conceptualmente las ideas de punto atípico e inuyente coinciden con las explicadas en regresión simple. La deteccción de puntos atípicos en regresión múltiple es más compleja que en regresión simple, debido a la dimensionalidad de los datos. Se emplearán los grácos de residuos frente a las variables explicativas y a los valores previstos por el para detectar puntos atípicos, aunque estos grácos no siempre permiten encontrar estos puntos. Simple El

Simple Información sobre la construcción de estadísticos que permitan detectar atípicos puede encontrarse en Peña (2002). El tratamiento de los atípicos, una vez identicados, será similar al expuesto en regresión simple. El

Simple En ocasiones el de regresión depende de un atributo. Por ejemplo La estatura de las personas depende del sexo El consumo de los coches depende de si la fabricación es americana, europea o asiática. La esperanza de vida depende de si el pais es industrializado, en vías de desarrollo o subdesarrollado. El

188 En el caso de un atributo con dos posibles valores yˆ A yˆ B Simple El

Simple No es bueno estudiar los datos por separado, porque eso signicaría pérdida de información. En ocaciones no es posible porque dividir la muestra en subpoblaciones puede signicar que en algunas poblaciones no tenemos sucientes datos para estimar el. Incorporamos el atributo en el de regresión. El

190 Problemas de omitir el atributo yˆ A yˆ B yˆt Simple El

191 Problemas de omitir el atributo yˆt yˆ A yˆ B Simple El

92 Simple Si tenemos dos subgrupos en la población, denimos una variable cticia z Toma valor 0 si pertenece al grupo A Toma valor 1 si pertenece al grupo B. Introducimos la variable z en el de regresión y = β 0 + β 1 x + β 2 z + u El

Si una observación pertenece al grupo A, (z = 0) ŷ = β 0 + β 1 x si una observación pertenece al grupo B, (z = 1) ( β0 + β ) 2 + β 1 x ŷ = β 2 se interpreta como el efecto que tiene el atributo β 1 se estima con todas las observaciones independientemente de a qué grupo pertenezcan. Simple El

Simple Supongamos que tenemos que separar las observaciones en D grupos distintos Por ejemplo, un estudio por provincias, creemos que hay una inuencia geográca y queremos estudiar las provincias del norte, del sur, del este, del oeste y del centro de España. El

195 Simple Lo que hacemos es generar D 1 variables cticias de forma que z i { 1 si la observación pertenece al grupo i 0 si la observación no pertenece al grupo i El

Tenemos que escoger que grupo es el grupo de referencia. Por ejemplo, escogemos de referencia el centro de España. Denimos las variables z 1 la provincia es del norte z 2 la provincia es del sur z 3 la provincia es del este z 4 la provincia es del oeste Madrid sería (z 1, z 2, z 3, z 4 ) = (0, 0, 0, 0) Sevilla sería (z 1, z 2, z 3, z 4 ) = (0, 1, 0, 0) Valencia sería (z 1, z 2, z 3, z 4 ) = (0, 0, 1, 0) Simple El

El sería y = β 0 + β 1 z 1 + β 2 z 2 + β 3 z 3 + β 4 z 4 + β 5 x + u La interpretación es, si β 2 es signicativo, es que hay diferencias entre el sur y el centro de España. β 2 se interpreta como el efecto que tiene el atributo respecto al centro. Este no nos sirve para ver las diferencias entre el norte y el sur, si quisiesemos estudiar ésto, tendríamos que tomar como referencia el norte o el sur. Simple El

198 Interacciones Si el cambio de grupo no sólo afecta al β 0 sino que también afecta a la pendiente de la recta de regresión. yˆ A Simple El yˆ B

Interacciones Tenemos que introducirlo en el para poder estimarlo El es y = β 0 + β 1 x + β 2 z + β 3 xz + u Si una observación pertenece al grupo A, (z = 0) ŷ = β 0 + β 1 x si una observación pertenece al grupo B, (z = 1) ŷ = ( β0 + β ) 2 + ( β1 + β ) 3 x Simple El β 3 se interpreta como el efecto que tiene el atributo en el aumento de la pendiente.