El modelo de regresión múltiple

El de regresión múltiple Simple El de regresión múltiple es la extensión a k variables explicativas del de regresión simple. La estructura del de regresión múltiple es la siguiente: y = f (x 1,..., x k ) + E. El

42 El de regresión múltiple Donde: y es la variable explicada, dependiente o respuesta. x 1,..., x k son las variables explicativas, regresores o variables independientes. y = f (x 1,..., x k ) es la parte determinista del. Simple El E representa el error aleatorio. Contiene el efecto sobre y de todas las variables distintas de x 1,..., x k.

143 El de regresión múltiple Simple El de regresión lineal múltiple tiene la forma: y = β 0 + β 1 x 1 + + β k x }{{ k } Hiperplano +E El

144 El de regresión múltiple Simple En el caso particular en que haya dos regresores, k = 2, el tendría la forma: y = β 0 + β 1 x 1 + β 2 x }{{} 2 Plano +E El

145 El de regresión múltiple Grácamente, el de regresión lineal con dos regresores supone calcular la ecuación de un plano que describa la relación de Y con X 1 y X 2, Y y = β 0 + β 1x 1 + β 2x 2 Simple El X 2 X 1

146 El de regresión múltiple De forma análoga al caso simple, calculado el plano, el valor de y i en cualquier punto (x 1i, x 2i, y i ) se puede descomponer en parte determinista y aleatoria, Y e i y i ŷ = ˆβ 0 + ˆβ 1x 1 + ˆβ 2x 2 Simple El ŷ i = ˆβ 0 + ˆβ 1ix 1 + ˆβ 2x 2i X 2 (x 1i, x 2i) X 1

147 El de regresión múltiple La estimación por mínimos cuadrados de los parámetros del consiste en calcular la ecuación del plano que hace mínimo el valor de e 2 i, con e i = y i ŷ i. e 1 Y e i e n Simple El e 2 X 2 X 1

148 Generalizando, al ajustar un de regresión lineal múltiple se supondrá que se verican las siguientes hipótesis: 1. Fijados los valores x 1i,..., x ki de las variables X 1,..., X k, se tiene que y i = β 0 + β 1 x 1i + + β k x ki + e i 2. Cada error e i N (0, σ 2 ). 3. Cualquier par de errores e i y e j son independientes. Simple El 4. Las variables explicativas son, algebraicamente, linealmente independientes. 5. El número de datos es mayor o igual que k + 2.

Las tres primeras hipótesis del se justican igual que en regresión simple. La condición de la independencia lineal algebraica de los regresores tiene por objeto ajustar la dimensión del problema, ya que si no se cumpliese se podrían eliminar regresores del. Simple El El número de datos debe ser mayor o igual que k + 2 para poder estimar todos los parámetros del.

Las hipótesis impuestas al comportamiento del error del tienen las siguientes consecuencias: 1. Para cada conjunto de valores, x 1i,..., x ki de X 1,..., X k, la variable aleatoria (Y X 1 = x 1i,..., X k = x ki ) tiene una distribución: (Y X 1 = x 1i,..., X k = x ki ) N(β 0 +β 1 x 1i + +β k x ki, σ 2 ) Simple El 2. Las observaciones y i de la variable Y son independientes.

51 Consecuentemente, ŷ i = ˆβ 0 + ˆβ 1 x 1i + + ˆβ k x ki representa la esperanza de la variable Y condicionada por los valores x 1i,... x ki de las variables X 1,..., X k, respectivamente. Además, todas las variables Y i tienen la misma varianza, σ 2. Es decir, son homocedásticas. Simple El

152 Supóngase que para estimar los parámetros del y = β 0 + β 1 x 1 + + β k x k, se dispone del conjunto de datos: X 1 X k Y Individuo 1 x 11 x k1 y 1 Individuo 2 x 12 x k2 y 2.. Simple El Individuo n x 1n x kn y n

Simple Como e i = y i (β 0 + β 1 x 1i + + β k x ki ), resulta que el módulo del vector error es función de β 0,..., β k : e 2 i = S(β 0,..., β k ). El

154 Para que S sea mínimo deberá ser: S β 0 = 0 S β 1 = 0. S β k = 0 Simple El

55 Simple Llamando β = β 0 β 1.. β k, X = 1 x 11 x k1 1 x 12 x k2.. 1 x 1n x kn e Y = y 1 y 2.. y n El

156 Simple Resulta que: ˆβ = (X X ) 1 X Y, donde X representa la matriz transpuesta de X. El

Simple 1. El parámetro ˆβ i, en regresión múltiple, representa el efecto del regresor X i sobre la respuesta Y, cuando el resto de los regresores permanecen constantes. 2. Si los regresores están incorrelados, ρ ij = 0, para todo i, j, los estimadores de los coecientes de regresión estimados en el múltiple y en los distintos s simples coinciden. El

158 Se puede demostrar que: 1. Para todo ˆβ i, con i = 0, 1,..., k, se cumple que E( ˆβ i ) = β i. Es decir ˆβ i es un estimador centrado de β i, para todo i. 2. La matriz de varianzas y covarianzas de ˆβ 0,..., ˆβ k viene dada por la expresión: COV ( ˆβ) = σ 2 (X X ) 1 Simple El 3. ˆβ i sigue una distribución normal, para todo i = 0,..., k.

159 Simple Análogamente al caso de regresión simple, la realización de inferencia sobre los parámetros del requiere una estimación de σ 2. Como en el caso simple, el estimador máximo verosímil de la varianza es: ˆσ 2 = e 2 i n, que no es un estimador centrado de σ 2. El

La resolución del sistema, S β 0 = 0,..., S β k = 0, que se emplea para calcular los estimadores de los parámetros β i, pone de maniesto las siguientes relaciones entre los residuos: ei = 0 ei x 1i = 0. ei x ki = 0 (k + 1) restricciones. Simple El

61 Simple De forma similar al caso simple se dene la varianza residual como: ŝ 2 = e 2 i R n k 1, que será el estimador habitual de σ 2. El

62 1. ŝ 2 R es un estimador centrado de σ2. Esto es: 2. Además: E(ŝ 2 R ) = σ2. (n k 1)ŝ 2 R σ 2 χ 2 n k 1 Simple El Esta distribución permite realizar inferencia respecto de σ 2.

163 de En consecuencia con lo anterior, si la diagonal de la matriz, conocida, (X X ) 1 tiene la forma: D(X X ) 1 d 00 d 11... d ii... d kk Simple El La varianza de ˆβ i será σ 2 d ii.

64 de Por lo tanto, de donde, y ˆβ i N(βi, σ d ii ), ˆβ i βi σ d ii N(0, 1), ˆβ i βi ŝ R d ii t n k 1. Simple El

65 de Simple La última expresión permite realizar, para todo i = 0,... k, el contraste individual de regresión (test de la t): ya que si β i = 0, H 0 : β i = 0 frente a H 1 : β i 0, ˆβ i ŝ R d ii t n k 1. El

166 de Análogamente al caso simple, la aceptación de la hipótesis nula, β i = 0, puede ser debida a que: 1. X i e Y sean independientes. 2. Entre X i e Y haya una relación de dependencia no lineal. En el primer caso, la variable X i debe ser eliminada del. Simple El En el segundo, se debe intentar una transformación que linealice la relación entre X i e Y.

67 de Si se denomina (X X ) 1 0 a la matriz resultante de eliminar la primera la y la primera columna de la matriz d 00 d d 11 (X.. X ) 1 =. d ii..., Simple El d kk

168 de se tiene que la matriz: d 11.. σ 2 (X. X ) 1 0 = σ 2 d ii... d kk es la matriz de varianzas y covarianzas de ˆβ 1,..., ˆβ k. Simple El

de Llamando b al vector: Se puede demostrar que: b = ˆb (X X ) 0ˆb kŝ 2 R ˆβ 1.. ˆβ k F (k,n k 1). Simple El

de Simple Esta distribución permite la realización del contraste fundamental de regresión múltiple: H 0 : β 1 = β 2 = = β k = 0 frente a: H 1 : Existe algún β i con i = 1,..., k tal que β i 0. El

171 de Simple La aceptación de la hipótesis nula del test de la F, puede ser debida a: H 0 : β 1 = β 2 = = β k = 0, Independencia de la variable explicada frente a todos los regresores. Existe dependencia no lineal de la variable explicada frente a algún regresor. El

de Simple El rechazo de la hipótesis nula del test de la F signica que la variable explicada depende linealmente de alguno de los regresores. Para saber cuál o cuáles de los regresores explican signicativamente a la variable dependiente es necesario atender a los contrastes individuales de la t. El

173 de La siguiente tabla contiene el conjunto de los casos posibles al realizar el test de la F y los contrastes de la t en regresión múltiple: Caso Test de la F individuales 1 Signicativo Todos signicativos 2 Signicativo Alguno signicativo 3 Signicativo Ninguno signicativo 4 No signicativo Todos signicativos Simple El 5 No signicativo Alguno signicativo 6 No signicativo Ninguno signicativo

de Caso 1: Cuando el contraste de la F es signicativo y todos los contrastes de la t también lo son, se interpreta que todos los regresores inuyen signicativamente en la variable explicada. Caso 2: Si el contraste de la F es signicativo y sólo algunos de los regresores lo son, se interpreta que los regresores no signicativos deben ser eliminados del, o bien transformados si se intuye relación de dependencia no lineal entre la variable dependiente y alguno de ellos. Simple El

de Caso 3: Cuando el test de la F es signicativo y ninguno de los contrastes individuales lo es, se da una situación paradójica que, frecuentemente, se origina por un problema denominado multicolinealidad. Su análisis y tratamiento se explica más adelante. Casos 4 y 5: Si el test de la F es no signicativo y todos o algunos de los contrastes individuales sí lo son, se origina igualmente una situación paradójica que responden a casos particulares de multicolinealidad. Simple El Caso 6: Si el test de la F no es signicativo y ninguno de los contrastes individuales lo es, no se detecta relación de dependencia lineal entre la variable explicada y los regresores.

Los casos 3, 4, y 5 citados anteriormente se deben habitualmente al problema de multicolinealidad. La multicolinealidad es consecuencia de que todos o una parte de los regresores X 1,..., X k están fuertemente correlados. La detección de la multicolinealidad se realiza a través de: La matriz de correlación de las variables explicativas. Simple El La diagonal de la inversa de esta matriz. Los autovalores de la matriz X X.

177 Simple El tratamiento de la multicolinealidad consiste básicamente en: Eliminar regresores del que tengan alta correlación con el resto, lo que disminuye el número de parámetros que hay que estimar. (Esta es la solución más sencilla, cuando se puede utilizar.) El Incluir información externa a los datos.

178 Coeficiente de Una vez estimado el de regresión múltiple, ŷ = ˆβ 0 + ˆβ 1 x 1 + + ˆβ k x k, se puede completar el conjunto de datos con la nueva columna Ŷ : X 1 X k Y Ŷ Individuo 1 x 11 x k1 y 1 ŷ 1 Individuo 2 x 12 x k2 y 2 ŷ 2.. Simple El Individuo n x 1n x kn y n ŷ n Donde ŷ i = ˆβ 0 + ˆβ 1 x 1i + + ˆβ k x ki.

Coeficiente de Se dene el coeciente de determinación como el coeciente de correlación lineal entre las variables Y e Ŷ. El coeciente de determinación es una medida de bondad del ajuste del y se representa por R 2. La ecacia de R 2 como medida de la bondad de ajuste depende de la relación entre el número de regresores, k y el tamaño muestral, n, siendo más able cuanto menor sea el cociente k/n. Simple El

Coeficiente de El coeciente de determinación tiene las siguientes propiedades: 0 R 2 1. Cuando R 2 = 1, la relación entre la variable explicada y los regresores es exacta. R 2 100 representa el porcentaje de variabilidad de Y explicada por el. Un valor de R 2 100 bajo puede ser debido a la omisión de variables explicativas relevantes en el. R 2 aumenta siempre con la introducción de nuevas variables en el. Para evitar este inconveniente se calcula el coeciente de determinación corregido por grados de libertad. (Ver Peña 2002) Simple El En regresión simple, el coeciente de determinación es el cuadrado del coeciente de correlación lineal.

Simple Al igual que en el caso de la regresión simple, antes de emplear un de regresión es necesario vericar las hipótesis básicas del. Esta vericación (diagnosis) se realiza a través del análisis de los residuos. El

En particular: La normalidad del error se analiza con la representación de los residuos en papel probabilístico normal, o con un histograma. Las hipótesis de linealidad, homocedasticidad e independencia se verican a través del gráco de residuos frente a los valores previstos y frente a los valores de los regresores. La conveniencia de introducir una nueva variable en el se puede analizar por medio del gráco de los residuos frente a esta nueva variable. Simple El La interpretación de los grácos es similar a la que se da a los mismos en regresión simple.

83 Una vez estimado y validado el de regresión, se puede emplear este para hacer predicciones. 1. Se puede emplear ŷ(x 1i,..., x ki ) para predecir el valor de E(Y X 1 = x 1i,..., X k = x ki ). 2. También se puede emplear ŷ(x 1i,..., x ki ) para predecir el valor de un individuo de la variable (Y X 1 = x 1i,..., X k = x ki ). Simple El

Simple Obsérvese que los dos valores se estiman por el mismo número. Igual que en regresión simple, la estimación de la media se realiza con mayor precisión que el valor de un individuo concreto. Pueden consultarse los detalles del cálculo de intervalos de conanza, para ambos casos, en Peña (2002). El

Conceptualmente las ideas de punto atípico e inuyente coinciden con las explicadas en regresión simple. La deteccción de puntos atípicos en regresión múltiple es más compleja que en regresión simple, debido a la dimensionalidad de los datos. Se emplearán los grácos de residuos frente a las variables explicativas y a los valores previstos por el para detectar puntos atípicos, aunque estos grácos no siempre permiten encontrar estos puntos. Simple El

Simple Información sobre la construcción de estadísticos que permitan detectar atípicos puede encontrarse en Peña (2002). El tratamiento de los atípicos, una vez identicados, será similar al expuesto en regresión simple. El

Simple En ocasiones el de regresión depende de un atributo. Por ejemplo La estatura de las personas depende del sexo El consumo de los coches depende de si la fabricación es americana, europea o asiática. La esperanza de vida depende de si el pais es industrializado, en vías de desarrollo o subdesarrollado. El

188 En el caso de un atributo con dos posibles valores yˆ A yˆ B Simple El

Simple No es bueno estudiar los datos por separado, porque eso signicaría pérdida de información. En ocaciones no es posible porque dividir la muestra en subpoblaciones puede signicar que en algunas poblaciones no tenemos sucientes datos para estimar el. Incorporamos el atributo en el de regresión. El

190 Problemas de omitir el atributo yˆ A yˆ B yˆt Simple El

191 Problemas de omitir el atributo yˆt yˆ A yˆ B Simple El

92 Simple Si tenemos dos subgrupos en la población, denimos una variable cticia z Toma valor 0 si pertenece al grupo A Toma valor 1 si pertenece al grupo B. Introducimos la variable z en el de regresión y = β 0 + β 1 x + β 2 z + u El

Si una observación pertenece al grupo A, (z = 0) ŷ = β 0 + β 1 x si una observación pertenece al grupo B, (z = 1) ( β0 + β ) 2 + β 1 x ŷ = β 2 se interpreta como el efecto que tiene el atributo β 1 se estima con todas las observaciones independientemente de a qué grupo pertenezcan. Simple El

Simple Supongamos que tenemos que separar las observaciones en D grupos distintos Por ejemplo, un estudio por provincias, creemos que hay una inuencia geográca y queremos estudiar las provincias del norte, del sur, del este, del oeste y del centro de España. El

195 Simple Lo que hacemos es generar D 1 variables cticias de forma que z i { 1 si la observación pertenece al grupo i 0 si la observación no pertenece al grupo i El

Tenemos que escoger que grupo es el grupo de referencia. Por ejemplo, escogemos de referencia el centro de España. Denimos las variables z 1 la provincia es del norte z 2 la provincia es del sur z 3 la provincia es del este z 4 la provincia es del oeste Madrid sería (z 1, z 2, z 3, z 4 ) = (0, 0, 0, 0) Sevilla sería (z 1, z 2, z 3, z 4 ) = (0, 1, 0, 0) Valencia sería (z 1, z 2, z 3, z 4 ) = (0, 0, 1, 0) Simple El

El sería y = β 0 + β 1 z 1 + β 2 z 2 + β 3 z 3 + β 4 z 4 + β 5 x + u La interpretación es, si β 2 es signicativo, es que hay diferencias entre el sur y el centro de España. β 2 se interpreta como el efecto que tiene el atributo respecto al centro. Este no nos sirve para ver las diferencias entre el norte y el sur, si quisiesemos estudiar ésto, tendríamos que tomar como referencia el norte o el sur. Simple El

198 Interacciones Si el cambio de grupo no sólo afecta al β 0 sino que también afecta a la pendiente de la recta de regresión. yˆ A Simple El yˆ B

Interacciones Tenemos que introducirlo en el para poder estimarlo El es y = β 0 + β 1 x + β 2 z + β 3 xz + u Si una observación pertenece al grupo A, (z = 0) ŷ = β 0 + β 1 x si una observación pertenece al grupo B, (z = 1) ŷ = ( β0 + β ) 2 + ( β1 + β ) 3 x Simple El β 3 se interpreta como el efecto que tiene el atributo en el aumento de la pendiente.