CAPÍTULO 2 REGRESIÓN LINEAL MULTIPLE

CAPÍTULO REGRESIÓN LINEAL MULTIPLE Fernández Departament de Matemáticas Universidad de Puert Ric Recint Universitari de Mayagüez

REGRESIÓN LINEAL MULTIPLE La regresión lineal multiple trata de explicar el cmprtamient de Y cn más de una variable predictra usand una funcin lineal. Alternativas para mejrar el mdel. Transfrmar la variable predictra, la variable de respuesta Y, ambas y usar lueg un mdel lineal. Usar regresión plinómica cn una variable predictra. Cnseguir más variables predictras y usar una regresión lineal múltiple.

. El mdel de regresión lineal múltiple El mdel de regresión lineal múltiple cn p variables predictras y basad en n bservacines está dad pr: y = β +βx +β x +... β x + e i i1 en frma matricial : 1 i p ip Y = Xβ + e i para i = 1,,,n

Supsicines del mdel 1. E(e=0. Var(e=σ I n Dnde: e es un vectr clumna aleatri de dimensión n. I n es la matriz identidad de rden n.

..1 Estimación del vectr de parámetrs β pr Cuadrads Mínims Se tiene que minimizar la suma de cuadrads de ls errres. n Q( β = e i = e'e = ( Y Xβ'( Y Xβ i= 1 Haciend peracines cn ls vectres y matrices Q( β = Y'Y β'x'y Y'Xβ + β'x' Xβ = Y'Y β'x'y + β'x'xβ Derivand Q cn respect a β e igualand a cer se btiene el sistema de ecuacines nrmales X' Xβ = X'Y reslviend para β se btiene: βˆ = (X'X 1 X'Y

.. Prpiedades del estimadr β E(β Var( β =σ (X X -1 es insesgad, sea =. Si n se asume nrmalidad, el estimadr minimcuadrátic β es el mejr estimadr dentr de ls estimadres lineales insesgads de β. Si se asume nrmalidad de ls errres entnces β es el mejr estimadr entre tds ls estimadres insesgads de β β

..3 Estimación de la varianza σ Un estimad de la varianza de ls errres es: σ SSE = = n p 1 n n i= 1 ei e'e ( Y = = p 1 n p 1 SSE= (Y Xβ'(Y Xβ = (Y X(X' X Xβ '(Y n p 1 X' Y' (Y X(X' X 1 1 X' Y Xβ SSE = Y' (I H'(I HY Dnde H=X(X X -1 X es la Hat Matrix la varianza estimada de ls errres puede ser escrita cm: σ Y'(I = 1 X(X'X n p 1 X'Y Y'(I HY = n p 1

Algunas Prpiedades Sea Y un vectr aleatri n-dimensinal tal que E(Y = μ y VAR(Y =V entnces E(Y AY=traza(AV + μ Aμ Dnde μ=xβ y V=σ I n Se puede mstrar que E[s ]=σ.

.3. Inferencia en Regresión lineal múltiple Invlucra realizar pruebas de hipótesis eintervals de cnfianza acerca de ls ceficientes del mdel de regresión pblacinal. Intervals de cnfianza de las prediccines que se hacen cn el mdel. Supnems que e~ni(0,σ I n equivalente que Y~NI(Xβ, σ I n

Descmpsición de la variación ttal de Y La variación ttal de Y se descmpne en ds variacines: una debid a la regresión y tra debid a causas n cntrlables. SST = SSR + SSE El ceficiente de Determinación R, se cálcula pr: R = SSR SST

Resultads para sumas de cuadrads i SST σ χ ~ ( n 1 SSE ii χ, también que σ ~ ( n p 1 ( n p 1 s σ ~ χ ( n p 1 iii SSR σ ~ χ ( p

.3.1 Prueba de hipótesis acerca de un ceficiente de regresión individual H: β i = 0 ( i=1,,..,p, Ha: β i 0; La prueba estadística es la prueba de t: t = 1 gl. β i se( β i = s β i C ii se distribuye cm una tcn (n-p- Dnde, C ii es el i-ésim element de la diagnal de (X X -1. Ls prgramas de cmputadras, da el P-value de la prueba t.

.3. Prueba de Hipótesis de que tds ls ceficientes de regresión sn cers. H : β 1 =β = =β p =0 H a : Al mens un de ls ceficientes es distint de cer. usand prpiedades de frmas cuadráticas se puede mstrar que: E(SSR = E[Y (H-11 /ny] = pσ + βx (H-11 /nxβ = pσ + β X (H-11 /nxβ Dnde, 1 es un vectr clumna de n uns.

Tabla de Análisis de Varianza Fuente de Suma de Grads de Cuadrads F Variación Cuadrads libertad Medis Regresión SSR p MSR=SSR/p MSR/MSE Errr SSE n-p-1 MSE=SSE/n-p-1 Ttal SST n-1

Particinamient secuencial de la suma de cuadrads de regresión La suma de cuadrads de regresión puede ser particinada en tantas partes cm variables predictras existen en el mdel. Sirve para determinar la cntribución de cada una de las variables predictras al cmprtamient de Y. SSR(β 1,β,,.β p / β 0 = SSR(β 1 / β 0 + SSR((β,/β 1,β 0 + +SSR(β p /β p -1,,β 1,β 0 SSR(β k /β k-1,,.β 1,β 0 significa el increment en la suma de cudrads de regresión cuand la variable X k es incluida en el mdel, el cual ya cntiene las variables predictivas X 1, X k-1

.3.3 Prueba de hipótesis para un subcnjunt de ceficientes de regresión H: β 1 = =β k =0. (Ls k primers ceficientes sn cers. Ha: Al mens un de ls k primers ceficientes n es cer. La prueba de F parcial se calcula pr: Fp = SSR( C SSR( R k SSE( C n p 1 = SSR( C SSR( R k MSE( C k gl para el numeradr y n-p-1 gl para el denminadr Dnde: SSR(C = SSR(β 1,β,.β p /β y SSR(R = SSR(β k+1,β k+,,β p /β SSR( C SSR( R=SSR(β 1,β,.β k /β k+1,β k+,.β p

.3.4 Intervals de Cnfianza y de Predicción en Regresión Lineal Múltiple. Se desea predecir el valr medi de la variable de respuesta Y para una cmbinación predeterminada de las variables predictras X1, Xp. Cnsiderems el vectr de valres bservads x' = (1, x 1,0,.x p,0 El valr predich para el valr medi de la variable de respuesta y = x' βˆ Var ( = x' Var( (βx ˆ = σ x' y (X'X Y será y Se asume que ls errres están nrmalmente distribuids. 1 x

.3.4 Intervals de Cnfianza y de Predicción en Regresión Lineal Múltiple. Un interval del 100(1-α% para el valr medi de Y dad que x=x es de la frma y ± t s (α /, n p 1 x' (X'X 1 x Un interval de cnfianza (interval de predicción del 100(1-α% para el valr individual de Y dad x=x es de la frma y ± t ( s 1 α /, n p 1 + x' (X'X 1 x

.3.5 La prueba de Falta de Ajuste Se usa para determinar si la frma del mdel que se está cnsiderand es adecuada. En regresión múltiple se debe supner que hay m cmbinacines distintas de las n bservacines de las p variables predictras y que pr cada una de esas cmbinacines hay n i (i = 1,,m bservacines de la variable de respuesta, es decir, m n i = n i= 1

La Suma de Cuadrads del Errr m ni m ni m ni ( y ( ij yi = yij yi + i= 1 j= 1 i= 1 j= 1 i= 1 j= 1 ( y i y i Dnde: y i es el valr predich pr el mdel de regresión para la i-ésima cmbinación de las variables predictras y y i es el valr prmedi de la variable predictra para la i-ésima cmbinación.

Suma de Cuadrads del Errr Pur (SSPE Es la primera suma de cuadrads del lad derech, tiene n-m gl. Suma de Cuadrads de Falta de Ajuste (SSLOF Es la segunda suma de cuadrads tiene m-p-1 gl. también puede ser escrita cm: n Prueba de hipótesis H: El mdel es adecuad (n hay falta de ajuste Ha: el mdel n es adecuad La prueba estadística es una prueba de F dada pr: SSLOF/( m p 1 F = = SSPE/( n m MSLOF MSPE m i= 1 i ( y i y se distribuye cm una F(m-p-1,n-m. i