CAPÍTULO 4 TRANSFORMACIONES EN REGRESIÓN Edgar Acuña Fernández Departamento de Matemáticas Universidad de Puerto Rico Recinto Universitario de Mayagüez Edgar Acuña Analisis de Regresion 1
Transformaciones para linealizar modelos Consideremos por ahora solo modelos con una variable predictora. El obetivo es tratar de transformar las variables es aumentar la medida de auste R del modelo, sin incluir variables predictoras adicionales. Se recomienda hacer un plot para observar el tipo de tendencia. Edgar Acuña Analisis de Regresion
Transformaciones de la variable predictora y/o respuesta para linealizar varios modelos. Edgar Acuña Analisis de Regresion 3
Los modelos exponencial y doblemente logarítmico son válidos bao la suposición de que los errores son multiplicativos, esto se debe cotear haciendo análisis de residuales, si los logaritmos de los errores tiene una media de cero y varianza constante. Si los errores no son multiplicativos entonces deberían aplicarse técnicas de regresión no lineal. Edgar Acuña Analisis de Regresion 4
4. Transformaciones de las variables predictoras en regresión múltiple Supongamos que uno tiene una variable de respuesta Y y varias variables predictoras y desea hacer transformaciones en las variables predictoras para meorar la medida de auste del modelo. Del plot matricial se extrae las relaciones de y con cada una de las variables predictoras. Las transformaciones pueden ser afectadas por la colinealidad existente entre las variables predictoras. Edgar Acuña Analisis de Regresion 5
Modelo basado en series de taylor En 196, Box y Tidwell, propusieron un método para transformar las variables predictoras, usando solamente potencias de ellas. ellos consideraron el modelo: y = β + β w +... β w e α donde: w = x si α y w =ln(x ) si α. = El desarrollo de la serie de Taylor se hace con respecto a α = ( 1 k α,... α ) Luego se tiene o 1 1 k k + y alrededor de = ( k α1,,..., α, ) = Donde: γ = ( α ) β y para =1,.k. (1,...,1) Edgar Acuña Analisis de Regresion 6 α y β + β x + +... + γ z 1 1 z... + β k xk + γ 1z1 + γ z = x ln x k k
Procedimiento para la estimación de los α 1. Hacer la regresión lineal múltiple considerando las variables predictoras originales x y denotar los estimados de los coeficientes por b.. Hacer una regresión lineal múltiple de y versus las variables predictoras originales mas las variables z =x ln(x ) y denotar los estimados de los coeficientes de z por. γ ) 3. Estimar α por α = + 1 ) ) γ b Edgar Acuña Analisis de Regresion 7
Procedimiento para la estimación de los α El procedimiento se puede repetir varias veces usando en cada etapa las nuevas variables transformadas y la siguiente relación de recurrencia: ) α ( m+ 1) ) γ = ( b ( m) ( m) ) + 1) α ( m+ 1) ( m) El proceso termina cuando α α < TOL, donde TOL es la tolerancia su valor es muy cercano a cero. Sin embargo, muy a menudo un solo paso es suficiente. ( m) Edgar Acuña Analisis de Regresion 8
Técnica sugerida por Box and Tidwell aplicado al conunto de datos millae La regresión con las variables originales MPG = 19 -.156 VOL +.39 HP - 1.9 SP - 1.86 WT Predictor Coef SE Coef T P Constant 19.44 3.53 8.18. VOL -.1565.83 -.69.495 HP.391.8141 4.8. SP -1.948.448-5.9. WT -1.8598.134-8.7. R-Sq = 87.3% R-Sq(ad) = 86.7% Edgar Acuña Analisis de Regresion 9
continuación Creamos cuatro variables predictoras x 1 lnx 1, x lnx, x 3 lnx 3 y x 4 lnx 4. La regresión múltiple con las 8 variables predictoras es MPG = 148-1. VOL + 5.47 HP - 38.9 SP - 17.9 WT +.18 x1lnx1 -.81 xlnx + 6.36 x3lnx3 + 3.33 x4lnx4 Predictor Coef SE Coef T P Constant 148. 68.4 3.91. VOL -1.3.5916-1.69.94 HP 5.468 1.849.96.4 SP -38.85 11.81-3.9. WT -17.9 4.34-4.14. x1lnx1.183.186 1.66.11 xlnx -.86.744 -.9.5 x3lnx3 6.36 1.971 3.3. x4lnx4 3.363.8739 3.81. S = 3.47 R-Sq = 9.5% R-Sq(ad) = 89.5% Edgar Acuña Analisis de Regresion 1
continuación Estimando α segun el paso 3 se tiene α 1 =.183/(-.1565)+1=-1.5, α =86/.391)+1=-1.4, α 3 =(6.36)/(-1.948)+1=-3.91, α 4 =3.363/(-1.8598)+1=-.79. Asi la regresión con las nuevas variables vol -1.5, hp -1.4, sp -3.91 y wt -.79 es: MPG = -.98 + 1668 hp1 +1.843E+18-1.465E+8 sp1 + 33.9 wt1 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -.98e+ 4.4e+ -.5.64656 sp1-1.465e+8 4.698e+8 -.31.75597 wt1 3.39e+ 9.38e+1 3.548.665 *** vol1 1.843e+18 8.87e+17.88.48 * hp1 1.668e+3 8.78e+.65.435 * Residual standard error: 3.95 on 77 degrees of freedom Multiple R-Squared:.99, Adusted R-squared:.943 Se puede repetir el proceso, eliminando VOL antes de aplicar el método de Box and Tidwell Edgar Acuña Analisis de Regresion 11
Transformaciones para estabilizar la varianza. Edgar Acuña Analisis de Regresion 1
Justificación de las transformaciones Expandiendo en series de Taylor una función h(y) alredededor de μ=e(y) se obtiene: h( Y ) h( μ) + h'( μ)( Y μ) + h"( μ)( Y μ) / Tomando varianza a ambos lados y considerando solamente la aproximación lineal se obtiene: Var( h( Y )) [ h'( E( y))] Var( Y ) Eemplo: Si Var(Y) [E(y)] hallar h(y) tal que su varianza sea constante:[h (E(Y))] constante/[e(y)], luego, h (μ) 1/μ, de donde h(μ) log(μ). Edgar Acuña Analisis de Regresion 13
Transformaciones para meorar la normalidad de la variable de respuesta En 1964, Box y Cox introdueron una transformación de la variable de respuesta (transformación potencia) con el obetivo de satisfacer la suposición de normalidad del modelo de regresión. λ y la transformación está definida por w= λ si λ y w=ln(y) si λ=. Notar que: y λ lim = λ λ ln y Edgar Acuña Analisis de Regresion 14
Estimación del parámetro λ Se estima conuntamente con los coeficientes del modelo de regresión lineal múltiple usando el método de Máxima verosimilitud, w = β o + β1x1 +... β k xk + e La transformación estandarizada de los w s se define por w n i donde ~ 1/ n z = y = ( ~ y i λ i ) y i= 1 es la media geométrica de las y s. El método asume que para algún λ las z i s son normales e independientes con varianza común σ Edgar Acuña Analisis de Regresion 15
Función de verosimilitud en términos de las z i s La función de verosimilitud esta dada por : L( β, λ)] = e 1 σ ( z Xβ)'( z Xβ) (πσ ) n / Luego donde Así n n 1 max[ LnL( β, λ)] = ln(π ) ln( ˆ σ ) ˆ σ σ ˆ ( z = SSE / n = ( z Xβˆ)' ( z Xβˆ) / n max[ LnL( β, λ)] = n n n ln(π ) ln( ˆ σ ) Xβˆ)'( z Xβˆ) n ln( ˆ σ ) Edgar Acuña Analisis de Regresion 16
Procedimiento para estimar el parámetro λ 1. Seleccionar un conunto de valores de λ entre y, usualmente entre 1 y valores. Para cada valor de λ, austar el modelo z=xβ+e 3. Plotear max[ln L(β,λ)] versus λ. 4. Escoger como parámetro λ aquel que otorgue el mayor valor para max[ln L(β,λ)]. Edgar Acuña Analisis de Regresion 17
Mínimos cuadrados ponderados. Es otra manera de tratar de remediar la falta de homogeneidad de varianza de los errores. suponiendo que los errores son todavía no correlacionados. n Se minimiza i i i, donde w i representa i= 1 w ( y el peso asignado a la i-ésima observación. yˆ ) Edgar Acuña Analisis de Regresion 18
Cómo escoger los pesos? Si en el plot de, residuales versus la variable predictora se observa que la dispersión aumenta cuando x aumenta sería conveniente usar. 1 σ i Donde, son las varianzas poblacionales de la Y (estimadas por s ) para cada observación x i en caso de regresión lineal simple, o para cada combinación de las variables predictoras en el caso de regresión lineal múltiple. La idea de dar a las observaciones anómalas un menor peso. Tambien se pueden calcular los pesos basado en los diagnósticos de regresión. w i = σ i Edgar Acuña Analisis de Regresion 19
Edgar Acuña Analisis de Regresion Consideremos el modelo de regresión lineal múltiple con Var(e)=Vσ, donde V es una matríz diagonal Sea W=(V 1/ ) -1, luego Sea y*=wy, e*=we y X*=WX, luego y*=x*β + e* e Xβ y + = = 3 1......... k n k k k V We WXβ Wy + =
Algunas Propiedades La varianza de los errores es constante. Var(e*)=Var(We)=WVar(e)W =WVW σ =Iσ El estimador mínimo cuadrático de β es β* = (X*'X) X*'Y* = (X'V X'V Para el cual se tiene E(β*)=β Var(β*)= (X'V X) X'V Var( Y) V X(X'V X) = (X'V X) σ X) Y Edgar Acuña Analisis de Regresion 1
Mínimos Cuadrados generalizados Considera la situación más general donde: Los errores no tienen varianza constante y ademas son correlacionados. Sea el modelo de regresión lineal múltiple y = Xβ + e Supongamos que: Var(e)=Vσ donde V es una matriz simétrica y definida positiva. Sea T una matríz nosingular y simétrica tal que TT=T =V, luego se tiene T y = T Xβ + T Edgar Acuña Analisis de Regresion e
Mínimos Cuadrados generalizados Sea e*= T -1 e, Var(e*)=Var(T -1 e)=t -1 Var(e)T -1 =Iσ entonces el estimador mínimo cuadrático de β se obtiene minimizando luego e*'e* β* = = (Y (X'V Xβ)' V (Y Xβ) X) E(β*)=β Var(β*)= (X'V X) X'V Var( Y) V X(X'V X) = (X'V X) σ X'V Y Edgar Acuña Analisis de Regresion 3