CAPÍTULO 4 TRANSFORMACIONES EN REGRESIÓN



Documentos relacionados
Regresión Lineal Múltiple

Estadística II Tema 4. Regresión lineal simple. Curso 2010/11

Modelo mixto: estimación y prueba de hipótesis

Y = ßo + ß1X + ε. La función de regresión lineal simple es expresado como:

REGRESIÓN LINEAL CON SPSS

6. ESTIMACIÓN DE PARÁMETROS

Ejemplo de Regresión Lineal Simple

Teoría de la decisión Estadística

Intervalos de confianza para los coeficientes de una regresión lineal.

Estadística Avanzada y Análisis de Datos

Distribuciones bidimensionales. Regresión.

Regresión lineal múltiple

Econometria. 4. Modelo de Regresión Lineal Simple: Inferencia. Prof. Ma. Isabel Santana

Regresión Lineal Múltiple

El método de mínimos cuadrados. Curso de Estadística TAE, 2005 J.J. Gómez-Cadenas

Ejercicios de Vectores Aleatorios

MATEMÁTICAS APLICADAS A LAS C.C. SOCIALES

peso edad grasas Regresión lineal simple Los datos

Regresión ponderada y falta de ajuste

Segunda práctica de REGRESIÓN.

Regresión lineal múltiple con R

Comparación de Líneas de Regresión

Tema 3: Estimadores de máxima verosimilitud

Capítulo 6. Análisis bivariante de variables

UNA COMPARACIÓN DE LOS MODELOS POISSON Y BINOMIAL NEGATIVA CON STATA: UN EJERCICIO DIDÁCTICO

MULTICOLINEALIDAD EN LAS REGRESORAS Y NORMALIDAD DEL TÉRMINO DE ERROR EN LOS MODELOS DE REGRESIÓN LINEAL

Tema 4. Modelo de regresión múltiple. Estadística (CC. Ambientales). Profesora: Amparo Baíllo Tema 4: Regresión múltiple 1

COLEGIO UNIVERSITARIO CARDENAL CISNEROS. Libro de Ejercicios de Matemáticas Empresariales II

INTRODUCCIÓN DIAGRAMA DE DISPERSIÓN. Figura1

Polinomios. 1.- Funciones cuadráticas

MATEMÁTICAS BÁSICAS. Autores: Margarita Ospina Pulido Lorenzo Acosta Gempeler Edición: Jeanneth Galeano Peñaloza Rafael Ballestas Rojano

Métodos Numéricos: Resumen y ejemplos Tema 5: Resolución aproximada de ecuaciones

Análisis estadístico básico (I) Magdalena Cladera Munar Departament d Economia Aplicada Universitat de les Illes Balears

Validación de los métodos microbiológicos HERRAMIENTAS ESTADISTICAS. Bqca. QM Alicia I. Cuesta, Consultora Internacional de la FAO

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

y = b 0 + b 1 x b k x k

11. PRUEBAS NO PARAMÉTRICAS

Problemas de 4 o ESO. Isaac Musat Hervás

#Solución base de datos BOSQUE (pag 187 en papel y 201 del pdf del libro)

Sistemas de Ecuaciones Lineales

Modelo Lineal Generalizado GAMMA. Distribución gamma: Otra parametrización mediante el parámetro de forma y la media:

Manipulación del Contraste

TALLER N 7 DE ESTADÍSTICA

EXTENSIÓN DEL MODELO DE REGRESIÓN LINEAL DE DOS VARIABLES

Ajuste de Regresión Lineal Simple

Inferencia estadística III. Análisis de Correlación. La inferencia estadística también se puede aplicar para:

1.- DATOS DE LA ASIGNATURA. Nombre de la asignatura: Probabilidad y Estadística. Carrera: Ingeniería en Materiales. Clave de la asignatura: MAM 0524

SESIÓN PRÁCTICA 7: REGRESION LINEAL SIMPLE PROBABILIDAD Y ESTADÍSTICA. PROF. Esther González Sánchez. Departamento de Informática y Sistemas

Tema 1. Modelo de diseño de experimentos (un factor)

Introducción a la estadística básica, el diseño de experimentos y la regresión

Anexo C. Introducción a las series de potencias. Series de potencias

Tema 5. Muestreo y distribuciones muestrales

Matrices y Determinantes.

RELACION DE PROBLEMAS DE GEOMETRIA. Problemas propuestos para la prueba de acceso del curso 1996/97.

( x) ( ) Modelos No Lineales. µ β β β

Tema 5: Sistemas de Ecuaciones Lineales

En este capítulo obtendremos los resultados básicos del cálculo diferencial para funciones reales definidas sobre R o sobre intervalos.

Antes de iniciar el tema se deben de tener los siguientes conocimientos básicos:

Práctica 3: Regresión simple con R

ÍNDICE CAPITULO UNO CAPITULO DOS. Pág.

Examen de Junio de 2011 (Común) con soluciones (Modelo )

4,2 + 0,67 Y c) R 2 = 0, En la estimación de un modelo de regresión lineal se ha obtenido:

TEMA 11. Autovalores y autovectores. Diagonalización y formas canónicas.

PROBABILIDAD Y ESTADÍSTICA. Sesión 5 (En esta sesión abracamos hasta tema 5.8)

1. Mínimos Cuadrados.

El modelo básico de regresión lineal múltiple esta dado por:

Estadística Inferencial

UNIVERSIDAD CARLOS III DE MADRID

4 Ecuaciones diferenciales de orden superior

ECONOMETRÍA II: ECONOMETRÍA DE SERIES TEMPORALES. Regresión con autocorrelación

Análisis Factorial: Análisis de componentes principales

Clase 9 Sistemas de ecuaciones no lineales

Econometría de Económicas

6.2. Transformaciones y diagramas de dispersión

ANÁLISIS DE REGRESIÓN

IES Fco Ayala de Granada Junio de 2011 (Específico 2 Modelo 1) Soluciones Germán-Jesús Rubio Luna

PRÁCTICA 11. VALORES ANÓMALOS OUTLIERS Y EFECTO CALENDARIO

Matrices. p ij = a ik b kj = a i1 b 1j + a i2 b 2j + + a in b nj.

REVISION DE CONCEPTOS BÁSICOS

Muestreo y Distribuciones muestrales. 51 SOLUCIONES

Estadistica II Tema 1. Inferencia sobre una población. Curso 2009/10

SOLUCION TALLER 1 SOLUCION PUNTO 1. - Función de producción cuadrática. Se espera que: >0 porque x2 es un insumo de producción

Herramientas digitales de auto-aprendizaje para Matemáticas

Medidas de asociación

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

IDENTIFICACIÓN DE SISTEMAS ESTIMACIÓN ESTOCÁSTICA

UNIVERSIDAD DE CIENCIAS EMPRESARIALES Y SOCIALES Facultad de Psicología y Ciencias Sociales. Licenciatura en Sociología. ESTADÍSTICA II (Plan 2008)

Mapa de caudales máximos

Propiedades en una muestra aleatoria

E.T.S. Minas: Métodos Matemáticos Ejercicios Tema 2 Aproximación e interpolación

Pruebas de Acceso a enseñanzas universitarias oficiales de grado Castilla y León

3. Resolver triángulos rectángulos utilizando las definiciones de las razones trigonométricas.

20. MODELOS EMPIRICOS

Relación entre variables: causalidad, correlación y regresión

CAPÍTULO 9 REGRESIÓN LINEAL

TRABAJO PRÁCTICO ESTADISTICA APLICADA (746)

Transcripción:

CAPÍTULO 4 TRANSFORMACIONES EN REGRESIÓN Edgar Acuña Fernández Departamento de Matemáticas Universidad de Puerto Rico Recinto Universitario de Mayagüez Edgar Acuña Analisis de Regresion 1

Transformaciones para linealizar modelos Consideremos por ahora solo modelos con una variable predictora. El obetivo es tratar de transformar las variables es aumentar la medida de auste R del modelo, sin incluir variables predictoras adicionales. Se recomienda hacer un plot para observar el tipo de tendencia. Edgar Acuña Analisis de Regresion

Transformaciones de la variable predictora y/o respuesta para linealizar varios modelos. Edgar Acuña Analisis de Regresion 3

Los modelos exponencial y doblemente logarítmico son válidos bao la suposición de que los errores son multiplicativos, esto se debe cotear haciendo análisis de residuales, si los logaritmos de los errores tiene una media de cero y varianza constante. Si los errores no son multiplicativos entonces deberían aplicarse técnicas de regresión no lineal. Edgar Acuña Analisis de Regresion 4

4. Transformaciones de las variables predictoras en regresión múltiple Supongamos que uno tiene una variable de respuesta Y y varias variables predictoras y desea hacer transformaciones en las variables predictoras para meorar la medida de auste del modelo. Del plot matricial se extrae las relaciones de y con cada una de las variables predictoras. Las transformaciones pueden ser afectadas por la colinealidad existente entre las variables predictoras. Edgar Acuña Analisis de Regresion 5

Modelo basado en series de taylor En 196, Box y Tidwell, propusieron un método para transformar las variables predictoras, usando solamente potencias de ellas. ellos consideraron el modelo: y = β + β w +... β w e α donde: w = x si α y w =ln(x ) si α. = El desarrollo de la serie de Taylor se hace con respecto a α = ( 1 k α,... α ) Luego se tiene o 1 1 k k + y alrededor de = ( k α1,,..., α, ) = Donde: γ = ( α ) β y para =1,.k. (1,...,1) Edgar Acuña Analisis de Regresion 6 α y β + β x + +... + γ z 1 1 z... + β k xk + γ 1z1 + γ z = x ln x k k

Procedimiento para la estimación de los α 1. Hacer la regresión lineal múltiple considerando las variables predictoras originales x y denotar los estimados de los coeficientes por b.. Hacer una regresión lineal múltiple de y versus las variables predictoras originales mas las variables z =x ln(x ) y denotar los estimados de los coeficientes de z por. γ ) 3. Estimar α por α = + 1 ) ) γ b Edgar Acuña Analisis de Regresion 7

Procedimiento para la estimación de los α El procedimiento se puede repetir varias veces usando en cada etapa las nuevas variables transformadas y la siguiente relación de recurrencia: ) α ( m+ 1) ) γ = ( b ( m) ( m) ) + 1) α ( m+ 1) ( m) El proceso termina cuando α α < TOL, donde TOL es la tolerancia su valor es muy cercano a cero. Sin embargo, muy a menudo un solo paso es suficiente. ( m) Edgar Acuña Analisis de Regresion 8

Técnica sugerida por Box and Tidwell aplicado al conunto de datos millae La regresión con las variables originales MPG = 19 -.156 VOL +.39 HP - 1.9 SP - 1.86 WT Predictor Coef SE Coef T P Constant 19.44 3.53 8.18. VOL -.1565.83 -.69.495 HP.391.8141 4.8. SP -1.948.448-5.9. WT -1.8598.134-8.7. R-Sq = 87.3% R-Sq(ad) = 86.7% Edgar Acuña Analisis de Regresion 9

continuación Creamos cuatro variables predictoras x 1 lnx 1, x lnx, x 3 lnx 3 y x 4 lnx 4. La regresión múltiple con las 8 variables predictoras es MPG = 148-1. VOL + 5.47 HP - 38.9 SP - 17.9 WT +.18 x1lnx1 -.81 xlnx + 6.36 x3lnx3 + 3.33 x4lnx4 Predictor Coef SE Coef T P Constant 148. 68.4 3.91. VOL -1.3.5916-1.69.94 HP 5.468 1.849.96.4 SP -38.85 11.81-3.9. WT -17.9 4.34-4.14. x1lnx1.183.186 1.66.11 xlnx -.86.744 -.9.5 x3lnx3 6.36 1.971 3.3. x4lnx4 3.363.8739 3.81. S = 3.47 R-Sq = 9.5% R-Sq(ad) = 89.5% Edgar Acuña Analisis de Regresion 1

continuación Estimando α segun el paso 3 se tiene α 1 =.183/(-.1565)+1=-1.5, α =86/.391)+1=-1.4, α 3 =(6.36)/(-1.948)+1=-3.91, α 4 =3.363/(-1.8598)+1=-.79. Asi la regresión con las nuevas variables vol -1.5, hp -1.4, sp -3.91 y wt -.79 es: MPG = -.98 + 1668 hp1 +1.843E+18-1.465E+8 sp1 + 33.9 wt1 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -.98e+ 4.4e+ -.5.64656 sp1-1.465e+8 4.698e+8 -.31.75597 wt1 3.39e+ 9.38e+1 3.548.665 *** vol1 1.843e+18 8.87e+17.88.48 * hp1 1.668e+3 8.78e+.65.435 * Residual standard error: 3.95 on 77 degrees of freedom Multiple R-Squared:.99, Adusted R-squared:.943 Se puede repetir el proceso, eliminando VOL antes de aplicar el método de Box and Tidwell Edgar Acuña Analisis de Regresion 11

Transformaciones para estabilizar la varianza. Edgar Acuña Analisis de Regresion 1

Justificación de las transformaciones Expandiendo en series de Taylor una función h(y) alredededor de μ=e(y) se obtiene: h( Y ) h( μ) + h'( μ)( Y μ) + h"( μ)( Y μ) / Tomando varianza a ambos lados y considerando solamente la aproximación lineal se obtiene: Var( h( Y )) [ h'( E( y))] Var( Y ) Eemplo: Si Var(Y) [E(y)] hallar h(y) tal que su varianza sea constante:[h (E(Y))] constante/[e(y)], luego, h (μ) 1/μ, de donde h(μ) log(μ). Edgar Acuña Analisis de Regresion 13

Transformaciones para meorar la normalidad de la variable de respuesta En 1964, Box y Cox introdueron una transformación de la variable de respuesta (transformación potencia) con el obetivo de satisfacer la suposición de normalidad del modelo de regresión. λ y la transformación está definida por w= λ si λ y w=ln(y) si λ=. Notar que: y λ lim = λ λ ln y Edgar Acuña Analisis de Regresion 14

Estimación del parámetro λ Se estima conuntamente con los coeficientes del modelo de regresión lineal múltiple usando el método de Máxima verosimilitud, w = β o + β1x1 +... β k xk + e La transformación estandarizada de los w s se define por w n i donde ~ 1/ n z = y = ( ~ y i λ i ) y i= 1 es la media geométrica de las y s. El método asume que para algún λ las z i s son normales e independientes con varianza común σ Edgar Acuña Analisis de Regresion 15

Función de verosimilitud en términos de las z i s La función de verosimilitud esta dada por : L( β, λ)] = e 1 σ ( z Xβ)'( z Xβ) (πσ ) n / Luego donde Así n n 1 max[ LnL( β, λ)] = ln(π ) ln( ˆ σ ) ˆ σ σ ˆ ( z = SSE / n = ( z Xβˆ)' ( z Xβˆ) / n max[ LnL( β, λ)] = n n n ln(π ) ln( ˆ σ ) Xβˆ)'( z Xβˆ) n ln( ˆ σ ) Edgar Acuña Analisis de Regresion 16

Procedimiento para estimar el parámetro λ 1. Seleccionar un conunto de valores de λ entre y, usualmente entre 1 y valores. Para cada valor de λ, austar el modelo z=xβ+e 3. Plotear max[ln L(β,λ)] versus λ. 4. Escoger como parámetro λ aquel que otorgue el mayor valor para max[ln L(β,λ)]. Edgar Acuña Analisis de Regresion 17

Mínimos cuadrados ponderados. Es otra manera de tratar de remediar la falta de homogeneidad de varianza de los errores. suponiendo que los errores son todavía no correlacionados. n Se minimiza i i i, donde w i representa i= 1 w ( y el peso asignado a la i-ésima observación. yˆ ) Edgar Acuña Analisis de Regresion 18

Cómo escoger los pesos? Si en el plot de, residuales versus la variable predictora se observa que la dispersión aumenta cuando x aumenta sería conveniente usar. 1 σ i Donde, son las varianzas poblacionales de la Y (estimadas por s ) para cada observación x i en caso de regresión lineal simple, o para cada combinación de las variables predictoras en el caso de regresión lineal múltiple. La idea de dar a las observaciones anómalas un menor peso. Tambien se pueden calcular los pesos basado en los diagnósticos de regresión. w i = σ i Edgar Acuña Analisis de Regresion 19

Edgar Acuña Analisis de Regresion Consideremos el modelo de regresión lineal múltiple con Var(e)=Vσ, donde V es una matríz diagonal Sea W=(V 1/ ) -1, luego Sea y*=wy, e*=we y X*=WX, luego y*=x*β + e* e Xβ y + = = 3 1......... k n k k k V We WXβ Wy + =

Algunas Propiedades La varianza de los errores es constante. Var(e*)=Var(We)=WVar(e)W =WVW σ =Iσ El estimador mínimo cuadrático de β es β* = (X*'X) X*'Y* = (X'V X'V Para el cual se tiene E(β*)=β Var(β*)= (X'V X) X'V Var( Y) V X(X'V X) = (X'V X) σ X) Y Edgar Acuña Analisis de Regresion 1

Mínimos Cuadrados generalizados Considera la situación más general donde: Los errores no tienen varianza constante y ademas son correlacionados. Sea el modelo de regresión lineal múltiple y = Xβ + e Supongamos que: Var(e)=Vσ donde V es una matriz simétrica y definida positiva. Sea T una matríz nosingular y simétrica tal que TT=T =V, luego se tiene T y = T Xβ + T Edgar Acuña Analisis de Regresion e

Mínimos Cuadrados generalizados Sea e*= T -1 e, Var(e*)=Var(T -1 e)=t -1 Var(e)T -1 =Iσ entonces el estimador mínimo cuadrático de β se obtiene minimizando luego e*'e* β* = = (Y (X'V Xβ)' V (Y Xβ) X) E(β*)=β Var(β*)= (X'V X) X'V Var( Y) V X(X'V X) = (X'V X) σ X'V Y Edgar Acuña Analisis de Regresion 3