Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Regresión lineal Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística Universidad Católica del Maule Facultad de Ciencias Básicas Pedagogía en Matemática Estadística I 01 de enero de 2012 mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 1 / 31

Introducción Comúnmente, cuando se realiza un estudio estadístico, se miden a una misma unidad de análisis, más de una variable. Definición (Variable Dependiente) Es la variable por predecir (o por modelar) y se denota con la letra Y. Definición (Variable Independiente) Son las variables que se utilizan para predecir y se denota con la letra X. Definición (Relación entre variables) Se dice que dos variables están relacionadas, si cambios producidos (causa) en la variable independiente producen un efecto en la variable dependiente. mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 2 / 31

Relación entre las variables Definición (Covarianza) La covarianza entre dos variables cuantitativas, nos indica si la posible relación entre dos variables es directa o inversa. La covarianza muestral se calcula de la siguiente manera: cov xy = n (x i x)(y i y) i=1 n 1 = S xy n 1 Si la covarianza es negativa, entonces la relación es inversa. Si la covarianza es positiva, entonces la relación es directa. Si la covarianza es cero, entonces la relación es nula (no relacionados). El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables. mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 3 / 31

Relación entre las variables Ejemplo Considere un estudio donde se mide el ingreso mensual (X) y el gastos mensual (Y ). Se considera una muestra de 10 individuos, los datos son: Ingreso (x i) Gasto (y i) (x i x) (y i y) (x i x)(x i x) 15,6 17,4 2,05 0,75 1,5375 14,8 18,4 1,25 1,75 2,1875 15,5 16,5 1,95-0,15-0,2925 12,5 15,2-1,05-1,45 1,5225 14,2 19,9 0,65 3,25 2,1125 15,7 22,1 2,15 5,45 11,7175 12,3 14,8-1,25-1,85 2,3125 14,2 17,3 0,65 0,65 0,4225 8,8 10,3-4,75-6,35 30,1625 11,9 14,6-1,65-2,05 3,3825 Promedio 13,55 16,65 Suma 55,065 La covarianza sería cov xy = 55,065 9 = 6, 118. Lo que indica es que el Ingreso y el Gasto están relacionados, de forma directa (a medida que aumenta el Ingreso aumenta el gasto). mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 4 / 31

Grado de relación entre las variables Coeficiente de correlación de Pearson Definición (Correlación) El coeficiente de correlación de Pearson, indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores de la otra. r = n (x i x)(y i y) i=1 n (x i x) 2 i=1 = n (y i y) 2 i=1 S xy Sxx S yy mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 5 / 31

Grado de relación entre las variables Coeficiente de correlación de Pearson Indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). Es útil para determinar si hay relación lineal (ŷ = β 0 + β 1 x) entre dos variables. Tiene el mismo signo que Cov xy. La diferencia radica en que r está acotado en [ 1, 1]. Si está cercana a -1, indica que las variables están relacionadas en forma inversa, si está cercana a +1, la relación es directa y si está cercana a 0, las variables no están relacionadas. Cuanto más cerca esté r de 1 o +1 mejor será el grado de relación lineal. Siempre que no existan observaciones atípicas. mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 6 / 31

Grado de relación entre las variables Coeficiente de correlación de Pearson Ejemplo Con los datos anteriores, calcule e interprete la correlación. Ingreso (x i) Gasto (y i) (x i x) 2 (y i y) 2 15,6 17,4 4,2025 0,5625 14,8 18,4 1,5625 3,0625 15,5 16,5 3,8025 0,0225 12,5 15,2 1,1025 2,1025 14,2 19,9 0,4225 10,5625 15,7 22,1 4,6225 29,7025 12,3 14,8 1,5625 3,4225 14,2 17,3 0,4225 0,4225 8,8 10,3 22,5625 40,3225 11,9 14,6 2,7225 4,2025 Promedio 13,55 16,65 Suma 42,985 94,385 55,065 La correlación sería r = 42,985 94,385 = 0, 865. Lo que indica es que el Ingreso y Gasto están relacionados, de forma directa casi perfecta (r cercana a 1). mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 7 / 31

Grado de relación entre las variables Prueba de hipótesis para probar si la correlación es significativa en SPSS mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 8 / 31

Regresión Lineal Simple Introducción (Regresión Lineal Simple) El término regresión fue introducido por Galton en su libro Natural inheritance (1889) refiriéndose a la ley de la regresión universal. Se supone que se tiene una muestra (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) correspondiente a la observación conjunta de las variables X e Y. El objetivo será encontrar una relación entre ambas variables, esta relación podría estar dada por una recta (ecuación de regresión: ŷ = β 0 + β 1 x). mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 11 / 31

Regresión Lineal Simple Diagrama de dispersión En un diagrama de dispersión, cada unidad de análisis es un punto cuyas coordenadas son los valores de las variables. 22,0 R 2 Lineal = 0,747 20,0 18,0 Gasto 16,0 14,0 12,0 10,0 8,00 10,00 12,00 Ingreso 14,00 16,00 El error aleatorio; ɛ son las desviaciones de los verdaderos valores de Y con respecto a los valores estimados ŷ (recta). mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 12 / 31

Regresión Lineal Simple La ecuación de regresión La ecuación de predicción esperada está dada por ŷ = β 0 + β 1 x. Donde, las estimaciones de los parámetros β 1 y β 0 son: β 1 = S xy S xx ; y β0 = y β 1 x Intercepto ( β 0 ): es la estimación de y cuando x = 0. Pendiente ( β 1 ): es la estimación de la pendiente de la recta (magnitud del incremento (o decremento) de y por cada unidad de incremento en x.) Además, se define el coeficiente de determinación r 2, como el porcentaje de la variabilidad total que explica el modelo. mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 13 / 31

Regresión Lineal Simple La ecuación de regresión Ejemplo Considerando los datos del problema anterior, encuentre la ecuación de regresión entre el Ingreso y el Gasto. La ecuación de predicción esperada está dada por ŷ = β 0 + β 1 x, Ĝasto = β 0 + β 1 Ingreso, Donde, las estimaciones de los parámetros β 1 y β 0 son: β 1 = 55, 065 42, 985 = 1, 281; y β0 = 16, 65 1, 281 13, 55 = 0, 708. mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 14 / 31

Regresión Lineal Simple La ecuación de regresión Ejemplo Entonces, la ecuación sería: Ĝasto = 0, 708 + 1, 281 Ingreso, Pendiente: Por cada unidad monetaria que se incrementa el Ingreso, el gasto se incrementa en 1,281. Intercepto: Un individuo con un ingreso muy pequeño (0), se estima que su Gasto será de -0,708. En este caso no tiene sentido. Esta recta, puede servir para predecir, suponga que tiene un individuo con un ingreso de 8, entonces se estima que su Gasto sería de Ĝasto = 0, 708 + 1, 281 8 = 9, 54. Además el porcentaje de la variabilidad total que explica el modelo es de 74,7% (r 2 = 0, 865 2 = 0, 747). mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 15 / 31

Regresión Lineal Simple Regresión Lineal Simple en SPSS mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 16 / 31

Regresión Estimación curvilínea: Modelo Exponencial Un modelo de regresión se dice que es exponencial si ŷ = β 0 exp[ β Variable dependiente:volumen 1 x] Por ejemplo, considere el problemaexponencial donde se mide,001 el Ingreso=X,266 y el La variable independiente esdap. Impuesto=Y. Ingreso=X Impuestos=Y 16,9,117 8,9,025 17,7,131 2,1,001 11,5,037 19,9,198 6,2,012 17,1,127 14,7,089 18,6,167 Ecuación 0,200 0,150 0,100 0,050 0,000 0,0 Estimaciones de los parámetros Constante 5,0 Resumen del modelo y estimaciones de los parámetros b1 10,0 DAP Volumen mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 19 / 31 15,0 20,0

Regresión Estimación curvilínea: Modelo Exponencial (Modelo exponencial) El modelo exponencial, se puede solucionar mediante una regresión lineal simple. Aplicar el logaritmo natural a la ecuación ŷ = β 0 exp[ β 1 x]. Tendríamos w = ln[ŷ] = ln[ β 0 ] + β 1 x. Encuentre la ecuación de regresión lineal simple entre X y W. Luego se debe aplicar la exponencial a w para despejar ŷ. mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 20 / 31

Regresión Estimación curvilínea: Modelo Exponencial Ejemplo Para los datos de Ingreso= X y Impuestos= Y, encuentre la ecuación de regresión ŷ = β 0 exp[ β 1 x]. Considere lo siguiente: Ingreso=X Impuesto=Y W = ln[y ] 16,9 0,117-2,1456 8,9 0,025-3,6889 17,7 0,131-2,0326 2,1 0,001-6,9078 11,5 0,037-3,2968 19,9 0,198-1,6195 6,2 0,012-4,4228 17,1 0,127-2,0636 14,7 0,089-2,4191 18,6 0,167-1,7898 La ecuación de regresión entre X y W es w = 6, 588 + 0, 266x. Además el r 2 xw = 0, 934. Aplicando la exponencial y considerando que w = ln[ŷ], tenemos ŷ = exp[ 6, 588] exp[0, 266x] ŷ = 0, 001 exp[0, 266x]. mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 21 / 31

Regresión Estimación curvilínea: Modelo Exponencial Ejemplo También podemos encontrar la ecuación de regresión lineal simple entre X e Y. La cual sería, ŷ = 0, 055 + 0, 011x, con r 2 xy = 0, 890. El modelo exponencial es ŷ = 0, 001 exp[0, 266x], con r 2 xw = 0, 934. En los datos existe un árbol con Ingreso= 14, 7 y Impuesto= 0, 089. Si utilizamos estos dos modelos para predecir el impuesto de un individuos con un ingreso de 14,7, tenemos Con el modelo de regresión lineal simple: ŷ = 0, 055 + 0, 011 14, 7 = 0, 105. Con el modelo exponencial: ŷ = 0, 001 exp[0, 266 14, 7] = 0, 068. Ambas estimaciones del impuesto están cercanas a 0, 089, pero la del modelo exponencial (0,068), está más cercana. Además, el r 2 del modelo exponencial está más cercano al 100%. En conclusión, entre estos dos modelos el mejor es el exponencial. mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 22 / 31

Regresión Estimación curvilínea: Algunos modelos clásicos Modelo Ecuación Comentario Lineal ŷ = β 0 + β 1 x Este modelo ya se analizó con todo detalle. Logarítmico ŷ = β 0 + β 1 ln[x] Calcule T = ln[x], encuentre la ecuación de regresión lineal entre T e Y. Luego, en la ecuación ŷ = β 0 + β 1 t, reemplace t por ln[x]. Inverso ŷ = β 0 + β 1 1 x Calcule T = 1 X, encuentre la ecuación de regresión lineal entre T e Y. Luego, en la ecuación ŷ = β 0 + β 1 t, reemplace t por 1 x. Cuadrático ŷ = β 0 + β 1 x + β 2 x 2 Calcule X 2 y realice una regresión múltiple. Cúbico ŷ = β 0 + β 1 x + β 2 x 2 + β 3 x 3 Calcule X 2, X 3 y realice una regresión múltiple. Potencia Calcule T = ln[x], W = ln[y ]. Encuentre la ecuación de regresión entre ŷ = β 0 x β1 T y W. En la ecuación w = b + m t, reemplace t = ln[x] y w = ln[ŷ]. Luego despeje ŷ. Entonces, los parámetros serían β 0 = exp[b] y β 1 = m. Compuesto Calcule W = ln[y ]. Encuentre la ecuación de regresión entre X y W. ŷ = β 0 β x 1 En la ecuación w = b + m x, reemplace w = ln[ŷ]. Luego despeje ŷ. Entonces, los parámetros serían β 0 = exp[b] y β 1 = exp[m]. G [ ] Calcule T = 1 X, W = ln[y ]. Encuentre la ecuación de regresión entre ŷ = exp β 0 + β 1 1 x T y W. En la ecuación w = b + m t, reemplace t = 1 x y w = ln[ŷ]. Luego despeje ŷ. Entonces, los parámetros serían β 0 = b y β 1 = m. Logística 1 ŷ = (β 0 + β 1 β2 x) Solución por sistemas no lineales. Ingresar n máx. de iteraciones, usar 1000. Crecimiento Calcule W = ln[y ]. Encuentre la ecuación de regresión entre X y W. ŷ = exp[ β 0 + β 1 x] En la ecuación w = b + m x, reemplace w = ln[y]. Luego despeje ŷ. Entonces, los parámetros serían β 0 = b y β 1 = m. Exponencial ŷ = β 0 exp[ β 1 x] Este modelo ya se analizó con todo detalle. mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 23 / 31

Regresión Estimación curvilínea: Modelo Exponencial en SPSS mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 24 / 31

Regresión Estimación curvilínea: Modelo Exponencial en SPSS Variable dependiente:impuestos Resumen del modelo y estimaciones de los parámetros Resumen del modelo Estimaciones de los parámetros Ecuación R cuadrado F gl1 gl2 Sig. Constante b1 Lineal,890 64,951 1 8,000 -,055,011 Exponencial,934 112,799 1 8,000,001,266 La variable independiente esingreso. Impuestos,200 Observado Lineal Exponencial,150,100,050,000,0 5,0 10,0 15,0 20,0 Ingreso mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 27 / 31

Regresión Lineal Múltiple Introducción Índice de sitio 28,0 26,0 24,0 22,0 20,0 18,0 1,20 1,25 1,30 1,35 Densidad 1,40 1,45 1,50 Arena 50,0 45,0 40,0 35,0 30,0 Técnica de dependencia que puede utilizarse para analizar la relación entre una única variable dependiente (Y ) y varias variables independientes x 1, x 2,..., x k. Cada variable independiente es ponderada (β j ), de forma que las ponderaciones indican su contribución relativa a la predicción conjunta. El objetivo es usar las variables independientes cuyos valores son conocidos para predecir la única variable dependiente seleccionada por el investigador. N G LISTWISE mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 28 / 31

Ejemplo de problema de Regresión Lineal Múltiple En un estudio se desea saber cuales son los factores que influyen en la asistencia al Psicólogo, por problemas de aprendizaje. Para este objetivo se mide el número de veces que asiste la familia en el año (y), el tamaño de la familia (x 1 ) y la renta familiar (x 2 ). Se seleccionan 8 familias y los datos se entregan a continuación : Familia Asistencia (y) Tamaño (x 1) Renta (x 2) 1 4 2 14 2 5 2 16 3 6 4 14 4 7 4 17 5 8 5 18 6 7 5 21 7 8 6 17 8 10 6 25 El objetivo es encontrar una función que relacione: Asistencia = β 0 + β 1 Tamaño + β 2 Renta + Error. Bastaría sólo tener una estimación de β 0, β 1, y β 2 para tener definida por completo la función anterior. mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 29 / 31

Regresión Lineal Múltiple El modelo lineal general El modelo de regresión lineal sería Donde Y = y 1 y 2. y n y i = β 0 + β 1 x i1 + β 2 x i2,..., β k x ik + ε i. 1 x 11 x 12... x 1n, X = 1 x 21 x 22... x 2k...., β = 1 x n1 x n2... x nk β 0 β 1. β k, ε = β j, son los parámetros desconocidos, j = 1,..., k. El n total de parámetros es p = k + 1. ε i es el i ésimo error aleatorio asociado con y i, i = 1,..., n. El objetivo es estimar β j, a esta estimación la llamaremos β j. La estimación se los parámetros sería β = (X T X) 1 X T Y. Entonces el modelo estimado sería ŷ i = β 0 + β 1 x i1 + β 2 x i2,..., β k x ik. ε 1 ε 2. ε n, mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 30 / 31

Regresión Lineal Múltiple Ejemplo de estimación de los parámetros. Identificando las matrices y vectores, tenemos Y = 4 5. 10 1 2 14, X = 1 2 16..., β = (X T X) 1 X T Y = 1 6 25 0, 188 0, 814, 0, 182 Entonces un modelo, estimado, para predecir el número de Asistencias sería: Equivalentemente, Asistencia = 0, 188 + 0, 814 Tamaño + 0, 182 Renta ŷ = 0, 188 + 0, 814 x 1 + 0, 182 x 2 Si los parámetros β j son muy cercanos a 0, las variables x i no estarían influenciando en el modelo en la predicción de y. mrodriguez@ucm.cl (UCM) http://bit.ly/mrodriguez 01/01/2012 31 / 31