Definición de Correlación En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entre dos variables aleatorias: Estudiar cómo influye la estatura del padre sobre la estatura del hijo. Estudiar cómo influyen los gastos de promoción y publicidad en el volumen de facturación de una empresa. Estimar el precio de una vivienda en función de su superficie. Un modelo de regresión es un modelo que permite describir cómo influye una variable X sobre otra variable Y X: Variable independiente o explicativa o exógena Y: Variable dependiente o respuesta o endógena El objetivo es obtener estimaciones razonables de Y para distintos valores de X a partir de una muestra de n pares de valores (x 1, y 1 ),..., (x n, y n ). Universidad del Cauca 1
En particular, nos interesa cuantificar la intensidad de la relación lineal entre dos variables. El parámetro que nos da tal cuantificación es el coeficiente de correlación lineal de Pearson r, cuyo valor oscila entre -1 y +1 Universidad del Cauca 2
Como se observa en los diagramas anteriores, el valor de r se aproxima a +1 cuando la correlación tiende a ser lineal directa (mayores valores de X significan mayores valores de Y), y se aproxima a 1 cuando la correlación tiende a ser lineal inversa. Es importante notar que: La existencia de correlación entre variables NO IMPLICA causalidad. Atención!: el que ocurra r = 0 sólo nos dice que no hay correlación lineal, pero puede que la haya de otro tipo. El siguiente diagrama resume el análisis del coeficiente de correlación entre dos variables: Universidad del Cauca 3
REGRESION LINEAL SIMPLE Qué buscamos? La ecuación de la recta que mejor se ajuste a la nube de puntos (recta de mínimos cuadrados). Uno de los principales usos de dicha recta será el de predecir o estimar los valores de Y que obtendríamos para distintos valores de X. Estos conceptos quedarán representados en lo que llamamos diagrama de dispersión: Universidad del Cauca 4
REGRESION LINEAL SIMPLE La diferencia entre cada valor Y i estimación Ŷ i se llama residuo: de la variable respuesta y su El modelo pretende dar el valor mínimo posible para cada e i Universidad del Cauca 5
REGRESION LINEAL SIMPLE El procedimiento es el siguiente: Dados este conjunto de valores, en donde solo hay una variable independiente X Y 1 0,5 2 2,5 3 2,0 4 4,0 5 3,5 6 6,0 7 5,5 Para estimar los coeficientes (DE LA RECTA) por medio de mínimos cuadrados, se utilizan las siguientes fórmulas: Universidad del Cauca 6
REGRESION LINEAL SIMPLE Por lo tanto, el ajuste con mínimos cuadrados es (la ecuación de la recta): y = 0.07142857143 + 0.8392857143x Universidad del Cauca 7
REGRESION LINEAL SIMPLE Cuantificación del error en la regresión lineal Lo primero que debemos hacer es calcular la Desviación Estándar Total Sy = St n - 1 Donde St es la suma total de los cuadrados de las restas entre cada uno de los puntos y la media, esto es: St = (yi y) 2 Sy = 22.714285714 7-1 = 1.94569121 Universidad del Cauca 8
REGRESION LINEAL SIMPLE Y el error estándar de la aproximación es : Sy/x = Sr n - 2 Donde Sr = (yi bo (b1*xi)) 2 B0 B1 y = 0.0714285714 + 0.8392857143x Sy/x = 2.991071429 7-2 = 0.773443137 Como Sy/x < Sy la aproximación se considera aceptable Universidad del Cauca 9
Finalmente: St suma total de los cuadrados de las restas entre cada uno de los puntos y la media Sr suma de los cuadrados de las restas alrededor de la línea de regresión La diferencia entre esas 2 cantidades, o St Sr, cuantifica la mejora en la reducción del error debido al modelo de la línea recta. Esta diferencia se puede normalizar al error total y obtener: 2 St - Sr r = St En donde r es el coeficiente de correlación y r 2 es el coeficiente de determinación Para un ajuste perfecto, Sr = 0 y = 1, indicando que la línea recta explica el 100% de la variabilidad. Si r 2 = 0, entonces el ajuste no representa mejorías. Para el ejemplo que venimos tratando: 22.714285714-2.991071429 r 2 = = 0.86831761 r = 0.931835613 22.714285714 2 r = REGRESION LINEAL SIMPLE El resultado indica que el 86.83% de la incertidumbre original se ha explicado mediante el modelo lineal. Universidad del Cauca 10
A tener en cuenta. REGRESION LINEAL SIMPLE El modelo de regresión lineal simple se basa en las siguientes hipótesis: Linealidad: La relación entre X e Y es (o tiende a ser) lineal. Homogeneidad: El valor promedio del error es cero. Homocedasticidad: La varianza de los errores es constante. Independencia: Las observaciones son independientes. Normalidad: Los errores siguen una distribución normal. Universidad del Cauca 11
Universidad del Cauca 12
Universidad del Cauca 13
--------------FIN DEL DOCUMENTO Universidad del Cauca 14