ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL Msc. Lácides Baleta Octubre 16 Página 1 de 11
REGRESIÓN Y CORRELACIÓN LINEAL Son dos herramientas para investigar la dependencia de una variable dependiente Y en función de una variable independiente X. Y = f(x) Y = Variable dependiente que se desea explicar o predecir, también se llama regresor o respuesta X = Variable independiente, también se llama variable explicativa, regresor o predictor Regresión lineal - La relación entre X y Y se representa por medio de una línea recta Regresión curvilinea - La relación entre X y Y se representa por medio de una curva. Y * * ** * * * * * * * * * b1 * * * * * * * * * * * * * * b Correlación positiva Correlación negativa X Sin correlación La ecuación de la recta es la siguiente: Y= b + b X + e... Con. base. en. la. población Y = b * Y = b 1 + b X + e... Con. base. en. datos. de. la. muestra 1 + b X... Modelo. de. regresión. estimada 1 El término de error es la diferencia entre los valores reales observados Yi y los valores estimados por la ecuación de la recta. Se trata de que estos sean mínimos, para lo cual se utiliza el método de mínimos cuadrados. Página de 11
Y * Error = Re siduo = ( Yi -Yi * ) * X Se trata de minimizar la suma de todos los errores o residuos: Las fórmulas resultado de la minimización de lo cuadrados del error se aplicarán en el siguiente ejemplo por claridad. Se tienen los siguientes supuestos: 1. Los errores o residuos se distribuyen normalmente alrededor de la recta de regresión poblacional. Las varianzas de los errores son las mismas en todos los valores de X (Homoscedasticidad) en caso contrario se tiene (Heteroscedasticidad) 3. Los errores o residuos son independientes: No se muestra algun patrón definido. El coeficiente de Correlación r desarrollado por Carl Pearson es un indicador de la fuerza de la relación entre las variables X y Y, puede asumir valores entre -1 y 1 para correlación negativa y positiva perfecta respectivamente. Por ejemplo si se encuentra que la variable presión tiene una correlación positiva con el rendimiento de una caldera, se deben buscar soluciones al problema mediante acciones asociadas con la variable presión; de lo contrario, sería necesario buscar la solución por otro lado. Página 3 de 11
Se identifican tres medidas de desviación como sigue: Y Yest = 4.4 + 1.8 X Ymedia =17.87 Yi = 3 * Desviación no explicada Error = (Yi - Yest) = 1.3 Variación total (Yi-Ymedia)=5.13 Desviació explicada (Yest-Ymedia) = 3.81 X = 16 X Ejemplo: Se sospecha que el tiempo requerido para hacer un mantenimiento preventivo está relacionado con su número. Calcular el coeficiente de correlación y graficar. Los datos de tiempo tomados para n = 5 servicios se muestran a continuación: X Servicios Y Tiempo (Xi-X)*(Yi-Y) (Xi-X)^ (Yi-Y)^ Yest Error 9.95 119.7667 38.9376 364.1533 1.9199.948 8 4.45 1.9987.576 1.1 8.336 15.1 11 31.75 7.49947 7.6176 7.383 37.443 8.9 1 35. 1.57 3.976 35.675 34.1416.7369 8 5..9637.576 16.16 8.336 1.9969 4 16.86 51.6167 17.9776 148.1771 16.753.181 14.38 91.43347 38.9376 14.745 1.9199 11.971 9.6 11.667 38.9376 377.6337 1.9199 1.74 9 4.35-3.55898.5776 1.986 31.389 47.4563 8 7.5.36787.576.3495 8.336.6991 Página 4 de 11
4 17.8 5.67987 17.9776 14.8694 16.753.158 11 37. 1.98947 7.6176 63.4763 37.443. 1 41.95 48.56867 14.1376 166.8541 39.947 4.11 11.66 18.467 38.9376 31.814 1.9199.5477 4 1.65 31.337 17.9776 54.557 16.753 4.53 4 17.89 47.4547 17.9776 14.16 16.753 1.3564 69. 47.147 138.976 1,597.3771 63.1686 34.5 1 1.3 135.6547 5.4176 35.9178 8.17 5.111 1 34.93 1.3797 3.976 34.777 34.1416.616 15 46.59 118.68667 45.6976 38.553 48.6551 4.646 15 44.88 17.177 45.6976 51.1337 48.6551 14.51 16 54.1 194.67667 6.176 69.3676 51.5578 6.5649 17 56.63 41.75147 76.7376 761.654 54.465 4.768 6.13 15.467 5.176 47.6486.537.166 5 1.15 5.547 1.4976 6.1385 19.68.3164 6 75.8,7.713 698.56 6,15.9447.96 SX SY Sxy Sxx Syy = SST SSE X promedio Y Promedio S(Xi-X)*(Yi-Y) S(Xi-X)^ S(Yi-Y)^ Sxy Sxx Syy Si todos los puntos estuvieran completamente sobre la recta la ecuación lineal sería y = a + bx. Como la correlación no siempre es perfecta, se calculan a y b de tal forma que se minimice la distancia total entre puntos y la recta. Los cálculos tomando las sumas de cuadrados siguientes se muestran a continuación: Sxy = 7.71 Sxx = 698.56 Syy = 615.94 Las ecuaciones para el cálculo manual son las siguientes: Página 5 de 11
( Xi - X )( Yi -Y ) S b = = 1 XY 1 ˆb = =.97441 ( Xi - X ) S XX Yi - ˆ b1 X i b ˆ b = = Y - n ˆ bx = = 5.114515575 Las sumas de cuadrados son: SST = ( Yi -Y ) = 6,15.9447 ( Y - ˆ i Yi ) = ( Yi - ( bo + b1* X i )) = SSE =.96 SSR = SST - SSE = 5,885.851 El coeficiente de determinación r y el coeficiente de correlación r se calculan a continuación: SSE ( SST - SSE) r = 1- = = SST SST SSR SST =.9639 El coeficiente de determinación indica el porcentaje de la variación total que es explicada por la regresión. r = r =.9816 El coeficiente de correlación proporciona el nivel de ajuste que tienen los puntos a la línea recta indicando el nivel de influencia de una variable en la otra. El factor de correlación r es un número entre 1 (correlación negativa evidente) y +1 (correlación positiva evidente), y r = indicaría correlación nula. El coeficiente de correlación r =.98 por lo cual tenemos suficiente evidencia estadística para afirmar que el tiempo de atención esta relacionado con el número de servicios atendidos. Página 6 de 11
USO DE EXCEL 1. En el menú Herramientas seleccione la opción Análisis de datos. Datos de ejemplo 6.. Seleccione la opción Regresión. 3. Seleccione el rango de entrada, estos corresponden a los datos numéricos de la tabla. 4. Seleccione Resumen de estadísticas. 5. En opciones de salida seleccione en Rango de salida, una celda de la hoja de calculo que este en blanco ( a partir de está celda serán insertados los resultados). Resumen Estadísticas de la regresión Coeficiente de correlación múltiple.981811778 Coeficiente de determinación R^.963954368 R^ ajustado.96387167 Error típico 3.9341967 Observaciones 5 ANÁLISIS DE VARIANZA Suma de Promedio de Grados de libertad Cuadrados cuadrados F Valor crítico de F Regresión 1 5885.8569 5885.8569 615.8898 4.4118E-18 Residuos 3.96348 9.5694499 Total 4 615.94474 Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Intercepción 5.114515575 1.1458417 4.4636914.17715.74439161 XServicios.97441.1174719 4.8885 4.4118E-18.6658749 Página 7 de 11
Y Tiempo REGRESIÓN Y CORRELACIÓN LINEAL X Servicios Curva de regresión ajustada 8. 7. 6. 5. 4. 3.. 1.. 5 1 15 5 X Servicios Y Tiempo Pronóstico Y Tiempo Lineal (Pronóstico Y Tiempo) En la gráfica observamos que al aumentar el número de servicios el tiempo de atención aumenta. USO DE MINITAB Para determinar la función de regresión y correlación en Minitab se siguen los pasos siguientes (después de cargar los datos correspondientes a X y a Y en las columnas C1 y C): Stat >Regresión... Indicar la columna de Respuestas Y y la de predictores X y aceptar con OK. Observar el valor del coeficiente de correlación y de determinación. Para obtener la línea de mejor ajuste de la regresión, se procede como sigue en Minitab: Stat >Fitted Line Plot... Indicar la columna de Respuestas Y y la de predictores X, seleccionar si se quiere ajustar con los datos con una línea, una función cuadrática o cúbica y aceptar con OK. Observar el mayor valor del coeficiente de correlación que indica el mejor ajuste. En Options: seleccionar Display Confidence (para media en X) y Prediction Intervals para X. En Graphs: Seleccionar Residual for plots Standardized y Normal Plot of residuals La gráfica de residuos debe apegarse a la recta y tener siempre un valor P value >.5. Página 8 de 11
Y Tiempo REGRESIÓN Y CORRELACIÓN LINEAL Fitted Line Plot Y Tiempo = 5.115 +.93 X Servicios 7 6 5 Regression 95% CI 95% PI S 3.934 R-Sq 96.4% R-Sq(adj) 96.% 4 3 1 5 1 X Servicios 15 Regression Analysis: Y Tiempo versus X Servicios The regression equation is Y Tiempo = 5.115 +.93 X Servicios S = 3.934 R-Sq = 96.4% R-Sq(adj) = 96.% Analysis of Variance Source DF SS MS F P Regression 1 5885.85 5885.85 615.8. Error 3.9 9.57 Total 4 615.94 La regresión tiene una r^ de 96.4% y la influencia de una variable X en Y es significativo. Los intervalos de confianza para la media y el intervalo de predicción para un punto específico X son los siguientes: Sy = Se 1 ( Xi - X ) + n SCx IC. para. m y! x = Y est ± tsy * 1 ( Xi - X ) Syi = Se 1 + + n SCx * IP. para. Yx = Y est ± tsyi Página 9 de 11
EJERCICIOS: 1. La energia consumida en un proceso depende del ajuste de máquinas que se realice, realizar una regresión cuadrática con los datos siguientes y responder las preguntas. Ajuste Cons_energía Máq. Y X 1.6 11.15 4 15.7 1.8 18.9 1 19.4 1 1.4.8 1.7 3.8 5.3 7.4 6.4 4.3 6.7 36. 9.1 a) Trazar un diagrama de dispersión b) Obtener la ecuación de regresión lineal y cuadrática y comparar c) Estimar el consumo de energía para un ajuste de máquina de con regresión cuadrática d) Obtener los intervalos de predicción y de confianza para un ajuste de máquina de e) Obtener el coeficiente de correlación y de determinación. En base al porcentaje de puntualidad se trata de ver si hay correlación con las quejas en una línea aérea. Las quejas son por cada 1 pasajeros. %puntos Quejas Aerolinea X Y A 81.8.1 Página 1 de 11
B 76.6.58 C 76.6.85 D 75.7.68 E 73.8.74 F 7..93 G 7.8.7 H 68.5 1. a) Trazar un diagrama de dispersión b) Obtener la ecuación de regresión lineal c) Estimar las quejas para un porcentaje de puntualidad de 8% d) Obtener los interalos de predicción y de confianza para una altura de 63" e) Obtener el coeficiente de correlación y de detemrinación Página 11 de 11