ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

Documentos relacionados
ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Método de cuadrados mínimos

ANÁLISIS DE REGRESIÓN

Multiple Linear Regression

Teoría de la decisión

Técnicas Cuantitativas para el Management y los Negocios

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

REGRESIÓN LINEAL SIMPLE

ANÁLISIS DE REGRESIÓN N LINEAL

La línea recta: Serie1

4.1 Análisis bivariado de asociaciones

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Doc. Juan Morales Romero

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

UNIDAD Nº4. Ejemplo.- Dados los Gastos de publicidad en los meses enero a julio, los cuales generan los sgts. Ingresos:

Tema 3: Análisis de datos bivariantes

Análisis de Regresión y Correlación con MINITAB

Definición de Correlación

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

ESTADÍSTICA. Tema 4 Regresión lineal simple

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

CAPÍTULO IV. DESARROLLO DE LA INVESTIGACIÓN. presente capítulo. A continuación se procederá a escribir la metodología y a describir el

Ajuste por mínimos cuadrados

Coeficiente de Correlación

Tema 4. Regresión lineal simple

TEMA 4 CUESTIONARIO DE AUTOEVALUACIÓN

peso edad grasas Regresión lineal simple Los datos

7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL. Jorge Eduardo Ortiz Triviño

Multiple Linear Regression

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Análisis de Regresión

Tema 2: Estadística Bivariante Unidad 1: Correlación y Regresión

CORRELACION Y REGRESIÓN LINEAL

UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE CIENCIAS NATURALES Y MUSEO CÁTEDRA DE ESTADÍSTICA CLASE ESPECIAL. Tema:

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES

PRÁCTICA 3. REGRESIÓN LINEAL SIMPLE CON SPSS Ajuste de un modelo de regresión lineal simple Porcentaje de variabilidad explicado

Lección 3. Análisis conjunto de dos variables

Un modelo para representar una relación aproximadamente

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

Métodos Estadísticos Multivariados

3. RELACION ENTRE DOS CONJUNTOS DE DATOS.

ECONOMETRÍA I. Tema 2: El Modelo de Regresión Lineal Simple. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía

Estadística Descriptiva Bivariante con STATGRAPHICS -Dependencia lineal y Regresión-

4. Regresión Lineal Simple

INTRODUCCIÓN A REGRESIÓN LINEAL. Simple y Múltiple

Tercera práctica de REGRESIÓN.

Aplicación del Análisis de la Varianza para estudiar el tiempo de acceso en las aulas informáticas

Tema 2. Regresión Lineal

CORRELACIÓN Y REGRESIÓN. Juan José Hernández Ocaña

1. Metodología de respuesta

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

TEMA 4 Modelo de regresión múltiple

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

T2. El modelo lineal simple

Tema 10: Introducción a los problemas de Asociación y Correlación

Prueba de Hipótesis. Para dos muestras

Lucila Finkel Temario

Viernes 7 de octubre de 2005 Mate 3026 Estadística con Programación Prof. José N. Díaz Caraballo

Curso de nivelación Estadística y Matemática

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Tema 8: Regresión y Correlación

Tema 2: Análisis de datos bivariantes

Curs de Modelització Estadística Bàsica amb Deducer. Anabel Blasco Ana Vázquez Anna Espinal Llorenç Badiella Oliver Valero

Regresión: implica la obtención de una ecuación mediante la que podamos estimar el valor medio de una variable.

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

Métodos Estadísticos de la Ingeniería 2º I.T.I. Electricidad Curso 2010/2011 PRÁCTICA 2 ESTUDIOS DESCRIPTIVOS BIDIMENSIONALES

Métodos de Investigación en Psicología (11) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

Capitulo. Describir la relación entre dos variables Pearson Prentice Hall. All rights reserved

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

El ejemplo: Una encuesta de opinión

Análisis Probit. StatFolio de Ejemplo: probit.sgp

Distribuciones Bidimensionales.

Regresión y Correlación

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

INDICE. Prólogo a la Segunda Edición

Universidad de Salamanca - Escuela de Educación y Turismo

Relación funcional Dos variables x e y están relacionadas funcionalmente cuando conocida la primera se

Prácticas Tema 2: El modelo lineal simple

Práctica 3: Regresión simple con R

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Estadís5ca. María Dolores Frías Domínguez Jesús Fernández Fernández Carmen María Sordo. Tema 2. Modelos de regresión

Práctica 5. Modelos empíricos a partir de datos experimentales

Estadís6ca y Métodos Numéricos Tema 6. Modelos de Regresión

Análisis de Regresión

Análisis de diferentes representaciones en la regresión lineal simple

3 Regresión y correlación lineales

1 JESTADIS\REGRES.DOC

Estadística Inferencial. Sesión No. 9 Regresión y correlación lineal

EXTENSIONES DEL MODELO DE REGRESIÓN

PROBABILIDAD Y ESTADÍSTICA. Sesión 4 4. REGRESIÓN Y CORRELACIÓN SIMPLE

USO HERRAMIENTAS EXCEL PARA LA PREDICCION

CORRELACIÓN LINEAL SIMPLE

10 Modelo de regresión lineal

5. Regresión Lineal Múltiple

Análisis de Componentes de la Varianza

Regresión en Cadena. StatFolio de Ejemplo: ridge reg.sgp

ANALISIS DE LA ESTATURA

AJUSTE PLANTEAMIENTO DEL PROBLEMA

Transcripción:

ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL Msc. Lácides Baleta Octubre 16 Página 1 de 11

REGRESIÓN Y CORRELACIÓN LINEAL Son dos herramientas para investigar la dependencia de una variable dependiente Y en función de una variable independiente X. Y = f(x) Y = Variable dependiente que se desea explicar o predecir, también se llama regresor o respuesta X = Variable independiente, también se llama variable explicativa, regresor o predictor Regresión lineal - La relación entre X y Y se representa por medio de una línea recta Regresión curvilinea - La relación entre X y Y se representa por medio de una curva. Y * * ** * * * * * * * * * b1 * * * * * * * * * * * * * * b Correlación positiva Correlación negativa X Sin correlación La ecuación de la recta es la siguiente: Y= b + b X + e... Con. base. en. la. población Y = b * Y = b 1 + b X + e... Con. base. en. datos. de. la. muestra 1 + b X... Modelo. de. regresión. estimada 1 El término de error es la diferencia entre los valores reales observados Yi y los valores estimados por la ecuación de la recta. Se trata de que estos sean mínimos, para lo cual se utiliza el método de mínimos cuadrados. Página de 11

Y * Error = Re siduo = ( Yi -Yi * ) * X Se trata de minimizar la suma de todos los errores o residuos: Las fórmulas resultado de la minimización de lo cuadrados del error se aplicarán en el siguiente ejemplo por claridad. Se tienen los siguientes supuestos: 1. Los errores o residuos se distribuyen normalmente alrededor de la recta de regresión poblacional. Las varianzas de los errores son las mismas en todos los valores de X (Homoscedasticidad) en caso contrario se tiene (Heteroscedasticidad) 3. Los errores o residuos son independientes: No se muestra algun patrón definido. El coeficiente de Correlación r desarrollado por Carl Pearson es un indicador de la fuerza de la relación entre las variables X y Y, puede asumir valores entre -1 y 1 para correlación negativa y positiva perfecta respectivamente. Por ejemplo si se encuentra que la variable presión tiene una correlación positiva con el rendimiento de una caldera, se deben buscar soluciones al problema mediante acciones asociadas con la variable presión; de lo contrario, sería necesario buscar la solución por otro lado. Página 3 de 11

Se identifican tres medidas de desviación como sigue: Y Yest = 4.4 + 1.8 X Ymedia =17.87 Yi = 3 * Desviación no explicada Error = (Yi - Yest) = 1.3 Variación total (Yi-Ymedia)=5.13 Desviació explicada (Yest-Ymedia) = 3.81 X = 16 X Ejemplo: Se sospecha que el tiempo requerido para hacer un mantenimiento preventivo está relacionado con su número. Calcular el coeficiente de correlación y graficar. Los datos de tiempo tomados para n = 5 servicios se muestran a continuación: X Servicios Y Tiempo (Xi-X)*(Yi-Y) (Xi-X)^ (Yi-Y)^ Yest Error 9.95 119.7667 38.9376 364.1533 1.9199.948 8 4.45 1.9987.576 1.1 8.336 15.1 11 31.75 7.49947 7.6176 7.383 37.443 8.9 1 35. 1.57 3.976 35.675 34.1416.7369 8 5..9637.576 16.16 8.336 1.9969 4 16.86 51.6167 17.9776 148.1771 16.753.181 14.38 91.43347 38.9376 14.745 1.9199 11.971 9.6 11.667 38.9376 377.6337 1.9199 1.74 9 4.35-3.55898.5776 1.986 31.389 47.4563 8 7.5.36787.576.3495 8.336.6991 Página 4 de 11

4 17.8 5.67987 17.9776 14.8694 16.753.158 11 37. 1.98947 7.6176 63.4763 37.443. 1 41.95 48.56867 14.1376 166.8541 39.947 4.11 11.66 18.467 38.9376 31.814 1.9199.5477 4 1.65 31.337 17.9776 54.557 16.753 4.53 4 17.89 47.4547 17.9776 14.16 16.753 1.3564 69. 47.147 138.976 1,597.3771 63.1686 34.5 1 1.3 135.6547 5.4176 35.9178 8.17 5.111 1 34.93 1.3797 3.976 34.777 34.1416.616 15 46.59 118.68667 45.6976 38.553 48.6551 4.646 15 44.88 17.177 45.6976 51.1337 48.6551 14.51 16 54.1 194.67667 6.176 69.3676 51.5578 6.5649 17 56.63 41.75147 76.7376 761.654 54.465 4.768 6.13 15.467 5.176 47.6486.537.166 5 1.15 5.547 1.4976 6.1385 19.68.3164 6 75.8,7.713 698.56 6,15.9447.96 SX SY Sxy Sxx Syy = SST SSE X promedio Y Promedio S(Xi-X)*(Yi-Y) S(Xi-X)^ S(Yi-Y)^ Sxy Sxx Syy Si todos los puntos estuvieran completamente sobre la recta la ecuación lineal sería y = a + bx. Como la correlación no siempre es perfecta, se calculan a y b de tal forma que se minimice la distancia total entre puntos y la recta. Los cálculos tomando las sumas de cuadrados siguientes se muestran a continuación: Sxy = 7.71 Sxx = 698.56 Syy = 615.94 Las ecuaciones para el cálculo manual son las siguientes: Página 5 de 11

( Xi - X )( Yi -Y ) S b = = 1 XY 1 ˆb = =.97441 ( Xi - X ) S XX Yi - ˆ b1 X i b ˆ b = = Y - n ˆ bx = = 5.114515575 Las sumas de cuadrados son: SST = ( Yi -Y ) = 6,15.9447 ( Y - ˆ i Yi ) = ( Yi - ( bo + b1* X i )) = SSE =.96 SSR = SST - SSE = 5,885.851 El coeficiente de determinación r y el coeficiente de correlación r se calculan a continuación: SSE ( SST - SSE) r = 1- = = SST SST SSR SST =.9639 El coeficiente de determinación indica el porcentaje de la variación total que es explicada por la regresión. r = r =.9816 El coeficiente de correlación proporciona el nivel de ajuste que tienen los puntos a la línea recta indicando el nivel de influencia de una variable en la otra. El factor de correlación r es un número entre 1 (correlación negativa evidente) y +1 (correlación positiva evidente), y r = indicaría correlación nula. El coeficiente de correlación r =.98 por lo cual tenemos suficiente evidencia estadística para afirmar que el tiempo de atención esta relacionado con el número de servicios atendidos. Página 6 de 11

USO DE EXCEL 1. En el menú Herramientas seleccione la opción Análisis de datos. Datos de ejemplo 6.. Seleccione la opción Regresión. 3. Seleccione el rango de entrada, estos corresponden a los datos numéricos de la tabla. 4. Seleccione Resumen de estadísticas. 5. En opciones de salida seleccione en Rango de salida, una celda de la hoja de calculo que este en blanco ( a partir de está celda serán insertados los resultados). Resumen Estadísticas de la regresión Coeficiente de correlación múltiple.981811778 Coeficiente de determinación R^.963954368 R^ ajustado.96387167 Error típico 3.9341967 Observaciones 5 ANÁLISIS DE VARIANZA Suma de Promedio de Grados de libertad Cuadrados cuadrados F Valor crítico de F Regresión 1 5885.8569 5885.8569 615.8898 4.4118E-18 Residuos 3.96348 9.5694499 Total 4 615.94474 Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Intercepción 5.114515575 1.1458417 4.4636914.17715.74439161 XServicios.97441.1174719 4.8885 4.4118E-18.6658749 Página 7 de 11

Y Tiempo REGRESIÓN Y CORRELACIÓN LINEAL X Servicios Curva de regresión ajustada 8. 7. 6. 5. 4. 3.. 1.. 5 1 15 5 X Servicios Y Tiempo Pronóstico Y Tiempo Lineal (Pronóstico Y Tiempo) En la gráfica observamos que al aumentar el número de servicios el tiempo de atención aumenta. USO DE MINITAB Para determinar la función de regresión y correlación en Minitab se siguen los pasos siguientes (después de cargar los datos correspondientes a X y a Y en las columnas C1 y C): Stat >Regresión... Indicar la columna de Respuestas Y y la de predictores X y aceptar con OK. Observar el valor del coeficiente de correlación y de determinación. Para obtener la línea de mejor ajuste de la regresión, se procede como sigue en Minitab: Stat >Fitted Line Plot... Indicar la columna de Respuestas Y y la de predictores X, seleccionar si se quiere ajustar con los datos con una línea, una función cuadrática o cúbica y aceptar con OK. Observar el mayor valor del coeficiente de correlación que indica el mejor ajuste. En Options: seleccionar Display Confidence (para media en X) y Prediction Intervals para X. En Graphs: Seleccionar Residual for plots Standardized y Normal Plot of residuals La gráfica de residuos debe apegarse a la recta y tener siempre un valor P value >.5. Página 8 de 11

Y Tiempo REGRESIÓN Y CORRELACIÓN LINEAL Fitted Line Plot Y Tiempo = 5.115 +.93 X Servicios 7 6 5 Regression 95% CI 95% PI S 3.934 R-Sq 96.4% R-Sq(adj) 96.% 4 3 1 5 1 X Servicios 15 Regression Analysis: Y Tiempo versus X Servicios The regression equation is Y Tiempo = 5.115 +.93 X Servicios S = 3.934 R-Sq = 96.4% R-Sq(adj) = 96.% Analysis of Variance Source DF SS MS F P Regression 1 5885.85 5885.85 615.8. Error 3.9 9.57 Total 4 615.94 La regresión tiene una r^ de 96.4% y la influencia de una variable X en Y es significativo. Los intervalos de confianza para la media y el intervalo de predicción para un punto específico X son los siguientes: Sy = Se 1 ( Xi - X ) + n SCx IC. para. m y! x = Y est ± tsy * 1 ( Xi - X ) Syi = Se 1 + + n SCx * IP. para. Yx = Y est ± tsyi Página 9 de 11

EJERCICIOS: 1. La energia consumida en un proceso depende del ajuste de máquinas que se realice, realizar una regresión cuadrática con los datos siguientes y responder las preguntas. Ajuste Cons_energía Máq. Y X 1.6 11.15 4 15.7 1.8 18.9 1 19.4 1 1.4.8 1.7 3.8 5.3 7.4 6.4 4.3 6.7 36. 9.1 a) Trazar un diagrama de dispersión b) Obtener la ecuación de regresión lineal y cuadrática y comparar c) Estimar el consumo de energía para un ajuste de máquina de con regresión cuadrática d) Obtener los intervalos de predicción y de confianza para un ajuste de máquina de e) Obtener el coeficiente de correlación y de determinación. En base al porcentaje de puntualidad se trata de ver si hay correlación con las quejas en una línea aérea. Las quejas son por cada 1 pasajeros. %puntos Quejas Aerolinea X Y A 81.8.1 Página 1 de 11

B 76.6.58 C 76.6.85 D 75.7.68 E 73.8.74 F 7..93 G 7.8.7 H 68.5 1. a) Trazar un diagrama de dispersión b) Obtener la ecuación de regresión lineal c) Estimar las quejas para un porcentaje de puntualidad de 8% d) Obtener los interalos de predicción y de confianza para una altura de 63" e) Obtener el coeficiente de correlación y de detemrinación Página 11 de 11