CORRELACIÓN Y REGRESIÓN. Juan José Hernández Ocaña

Documentos relacionados
Tema 1.- Correlación Lineal

Tema 2. Descripción Conjunta de Varias Variables

MÓDULO 1: GESTIÓN DE CARTERAS

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

REGRESIÓN LINEAL SIMPLE, COEFICIENTE DE DETERMINACIÓN Y CORRELACIONES (EJERCICIOS RESUELTOS)

ESTADÍSTICA. Tema 4 Regresión lineal simple

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION.

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Medidas de dispersión

Calculamos la covarianza. (La covarianza indica el sentido de la correlación entre las variables):

Curso de Estadística Básica

Diplomatura en Ciencias Empresariales X Y

Pruebas de Hipótesis-ANOVA. Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016

I Unidad: La medición de los atributos psicológicos.

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

Tipos de gráficas y selección según los datos CIENCIA, TECNOLOGIA Y AMBIENTE

SESIÓN PRÁCTICA 7: REGRESION LINEAL SIMPLE PROBABILIDAD Y ESTADÍSTICA. PROF. Esther González Sánchez. Departamento de Informática y Sistemas

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Modelos de PERT/CPM: Probabilístico

Fase 2. Estudio de mercado: ESTADÍSTICA

478 Índice alfabético

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

Aplicaciones de la línea recta

CAPÍTULO 4 TÉCNICA PERT

UNIVERSIDAD CENTROAMERICANA JOSE SIMEON CAÑAS FACULTAD DE CIENCIAS ECONOMICAS Y SOCIALES DEPARTAMENTO DE ADMINISTRACIÓN DE EMPRESAS

Estadística y sus aplicaciones en Ciencias Sociales 7. El modelo de regresión simple. Facultad de Ciencias Sociales - UdelaR

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I.

Tema 8. Análisis de dos variables Ejercicios resueltos 1

Esquema (1) Análisis de la Varianza y de la Covarianza. ANOVA y ANCOVA. ANOVA y ANCOVA 1. Análisis de la Varianza de 1 Factor

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

ÍNDICE INTRODUCCIÓN... 21

CAPÍTULO 4 RECOPILACIÓN DE DATOS Y CÁLCULO DEL VPN. En el presente capítulo se presenta lo que es la recopilación de los datos que se tomarán

Tipo de punta (factor) (bloques)

Problemas. 1.- Se muestran en seguida las tasas de interés para 12 meses consecutivos de Bonos corporativos triple A.

PROGRAMA ACADEMICO Ingeniería Industrial

Teorema Central del Límite (1)

OTRAS HERRAMIETAS ESTADISTICAS UTILES. Dra. ALBA CECILIA GARZON

Tercera práctica de REGRESIÓN.

Explorando la ecuación de la recta pendiente intercepto

Nº Persona Altura (m) Peso (Kg.) Nº Persona Altura (m) Peso (Kg.)

INFERENCIA ESTADISTICA

TRABAJO PRÁCTICO ESTADISTICA APLICADA (746)

13. Utilizar la fórmula del término general y de la suma de n términos consecutivos

2.- Tablas de frecuencias

DISTRIBUCIÓN N BINOMIAL

Contraste de hipótesis Tema Pasos del contraste de hipótesis. 1.1 Hipótesis estadísticas: nula y alternativa. 1.3 Estadístico de contraste

Análisis de datos Categóricos

ESTADÍSTICA SEMANA 3

A qué nos referimos con medidas de dispersión?

USO HERRAMIENTAS EXCEL PARA LA PREDICCION

Campo Magnético en un alambre recto.

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

ANALISIS DE FRECUENCIA EN HIDROLOGIA JULIAN DAVID ROJO HERNANDEZ

b) dado que es en valor absoluto será el área entre -1,071 y 1,071 luego el resultado será F(1,071)-(1-F(1,071)=0,85-(1-0,85)=0,7

Exactitud y Linearidad del Calibrador

Ecuaciones Lineales en Dos Variables

Conceptos básicos estadísticos

TEMA 3: Contrastes de Hipótesis en el MRL

Algebra lineal y conjuntos convexos

2. Análisis de varianza

Otra característica poblacional de interés es la varianza de la población, 2, y su raíz cuadrada, la desviación estándar de la población,. La varianza

UNIDAD 6. Estadística

La representación gráfica de una función cuadrática es una parábola.

Distribuciones bidimensionales. Regresión.

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

12 Funciones de proporcionalidad

DISTANCIA ENTRE DOS PUNTOS EN EL PLANO CARTESIANO.

Tema 4: Probabilidad y Teoría de Muestras

Estadística Descriptiva. SESIÓN 11 Medidas de dispersión

MODULO VIII. Semana 1 ASPECTOS DE EVALUACIÓN FINANCIERA, ECONÓMICA, SOCIAL Y AMBIENTAL.

b.- Realiza las comparaciones múltiples mediante los métodos LSD, Bonferroni y Tuckey.

TEMA 4 ELABORACIÓN Y COMPROBACIÓN DE LAS HIPÓTESIS DE INVESTIGACIÓN

TÉCNICAS DE PROYECCIÓN DE MERCADO FORMULACIÓN Y EVALUACIÓN DE PROYECTOS DE INGENIERÍA

Estadística Espacial en Ecología del Paisaje

Tema 1: Introducción

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

TEMA III. REPRESENTACION GRAFlCA

Indicaciones para el lector... xv Prólogo... xvii

Biomecánica del Movimiento (2º) Facultad de Ciencias del Deporte. Universidad de Castilla la Mancha. TEMA 5: ERRORES

FUNDAMENTOS DEL ÁLGEBRA. Folleto De Trabajo Para La Clase ECUACIONES LINEALES EN DOS VARIABLES

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO. Facultad de Medicina Veterinaria y Zootecnia. Licenciatura en Medicina Veterinaria y Zootecnia

UNIDAD 4: FUNCIONES POLINOMIALES Y RACIONALES

En la notación C(3) se indica el valor de la cuenta para 3 kilowatts-hora: C(3) = 60 (3) = 1.253

Estadística aplicada al Periodismo

Estadística Inferencial. Estadística Descriptiva

Desigualdad de ingresos en Costa Rica a la luz de las ENIGH 2004 y 2013

Tabla de Test de Hipótesis ( Caso: Una muestra ) A. Test para µ con σ 2 conocida: Suponga que X 1, X 2,, X n, es una m.a.(n) desde N( µ, σ 2 )

UN PROBLEMA DE OPTIMIZACIÓN CON CABRI: LA REGRESIÓN LINEAL.

Y = ßo + ß1X + ε. La función de regresión lineal simple es expresado como:

Curva de Lorenz e Indice de Gini Curva de Lorenz

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

DEFINICIONES Y CONCEPTOS (SISTEMAS DE PERCEPCIÓN - DTE) Curso

Presupuesto de Ventas

Capítulo 6. Análisis bivariante de variables

Transcripción:

CORRELACIÓN Y REGRESIÓN Juan José Hernández Ocaña

CORRELACIÓN Muchas veces en Estadística necesitamos saber si existe una relación entre datos apareados y tratamos de buscar una posible relación entre variables. Podemos decir que hay una correlación entre dos variables si cuando una de ellas se relaciona con la otra de alguna manera

CONCEPTOS Análisis de correlación Conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables Este tipo de estadístico puede utilizarse para medir el grado de relación de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razón (variables cuantitativas)

DIAGRAMA DE DISPERSIÓN Es una gráfica que representa la relación entre dos variables. Los datos muestrales apareados (x,y) se grafican en un eje horizontal (x) y un eje vertical (y). Cada par individual (x, y) se grafica como un solo punto. Podemos encontrar tres tipos de relación entre las variables Positiva Negativa Sin relación

COEFICIENTE DE CORRELACIÓN El coeficiente de correlación r mide la fuerza de la relación lineal entre los valores cuantitativos apareados x y y. El coeficiente de correlación expresa de manera cuantitativa la magnitud y dirección de una relación Condiciones La muestra de datos apareados (x, y) es una muestra aleatoria de datos cuantitativos Los pares de datos ( x, y) tienen una distribución normal bivariada

CONCEPTOS CORRELACIÓN Coeficiente de correlación Este coeficiente expresa de manera cuantitativa la magnitud y dirección de una relación lineal La dirección se refiere a si la relación es positiva o negativa El grado de la relación se refiere a la magnitud Una correlación puede variar de +1 a - 1 Hay que considerar que la gráfica de dispersión está formada por parejas de valores de x y Si se desea conocer la relación simple entre una variable x y, podemos emplear La r de Pearson r 2 Nos mide la proporción de la variación de y, que se explica por relación lineal de x

X Es la suma de todos los valores de x X 2 indica que cada valor de x debe elevarse al cuadrado y después dichos cuadrados se suman (X) 2 indica que los valores de x deben sumarse y el total elevarse al cuadrado XY indica que cada valor de x debe multiplicarse por su correspondiente de y después hacer la suma de todos los productos.

EJERCICIOS Considere los siguiente valores para la variable x y para la variable y. Calcule el valor de la r de Pearson Calcule el valor de r 2 Cuál es la hipótesis nula Cuál es la hipótesis alternativa Establezca criterio de decisión de acuerdo a t Rechace Ho de acuerdo a los criterios anteriores Cuáles son sus conclusiones x 1 2 3 4 y 3 5 8 13

x y xy x 2 y 2 1 3 3 1 9 2 5 10 4 25 3 8 24 9 64 4 13 52 16 169 SUMATORIAS x =10 y=29 xy=89 x 2 = 30 y 2 =267

GRAFICO DE DISPERSIÓN 14 12 10 8 6 Series1 4 2 0 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

REGRESIÓN LINEAL En el modelo de regresión lineal simple, se supone que la relación entre la variable dependiente (y) y la variable independiente (x) es casi una recta

REGRESIÓN CONCEPTOS La regresión mide la relación entre dos variables y se basa en el uso de la misma relación para elaborar una predicción. Esto resultaría sencillo siempre y cuando se considere una recta perfecta en la relación entre dos variables En el caso de relaciones imperfectas la solución consiste en construir una recta que minimice los errores de predicción de acuerdo a un criterio llamado mínimos cuadrados

Se quiere conocer si existe una relación entre el numero de las llamadas que los empleados realizan a los clientes potenciales y el número de equipos vendidos llamadas Equipos vendidos Keller 20 30 Hall 40 60 Vinist 20 40 Fish 30 60 Welch 10 30 Ramirez 10 40 Niles 20 40 Kiel 20 50 Reynols 20 30 Jones 30 70 EJEMPLO

80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 La media de X ( llamadas ) es 22 La media de Y ( equipos vendido) es 45

LA ECUACIÓN QUE DESCRIBE LA FORMA EN QUE EL VALOR MEDIO DE Y SE RELACIONA CON X SE LLAMA ECUACIÓN DE REGRESIÓN LINEAL SIMPLE E(y) = β o + β 1 x β o es la ordenada al origen β 1 es la pendiente E(y) es el valor esperado de y para determinado valor de x

LA ECUACIÓN QUE DESCRIBE LA FORMA EN QUE EL VALOR MEDIO DE Y SE RELACIONA CON X SE LLAMA ECUACIÓN DE REGRESIÓN ESTIMADA y = bx + a donde a es la ordenada al origen Donde b es la pendiente El valor de y sería el valor estimado de y a partir del valor de x empleando la ecuación

SUPUESTOS Se investiga únicamente relaciones lineales Para cada valor de (x, y) es una variable aleatoria con una distribución normal y se considera que todas estas distribuciones de y tienen la misma varianza. Si existe una correlación lineal, el mejor valor predicho de y se calcula sustituyendo el valor de x en la ecuación de regresión. Si no existe una correlación lineal, no debe utilizar la ecuación de regresión para hacer predicciones. Cuando utilice la ecuación de regresión para hacer predicciones, debe permanecer en el ámbito de los datos muestrales disponibles.

PENDIENTE DE LA RECTA La pendiente nos representa la cantidad que cambia la variable dependiente cuando la variable independiente cambia exactamente una unidad, esto es conocido como cambio marginal Una recta satisface la propiedad de mínimos cuadrados sí la suma de los cuadrados de los residuales es la menor posible Un residual es la diferencia entre el valor observado muestral de y, y predicho por la ecuación de regresión. Es necesario realizar una prueba de hipótesis para verificar la fiabilidad de la predicción mediante el uso de la ecuación y el valor de

PREDICCIÓN

Se puede pronosticar el valor de y siempre y cuando se tenga una recta 1.-Se puede dar confiabilidad a la estimación mediante la prueba de hipótesis. nos dice en términos de probabilidad la certeza de tener o no un recta. 2.- Se puede emplear también el calculo del error estándar de estimación. Nos dice cuán preciso es el pronóstico

ERROR ESTÁNDAR DE ESTIMACIÓN Es la medida de la dispersión de los valores observados respecto a la recta de regresión calcular residuos y a partir de allí el error estándar de medición Si su valor es pequeño ello significa que los datos están relativamente cercanos a la recta de regresión y la ecuación sirve para predecir con un margen de error pequeño Se emplea el método de la recta de mínimos cuadrados No hay otra recta que pase por el valor de los datos donde la suma de las desviaciones al cuadrado sea menor

Título del eje 1.-calcular valores estimados de la variable dependiente (y) 80 2.- Calcular los residuos 70 3.- calcular el cuadrado de los residuos 60 4.- Calcular error estándar de medición 5.- Comparar con regla de distribución empírica Se considera como muy confiable si se encuentra dentro de +/- un valor del error estándar se considera confiable si se encuentra dentro de +/- 2 valores del error estándar. 50 40 30 20 10 0 0 10 20 30 40 50 Título del eje Series1 Lineal (Series1)

COEFICIENTE DE DETERMINACIÓN R 2 Es una medida de la bondad de ajuste para una ecuación de regresión Esto es, qué tan bien se ajusta a los datos la ecuación de regresión los valores van desde 0 a 1 se puede emplear para relaciones que tengan dos o más variables independientes

EJERCICIOS

Un gerente de una empresa que comercializa cosméticos desea saber qué relación existe entre los ingresos de varias semanas y sus respectivos costos variables, para lo cual, registra estas variables durante 8 semanas, dando como resultado los siguientes datos Calcule el coeficiente de correlación Calcule la ecuación de regresión. Valor de b y el valor de a Si tiene un valor DE X DE 140 CUAL SERÍA EL VALOR DE Y Calcule el coeficiente de determinación Pruebe la hipótesis de la fiabilidad de la predicción de la ecuación semana ingreso Costo variable 1 157 52 2 150 52 3 143 48 4 139 49 5 163 53 6 165 54 7 167 57 8 173 58

semana ingreso costo var XY X 2 Y 2 1 157 52 8164 24649 2704 2 150 52 7800 22500 2704 3 143 48 6864 20449 2304 4 139 49 6811 19321 2401 5 163 53 8639 26569 2809 6 165 54 8910 27225 2916 7 167 57 9519 27889 3249 8 173 58 10034 29929 3364 sumas 1257 423 66741 198531 22451

En la asociación de hoteleros de la zona de Naucalpan existe una preocupación por los bajos niveles de ocupación durante el año. Ellos están por plantear una solución al problema, realizando una diagnóstico del mismo, para lo cual registran los niveles de ocupación promedio al año y las tarifas por persona que se cobran por noche en habitación doble 1.- Determine el coeficiente de correlación 2.- Determine la ecuación de regresión 3.- Calcule el coeficiente de determinación 4.- Realice la prueba de hipótesis para determinar la fiabilidad de predicción de la ecuación. Sí la tarifa por persona fuera 270, cuál sería el % de ocupación esperado? TARIFA POR PERSONA 185. 19.69 176. 20.45 201. 18.1 194. 14.5 240. 15.23 314. 6.6 187. 15.9 267. 9.2 250 9.96 170. 19.2 % DEL NIVEL DE OCUPACIÓN 5.- De acuerdo a los resultado, cuáles serían sus conclusiones?

EJERCICIO 2 La cadena de cafeterías Caféj está realizando un estudio de factibilidad para establecer una sucursal más en una población con 25000 habitantes, para lo cual recopila información de 9 cafeterías que tiene distribuidas en varias poblaciones del país. Los resultados de la recopilación se muestran en el siguiente cuadro. CAFETERIA 1 2 3 4 5 6 7 8 9 Población ( en miles) 2 6 8 8 12 16 20 20 22 Ventas ( miles de pesos por semana) 64 105 94 124 117 137 157 164 160

PC WORLD publicó las evaluaciones para las 15 computadoras portátiles más vendidas. Las puntuaciones de desempeño es una medida de qué tan rápido una PC corre en combinación de aplicaciones de negocios en comparación con una maquina de referencia. Por ejemplo, una PC con una puntuación de desempeño de 200 es dos veces más rápida que la máquina de referencia. Se utilizó una escala de 100 puntos para asignar una evaluación global a cada computadora portátil que se probó en el estudio. 1.- Obtenga la ecuación de regresión 2.- Estime la evaluación global para una nueva PC que tiene una puntuación de desempeño de 225 Marca Desempeño Evaluación global AMS 115 67 CPM 191 78 COMNT 153 79 DELL37 194 80 DELL75 236 84 DELLA3 184 76 ENP 184 77 GATEW 216 92 HP 185 83 IBM 183 78 MICROE 189 77 MICROT 202 78 NEC 192 78 SCET 141 73 SONY 187 77

Se seleccionó una muestra de 12 casas vendidas la semana pasada en una zona aledaña a la ciudad de Puebla. Puede concluirse que a medida que aumenta el extensión del inmueble, el precio de venta, también? Use un alfa de 0.05 para sus conclusiones? EXTENSIÓN EN MILES DE m 2 1.4 100 1.3 110 1.2 105 1.1 120 1.4 80 1.0 105 1.3 110 0.8 85 1.2 105 0.9 75 1.1 70 1.1 95 PRECIO DE VENTA EN miles de PESOS

Una compañía de comida rápida quiere establecer una sucursal en la zona norte de la ciudad y para ello hace un pequeño estudio de mercado en la zona para verificar cuál es el consumo de las familias que habitan la zona. Empleando una alfa de 0.05 podría concluir que conforme el tamaño de la familia aumenta, la cantidad gastada en alimentos también aumenta? Tamaño de la familia 3 99 6 104 5 151 6 129 6 142 3 111 4 74 4 91 5 119 3 91 Cantidad gastada

Una neuróloga sospecha que los bajos niveles de serotonina pueden estar relacionados con el comportamiento agresivo. Como primer paso de su investigación, decide realizar un estudio de correlación con nueve macacos de la India. Los monos son observados durante 6 meses y se registra en número de actos agresivos que realizan. El número de actos agresivos por cada animal es el promedio de 6 meses, expresados sobre base diaria a.- Obtenga la recta de regresión por mínimos cuadrados para predecir el número de actos agresivos a partir del nivel de serotonina b.- Cuál es el número de actos agresivos por día que se podría predecir si el nivel se serotonina es de 0.46 microgramos/gramo macaco nivel de serotonina número de actos agresivos 1 0.32 5 2 0.35 3.8 3 0.38 4 4 0.41 4.1 5 0.43 3.8 6 0.51 2.8 7 0.53 2.4 8 0.6 2.3 9 0.63 2.2

Una Psicóloga del desarrollo está interesada en determinar si es posible utilizar la estatura de los niños como base para predecir su posible estatura en la edad adulta. A.-Determine el coeficiente de correlación Empleando una alfa de 0.05, determine si tiene una relación lineal Cuáles son sus conclusiones a.- Si los datos están relacionados de manera lineal, deduzca la recta de regresión por mínimos cuadrados ( calcular la pendiente y la coordenada al origen) b.- Qué estatura podría predecir para una persona de 20 años si a los tres años tuvo una estatura de 42 pulgadas INDIVIDUO EST 3 AÑOS 1 30 59 2 30 63 3 32 62 4 33 67 5 34 65 6 35 61 7 36 69 8 38 66 9 40 68 10 41 65 11 41 73 12 43 68 13 45 71 14 45 74 15 47 71 16 48 75 EST. 20 AÑOS