Coeficiente de Correlación

Documentos relacionados
ANÁLISIS DE REGRESIÓN N LINEAL

Método de cuadrados mínimos

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

ANÁLISIS DE REGRESIÓN

TEMA 4 CUESTIONARIO DE AUTOEVALUACIÓN

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

Definición de Correlación

TEMA 2: DISTRIBUCIONES BIDIMENSIONALES

ANALISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

Lección 3. Análisis conjunto de dos variables

Estadís5ca. María Dolores Frías Domínguez Jesús Fernández Fernández Carmen María Sordo. Tema 2. Modelos de regresión

4.1 Análisis bivariado de asociaciones

Distribuciones Bidimensionales.

Regresión lineal simple y correlación

3 Regresión y correlación lineales

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Tema 3: Análisis de datos bivariantes

Tema 2: Análisis de datos bivariantes

Sesgo y varianza del estimador de la razón. con el problema de presición vs. sesgo que ya discutimos. t y. ˆt x

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES

Regresión: implica la obtención de una ecuación mediante la que podamos estimar el valor medio de una variable.

Tema 2: Análisis de datos bivariantes

ESTADÍSTICA. Tema 4 Regresión lineal simple

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

Estadís6ca y Métodos Numéricos Tema 6. Modelos de Regresión

Tema 2: Análisis de datos bidimensionales

3. RELACION ENTRE DOS CONJUNTOS DE DATOS.

Teoría de la decisión

REGRESIÓN LINEAL SIMPLE, COEFICIENTE DE DETERMINACIÓN Y CORRELACIONES (EJERCICIOS RESUELTOS)

Tema 3. Relación entre dos variables cuantitativas

TEMA 3 REGRESIÓN Y CORRELACIÓN

Regresión Lineal. Dra. Noemí L. Ruiz Limardo 2008 Derechos Reservados, Rev 2010

CORRELACIÓN Y REGRESIÓN. Juan José Hernández Ocaña

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

Dos variables x e y están relacionadas funcionalmente cuando conocida la primera se puede saber con exactitud el valor de la segunda.

Estadística para el análisis de los Mercados S3_A1.1_LECV1. Estadística Descriptiva Bivariada

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

ESTADÍSTICA. DISTRIBUCIÓN BIDIMENSIONAL

Práctica No 1. Análisis estadísticos de los datos termodinámicos

2. ESTADÍSTICAS BIDIMENSIONALES

Bioestadística. Tema 3: Estadística descriptiva bivariante y regresión lineal. Relaciones entre variables y regresión

Estadística Inferencial. Sesión No. 9 Regresión y correlación lineal

Estadística de dos variables

UNIDAD Nº4. Ejemplo.- Dados los Gastos de publicidad en los meses enero a julio, los cuales generan los sgts. Ingresos:

Tema 4. Regresión lineal simple

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.

El ejemplo: Una encuesta de opinión

Elaboró: Luis Casas Vilchis

7.FUNCIÓN REAL DE VARIABLE REAL

Estadística descriptiva bivariante y regresión lineal.

Tema 2. Descripción Conjunta de Varias Variables

Matemáticas. Bioestadística. Correlación y Regresión Lineales

7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL. Jorge Eduardo Ortiz Triviño

CORRELACION Y REGRESIÓN LINEAL

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

MÉTODOS DE INVESTIGACIÓN EN EDUCACIÓN. Tema 9

Capitulo. Describir la relación entre dos variables Pearson Prentice Hall. All rights reserved

Tema 8: Regresión y Correlación

CORRELACIÓN LINEAL SIMPLE

Regresión Lineal Múltiple

Regresión y Correlación

Técnicas de Investigación Social

Probabilidad y Estadística - Clase 3

Estadística. Tema 3. Esperanzas Esperanza. Propiedades Varianza y covarianza. Correlación

Prueba de Hipótesis. Para dos muestras

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Relación funcional Dos variables x e y están relacionadas funcionalmente cuando conocida la primera se

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso

Introducción al Tema 3. Tema 3. Correlación y regresión Covarianza y correlación. Propiedades y relación con el diagrama de dispersión. Regresión.

1, 2, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 2, 1, 1, 4, 1

PRUEBA DE HIPÓTESIS BENJAMIN MAMANI CONDORI

Módulo de Estadística

TEMA 14 ESTADÍSTICA. Cuantitativa: si puede medirse y expresarse con números (es una variable), por ejemplo la talla de calzado.

ANÁLISIS DE DATOS EXPERIMENTALES POR MÍNIMOS CUADRADOS

Métodos Estadísticos Multivariados

ADMINISTRACION DE OPERACIONES

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Tema 2. Regresión Lineal

Doc. Juan Morales Romero

Medidas de dispersión

Métodos de Investigación en Psicología (11) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

Julio Deride Silva. 4 de junio de 2010

Funciones de dos variables:extremos locales de funciones de dos variables. Condición necesaria. Teorema de los valores extremos.

Ejercicio Heterocedasticidad_2

1 JESTADIS\REGRES.DOC

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

Transcripción:

Coeficiente de Correlación

Al efectuar un análisis de regresión simple (de dos variables) necesitamos hacer las siguientes suposiciones. Que las dos variables son mensurables Que la relación entre las dos variables es lineal Que no hay puntos muy alejados de la media de Y (outliers) Que los errores de la predicción son independientes y distribuídos al azar Al probar la significancia: Que la muestra fue seleccionada aleatoriamente de la población Si la muestra es pequeña, que las variables están distribuídas normalmente en la población

En la clase pasada vimos como estimar una recta a un grupo de observaciones, en lo que se llama un análisis de regresión lineal usando el método de mínimos cuadrados. También obtuvimos una forma de medir el error de nuestro ajuste por medio de el error cuadrático medio, la suma de residuos cuadrados o la raíz cuadrática media. Sin embargo mencionamos que la medida del error no nos dice gran cosa si no lo comparamos con algo como la media o la desviación estandar σ 2. Y

En el ejemplo de la clase pudimos obtener una recta que se ajusta a los datos (observaciones) a la cual podemos calcular el error. 20 Ventas vs Clientes Previos 15 Ventas 10 5 0 0 1 2 3 4 Clientes Previos 5 6 7

Resumiendo la clase enterior tenemos lo siguiente: Recta de la regresión: Sumas de cuadrados: Y = a + b X S YY = Y 2 NY 2 S XX = X 2 N X 2 S XY = XY N XY Coeficientes de la recta: S XY b = a = Y S XX bx Medidas del error: RSS = S YY bs XY MSE = S YY bs N XY RMS = S YY bs N XY

Nota: El error estándar de la estimación es el RMS pero ajustado para el número de coeficientes en la regresión, es decir: RMSa = S YY bs N 2 XY

Si vemos nuevamente la tabla de cálculo podemos fijarnos en que la suma de los residuos es = 0. Esto es una consecuencia directa del método y nos da una forma de verificar nuestra estimación. Caso Clientes (X) Ventas (Y) Predicción ( Y ) Error (e) e=( Y-Y Y ) A 2 2 +3.604-1.604 2.573 B 3 3 +6.036-3.036 9.217 C 0 2-1.260 +3.260 10.628 D 4 8 +8.468-0.468 0.219 E 5 10 +10.900-0.900 0.810 F 1 2 +1.172 +0.826 0.686 G 6 15 +13.332 +1.668 2.782 H 3 5 +6.036-1.036 1.073 I 7 18 +15.764 +2.236 5.000 J 5 10 +10.900-0.900 0.810 Total 36 75 0.0 33.80 e 2

Recordamos que los errores (residuos) cuadrados se pueden visualizar como: En los ejemplos anteriores se pudo calcular un error cuadrático, pero esto no es completamente indicativo de una buena correlación lineal.

Es claro que el error cuadrático medio es una manera de cuantificar qué tan bueno es el ajuste efectuado, pero, este no nos dice que tan lineal es la dependencia entre las variables. Cómo podemos saber esto?

Vamos a regresar al ejemplo interactivo para ver qué pasa con la cantidad llamada r Ejemplo interactivo 4: Regresión a "Ojo"

Interpretación Gráfica de la partición de los errores o residuos Varianza Total SSY Varianza no- Eplicada SSE Varianza Eplicada SSR

Este coeficiente nos dice qué tanto se aproiman los datos a una tendencia lineal, entre más cerca de 1 esté mejor es la aproimación.

El COEFICIENTE DE CORRELACIÓN también nos dice el grado de correlación LINEAL entre las dos variables. El coeficiente de correlación se puede calcular con la raíz cuadrada del coeficiente de determinación (o sea que el coeficiente de determinación es el cuadrado del coeficiente correlación) pero es necesario además saber su signo. r = r 2 r = coeficiente de correlación, -1 < r < 1.0 r 2 = coeficiente de determinación 0 < r 2 < 1.0

El coeficiente de correlación resulta al encontrar la recta que mejor se ajusta a los datos en forma: = a + by Y al encontrar la recta que mejor se ajusta a los datos de forma: y = a + b Es decir, intercambiando la variable dependiente (o predecida) y la independiente (o predictor). A esto se le llama hacer una REGRESIÓN N DE X EN Y (lo opuesto a efectuar una REGRESIÓN N DE Y EN X ).

Y X X Y

El coeficiente de determinación se puede definir como el producto de las pendientes de las dos rectas: r 2 = b b' Y su raíz cuadrada nos da la magnitud o valor absoluto del coeficiente de correlación (porque este puede tomar valores negativos). r = b b Para saber el signo usamos el signo de la pendiente de la recta de regresión de Y en X o sea de b De lo anterior podemos deducir que si las pendientes b y b son recíprocas, entonces r = 1 lo cual corresponde a que al intercambiar variables como variable independiente y dependiente, estamos encontrando la misma recta, pero visualizada desde el juego de ejes en espejo.

Veamos como funciona gráficamente: Y X

Y X

X Y

X Y

X Y

También podemos ver que el hecho de que un coeficiente de correlación no sea cercano a 1 implica que al hacer la regresión de Y en X encontramos una recta DIFERENTE a la que se obtiene de hacer la regresión de X en Y. X Y Y X

Lo anterior también implica que un coeficiente de correlación igual a 1, nos indica una perfecta relación lineal entre las dos variables, como se muestra en el siguiente ejemplo. r ~ 1

Por otro lado, un coeficiente de correlación igual o cercano a 0 indica que no hay correlación lineal entre los datos, como se muestra a continuación r ~ 0 No confundir la pendiente de la recta con el coeficiente de correlación!

En general, la bondad del ajuste lineal será dada por qué tanto el coeficiente de correlación se acerca al valor de 1. El coeficiente de correlación se calcula de la siguiente manera usando las fórmulas anteriores: Notar que el signo nos lo da la pendiente de la recta O bien r = bs S XY YY r = ( ( X ( X X )( Y Y ) X ) 2 )( ( Y Y ) 2 )

El COEFICIENTE DE CORRELACIÓN, como vimos, nos dice el grado de correlación LINEAL entre las dos variables, pero, como se ve en el ejemplo siguiente, es necesario visualizar primero el diagrama de dispersión para ver si eiste una tendencia lineal entre las dos variables antes de hacer algun cálculo de coeficiente de correlación. En el ejemplo anterior se puede calcular un buen coeficiente de correlación, pero esto no es indicativo de una buena correlación lineal.

El siguiente ejemplo, tomado del ejercicio interactivo 1, nos muestra como una distribución puede tener dos alternativas, siendo sólo una de ellas la que proporciona el mínimo MSE y el r más cercano a uno. Sin embargo, el punto es que un r = 0.56 ya es indicativo de una mala aproimación a un comportamiento lineal. O sea que estos datos no tienen muy buena correlación n lineal, sino una leve tendencia lineal.

Basado en lo anterior, qué tipo de correlación lineal le asignarías a estos datos?

Si dijiste, mala o pésima correlación lineal (r cercano a 0) Acertaste! Fíjate en el valor de r.

Y en este caso, qué tipo de correlación lineal le asignarías a estos datos?

Si dijiste, buena correlación lineal (r cercano a 1) Acertaste! Fíjate en el valor de r.