M. Wiper Estadística 1 / 17 Datos bivariantes: covarianza y correlación Michael Wiper Departamento de Estadística Universidad Carlos III de Madrid
M. Wiper Estadística 2 / 17 Objetivo Ilustrar como medir si dos variables cuantitativas están relacionadas de manera aproximadamente lineal.
M. Wiper Estadística 3 / 17 La covarianza Para una muestra (x 1, y 1 ),..., (x n, y n ), la covarianza se dene como: ˆσ 2 xy = 1 n n (x i x)(y i ȳ) = 1 n i=1 n x i y i n x ȳ. i=1 Nota para los estadísticos: la mayoria de paquetes estadísticos no calculan la covarianza así. Como alternativa se preere la cuasi-covarianza: ¾Porqué? s 2 xy = 1 n 1 n (x i x)(y i ȳ) = n n 1 ˆσ2 xy. i=1
M. Wiper Estadística 3 / 17 La covarianza Para una muestra (x 1, y 1 ),..., (x n, y n ), la covarianza se dene como: ˆσ 2 xy = 1 n n (x i x)(y i ȳ) = 1 n i=1 n x i y i n x ȳ. i=1 Nota para los estadísticos: la mayoria de paquetes estadísticos no calculan la covarianza así. Como alternativa se preere la cuasi-covarianza: ¾Porqué? s 2 xy = 1 n 1 n (x i x)(y i ȳ) = n n 1 ˆσ2 xy. i=1 Razones estadísticas complicadas: insesgadez,...
M. Wiper Estadística 4 / 17 Propiedades de la covarianza Si hay una relación creciente, entonces ˆσ xy > 0 y si hay una relación decreciente, ˆσ xy < 0.
M. Wiper Estadística 5 / 17 Calculando la covarianza a través de la tabla de doble entrada La tabla muestra los números de veces anteriores que han sido detenidos y el número de veces que han sido encarcelados algunos criminales.
M. Wiper Estadística 6 / 17 Calculando la covarianza a través de la tabla de doble entrada Convertimos la tabla en frecuencias relativas...
M. Wiper Estadística 7 / 17 Calculando la covarianza a través de la tabla de doble entrada y calcular las medias marginales...
M. Wiper Estadística 8 / 17 Calculando la covarianza a través de la tabla de doble entrada y calcular i j f ij x i y j... y la covarianza es ˆσ xy = i j f ij x i y j x ȳ = 0,489.
M. Wiper Estadística 8 / 17 Calculando la covarianza a través de la tabla de doble entrada y calcular i j f ij x i y j... y la covarianza es ˆσ xy = i ½Vaya lio! j f ij x i y j x ȳ = 0,489.
M. Wiper Estadística 9 / 17 El problema de la covarianza En este caso, la covarianza es 121044.25.
M. Wiper Estadística 9 / 17 El problema de la covarianza En este caso, la covarianza es 121044.25. ¾Cómo interpretamos este número? ¾Cómo cambiaría la covarianza si decidimos medir la supercie quemada en km 2?
M. Wiper Estadística 10 / 17 Correlación Se dene la correlación como: r xy = ˆσ xy ˆσ x ˆσ y = s xy = covarianza s x sy producto de desviaciones típicas. Observamos que es independiente de las unidades en que se miden x e y. Luego es más fácil de interpretar que la covarianza.
M. Wiper Estadística 11 / 17 Propiedades de la correlación 1 r xy 1. r xy = 1 si y sólo si y = a + bx para algunas constantes,a, b donde b > 0. Hay una exacta relación lineal creciente. r xy = 1 si y sólo si y = a bx para algunas constantes,a, b donde b > 0. Hay una exacta relación lineal decreciente. Si no hay ninguna relación entre x e y, entonces r xy = 0. No obstante, r xy = 0, no implica que no hay relación entre x e y.
M. Wiper Estadística 12 / 17 Ilustración Siempre es importante mirar los datos para ver si hay una relación lineal.
M. Wiper Estadística 13 / 17 Ejemplo. La correlación es 0,064.
M. Wiper Estadística 13 / 17 Ejemplo. La correlación es 0,064. Muy cercano a 0. Casi no hay relación entre las dos variables.
M. Wiper Estadística 14 / 17 Delitos frente a paro Enalgunos trabajos se ha sugerido que la tasa de delitos está relacionado con los niveles de paro. El gráco muestra la relación para las comunidades españolas (excluyendo a Ceuta y Melilla) en 2015.. Se ve una ligera relación positiva y aproximadamente lineal con s xy = 0,356.
Correlación y causalidad M. Wiper Estadística 15 / 17
M. Wiper Estadística 16 / 17 Correlación y causalidad ¾Puede que más accidentes mortales impliquen más crimenes?
M. Wiper Estadística 16 / 17 Correlación y causalidad ¾Puede que más accidentes mortales impliquen más crimenes? Quizás si la sociedad es más laxa, hay más crimenes y además más accidentes.
M. Wiper Estadística 17 / 17 Resumen y siguiente sesión Se ha introducido la correlación como medida de una relación aproximadamente lineal. En la siguiente sesión, vemos como ajustar esta relación