Estadística I Tema 3: Análisis de datos bivariantes
Tema 3: Análisis de datos bivariantes Contenidos 1. Introducción. Datos bivariantes. 2. Representaciones. Tablas de doble entrada. Distribución conjunta de frecuencias. Frecuencias marginales y condicionadas. Tabla de doble entrada con alguna variable cuantitativa. 3. Gráficos y resúmenes numéricos: Variables cualitativas: diagramas de barras (agrupadas, apiladas) Variable cualitativa y cuantitativa: Múltiples diagramas de caja, histogramas Múltiples resúmenes numéricos. Variables cuantitativas: Diagrama de dispersión. Tipos de relación entre dos variables cuantitativas. Medidas de asociación lineal: covarianza y coeficiente de correlación
Tema 3: Análisis de datos bivariantes Lecturas recomendadas Peña, D. y Romo, J., Introducción a la Estadística para las Ciencias Sociales. Capítulos 7, 8 y 9. Newbold, P. Estadística para los Negocios y la Economía. Secciones 2.5 y 12.1 12.4.
Introducción. Datos bivariantes Afecta el paro en igual medida a toda la población independientemente de su formación? Los individuos con mayor nivel educativo están más, menos o igualmente satisfechos con su vida que aquellos que tienen menor nivel educativo? Cambia el patrón de consumo y producción responsable en los países con mayores ingresos con respecto a aquellos con menores ingresos? Sigue habiendo brecha de género en el salario? Existe alguna relación entre el volumen de ventas de una empresa y sus activos humanos? Están relacionadas la superficie de una vivienda y su precio? Hay alguna relación entre los resultados medios de un país en comprensión lectora y en matemáticas en las evaluaciones PISA?
Introducción. Datos bivariantes Datos bivariantes: provienen de la observación simultánea de dos variables (X, Y ) en una muestra de n individuos. Los datos bivariantes son pares de valores, numéricos o no, de la forma (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Además de analizar cada variable por separado, queremos estudiar si existe relación entre ellas, y en tal caso analizar tal relación.
Tablas de doble entrada. Distribución conjunta de frecuencias absolutas. Muestra: 10 madrileños. Variable X : Nivel educativo (1=Primaria o menor, 2=Secundaria, 3=Post-secundaria) Variable Y : Situación laboral (1=Empleado, 2=Desempleado, 3=Inactivo) Individuo 1 2 3 4 5 6 7 8 9 10 Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2 Situación laboral (Y ) 3 1 1 3 3 3 3 3 1 3 X \Y Empleado (1) Desempleado (2) Inactivo (3) Primaria (1) 0 0 2 Secundaria (2) 1 0 4 Post-secundaria (3) 2 0 1
Tablas de doble entrada. Distribución conjunta de frecuencias absolutas. Muestra: 10 madrileños. Variable X : Nivel educativo (1=Primaria o menos, 2=Secundaria, 3=Post-secundaria) Variable Y : Situación laboral (1=Empleado, 2=Desempleado, 3=Inactivo) Individuo 1 2 3 4 5 6 7 8 9 10 Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2 Situación laboral (Y ) 3 1 1 3 3 3 3 3 1 3 X \ Y Empleado (1) Desempleado (2) Inactivo (3) Primaria (1) 0 0 2 Secundaria (2) 1 0 4 Post-secundaria (3) 2 0 1
Ejemplo: Distribución conjunta de frecuencias absolutas. Cuando al menos una variable es cualitativa, la tabla de doble entrada también se denomina tabla de contingencia. Muestra: 1508 madrileños (Encuesta de Condiciones de Vida, INE). Variable X : Nivel educativo (1=Primaria o menos, 2=Secundaria, 3=Post-secundaria) Variable Y : Situación laboral (1=Empleado, 2=Desempleado, 3=Inactivo) X \ Y Empleado Desempleado Inactivo Primaria 95 6 315 Secundaria 393 28 257 Post-secundaria 317 8 89
Distribuciones de frecuencias absolutas: conjunta y marginales. Y si solo nos interesa la situación laboral de los madrileños? o solo su nivel educativo? X \ Y Empleado Desempleado Inactivo Total Primaria 95 6 315 416 Secundaria 393 28 257 678 Post-secundaria 317 8 89 414 Total 805 42 661 1508
Tabla de doble entrada de frecuencias absolutas Tabla de doble entrada con k filas y m columnas Y c 1 c j c m Total c 1 n 11 n 1j n 1m n 1 Notación:..... X c i n i1 n ij n im n i..... c k n k1 n kj n km n k Total n 1 n j n m n Frec. absoluta conjunta para las clases c i de X y c j de Y : n ij Frec. absoluta marginal para la clase c i de X : n i = n i1 + + n im Frec. absoluta marginal para la clase c j de Y : n j = n 1j + + n kj Tamaño muestral: n = n
Distribuciones de frecuencias relativas: conjunta y marginales. X \ Y Empleado Desempleado Inactivo Total Primaria 0.0630 0.0040 0.2089 0.2759 Secundaria 0.2606 0.0186 0.1704 0.4496 Post-secundaria 0.2102 0.0053 0.0590 0.2745 Total 0.5338 0.0279 0.4383 1 El 0.53 % de los encuestados tiene estudios de Post-secundaria y está desempleado. Empleando frecuencias relativas podríamos comparar los resultados obtenidos en estudios similares (de otros países) con distintos tamaños muestrales.
Tabla de doble entrada de frecuencias relativas f ij = n ij /n: Frec. relativa conjunta para las clases c i de X y c j de Y Y c 1 c j c m Total c 1 f 11 f 1j f 1m f 1..... X c i f i1 f ij f im f i..... c k f k1 f kj f km f k Total f 1 f j f m 1 Frecuencia relativa marginal para la fila i (clase c i de X ): f i = f i1 + + f ij + + f im Frecuencia relativa marginal para la columna j (clase c j de Y ): f j = f 1j + + f ij + + f kj
Representaciones gráficas. Diagramas de barras agrupadas y apiladas En Excel: Insertar gráfico Columna agrupada
Distribuciones de frecuencias condicionadas Y si solo nos interesa la situación laboral de los individuos con nivel educativo más alto? Y si queremos analizar la relación entre el nivel educativo y la situación laboral? Tiene sentido comparar el número de desempleados con estudios de secundaria con el número de desempleados con estudios de post-secudaria sin tener en cuenta cuántos individuos hay en cada categoría?
Distribuciones de frecuencias condicionadas Dada la distribución conjunta de (X, Y ), llamaremos distribución condicionada a la distribución de frecuencias (absolutas o relativas) de una variable, suponiendo conocido el valor de la otra variable. Notación: Y X = c i, o X Y = c j. Distribución condicionada de frecuencias de la situación laboral (Y ) para personas con un nivel educativo (X ) de Post-secundaria: Y X = Post-secundaria Empleado Desempleado Inactivo Total Frec. cond. absoluta 317 8 89 414 Frec. cond. relativa 0.7657 0.0193 0.2150 1 El 1.93 % de los encuestados con estudios de Post-secundaria está desempleado Qué porcentaje de individuos con estudios de secundaria o superiores está desempleado?
Distribuciones de frecuencias condicionadas Puede condicionarse también a que una variable tome varios valores: Y X Secundaria. Y (X Secundaria) Empleado Desempleado Inactivo Total Frec. cond. absoluta 710 36 346 1092 Frec. cond. relativa 0.6502 0.0330 0.3168 1 El 3.3 % de los encuestados con estudios de secundaria o superiores está desempleado.
Distribuciones de frecuencias condicionadas Podemos emplear las distribuciones condicionadas para analizar la relación entre la situación laboral y el nivel de estudios? En Excel: Insertar gráfico Columna 100 % apilada
Tabla de doble entrada para variables cuantitativas Muestra: 43 alumnos. Variable X : Núm. de veces que ha ido al teatro en el último mes. Variable Y : Núm. de veces que ha ido al cine en el último mes. X e Y son variables cuantitativas discretas y toman un número pequeño de valores distintos datos sin agrupar Teatro / Cine 0 1 2 3 4 Total 0 12 5 4 2 1 24 1 4 3 2 1 0 10 2 3 3 2 0 0 8 3 1 0 0 0 0 1 Total 20 11 8 3 1 43 Cuál es el número medio de veces que han ido al cine en el último mes (independientemente del número de veces que hayan ido al teatro)? y al teatro? Cuál es el número medio de veces que han ido al cine en el último mes aquellos que no han ido ninguna vez al teatro? y entre los que han ido 1 vez al teatro? y 2? y 3?
Tabla de doble entrada para variables cuantitativas Muestra: 1000 empresas americanas. Variable X : Volumen de ventas. Variable Y : Núm. de trabajadores. X e Y son cuantitativas discretas y toman un número grande de valores distintos (o si son continuas) datos agrupados X / Y [1,25) [25,50) [50,75) [75,99] Total [1,100) 0.293 0.122 0.098 0.049 0.561 [100,200) 0.098 0.073 0.049 0.024 0.244 [200,300] 0.073 0.073 0.049 0.000 0.195 Total 0.463 0.268 0.195 0.073 1.000 Cuántas empresas tienen un volumen de ventas menor que 100? Qué porcentaje de empresas con menos de 25 trabajadores tiene un volumen de ventas de al menos 200? Qué proporción de empresas tiene menos de 25 trabajadores y un volumen de ventas de al menos 200? Cuál es el tamaño medio de todas las empresas de la muestra? Y de aquellas con un volumen de ventas menor que 100?
Ejercicio (Encuesta de Condiciones de Vida. Modulo año 2013, INE) Qué distribuciones están representadas en la tabla anterior? Qué porcentaje de encuestados con educación secundaria primera etapa puntúa su satisfacción entre 5 y 6? Muchas tablas en informes son tablas de frecuencias condicionadas
Ejercicio (Encuesta de Condiciones de Vida. Modulo año 2013, INE) Verdadero o falso? Si es falso, tienes suficiente información para calcular el porcentaje verdadero? Entre los encuestados más satisfechos con su vida actual (puntuación entre 9 y 10), el 23.3 % tiene educación superior. El 75.5 % de los encuestados con educación superior está satisfecho o muy satisfecho con su vida actual (puntuación por encima de 7) El 38.5 % de los encuestados puntúa su satisfacción con su vida actual por debajo de 5. Es incorrecto sumar frecuencias condicionadas cuando se condiciona en valores distintos
Ejercicio Comenta los siguientes gráficos: Qué distribuciones están representadas en el gráfico de barras? Qué relación observas entre la satisfacción media con su vida actual y el nivel educativo de los individuos?
Peligros de las comparaciones no homogéneas: Paradoja de Simpson https://es.wikipedia.org/wiki/paradoja_de_simpson Sex Bias in Graduate Admissions: Data from Berkeley, Bickel et al., Nature 187 (1975) ADMISIONES Admisiones Denegadas 56% 65% 44% 35% H O M B R E S M U J E R E S Discriminó la Universidad de Berkeley a las mujeres que habían solicitado su ingreso al postgrado?
25 6% 7% 108 191 28% 24% 272 37% 34% 33% 35% 35% 325 375 341 44% 417 393 560 62% 63% 593 68% 82% 825 Peligros de las comparaciones no homogéneas: Paradoja de Simpson Datos de admisiones desglosados por departamentos (A,, F) y sexo: ADMISIONES SOLICITUDES Hombres Mujeres Hombres Mujeres A B C D E F T O T A L A B C D E F Discriminó la Universidad de Berkeley a las mujeres que habían solicitado su ingreso al postgrado?
Variables cualitativas y cuantitativas En la mayoría de los estudios se recogen datos de distinta naturaleza, cualitativos y cuantitativos. Es habitual que las variables cualitativas se utilicen para clasificar: se estudia el comportamiento de la variable cuantitativa según las categorías de la variable cualitativa. Ejemplo Muestra: 157 países. Variable Y : Puntuación promedio obtenida acerca del grado de cumplimiento del ODS12 (Producción y Consumo Responsables) Variable X : Grupo de Ingresos en 2016. Cómo cambia la puntuación promedio en el ODS12 de los países según su nivel de ingresos?
FRECUENCIA Variables cualitativas y cuantitativas. Múltiples Box-Plot Average score on SDG12 (Producción y consumo responsables) 60 Average score on SDG12 50 40 30 20 10 0 32.8 41.5 50.2 58.9 67.6 76.3 85 93.7 CLASE Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/
FRECUENCIA FRECUENCIA FRECUENCIA FRECUENCIA Variables cualitativas y cuantitativas. Múltiples Histogramas Average score on SDG12 (Producción y consumo responsables) LIC-Average Score SDG12 LMIC-Average Score SDG12 8 7 6 5 4 3 2 1 0 76.6 78.7 80.8 82.9 85 CLASE 20 15 10 5 0 71.2 75.7 80.2 84.7 89.2 93.7 CLASE UMIC-Average Score SDG12 HIC-Average Score SDG12 16 14 12 10 8 6 4 2 0 49.2 54.6 60 65.4 70.8 76.2 81.6 CLASE 12 10 8 6 4 2 0 31.3 38.4 45.5 52.6 59.7 66.8 73.9 CLASE Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/
Variables cualitativa y cuantitativa. Histogramas múltiples Sigue habiendo brecha de género en el salario?
Resúmenes numéricos múltiples. Tablas de datos Existe relación entre el salario y el nivel de formación? Son habituales las tablas que presentan medidas numéricas de la variable cuantitativa para cada categoría de la variable cualitativa:
Resúmenes numéricos múltiples. Tablas de datos Existe relación entre el salario y el nivel de formación? Los resultados de una tabla se pueden representar gráficamente. La desviación del salario medio en % de un grupo g con respecto al salario medio total se obtiene como: ( xg x ) total Desv g = 100 x total
Resúmenes numéricos múltiples. Pictogramas Se observan diferencias entre los salarios de los trabajadores dependiendo de su CCAA? Los resultados de una tabla se pueden representar por medio de pictogramas. En este caso, de un cartograma:
Variables cuantitativas. Diagrama de dispersión Hay relación entre la superficie de una vivienda y su precio? Muestra: 15 viviendas. Variable Y : Precio. Variable X : m 2 habitables. m 2 habitables precio 107 162657 114 165554 91 154506 100 162103 96 158271 107 166925 104 161917 100 161149 80 152263 81 151878 105 165678 111 166696 108 165387 97 161806 106 163824 Price of a house (euro) 155000 160000 165000 80 85 90 95 100 105 110 115 Size of a house (m^2)
Medidas de asociación lineal para variables cuantitativas La covarianza es una medida de la relación entre dos variables. Cuantifica la información en un gráfico de dispersión sobre la x y 1 0.81186553 asociación 1.71903042 lineal entre dos variables. 2 0.98151318 1.77181509 3 1.86964664 3.11027837 4 1.67494569 2.8040063 5 1.67159679 3.13403354 6 2.06896883 4.82231585 7 2.07458768 3.77439638 8 2.1276676 3.98994917 9 2.0867583 4.6670687 10 3.01682761 4.4723854 11 2.21807301 4.87721889 12 1.31836091 3.52703885 13 0.94868813 2.44574875 14 3.71304211 8.19843302 15 1.50010914 2.49454861 16 3.08738201 5.43299601 17 1.3694318 0.92412073 18 1.86684042 3.80057902 19 1.24087921 1.55770547 20 2.07104626 4.70391609 21 0.71226336 0.26642136 22 1.44547522 3.01707838 23 2.44837446 4.86795198 24 3.38040178 6.17440013 25 0.69995779 0.85487048 26 0.93002587 0.00913399 27 2.53962691 5.79717576 28 3.00173124 5.26160403 29 2.99222302 6.00492001 30 2.78137228 3.57409016 31 2.83313549 6.24472749 32 1.21334859 1.78724959 Covarianza: s xy = 1 n 1 9 Y 8 7 6 5 4 1 0 x i>media(x) y i>media(y) 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 3 x i<media(x) y i<media(y) 2 n i=1 x iy i n xȳ ( {}}{ ) n (x i x)(y i ȳ) i=1 X < s xy <
Medidas de asociación lineal: La covarianza s xy >> 0 Relación lineal positiva. s xy << 0 Relación lineal negativa. s xy 0 No existe relación lineal o existe relación no lineal. Inconvenientes de la covarianza: No está acotada ni superior ni inferiormente. Por lo tanto no se sabe cuándo s xy es suficientemente grande o pequeña. Depende de las unidades de medida de las variables: Si s xy es la covarianza de X e Y, a y b son dos números, y T = a + by, entonces s xt = b s xy.
Covarianza y relación entre variables
Medidas de asociación lineal: La correlación Correlación (coeficiente de correlación lineal de Pearson): Ventajas? Está acotada: 1 r xy 1 r xy = s xy s x s y No depende de las unidades de medida de las variables (es adimensional). Interpretación: r xy > 0: Asociación lineal positiva. r xy < 0: Asociación lineal negativa. r xy = 1: Relación lineal perfecta. r xy = 0: X e Y están incorreladas (ausencia de relación lineal).
Correlación y causalidad Supongamos que la correlación entre dos variables X e Y es muy alta (p. ej., r xy = 0.9) Podemos concluir que hay una relación causal entre ambas variables? (una es causa de la otra) La respuesta es que NO. P. ej., X = tamaño de los pies de un niño, Y = capacidad de comprensión lectora de un niño La correlación no implica causalidad Ver: https://es.wikipedia.org/wiki/cum_hoc_ergo_propter_hoc
Ejemplo Ejemplo- Tenemos tres variables sobre 91 países: X = esperanza de vida en hombres, Y = esperanza de vida en mujeres, y Z = PIB. Las covarianzas entre los tres posibles pares de dos variables son s xy = 105.15, s xz = 50066.04 y s yz = 57917.93. Las correlaciones son r xy = 0.98, r xz = 0.64 y r xz = 0.65. Por lo tanto, aunque las covarianzas entre la esperanza de vida en hombres y mujeres y el producto interior bruto sean mayores que la covarianza entre la esperanza de vida para hombres y la esperanza de vida para mujeres, la correlación es mayor entre estas dos últimas variables.
Ejercicio: Resultados del informe PISA 2012 Muestra: 64 países cuyos estudiantes realizaron el examen PISA en 2012. X : Puntuación media en lectura. Y : Puntuación media en matemáticas. Se obtiene que La covarianza entre X e Y es s xy = 2440.78. La correlación entre X e Y es r xy = 0.96. A continuación se muestra el diagrama de dispersión para estos datos. Qué puedes concluir sobre la relación entre ambas variables?
Ejercicio: Resultados del informe PISA 2012
Ejercicio: Resultados del informe PISA 2012