Estadística I Tema 3: Análisis de datos bivariantes

Documentos relacionados
Estadística I Tema 3: Análisis de datos bivariantes

Estadística I Tema 3: Análisis de datos bivariantes

Tema 3: Análisis de datos bivariantes

Tema 2: Análisis de datos bivariantes

Descripción conjunta de dos variables

Tema 2: Análisis de datos bivariantes

Tema 3: Análisis de datos bivariantes

Estadística I Ejercicios Tema 3 Curso 2016/17

ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL. 30/09/2004 Proyecto MaMaEuSch 1

DISTRIBUCIONES BIDIMENSIONALES

Estadística I. Finanzas y contabilidad

Tema 8. Organización y descripción de datos con más de una variable

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1

Tema 3: Análisis de datos bivariantes

M Dolores Redondas Curso

Distribución bidimensional. Marginales. Correlación lineal. Rectas de regresión.

Tema 9: Estadística en dos variables (bidimensional)

Tema 3: ESTADÍSTICA DESCRIPTIVA CON DOS VARIABLES 1. TABULACIÓN DE DOS VARIABLES: Tablas simples Tablas de doble entrada

Estadística I Tema 2: Análisis de datos univariantes

Estadística Estadística descriptiva bivariante

Tema 7: Estadística descriptiva bivariante

2. ESTADÍSTICAS BIDIMENSIONALES

3.2: Medidas numéricas

Unidad 1. Obtención, Medición y Representación de Datos. Estadística E.S.O.

ENCUESTA CUATRIENAL DE ESTRUCTURA SALARIAL 2014

ESTADISTICA. Tradicionalmente la aplicación del término estadística se ha utilizado en tres ámbitos:

Apuntes de Estadística

U ED Tudela Introducción al Análisis de Datos - Tema 5

Estadística I Tema 2: Análisis de datos univariantes Descripción numérica de datos

Estadística aplicada al Periodismo

Tema 2: Estadística Bivariante Unidad 1: Correlación y Regresión

Tema 2: Estadística Descriptiva Bivariante.

ESTADÍSTICA - PROMOCIÓN 2006 TRABAJOS DE APLICACIÓN CON DATOS ROPÍOS

UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ECONÓMICAS

1. Estadística. 2. Seleccionar el número de clases k, para agrupar los datos. Como sugerencia para elegir el k

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 4)

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

4 Descripción conjunta de varias variables.

Tema 9: Estadística descriptiva

U ED Tudela Introducción al Análisis de Datos - Tema 4

Diplomatura en Ciencias Empresariales

Representaciones gráficas de las distribuciones bidimensionales de frecuencias... 74

D I S T R I B U C I O N E S B I D I M E N S I O N A L E S

Duración (intervalo) Número de servicios [0, 10) 8 [10, 20) 17 [20, 30) 14 [30, 40) 10 [40, 60) 11 Total 60

Estadística aplicada al Periodismo

Part I. Descripción estadística de dos variables. Estadística I. Mario Francisco. Variable. bidimensional. Distribuciones de frecuencias

Estadística I Tema 2: Análisis de datos univariantes

Estadística I Tema 1: Introducción y conceptos básicos. Rudimentos de Excel

2.2: Resumen numérico

Tema 1. Estadística Unidimensional

1 Resolución de algunos ejemplos y ejercicios del tema 1.

Estadística aplicada al Periodismo

4 Descripción conjunta de varias variables. Ejemplos y ejercicios.

Estadística Descriptiva 2da parte

CLASES DE ESTADÍSTICA II ESPERANZA ABSOLUTA

ESTADÍSTICA EN RRLL - CURSO 2010 VESPERTINO Y NOCTURNO MODULO 5: ANÁLISIS BIVARIADO

y = 2, entonces: a) x es más dispersa que y. b) son igual de dispersas. 9.- Sean dos variables estadísticas x e y con los siguientes valores x = 5, σ

Repaso Estadística Descriptiva

Regresión y Correlación

Construcción de Gráficas en forma manual y con programados

ESTADÍSTICA APLICADA A LA COMUNICACIÓN CAMPUS VIRTUAL OCW EXAMEN 1. SOLUCIONES

C7) Dada la distribución bidimensional de las variables "Numero de desplazamientos diarios" y "Medio de transporte utilizado" es cierto que: a) De los

Estadística aplicada a la comunicación

CURSO VIRTUAL. Acceso a fuentes de información y manejo de redes sociales. Módulo 2

ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS CON LA HOJA DE CÁLCULO EXCEL

Análisis de las propinas de un restaurante

Tema 1 Estadística descriptiva: Tipos de variables estadísticas, tablas y sus gráficos

Estadísticas Elemental Tema 3: Describir la relación entre dos variables: Correlación lineal 3.1-1

Técnicas Cuantitativas para el Management y los Negocios

PROFESOR: DR. FRANCISCO LINARES MARTÍNEZ

Facultad de Ciencias Económicas y Empresariales - Grado en Economía Prácticas Estadística I Curso PRÁCTICA 1

Estadística Descriptiva II: Relación entre variables

CALENDARIZACIÓN DE CONTENIDOS

ANÁLISIS DE DATOS. L.A. y M.C.E. Emma Linda Diez Knoth

Cátedra: Estadística Técnica Facultad de Ingeniería UNCuyo. Índice D. Fernández & M. Guitart TABLA DE CONTENIDOS

c) Pictograma. Un mapa geográfico o cualquier otro elemento pictográfico que representa los datos. Es muy utilizado en prensa

UNIDAD DIDÁCTICA III ESTADÍSTICA BIDIMENSIONAL Y REGRESIÓN LINEAL SIMPLE

Categoría Bachillerato y ciclos formativos de grado medio

Cuaderno de actividades 1º

Estadística 12 CLAVES PARA EMPEZAR VIDA COTIDIANA RESUELVE EL RETO ACTIVIDADES. 1. Página 238 N.º de goles Frecuencia

Estadística I Tema 2: Análisis de datos univariantes

Datos bivariantes: tablas de doble entrada y resumenes grácos

Programa Oficial de Asignatura. Ficha Técnica. Presentación. Competencias y/o resultados del aprendizaje. Estadística

Tema 4. Herramientas de representación gráfica

Distribuciones bidimensionales. Correlación.

ESTADÍSTICA SEMANA 2

1.- Diagrama de barras

EJERCICIOS TEMA 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas:

Gráficos para variables cuantitativas

Tema 10: Introducción a los problemas de Asociación y Correlación

GUÍA DE EJERCICIOS. Áreas Matemáticas Análisis Estadístico

TEMA 4: DISTRIBUCIONES BIDIMENSIONALES

TEMA 14 ESTADÍSTICA. Cuantitativa: si puede medirse y expresarse con números (es una variable), por ejemplo la talla de calzado.

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va

Estadística Descriptiva Bivariante e Intervalos de Confianza

Apuntes de Estadística

Estadística Administrativa Diplomatura en Gestión y Administración Pública Curso Segundo Facultad de Derecho Universidad de Sevilla

Transcripción:

Estadística I Tema 3: Análisis de datos bivariantes

Tema 3: Análisis de datos bivariantes Contenidos 1. Introducción. Datos bivariantes. 2. Representaciones. Tablas de doble entrada. Distribución conjunta de frecuencias. Frecuencias marginales y condicionadas. Tabla de doble entrada con alguna variable cuantitativa. 3. Gráficos y resúmenes numéricos: Variables cualitativas: diagramas de barras (agrupadas, apiladas) Variable cualitativa y cuantitativa: Múltiples diagramas de caja, histogramas Múltiples resúmenes numéricos. Variables cuantitativas: Diagrama de dispersión. Tipos de relación entre dos variables cuantitativas. Medidas de asociación lineal: covarianza y coeficiente de correlación

Tema 3: Análisis de datos bivariantes Lecturas recomendadas Peña, D. y Romo, J., Introducción a la Estadística para las Ciencias Sociales. Capítulos 7, 8 y 9. Newbold, P. Estadística para los Negocios y la Economía. Secciones 2.5 y 12.1 12.4.

Introducción. Datos bivariantes Afecta el paro en igual medida a toda la población independientemente de su formación? Los individuos con mayor nivel educativo están más, menos o igualmente satisfechos con su vida que aquellos que tienen menor nivel educativo? Cambia el patrón de consumo y producción responsable en los países con mayores ingresos con respecto a aquellos con menores ingresos? Sigue habiendo brecha de género en el salario? Existe alguna relación entre el volumen de ventas de una empresa y sus activos humanos? Están relacionadas la superficie de una vivienda y su precio? Hay alguna relación entre los resultados medios de un país en comprensión lectora y en matemáticas en las evaluaciones PISA?

Introducción. Datos bivariantes Datos bivariantes: provienen de la observación simultánea de dos variables (X, Y ) en una muestra de n individuos. Los datos bivariantes son pares de valores, numéricos o no, de la forma (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Además de analizar cada variable por separado, queremos estudiar si existe relación entre ellas, y en tal caso analizar tal relación.

Tablas de doble entrada. Distribución conjunta de frecuencias absolutas. Muestra: 10 madrileños. Variable X : Nivel educativo (1=Primaria o menor, 2=Secundaria, 3=Post-secundaria) Variable Y : Situación laboral (1=Empleado, 2=Desempleado, 3=Inactivo) Individuo 1 2 3 4 5 6 7 8 9 10 Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2 Situación laboral (Y ) 3 1 1 3 3 3 3 3 1 3 X \Y Empleado (1) Desempleado (2) Inactivo (3) Primaria (1) 0 0 2 Secundaria (2) 1 0 4 Post-secundaria (3) 2 0 1

Tablas de doble entrada. Distribución conjunta de frecuencias absolutas. Muestra: 10 madrileños. Variable X : Nivel educativo (1=Primaria o menos, 2=Secundaria, 3=Post-secundaria) Variable Y : Situación laboral (1=Empleado, 2=Desempleado, 3=Inactivo) Individuo 1 2 3 4 5 6 7 8 9 10 Nivel educativo (X ) 2 3 2 3 2 2 1 1 3 2 Situación laboral (Y ) 3 1 1 3 3 3 3 3 1 3 X \ Y Empleado (1) Desempleado (2) Inactivo (3) Primaria (1) 0 0 2 Secundaria (2) 1 0 4 Post-secundaria (3) 2 0 1

Ejemplo: Distribución conjunta de frecuencias absolutas. Cuando al menos una variable es cualitativa, la tabla de doble entrada también se denomina tabla de contingencia. Muestra: 1508 madrileños (Encuesta de Condiciones de Vida, INE). Variable X : Nivel educativo (1=Primaria o menos, 2=Secundaria, 3=Post-secundaria) Variable Y : Situación laboral (1=Empleado, 2=Desempleado, 3=Inactivo) X \ Y Empleado Desempleado Inactivo Primaria 95 6 315 Secundaria 393 28 257 Post-secundaria 317 8 89

Distribuciones de frecuencias absolutas: conjunta y marginales. Y si solo nos interesa la situación laboral de los madrileños? o solo su nivel educativo? X \ Y Empleado Desempleado Inactivo Total Primaria 95 6 315 416 Secundaria 393 28 257 678 Post-secundaria 317 8 89 414 Total 805 42 661 1508

Tabla de doble entrada de frecuencias absolutas Tabla de doble entrada con k filas y m columnas Y c 1 c j c m Total c 1 n 11 n 1j n 1m n 1 Notación:..... X c i n i1 n ij n im n i..... c k n k1 n kj n km n k Total n 1 n j n m n Frec. absoluta conjunta para las clases c i de X y c j de Y : n ij Frec. absoluta marginal para la clase c i de X : n i = n i1 + + n im Frec. absoluta marginal para la clase c j de Y : n j = n 1j + + n kj Tamaño muestral: n = n

Distribuciones de frecuencias relativas: conjunta y marginales. X \ Y Empleado Desempleado Inactivo Total Primaria 0.0630 0.0040 0.2089 0.2759 Secundaria 0.2606 0.0186 0.1704 0.4496 Post-secundaria 0.2102 0.0053 0.0590 0.2745 Total 0.5338 0.0279 0.4383 1 El 0.53 % de los encuestados tiene estudios de Post-secundaria y está desempleado. Empleando frecuencias relativas podríamos comparar los resultados obtenidos en estudios similares (de otros países) con distintos tamaños muestrales.

Tabla de doble entrada de frecuencias relativas f ij = n ij /n: Frec. relativa conjunta para las clases c i de X y c j de Y Y c 1 c j c m Total c 1 f 11 f 1j f 1m f 1..... X c i f i1 f ij f im f i..... c k f k1 f kj f km f k Total f 1 f j f m 1 Frecuencia relativa marginal para la fila i (clase c i de X ): f i = f i1 + + f ij + + f im Frecuencia relativa marginal para la columna j (clase c j de Y ): f j = f 1j + + f ij + + f kj

Representaciones gráficas. Diagramas de barras agrupadas y apiladas En Excel: Insertar gráfico Columna agrupada

Distribuciones de frecuencias condicionadas Y si solo nos interesa la situación laboral de los individuos con nivel educativo más alto? Y si queremos analizar la relación entre el nivel educativo y la situación laboral? Tiene sentido comparar el número de desempleados con estudios de secundaria con el número de desempleados con estudios de post-secudaria sin tener en cuenta cuántos individuos hay en cada categoría?

Distribuciones de frecuencias condicionadas Dada la distribución conjunta de (X, Y ), llamaremos distribución condicionada a la distribución de frecuencias (absolutas o relativas) de una variable, suponiendo conocido el valor de la otra variable. Notación: Y X = c i, o X Y = c j. Distribución condicionada de frecuencias de la situación laboral (Y ) para personas con un nivel educativo (X ) de Post-secundaria: Y X = Post-secundaria Empleado Desempleado Inactivo Total Frec. cond. absoluta 317 8 89 414 Frec. cond. relativa 0.7657 0.0193 0.2150 1 El 1.93 % de los encuestados con estudios de Post-secundaria está desempleado Qué porcentaje de individuos con estudios de secundaria o superiores está desempleado?

Distribuciones de frecuencias condicionadas Puede condicionarse también a que una variable tome varios valores: Y X Secundaria. Y (X Secundaria) Empleado Desempleado Inactivo Total Frec. cond. absoluta 710 36 346 1092 Frec. cond. relativa 0.6502 0.0330 0.3168 1 El 3.3 % de los encuestados con estudios de secundaria o superiores está desempleado.

Distribuciones de frecuencias condicionadas Podemos emplear las distribuciones condicionadas para analizar la relación entre la situación laboral y el nivel de estudios? En Excel: Insertar gráfico Columna 100 % apilada

Tabla de doble entrada para variables cuantitativas Muestra: 43 alumnos. Variable X : Núm. de veces que ha ido al teatro en el último mes. Variable Y : Núm. de veces que ha ido al cine en el último mes. X e Y son variables cuantitativas discretas y toman un número pequeño de valores distintos datos sin agrupar Teatro / Cine 0 1 2 3 4 Total 0 12 5 4 2 1 24 1 4 3 2 1 0 10 2 3 3 2 0 0 8 3 1 0 0 0 0 1 Total 20 11 8 3 1 43 Cuál es el número medio de veces que han ido al cine en el último mes (independientemente del número de veces que hayan ido al teatro)? y al teatro? Cuál es el número medio de veces que han ido al cine en el último mes aquellos que no han ido ninguna vez al teatro? y entre los que han ido 1 vez al teatro? y 2? y 3?

Tabla de doble entrada para variables cuantitativas Muestra: 1000 empresas americanas. Variable X : Volumen de ventas. Variable Y : Núm. de trabajadores. X e Y son cuantitativas discretas y toman un número grande de valores distintos (o si son continuas) datos agrupados X / Y [1,25) [25,50) [50,75) [75,99] Total [1,100) 0.293 0.122 0.098 0.049 0.561 [100,200) 0.098 0.073 0.049 0.024 0.244 [200,300] 0.073 0.073 0.049 0.000 0.195 Total 0.463 0.268 0.195 0.073 1.000 Cuántas empresas tienen un volumen de ventas menor que 100? Qué porcentaje de empresas con menos de 25 trabajadores tiene un volumen de ventas de al menos 200? Qué proporción de empresas tiene menos de 25 trabajadores y un volumen de ventas de al menos 200? Cuál es el tamaño medio de todas las empresas de la muestra? Y de aquellas con un volumen de ventas menor que 100?

Ejercicio (Encuesta de Condiciones de Vida. Modulo año 2013, INE) Qué distribuciones están representadas en la tabla anterior? Qué porcentaje de encuestados con educación secundaria primera etapa puntúa su satisfacción entre 5 y 6? Muchas tablas en informes son tablas de frecuencias condicionadas

Ejercicio (Encuesta de Condiciones de Vida. Modulo año 2013, INE) Verdadero o falso? Si es falso, tienes suficiente información para calcular el porcentaje verdadero? Entre los encuestados más satisfechos con su vida actual (puntuación entre 9 y 10), el 23.3 % tiene educación superior. El 75.5 % de los encuestados con educación superior está satisfecho o muy satisfecho con su vida actual (puntuación por encima de 7) El 38.5 % de los encuestados puntúa su satisfacción con su vida actual por debajo de 5. Es incorrecto sumar frecuencias condicionadas cuando se condiciona en valores distintos

Ejercicio Comenta los siguientes gráficos: Qué distribuciones están representadas en el gráfico de barras? Qué relación observas entre la satisfacción media con su vida actual y el nivel educativo de los individuos?

Peligros de las comparaciones no homogéneas: Paradoja de Simpson https://es.wikipedia.org/wiki/paradoja_de_simpson Sex Bias in Graduate Admissions: Data from Berkeley, Bickel et al., Nature 187 (1975) ADMISIONES Admisiones Denegadas 56% 65% 44% 35% H O M B R E S M U J E R E S Discriminó la Universidad de Berkeley a las mujeres que habían solicitado su ingreso al postgrado?

25 6% 7% 108 191 28% 24% 272 37% 34% 33% 35% 35% 325 375 341 44% 417 393 560 62% 63% 593 68% 82% 825 Peligros de las comparaciones no homogéneas: Paradoja de Simpson Datos de admisiones desglosados por departamentos (A,, F) y sexo: ADMISIONES SOLICITUDES Hombres Mujeres Hombres Mujeres A B C D E F T O T A L A B C D E F Discriminó la Universidad de Berkeley a las mujeres que habían solicitado su ingreso al postgrado?

Variables cualitativas y cuantitativas En la mayoría de los estudios se recogen datos de distinta naturaleza, cualitativos y cuantitativos. Es habitual que las variables cualitativas se utilicen para clasificar: se estudia el comportamiento de la variable cuantitativa según las categorías de la variable cualitativa. Ejemplo Muestra: 157 países. Variable Y : Puntuación promedio obtenida acerca del grado de cumplimiento del ODS12 (Producción y Consumo Responsables) Variable X : Grupo de Ingresos en 2016. Cómo cambia la puntuación promedio en el ODS12 de los países según su nivel de ingresos?

FRECUENCIA Variables cualitativas y cuantitativas. Múltiples Box-Plot Average score on SDG12 (Producción y consumo responsables) 60 Average score on SDG12 50 40 30 20 10 0 32.8 41.5 50.2 58.9 67.6 76.3 85 93.7 CLASE Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/

FRECUENCIA FRECUENCIA FRECUENCIA FRECUENCIA Variables cualitativas y cuantitativas. Múltiples Histogramas Average score on SDG12 (Producción y consumo responsables) LIC-Average Score SDG12 LMIC-Average Score SDG12 8 7 6 5 4 3 2 1 0 76.6 78.7 80.8 82.9 85 CLASE 20 15 10 5 0 71.2 75.7 80.2 84.7 89.2 93.7 CLASE UMIC-Average Score SDG12 HIC-Average Score SDG12 16 14 12 10 8 6 4 2 0 49.2 54.6 60 65.4 70.8 76.2 81.6 CLASE 12 10 8 6 4 2 0 31.3 38.4 45.5 52.6 59.7 66.8 73.9 CLASE Fuente: SDG Index & Dashboards Report 2017, http://www.sdgindex.org/

Variables cualitativa y cuantitativa. Histogramas múltiples Sigue habiendo brecha de género en el salario?

Resúmenes numéricos múltiples. Tablas de datos Existe relación entre el salario y el nivel de formación? Son habituales las tablas que presentan medidas numéricas de la variable cuantitativa para cada categoría de la variable cualitativa:

Resúmenes numéricos múltiples. Tablas de datos Existe relación entre el salario y el nivel de formación? Los resultados de una tabla se pueden representar gráficamente. La desviación del salario medio en % de un grupo g con respecto al salario medio total se obtiene como: ( xg x ) total Desv g = 100 x total

Resúmenes numéricos múltiples. Pictogramas Se observan diferencias entre los salarios de los trabajadores dependiendo de su CCAA? Los resultados de una tabla se pueden representar por medio de pictogramas. En este caso, de un cartograma:

Variables cuantitativas. Diagrama de dispersión Hay relación entre la superficie de una vivienda y su precio? Muestra: 15 viviendas. Variable Y : Precio. Variable X : m 2 habitables. m 2 habitables precio 107 162657 114 165554 91 154506 100 162103 96 158271 107 166925 104 161917 100 161149 80 152263 81 151878 105 165678 111 166696 108 165387 97 161806 106 163824 Price of a house (euro) 155000 160000 165000 80 85 90 95 100 105 110 115 Size of a house (m^2)

Medidas de asociación lineal para variables cuantitativas La covarianza es una medida de la relación entre dos variables. Cuantifica la información en un gráfico de dispersión sobre la x y 1 0.81186553 asociación 1.71903042 lineal entre dos variables. 2 0.98151318 1.77181509 3 1.86964664 3.11027837 4 1.67494569 2.8040063 5 1.67159679 3.13403354 6 2.06896883 4.82231585 7 2.07458768 3.77439638 8 2.1276676 3.98994917 9 2.0867583 4.6670687 10 3.01682761 4.4723854 11 2.21807301 4.87721889 12 1.31836091 3.52703885 13 0.94868813 2.44574875 14 3.71304211 8.19843302 15 1.50010914 2.49454861 16 3.08738201 5.43299601 17 1.3694318 0.92412073 18 1.86684042 3.80057902 19 1.24087921 1.55770547 20 2.07104626 4.70391609 21 0.71226336 0.26642136 22 1.44547522 3.01707838 23 2.44837446 4.86795198 24 3.38040178 6.17440013 25 0.69995779 0.85487048 26 0.93002587 0.00913399 27 2.53962691 5.79717576 28 3.00173124 5.26160403 29 2.99222302 6.00492001 30 2.78137228 3.57409016 31 2.83313549 6.24472749 32 1.21334859 1.78724959 Covarianza: s xy = 1 n 1 9 Y 8 7 6 5 4 1 0 x i>media(x) y i>media(y) 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 3 x i<media(x) y i<media(y) 2 n i=1 x iy i n xȳ ( {}}{ ) n (x i x)(y i ȳ) i=1 X < s xy <

Medidas de asociación lineal: La covarianza s xy >> 0 Relación lineal positiva. s xy << 0 Relación lineal negativa. s xy 0 No existe relación lineal o existe relación no lineal. Inconvenientes de la covarianza: No está acotada ni superior ni inferiormente. Por lo tanto no se sabe cuándo s xy es suficientemente grande o pequeña. Depende de las unidades de medida de las variables: Si s xy es la covarianza de X e Y, a y b son dos números, y T = a + by, entonces s xt = b s xy.

Covarianza y relación entre variables

Medidas de asociación lineal: La correlación Correlación (coeficiente de correlación lineal de Pearson): Ventajas? Está acotada: 1 r xy 1 r xy = s xy s x s y No depende de las unidades de medida de las variables (es adimensional). Interpretación: r xy > 0: Asociación lineal positiva. r xy < 0: Asociación lineal negativa. r xy = 1: Relación lineal perfecta. r xy = 0: X e Y están incorreladas (ausencia de relación lineal).

Correlación y causalidad Supongamos que la correlación entre dos variables X e Y es muy alta (p. ej., r xy = 0.9) Podemos concluir que hay una relación causal entre ambas variables? (una es causa de la otra) La respuesta es que NO. P. ej., X = tamaño de los pies de un niño, Y = capacidad de comprensión lectora de un niño La correlación no implica causalidad Ver: https://es.wikipedia.org/wiki/cum_hoc_ergo_propter_hoc

Ejemplo Ejemplo- Tenemos tres variables sobre 91 países: X = esperanza de vida en hombres, Y = esperanza de vida en mujeres, y Z = PIB. Las covarianzas entre los tres posibles pares de dos variables son s xy = 105.15, s xz = 50066.04 y s yz = 57917.93. Las correlaciones son r xy = 0.98, r xz = 0.64 y r xz = 0.65. Por lo tanto, aunque las covarianzas entre la esperanza de vida en hombres y mujeres y el producto interior bruto sean mayores que la covarianza entre la esperanza de vida para hombres y la esperanza de vida para mujeres, la correlación es mayor entre estas dos últimas variables.

Ejercicio: Resultados del informe PISA 2012 Muestra: 64 países cuyos estudiantes realizaron el examen PISA en 2012. X : Puntuación media en lectura. Y : Puntuación media en matemáticas. Se obtiene que La covarianza entre X e Y es s xy = 2440.78. La correlación entre X e Y es r xy = 0.96. A continuación se muestra el diagrama de dispersión para estos datos. Qué puedes concluir sobre la relación entre ambas variables?

Ejercicio: Resultados del informe PISA 2012

Ejercicio: Resultados del informe PISA 2012