Capítulo 6. Análisis bivariante de variables



Documentos relacionados
UNIDAD DIDÁCTICA III ESTADÍSTICA BIDIMENSIONAL Y REGRESIÓN LINEAL SIMPLE

ANÁLISIS DE DATOS MULTIDIMENSIONALES

5 Relaciones entre variables.

Análisis estadístico básico (I) Magdalena Cladera Munar Departament d Economia Aplicada Universitat de les Illes Balears

Estadística I Tema 3: Análisis de datos bivariantes

ANÁLISIS CUANTITATIVO DE DATOS EN CIENCIAS SOCIALES CON EL SPSS (I) Tablas de contingencia y pruebas de asociación

Tema 3: Análisis de datos bivariantes

4 Descripción conjunta de varias variables.

MÉTODOS DE INVESTIGACIÓN EN EDUCACIÓN. Tema 8

Medidas de asociación

Estadística II Tema 4. Regresión lineal simple. Curso 2010/11

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 4)

Variable Estadística Bidimensional

Estadística aplicada a la comunicación

Matrices, determinantes, sistemas de ecuaciones lineales.

Distribución bidimensional. Marginales. Correlación lineal. Rectas de regresión.

Estadística Estadística descriptiva bivariante

FUNDAMENTOS METODOLÓGICOS EN PSICOLOGÍA ANÁLISIS BÁSICOS CON SPSS

2.5. Asimetría y apuntamiento

4. Medidas de tendencia central

MATEMÁTICAS APLICADAS A LAS C.C. SOCIALES

El análisis de correspondencias. Ana María López Jiménez Dept. Psicología Experimental (USE)

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Tema 2: Estadística Bivariante Unidad 1: Correlación y Regresión

CALIDAD 1 JOSÉ MANUEL DOMENECH ROLDÁN PROFESOR DE ENSEÑANZA SECUNDARIA

ÁLGEBRA MATRICIAL. 1. La traspuesta de A es A; (A ) = A. 2. La inversa de A 1 es A; (A 1 ) 1 = A. 3. (AB) = B A.

BLOQUE DE ÁLGEBRA: TEMA 1: MATRICES.

Descripción de tablas de contingencia

Tema 8. Organización y descripción de datos con más de una variable

Análisis de Datos CAPITULO 3: MEDIDAS DE VARIABILIDAD Y ASIMETRÍA

DISTRIBUCIONES BIDIMENSIONALES

Tema 2: Análisis de datos bivariantes

Introducción al Tema 9

Polinomios. 1.- Funciones cuadráticas

MATRICES Y DETERMINANTES RANGO DE UNA MATRIZ

Descripción conjunta de dos variables

PROBABILIDAD Y ESTADÍSTICA. Sesión 5 (En esta sesión abracamos hasta tema 5.8)

Capítulo 12 Análisis de variables categóricas El procedimiento Tablas de contingencia

1. SISTEMAS DE ECUACIONES DIFERENCIALES

Julia García Salinero. Departamento de Investigación FUDEN. Introducción

4,2 + 0,67 Y c) R 2 = 0, En la estimación de un modelo de regresión lineal se ha obtenido:

TABLAS DE CONTINGENCIA

Matrices. Concepto de matriz Se denomina matriz a todo conjunto de números o expresiones ordenados en filas y columnas.

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES

DIPLOMADO EN RELACIONES LABORALES Estadística Asistida por Ordenador Curso

Tema 5. Estadística descriptiva bivariable con variables categóricas y numéricas

Estadística I Tema 3: Análisis de datos bivariantes

Matriz sobre K = R o C de dimensión m n

Estadística para el análisis de los Mercados S3_A1.1_LECV1. Estadística Descriptiva Bivariada

TEMA 4: RESOLUCIÓN DE SISTEMAS MEDIANTE DETERMINANTES.

Herramientas digitales de auto-aprendizaje para Matemáticas

Tema 10: Introducción a los problemas de Asociación y Correlación

Distribuciones Bidimensionales.

Análisis Factorial: Análisis de componentes principales

λ = es simple se tiene que ( )

Ejercicios resueltos del capítulo 1

Se denomina matriz a todo conjunto de números o expresiones dispuestos en forma rectangular, formando filas y columnas.

2. ESTADÍSTICAS BIDIMENSIONALES

Contenido. Introducción. Introducción. Definiciones. Estadística Descriptiva. Estadística Descriptiva

DISTRIBUCIONES BIDIMENSIONALES

D I S T R I B U C I O N E S B I D I M E N S I O N A L E S

Forman base cuando p 0 y 1.

ESTADISTICA APLICADA: PROGRAMA

Matrices, Determinantes y Sistemas de ecuaciones lineales

CAPÍTULO 3: DETERMINANTES Y SISTEMAS DE ECUACIONES

CLASES DE ESTADÍSTICA II ESPERANZA ABSOLUTA

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

Distribuciones bidimensionales. Correlación.

Tema 2: Análisis de datos bivariantes

Matrices. p ij = a ik b kj = a i1 b 1j + a i2 b 2j + + a in b nj.

Estadística inferencial. Aplicación con el SPSS

Determinación del tamaño muestral para calcular la significación del coeficiente de correlación lineal

UNIVERSIDAD DE CIENCIAS EMPRESARIALES Y SOCIALES Facultad de Psicología y Ciencias Sociales. Licenciatura en Sociología. ESTADÍSTICA II (Plan 2008)

4. Obtén las siguientes tablas de doble entrada para las variables Dispersión y Formación:

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Lucila Finkel Temario

Lección 1. Algoritmos y conceptos básicos.

Tabulación Cruzada. Sample StatFolio: crosstabulation.sgp

U ED Tudela Introducción al Análisis de Datos - Tema 4

Vectores y Matrices. Tema 3: Repaso de Álgebra Lineal Parte I. Contenidos

Tema 2: Análisis de datos bidimensionales

Matrices y Determinantes.

UNIDAD II FUNCIONES. Ing. Ronny Altuve Esp.

Teoría de la decisión Estadística

Ejemplo 1. Ejemplo introductorio

Análisis de fiabilidad. García-Bellido, R.; González Such, J. y Jornet Meliá, J.M.

1 Tema 4: Variable Aleatoria Bidimensional y n-dimensional

dos, tres o más variables categóricas en una tabla de contingencia.

Matemáticas 4 Enero 2016

Regresión lineal múltiple

RELACIÓN DE EJERCICIOS DE REPASO DE MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I

Pruebas de bondad de ajuste

Valores y Vectores Propios

TEMA 2: DISTRIBUCIONES BIDIMENSIONALES

Análisis descriptivo con SPSS. Favio Murillo García

Tema 2: Estadística Descriptiva Bivariante.

Propiedades de la distribución «Normal»

Sistemas de Ecuaciones Lineales

Funciones: raíz cuadrada, potencia, exponencial y logaritmo

Sucesiones y series de números reales

Transcripción:

Contenidos: Capítulo 6 Análisis bivariante de variables Distribución bidimensional de frecuencias ( tabla de correlación o contingencia ) Distribuciones marginales Coeficientes de Asociación Análisis de la dependencia lineal para var. cuantitativas: - concepto de dependencia lineal - la covarianza y sus propiedades - coeficiente de correlación lineal y matriz de correlaciones

Tabla de Correlación n o Contingencia Ahora tratamos de determinar si existe relación de interdependencia entre 2 variables, es decir, si se influyen mutuamente. Dadas dos variables cualesquiera A y B calculamos una tabla de contingencia: donde nij es el número de observaciones que presentan simultáneamente las características i, j de las variables A y B, respectivamente. Así, una tabla de contingencia es una una tabla de doble entrada, donde en cada casilla figurará el número de casos o individuos que poseen un nivel de una de las características analizadas y otro nivel de la otra característica.

Distribuciones marginales Al analizar una distribución bidimensional, uno puede centrar su estudio en el comportamiento de una de las variables, con independencia de cómo se comporta la otra. Nos interesaría entonces calcular las distribuciones marginales: Definimos: J n i = n ij j = 1 n I j = n ij i= 1 son las frecuencias absolutas marginales de las variables A y B, respectivamente. f J = i j = 1 n ij n f j = I i= 1 n ij n son las frecuencias relativas marginales de las variables A y B, respectivamente.

Utilizando estas distribuciones marginales podemos construir las siguientes tablas de contingencia: a) Distribuciones marginales b) Distribuciones de frecuencias relativas

c) Perfiles fila d) Perfiles columna

Ejemplo: Baleares como segunda residencia. Con el objetivo de conocer la evolución y estructura del gasto turístico, el Govern Balear realiza anualmente una encuesta sobre el gasto turístico en las Islas Baleares. Entre la información que se publica para el año 1990 aparece el deseo que los turistas tienen de seleccionar Baleares como una posible segunda residencia. Considerando que este deseo puede estar en función de la zona en donde se ha realizado la estancia, las respuestas a la cuestión desearía escoger Baleares como segunda residencia? se han cruzado con el lugar de estancia. Las posibles respuestas a la pregunta son: (i) no; (ii) sí, en los próximos años; (iii )sí, cuando me jubile, (iv) no lo sabe. Los lugares de estancia se han clasificado en las siguientes zonas: (1) Palma; (2) Costa de Ponent; (3) Costa de Tramuntana; (4) Badia de Pollença; (5) Badia d Alcudia; (6) Costa de Llevant; (7) Platja de Palma-S Arenal; (8) Menorca; (9) Eivissa- Formentera. Tabla de contingencia

Perfil fila: Perfil columna:

Coeficientes de asociación Las tablas de contingencia son un arma muy útil para tratar de determinar si entre 2 variables dadas existe algún grado de asociación o dependencia. Ejemplo anterior, influye en la respuesta sobre considerar Baleares como segunda residencia el hecho de haber pasado las vacaciones en una zona u otra?). Una medida sintética del grado de asociación se calcula a partir de la comparación entre los valores observados y los valores que uno esperaría encontrar en el caso de inexistencia de asociación. Si,en el ejemplo anterior, no se esperase ninguna asociación, la distribución de frecuencias relativas en términos de los perfiles columna sería la reproducida en el cuadro siguiente:

1) Coeficiente de Asociación Chi-Cuadrado (χ2): χ 2 2 χ = I J i= 1 j = 1 ( n e ) Si 0 no habrá asociación ij e ij ij 2 n ij e ij Frecuencia observada = n n i j n inexistencia de asociación Frecuencia esperada Problema: no tiene límite superior por lo que no permite conocer el grado de asociación. 2) Coeficiente C de contingencia de Karl Pearson: C = χ χ 2 2 + n límite _ máximo = 1 1 min( I, J ) Como solución: Casuística (0 C 1): Si C 0 inexistencia de asociación Si C 1 perfecta asociación entre las variables

3) Coeficiente lambda (λ): A partir de estos datos trataremos de determinar si utilizar los resultados de una de las variables nos facilita la predicción de la otra. Var. Dependiente: sobre la que se realiza la predicción. Var. Independiente o explicativa: la que facilita la predicción.

El estadístico Lambda se define como: Caso 1: variable edad = variable independiente error no condicionado=10135 error condicionado=5318+4205=9523 λ=0,06 Luego, utilizando la variable edad como variable independiente reducimos en un 6,04% el error de predicción.

Caso 2: variable edad = variable dependiente error no condicionado=9022 error condicionado=4817+4205=9022 λ=0 Luego tener información sobre la variable edad no mejora en nada la predicción de la variable zona urbana/rural. Una síntesis de los dos estadísticos Lambda anteriores es el denominado Lambda simétrico trico, que es una combinación de los dos anteriores ( en el ejemplo anterior λs = 0,03195 )

4) Gamma (γ), tau-b (τb) y tau-c (τc) Importante!! Estos estadísticos de asociación NO se pueden calcular en caso de que alguna de las variables a analizar sea una variable nominal. No veremos las fórmulas para calcularlas, tan sólo aprenderemos a interpretar sus valores: -1 γ, τb, τc 1 En cuanto al signo de la asociación: Si γ, τb, τc >0 Asociación positiva entre las variables Si γ, τb, τc <0 Asociación negativa entre las variables

En cuanto al grado de asociación: Si γ, τb, τc 0 inexistencia de asociación Si γ, τb, τc 1 ó -1 perfecta asociación entre las variables Ejemplo: Variables a analizar: número de estrellas de un hotel precio habitación por persona/día El estadístico Gamma será positivo o negativo? Es decir, a medida que aumenta el número de estrellas, aumentará o disminuirá el precio de las habitaciones? aumentará γ >0, asociación positiva

Análisis Bivariante para Variables Cuantitativas. Concepto de dependencia o asociación lineal Decimos que existe una relación de dependencia lineal exacta entre X e Y cuando existen ctes. a, b tales que : Yi= a + bxi i=1,..,n b>0 dependencia lineal positiva b<0 dependencia lineal negativa

Concepto de dependencia lineal OJO!!!: podríamos tener relaciones perfectas entre X e Y pero sólo estamos analizando las de tipo lineal: Relación tipo cuadrática

Concepto de dependencia lineal Utilizaremos el coeficiente de correlación lineal simple para determinar el grado de dependencia lineal entre 2 variables. Ejemplos: Dependencia lineal positiva no exacta ausencia de dependencia lineal

Covarianza Covarianza entre X e Y Mide si existe asociación lineal entre X e Y. Positiva o negativa pero no el grado de la misma.

Coeficiente de correlación lineal El valor de la covarianza dependerá de los valores de las variables, por tanto de sus unidades. Para poder eliminar las unidades y tener una medida adimensional utilizamos el COEFICIENTE DE CORRELACIÓN LINEAL r ) Sxy r xy = S S siendo invariante frente a transformaciones lineales (cambio de origen r xy y escala) de las variables. x y ( xy Propiedades: Es un coeficiente adimensional -1 r 1 Si hay relación lineal positiva r > 0 y próximo a 1 Si hay relación lineal negativa r < 0 y próximo a -1 Si no hay relación lineal r se aproxima a 0 INPORTANTE!!!! Si X e Y son independientes Sxy = 0 y por tanto r = 0 Importante: Si las dos variables son independientes, su covarianza vale cero. No podemos asegurar lo mismo en sentido contrario. Si dos variables tienen covarianza cero, no significa que sean independientes. Linealmente NO tienen relación. Pero pueden pueden ser dependientes.

Matriz de correlaciones (R) Si tenemos k variables podemos calcular los coeficientes de correlación para cada par de variables los presentamos en una matriz de correlaciones: Propiedades: la diagonal principal siempre es la unidad pues rxx = 1 es simétrica pues rxy = ryx