Curso de Estadística no-paramétrica

Documentos relacionados
Análisis descriptivo con SPSS. Favio Murillo García

TABLAS DE CONTINGENCIA

Tema: Medidas de Asociación con SPSS

Curso de Estadística no-paramétrica

Análisis de datos cualitativos

Lucila Finkel Temario

TEMA 9 EL ANÁLISIS BÁSICO DE LA INFORMACIÓN EN LA INVESTIGACION DE MERCADOS

Pruebas estadís,cas para evaluar relaciones

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

Practica 1. Análisis de Tablas de Contingencia

Prueba Ji-cuadrado de Independencia cuando solo tengo datos en tabla (datos tabulados):

Prueba Ji-cuadrado de Homogeneidad cuando tengo los datos tabulados (en tablas resumidos ya):

ANÁLISIS CUANTITATIVO DE DATOS EN CIENCIAS SOCIALES CON EL SPSS (I) Tablas de contingencia y pruebas de asociación

En las tablas 2x2 se emplea la prueba Ji-cuadrado Corrección de Yates siempre.

INFERENCIA PARÁMETRICA: RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS

ÍNDICE INTRODUCCIÓN... 21

INDICE Capitulo 1. Nociones Básicos sobre el SPSS/PC+ Capitulo 2. Nociones Básicos sobre Probabilidad

DISTRIBUCIONES BIDIMENSIONALES

Análisis de datos Categóricos

Distribuciones de parámetros conocidos

INDICE. Prologo Introducción El sistema SPSS Análisis estadístico con el SPSS Estadista avanzada Guía de lectura Parte I Programación

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

13A. RELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS PRUEBAS ESTADÍSTICAS DE CONFORMIDAD

Tema B6. Tablas de contingencia. Ejemplo

a. Poisson: los totales marginales y el total muestral varían libremente.

Limitaciones de la prueba (las mismas que para la prueba de Independencia):

Soluciones a los nuevos ejercicios propuestos

PRUEBA CHI-CUADRADO. Para realizar un contraste Chi-cuadrado la secuencia es:

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 7) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía

10.5. Contraste de independencia de variables cualitativas

Tema 5. Estadística descriptiva bivariable con variables categóricas y numéricas

INDICE. Prólogo a la Segunda Edición

Correlación. Correlación. Correlación. Correlación

Dr. Abner A. Fonseca Livias

Técnicas de Inferencia Estadística II. Tema 6. Contrastes de independencia

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

CLASE 10: RESUMEN DEL CURSO

Nota de los autores... vi

CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA BIVARIADA

Prefacio... xvii. 1 La imaginación estadística... 1

Inferencia Estadística. Pruebas paramétricas y no paramétricas. Análisis de datos

DISTRIBUCION DE FRECUENCIAS BIDIMENSIONALES RELACION DE DOS CARACTERES Relación entre variables cualitativas

CONTRASTES NO PARAMÉTRICOS: ALEATORIEDAD Y LOCALIZACIÓN

478 Índice alfabético

Métodos de Investigación en Psicología (11) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

Pasos. i Aplicar la prueba X 2 para determinar la significación estadística de las proporciones entre ambas variables (no son iguales)

Definición de Correlación

Estrategia de análisis estadístico de los datos. Inferencia Estadística y contraste de hipótesis

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Qué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y)

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

ESTADÍSTICA BIVARIADA

Análisis de datos en CCSS: introducción al análisis descriptivo e inferencial

Técnicas de Investigación Social

Contrastes basados en el estadístico Ji Cuadrado

Información general. Fundamentos de Análisis de datos. Obligatoria básica o de fundamentación X. Obligatoria profesional

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 4)

Análisis Estadístico. Dra. Adela Del Carpio Rivera Doctor En Medicina

ANÁLISIS ESTADÍSTICO CORRELACIÓN LINEAL

Análisis de datos Categóricos

Estadística aplicada a la comunicación

DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS

Tema 7. Introducción Metodología del contraste de hipótesis Métodos no paramétricos

BLOQUE 2 TEMA 7 RELACIÓN ENTRE VARIABLES : CORRELACIÓN Y REGRESIÓN

COEFICIENTE JI CUADRADO. Universidad Central de Venezuela Aron, Francisco; Baptista, Andreina; Bracamonte, Karley; Gutiérrez, Alesson; Urbina, Jesmin.

Tema 3: Análisis de datos bivariantes

Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste

Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste.

N T E N.. IDO. CAPíTULO 3 TABLAS Y GRÁFICAS: UNA IMAGEN DICE MÁS QUE MIL PALABRAS 78. CAPíTULO I LA IMAGINACiÓN ESTADíSTICA

Estadística Descriptiva II: Relación entre variables

Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

9.- Análisis estadísticos con R Commander

AYUDA SPSS. TABLA DE CONTINGENCIA y PRUEBA CHI CUADRADO

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Estadísticos Aplicados en el SPSS 2008

MANEJO DE VARIABLES EN INVESTIGACIÓN CLÍNICA Y EXPERIMENTAL

Tema 10: Introducción a los problemas de Asociación y Correlación

Técnicas de Inferencia Estadística II. Tema 5. Contrastes de homogeneidad

UNIDAD DIDACTICA I TEMA 1. LA MEDIDA EN PSICOLOGIA

El Análisis de Correspondencias tiene dos objetivos básicos:

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos

Un canal de comunicación puede ser definido como el medio a través del cual la señal del mensaje se propaga desde la fuente hasta el destino.

Transcripción:

Curso de Estadística no-paramétrica Sesión 4: Análisis de datos categóricos Facundo Muñoz Grup d Estadística espacial i Temporal Departament d Estadística en Epidemiologia i Medi Ambient i Investigació Operativa Universitat de València Junio 2013 Ejemplo Grupos sanguíneos en regiones de Escocia Ejemplo 2.- Mitchell et al. (1976) estudiaron la distribución de los grupos sanguíneos en varias regiones de Sur-Oeste de Escocia (Annals of Human Biology), obteniendo: A B O AB Eskdale 33 6 6 100 Annandale 4 14 2 12 Nithsdale 98 3 11 23 18 223 1 478 Se distribuyen los grupos sanguíneos de igual manera en las diferentes regiones? 2 / 26

Abstracción Contraste de Homogeneidad En k grupos de individuos (subpoblaciones) se observa una característica X que puede tomar r valores distintos (categorías) Los porcentajes de las r categorías son los mismos en las k subpoblaciones? La variable X se distribuye idénticamente en las k subpoblaciones? Tabla de contingencia: Variable X Categ. 1 Categ. 2 Categ. r Subp. 1 O11 O21 Or 1 O+1 Subp. 2 O12 O22 Or 2 O+2 Subp. k O1k O2k Ork O+k O1+ O2+ Or + N = O++ donde Oij número de observaciones de la categoría i de la variable X que pertenecen a la subpoblación j. Oi+ número de observaciones de la categoría i de la variable X. O+j número de observaciones de la subpoblación j. 3 / 26 Contraste de Homogeneidad Objetivo: contrastar si la variable X se distribuye igual en las k subpoblaciones. Si la hipótesis H0 fuera cierta, podemos estimar las probabilidades de esta distribución a partir de los datos observados: Oi+ pi+ = P(X = i) = N Por lo tanto, el número esperado de observaciones en la celda (i, j), bajo la hipótesis de homogeneidad, y dado que la muestra de la subpoblación j es de tamaño O+j, es Oi+ O+j N Para comparar las frecuencias observadas con las frecuencias esperadas podemos utilizar el estadístico de contraste: Eij = pˆi+ O+j = χ2s = X (Oij Eij )2 ij Eij χ2 ((r 1)(k 1)) 4 / 26

Homogeneidad e independencia Contraste de Homogeneidad Implementación SPSS La variable debe ser Nominal, con una codificación numérica Si no es así, utilizar Transformar:Recodificación automática Analizar:Estadísticos descriptivos:tablas de contingencia + Statistics:Chi-square Ejercicio Representar visualmente los datos mediante un diagrama de barras agrupado Gráficos:Generador de gráficos Comprobar las homogeneidad de la distribución de los grupos sanguíneos por regiones de Escocia con el banco de datos grupos-escocia.csv / 26 Homogeneidad e independencia Ejemplo Pendiente del terreno y capa freática Ejemplo 3.- Para analizar la relación de la pendiente del terreno con la capa freática, se tomaron datos de 144 localizaciones en una zona al sur y al este de Cambridge. Los datos recogidos corresponden al ángulo de la pendiente del terreno, clasificado en llana, suave y empinada, y a la altura de la capa freática, según sea alta, media o baja. Estos datos se resumen en la tabla: Pendiente terreno Llana Suave Empinada Altura Alta 737 231 37 100 Capa Media 110 202 96 441 Freática Baja 14 8 10 32 861 441 143 144 Es independiente la altura de la capa freática de la pendiente del terreno? 6 / 26

Abstracción Contraste de Independencia Sean ahora X e Y dos variables aleatorias de las que tenemos una muestra aleatoria de tamaño N. Al igual que en los contrastes de homogeneidad, las observaciones se clasifican en forma de tabla de frecuencias observadas (Oij ). En concreto, clasificamos la muestra aleatoria según las r categorías de la variable categórica X y las k categorías de la variable categórica Y. Variable X Categ. 1 O11 O21 Or 1 O+1 Categ. 1 Categ. 2 Categ. r Variable Y Categ. 2 O12 O22 Or 2 O+2 Categ. k O1k O2k Ork O+k O1+ O2+ Or + N = O++ donde Oij número de observaciones de la categoría i de la variable X que pertenecen a la categoría j de la variable Y. Oi+ número de observaciones de la categoría i de la variable X. O+j número de observaciones de la categoría j de la variable Y. 7 / 26 Contraste de Independencia Si la hipótesis H0 de independencia fuera cierta: pi j = P(X = i Y = j) = P(X = i) = pi+ Como además pi j = P(X = i Y = j) = P(X =i,y =j) P(Y =j) = pij p+j Tenemos que: pij = P(X = i, Y = j) = P(X = i)p(y = j) = pi+ p+j Estas probabilidades podemos estimarlas a partir de los datos, por lo que el número esperado de casos en la celda (i, j), bajo la hipótesis de independencia es: Oi+ O+j Oi+ O+j = N N N Para comparar las frecuencias observadas con las frecuencias esperadas podemos utilizar el estadístico de contraste: Eij = N pˆij = N pˆi+ pˆ+j = N χ2s = X (Oij Eij )2 ij Eij χ2 ((r 1)(k 1)) 8 / 26

Test de la razón de verosimilitud El estudio de la independencia o de la homogeneidad se realiza mediante el Estadístico χ2 X (Oi Ei )2 2 χ = celdas Ei Alternativamente se puede realizar mediante el Estadístico de la razón de verosimilitud O X i 2 G =2 Oi log Ei celdas Bajo la hipótesis nula de independencia, también sigue una distribución Ji-cuadrado con ν = (r 1)(k 1) grados de libertad. Basado en la teoría de máxima verosimilitud y, para muestras de tamaño grande, da resultados bastante parecidos al test χ2. Sin embargo, es más potente con muestras pequeñas. SPSS Sale por defecto en los resultados cuando se pide un χ2 9 / 26 Contraste de Independencia Implementación SPSS Idéntica! Ejercicio Comprobar la independencia de la pendiente del terreno y la altura de la capa freática con el banco de datos pendiente-capafreatica.csv Notar que estos datos no corresponden a casos individuales, sino que están agrupados por combinaciones de las categorías. En este caso se debe ponderar los casos Datos:ponderar casos. Representar visualmente los datos mediante un diagrama de barras agrupado (opción de la ventana de Tablas de contingencia) 10 / 26

Homogeneidad e independencia Contrastes de Homogeneidad e Independencia Aspectos en común y diferencias Los problemas de homogeneidad e independencia básicamente se diferencian en el tipo de muestreo que ha generado los datos, aunque en general, podemos pensar que el problema es similar: estudiar si existe alguna relación/asociación entre los niveles de las variables consideradas. Ambos problemas comparten el hecho de que tenemos conteos o frecuencias de clasificación observadas en una tabla de contingencia. Observar que en las tablas de contingencia no se suele distinguir entre variable respuesta y explicativas, aunque veremos ahora que dicha distinción puede ser de utilidad a la hora de modelar e interpretar. Observar también que el estadístico de contraste es el mismo en ambas situaciones ya que las frecuencias esperadas bajo las dos hipótesis son las mismas. 11 / 26 Homogeneidad e independencia Condiciones de aplicabilidad del Test Chi-cuadrado Condiciones Las frecuencias esperadas en cada celda deben ser suficientemente grandes (al menos ), ya que el test se basa en una aproximación La muestra o submuestras deben ser aleatorias En el caso del contraste de Homogeneidad, las submuestras deben ser independientes Alternativas para tablas 2 2 El Estadístico χ 2 produce valores artificialmente bajos en tablas 2 2, aumentando la probabilidad del Error tipo I. En este caso, conviene utilizar alguna de las siguientes alternativas. Test exacto de Fisher Corrección de Yates (o corrección por continuidad) Estas medidas alternativas son proporcionadas automáticamente por SPSS cuando la tabla de contingencia es de orden 2 2 12 / 26

Homogeneidad e independencia Ejemplo Actitud de enfermeros y enfermeras En un pequeño centro de salud se realiza una encuesta para evaluar la actitud de los enfermeros y las enfermeras hacia los pacientes. Finalmente, se reduce la valoración a una actitud positiva o negativa. Actitud - + Sexo Mujer 1 Hombre 1 4 Ejercicio Hay diferencias significativas en la actitud según el sexo? (enfermeros-enfermeras.csv) La tabla es 2 2 y los valores esperados son todos menores que. El Estadístico χ 2 no es válido. 13 / 26 Homogeneidad e independencia Resumen análisis de datos categóricos Cuando disponemos de una o dos variables categóricas nos podemos encontrar básicamente ante tres situaciones: Una variable observada categórica (no necesariamente dicotómica) de la que queremos estudiar si los conteos observados en cada una de sus categorías cumplen unas determinadas proporciones: Contraste de bondad de ajuste. Una variable observada categórica (no necesariamente dicotómica) de la que queremos estudiar si se comporta igual en varias subpoblaciones (o muestras): Contraste de homogeneidad. Dos variables observadas de las que queremos analizar si están relacionadas o son independientes. Es decir, una muestra aleatoria de dos variables categóricas (no necesariamente dicotómicas): Contraste de Independencia 14 / 26

Homogeneidad e independencia Medidas de asociación de variables categóricas Ejemplo Si se les pidiera adivinar el grado de solvencia de un cierto país europeo (en una escala de calificación tipo AAA, AA, etc.), cuál sería su estimación? La moda: el grado más común, es el que tiene más chances Ahora, si sabemos que el país está situado en el norte de Europa Cambiarían la estimación? (independencia) En los análisis cuantitativos suele interesar predecir el valor de una variable (dependiente) a partir del conocimiento de una o varias covariables La medida de asociación entre las variables es el grado en que la información adicional permite mejorar la predicción 1 / 26 Homogeneidad e independencia Medidas de asociación de variables categóricas Puntos a destacar Cuantifican el grado de asociación entre dos variables categóricas También pueden utilizarse para valorar la independencia, aunque suelen utilizarse después de establecer la significatividad de la asociación Hay muchas medidas diferentes, cada una más o menos sensible a determinado tipo específico de asociación No hay una medida que sea la mejor para todas las situaciones Elegiremos una u otra en función del tipo de datos, la hipótesis de interés y de las propiedades de cada una de las medidas No es científicamente honesto calcular muchas medidas y elegir a posteriori la que mejor ha funcionado Estas medidas deben considerarse únicamente como una aproximación exploratoria inicial para un análisis posterior 16 / 26

Homogeneidad e independencia Variables nominales Medidas basadas en χ 2 Coef. de contingencia (Pearson, 1904) χ C = 2 χ 2 + N V de Cramer (Cramér, 1946) y coeficiente Phi χ V = 2 N(m«ın{r, c} 1) Rango: [0, 1] (desde no asociación hsata asociación completa) Convención sobre el tamaño del efecto: pequeño = 0,1, medio = 0,3, grande = 0, No importa cuál variable es fila y cuál es columna, ni tampoco el orden de las categorías Mientras que C varía con el número de filas y columnas, V está diseñado para comparar tablas con diferentes dimensiones En el caso de dos variables binarias (tabla 2 2), la V de Cramer se reduce a φ = χ 2 N 17 / 26 Homogeneidad e independencia Variables nominales Medidas basadas en la reducción proporcional del error Coeficiente Lambda (Kruskal & Goodman, 194) λ B = E A E A B E A Refleja la reducción relativa en el error de predicción cuando se utilizan los valores de la variable independiente (B) para predecir la dependiente (A) utilizando la moda de la distribución condicional o incondicional. Hay una versión simétrica λ que toma un valor intermedio entre λ A y λ B y es útil cuando las variables son intercambiables SPSS los calcula todos. Hay que usar el adecuado El resultado es una cantidad interpretable, que varía entre 0 y 1 λ B = 0 implica que conocer B no ayuda a reducir en nada el error de predicción de A (e.g., si A y B independientes) λ B = 1 implica asociación perfecta: conocer B determina exactamente la categoría de A 18 / 26

Variables nominales Medidas basadas en la reducción proporcional de la entropía Coeficiente de Incertidumbre U= HA HA B HA Refleja la reducción relativa en la entropía de la distribución predictiva cuando se utilizan los valores de la variable independiente (B) para predecir la dependiente (A). La entropía (Shannon, 1963) es una medida inversa de la cantidad de información contenida en una distribución U compara la distribución completa, y no sólo la moda SPSS también calcula las versiones direccionales y simétricas. Hay que usar la adecuada El resultado es una cantidad interpretable, en el mismo sentido que λ, y que también varía entre 0 y 1 19 / 26 Ejemplo Actitud de enfermeros y enfermeras Hasta ahora hemos conseguido determinar la existencia de una relación entre el sexo y la actitud hacia el paciente. Pero el p-valor obtenido en los contrastes de independencia no mide la magnitud de la asociación. Actitud - + Sexo Mujer Hombre 1 1 4 6 6 11 EA = 11 6 = EA B = (6 ) + ( 4) = 2 λb = EA EA B EA = 2 = 0,6 El error se reduce en un 60 % Ejercicio Valorar la magnitud del efecto Sexo utilizando medidas adecuadas. Analizar:Estadísticos descriptivos:tablas de contingencia + Estadísticos:(Nominales) 20 / 26

Medidas de asociación Variables ordinales Dirección de la asociación Como ahora disponemos del orden de las categorías tiene sentido hablar de la dirección de la asociación. Variables positivamente asociadas: los valores pequeños de A aparecen con los valores pequeños de B. Variables negativamente asociadas: los valores pequeños de A aparecen con los valores grandes de B. Sea un par de observaciones, una perteneciente a la celda (i, j) y la otra a la celda (i, j ). Todas las medidas de asociación ordinales son simples funciones de las siguientes categorías: C = #{parejas tales que: (i > i 0 &j > j 0 ) (i < i 0 &j < j 0 )} D = #{parejas tales que: (i > i 0 &j < j 0 ) (i < i 0 &j < j 0 )} TA = #{parejas tales que: i = i 0 } TB = #{parejas tales que: j = j 0 } 21 / 26 T = #{parejas tales que: i = i 0 &j = j 0 } Medidas de asociación Variables ordinales La asociación es positiva cuando C D > 0 y negativa cuando C D < 0 Gamma γ = CC D +D No tiene encuenta los empates Si los hay, sobreestima la asociación 2(C D) (C +D+TB )(C +D+TA ) (C D) τb = C +D+T B C +D+TA D) m«ın{r,c} τc = 2(C N 2 m«ın{r,c} 1 d de Somers d = τb de Kendall τc de Kendall Todas varían entre 1 y 1 (asociación perfecta negativa o positiva), pasando por 0 (ausencia de asociación) Ejercicio Cuantificar el grado de asociación de las variables education y Loan (nivel de educación y si el banco concedió el préstamos solicitado) del banco de datos Loan.sav 22 / 26

Homogeneidad e independencia Ejemplo Visitas al gimnasio y ritmo cardíaco La hipótesis de un estudio es que quienes van al gimnasio más frecuentemente tienen un ritmo cardíaco (en reposo) más bajo. 90 RitmoC 80 70 Qué clase de variables están en juego? 60 10 1 NVisitas En ese caso, cuál sería el método más natural para analizar la relación entre ellas? Pintar los datos (gimnasio-corazon.csv) y calcular la Correlación de Pearson (Analizar:Correlaciones:Bivariadas) 23 / 26 Homogeneidad e independencia Ejemplo (cont.) Visitas al gimnasio y ritmo cardíaco Interpretación de los resultados y replanteamiento del análisis: No hay una correlación lineal significativa entre las variables Sin embargo, la hipótesis es razonable Posibles fallos: 1 La relación existe pero no es lineal (en cuyo caso, podría buscarse una transformación de los datos adecuada) 2 Las hipótesis del test de significatividad (paramétrico) del coeficiente de correlación ρ de Pearson no se cumplen 3 Simplemente hubo mala suerte con la muestra El número de visitas no necesariamente refleja la duración y la intensidad de la actividad El ritmo cardíaco puede tener una gran variabilidad entre personas, debido a otros factores Por tanto, no es raro que la relación lineal no sea muy marcada Las medidas ordinales pueden detectar relaciones no lineales Analizar:Estadísticos descriptivos:tablas de contingencia + Estadísticos:Correlaciones 24 / 26

Medidas de asociación Variables ordinales Rho ρs de Spearman Valoración de la correlación entre dos variables, basándose en la ordenación de las categorías. 6 Di2 ρs = 1 N(N 2 1) P donde N es el número de parejas y Di es la diferencia en el orden que ocupa cada observación en los ranking de las dos variables. Detecta asociaciones monótonas, no sólo lineales. Adecuado cuando las variables tiene muchas (+) categorías Cuando son cuantitativas, cada valor observado se categoriza según su orden en el ranking 2 / 26 Spearman vs. Pearson 26 / 26