INFERENCIA PARÁMETRICA: RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Documentos relacionados
CAPÍTULO 4 (Continuación): ESTADÍSTICA DESCRIPTIVA BIVARIADA

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

DISTRIBUCIONES BIDIMENSIONALES

PRUEBA CHI-CUADRADO. Para realizar un contraste Chi-cuadrado la secuencia es:

Pruebas de Hipótesis-ANOVA. Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016

DISTRIBUCIÓN CHI-CUADRADO O JI-CUADRADO X 2 CONCEPTO BÁSICO Frecuencia: es el número de datos que caen en cada celda. Frecuencias Observadas (fo):

CONTRASTES NO PARAMÉTRICOS

Lucila Finkel Temario

TEMA 10 COMPARAR MEDIAS

Análisis descriptivo con SPSS. Favio Murillo García

Tema: Medidas de Asociación con SPSS

Principios de Bioestadística

9.- Análisis estadísticos con R Commander

CONTRASTES DE HIPÓTESES

El Análisis de Correspondencias tiene dos objetivos básicos:

Pasos. i Aplicar la prueba X 2 para determinar la significación estadística de las proporciones entre ambas variables (no son iguales)

El análisis de correspondencias. Ana María López Jiménez Dept. Psicología Experimental (USE)

DISEÑOS EXPERIMENTALES DE DOS GRUPOS Y MULTIGRUPO

Inferencia Estadística

Capítulo 13. Contrastes sobre medias: Los procedimientos Medias y Prueba T. Medias

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Capítulo 13 Contrastes sobre medias Los procedimientos Medias y Prueba T

Estadísticos Aplicados en el SPSS 2008

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

BIOSESTADÍSTICA AMIGABLE

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Análisis de Datos Categóricos

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo

Practica 1. Análisis de Tablas de Contingencia

Caso particular: Contraste de homocedasticidad

Tema 7. Contrastes no paramétricos en una población

R-commander. Manejo de datos y Estadística Básica. Pedro A. García Métodos Estadísticos con software libre R 1

INFERENCIA CON RECUENTOS

Estimación de Parámetros.

MEDIDAS DE ASOCIACION

Tema 5. Estadística descriptiva bivariable con variables categóricas y numéricas

FLACSO / Facultad Latinoamericana de Ciencias Sociales Maestría en Ciencias Políticas & Sociología Metodología de la Investigación Social

4. Obtén las siguientes tablas de doble entrada para las variables Dispersión y Formación:

Estadística II Examen final enero 19/1/17 Curso 2016/17 Soluciones Duración del examen: 2 h y 15 min

1. La investigación en ciencias humanas y de la salud 2. Variables y su medida 3. Escalas de medida (EM) 4. Propiedades de las EM

ÍNDICE INTRODUCCIÓN... 21

Análisis Estadístico. Dra. Adela Del Carpio Rivera Doctor En Medicina

DISEÑO Y ANÁLISIS DE DATOS EN PSICOLOGÍA II

Tema 6: Introducción a la inferencia estadística Parte 1

ANOVA. Análisis de la Varianza. Univariante Efectos fijos Muestras independientes

Tema 13: Contrastes No Paramétricos

Estrategia de análisis estadístico de los datos. Inferencia Estadística y contraste de hipótesis

Práctica 5 ANÁLISIS DE UNA MUESTRA INTERVALOS DE CONFIANZA CONTRASTE DE HIPÓTESIS

Tema B6. Tablas de contingencia. Ejemplo

Tema 8: Contrastes de hipótesis

Métodos de Investigación en Psicología (11) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

MANEJO DE VARIABLES EN INVESTIGACIÓN CLÍNICA Y EXPERIMENTAL

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

Estadística Descriptiva. Poblaciones y muestras.

Contrastes de Hipótesis paramétricos y no-paramétricos.

Práctica 4. Contraste de hipótesis

Unidad IV: Distribuciones muestrales

Estudio del consumo y los precios al consumo de Frutas y Hortalizas

478 Índice alfabético

Estadística II Examen final junio 27/6/17 Curso 2016/17 Soluciones

INDICE. Prólogo a la Segunda Edición

Tema 7. Introducción Metodología del contraste de hipótesis Métodos no paramétricos

Asociación de variables cualitativas: El test exacto de Fisher y el test de McNemar

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA

Impacto del MÁSTER EN DIRECCIÓN DE COMERCIO INTERNACIONAL sobre la formación y el empleo. Metodología del estudio

4.2 Conceptos básicos de Estadística II

Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis. Facultad de Ciencias Sociales, UdelaR

La distribucion de preferencias de colores es la misma tanto para personas de distinto nivel socioeconómico.

: Andrea Canals/ Catalina Canals Año Académico : 2017 P R O G R A M A

BLOQUE 3 TEMA 11 ESTIMACIÓN DE PARÁMETROS. ERRORES DE ESTIMACIÓN

ESTADÍSTICA APLICADA. Tema 3: Contrastes de hipótesis

a. Poisson: los totales marginales y el total muestral varían libremente.

Inferencia Estadística. Pruebas paramétricas y no paramétricas. Análisis de datos

Tema 5.5: Contrastes de hipótesis

Tema 10: Introducción a los problemas de Asociación y Correlación

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

CONTRASTE DE HIPÓTESIS

Inferencias sobre proporciones

Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0

PRÁCTICA 3. REGRESIÓN LINEAL SIMPLE CON SPSS Ajuste de un modelo de regresión lineal simple Porcentaje de variabilidad explicado

Universidad de Chile DIPLOMA PREPARACIÓN Y EVALUACIÓN SOCIAL DE PROYECTOS Prof: Sara Arancibia

estadística aplicada a la gastronomía

AYUDA SPSS. TABLA DE CONTINGENCIA y PRUEBA CHI CUADRADO

Tema 15: Contrastes de hipótesis sobre algunos parámetros

CONTRASTE DE HIPÓTESIS

TEMA 2 Diseño de experimentos: modelos con varios factores

ASIGNATURA DE MÁSTER: BIOESTADÍSTICA

Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste


Seminari 3. Estadística CP

U ED Tudela Diseños de Investigación y Análisis de Datos - Tema 7

INFERENCIA PARAMÉTRICA: RELACIÓN ENTRE VARIABLES CUALITATIVAS Y CUANTITATIVAS

2. EL DISEÑO UNIFACTORIAL (COMPARACION DE TRATAMIENTOS)

ESTADÍSTICA CICLO 6 CAPACITACIÓN 2000

INFERENCIA ESTADÍSTICA: CONTRASTES DE HIPÓTESIS

DIFERENCIAS EN LA UTILIZACIÓN DE LA BIBLIOTECA DEL IIESCA ANTE UN CAMBIO DE INFORMACIÓN

Titulación(es) Titulación Centro Curso Periodo Grado de Fisioterapia FACULTAT DE FISIOTERÀPIA 1 Primer cuatrimestre

EJERCICIO PROPUESTO CHI-CUADRADO O BONDAD DE AJUSTE

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Información general. Fundamentos de Análisis de datos. Obligatoria básica o de fundamentación X. Obligatoria profesional

Transcripción:

. Metodología en Salud Pública INFERENCIA PARÁMETRICA: RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS Autor: Clara Laguna 7.1 INTRODUCCIÓN Los datos categóricos o variables cualitativas son muy frecuentes en el ámbito de la investigación biomédica. Nos encontramos con frecuencia con datos o variables de tipo cualitativo, mediante las cuales un grupo de individuos se clasifican en dos o más categorías mutuamente excluyentes. Ejemplos de este tipo de variables pueden ser el sexo, el nivel socio-cultural, etc. En este caso tendríamos, a lo sumo, las observaciones agrupadas en forma de frecuencia, dependiendo de las modalidades que presente cada paciente en cada una de las variables. El objetivo de este tema es el estudio de este tipo de cuestiones en relación con las variables cualitativas (y también variables aleatorias discretas o continuas agrupadas en intervalo). Para describir y resumir la información contenida en unos datos categóricos, es decir, en una variable cualitativa, se usan proporciones o porcentajes. Por ejemplo, si se ha recogido el estado civil de una muestra de individuos, lo más adecuado para describir la variable sería presentar el porcentaje de solteros, casados, viudos, etc. Para su tratamiento estadístico debemos convertirlos en proporciones. Si leemos que el 68% de los estudiantes de una facultad son mujeres, tendríamos que: P mujeres = 0,68 y P hombres = 0,3 Usaremos pruebas de contrastes de hipótesis para la comparación de proporciones, si lo que queremos es comparar entre dos muestras la proporción de sucesos o de cualquier dato categórico. Para la comparación de proporciones entre dos o más muestras pueden utilizarse diversos procedimientos, aunque aquí nos centraremos en los dos primeros. Los tests de contraste de hipótesis más utilizados habitualmente son: Test de ji-cuadrado 1 (X ) de Pearson. Test exacto de Fisher. Test de ji-cuadrado (X ) de McNemar para datos emparejados. Test de ji-cuadrado (X ) de tendencia lineal (variables ordinales). 1 En inglés, chi-squared, por eso puede encontrarse también la expresión chi-cuadrado en castellano, incluidos los resultados de SPSS. El nombre correcto en español de la letra X es ji. 07. Inferencia paramétrica: relación entre dos variables cualitativas 1-10

. Metodología en Salud Pública Estos son los contrastes asociados con el estadístico ji-cuadrado. En general este tipo de tests consisten en tomar una muestra y observar si hay diferencia significativa entre las frecuencias observadas y las especificadas por la ley teórica del modelo que se contrasta, también denominadas frecuencias esperadas. Figura 7.1 Contrastes basados en ji-cuadrado 7. TEST DE JI CUADRADO DE PEARSON La ji-cuadrado de Pearson es una prueba estadística de contraste de hipótesis extensamente utilizada. Tiene muchas aplicaciones en inferencia estadística. Se aplica para analizar datos que están presentados en forma de número de observaciones en cada categoría: número de éxitos que ha tenido una intervención, porcentaje de pacientes que presenta una característica,... En definitiva, sirve para analizar variables cualitativas o categóricas y para comparar proporciones o porcentajes en grupos independientes. La prueba ji-cuadrado tiene una limitación: requiere un número suficiente de observaciones para que sea realmente informativa. En el caso de la ji-cuadrado siempre entenderemos la Hipótesis alternativa como bilateral. 7..1 Ji Cuadrado para una sola proporción (proporción observada frente a la esperada) La ji cuadrado tiene como primera utilidad hacer una comparación, dentro de una sola variable categórica, para comprobar si la distribución observada se corresponde con una distribución teóricamente esperada. Para entenderlo veamos el siguiente ejemplo. 07. Inferencia paramétrica: relación entre dos variables cualitativas - 10

. Metodología en Salud Pública Ejemplo 7.1: Supongamos que realizamos una encuesta a 0 universitarios donde el 45% (9) son mujeres y el 55% (11) son hombres. En este caso, existe una sola variable (sexo) que es cualitativa y dicotómica. Queremos comprobar si esta distribución es consistente con que en la Universidad ( población de la que procede la muestra), el 50% de los alumnos son hombres y el 50% mujeres (hipótesis nula). H 0: la muestra procede de una población donde el 50% son hombres y el 50% H 1: mujeres ( esperada ) esperada observada observada Para aplicar la ji-cuadrado de Pearson en este ejemplo, se realiza una comparación entre lo observado y lo esperado. Lo ESPERADO sería que el 50% fuesen hombres (10) pero lo son el 55% (11), luego hay una diferencia entre lo observado y lo esperado de 11-10=1. Para las mujeres también existe una diferencia (9-10= -1) entre lo observado (9) y lo esperado (10). Vamos a sumar esas diferencias entre observado y esperado, elevándolas al cuadrado antes de sumarlas (de ahí el nombre de ji cuadrado). Además se debe dividir cada cantidad por lo esperado en cada casilla. o e e (9 10) 10 (1110) 10 0,1 0,1 0, Así, tenemos que la expresión para ji-cuadrado es la siguiente 3 : observado esperado esperado Como os podéis imaginar cuando lo observado y lo esperado se diferencian muy poco, estaremos cerca de H 0. El numerador de estos cocientes será muy pequeño, por tanto el valor de ji-cuadrado valdrá poco. A mayor valor de ji-cuadrado, mayor evidencia habrá para rechazar H 0, y por tanto, más fácil será hallar significación estadística (valor p más bajo). Como las hipótesis se plantean siempre a nivel de población, se usa π en vez de p. 3 La estimación de la variabilidad aleatoria ( error ) es precisamente lo esperado (denominador de la X ). El numerador es lo que quedaría sin explicar si la H0 fuese cierta. 07. Inferencia paramétrica: relación entre dos variables cualitativas 3-10

. Metodología en Salud Pública Volviendo al ejemplo 7.1, a este valor ji-cuadrado =0, le corresponde un p-valor 4 =0,6547. Por tanto, el contraste no es significativo y podemos concluir que no hay evidencias para rechazar la hipótesis nula de igualdad de proporciones. No se puede rechazar que la muestra proceda de una población donde un 50% son mujeres y el otro 50% son hombres. Si no disponemos de un programa estadístico podemos saber si un valor chi-cuadrado es significativo mirando en las tablas de la ji-cuadrado. Figura 7. Distribución de ji-cuadrado Lo primero que tenemos que calcular son los grados de libertad. Como la variable tiene dos categorías (k=) y los grados de libertad son k-1, tendremos 1 grado de libertad. En nuestro ejemplo, miramos en la tabla de la ji-cuadrado si un valor de 0, es significativo para 1 grado de libertad (figura 7.): X = 0. < X 1; 0.05 =3,84 Como el valor que hemos hallado es 0, y la ji cuadrado con un grado de libertad no es significativo hasta que no llega a valer 3,84 (p=0,05), se puede afirmar que la prueba ji cuadrado ha resultado no significativa (p > 0,05). Vemos que conforme aumenta el valor de la ji-cuadrado, disminuye el valor de p. X 3,84 5,0 p 0,05 0,05 4 El p-valor lo podemos obtener directamente con un software estadístico (lo veremos con SPSS). 07. Inferencia paramétrica: relación entre dos variables cualitativas 4-10

. Metodología en Salud Pública Condiciones de aplicación: Este test se debe aplicar cuando es una variable cualitativa nominal. El único requisito que se debe cumplir es que ninguno de los valores esperados sea menor que 5. 7.. Ji Cuadrado para comparar proporciones Este es el uso más habitual de la ji cuadrado de Pearson. Esta prueba permite contrastar la H 0 de independencia entre dos variables categóricas. A partir de una tabla de contingencia (tabla bidimensional) comparamos las frecuencias observadas con las frecuencias esperadas (las frecuencias que teóricamente debería haber en cada casilla si las dos variables fuesen independientes). Obtenidas las frecuencias esperadas para cada casilla, la ji cuadrado tiene la misma expresión que antes, pero ahora cuenta con cuatro términos, uno por cada casilla. observado esperado esperado ji-cuadrado =0 cuando las variables sean completamente independientes (las frecuencias observadas y esperadas serán iguales). ji-cuadrado será tanto mayor cuanto mayor sea la discrepancia existente entre las frecuencias observadas y las esperadas (discrepancia mayor cuanto mayor sea la relación entre las variables). - Si los datos son compatibles con la hipótesis de independencia, la probabilidad asociada al estadístico ji-cuadrado será alta (p>0.05). - Si esa probabilidad p<0.05, los datos son incompatibles con la H 0 de independencia y se concluye que las variables estudiadas están relacionadas. Condiciones de aplicación: Ambas variables deben ser cualitativas en escala nominal. El requisito de aplicación deber ser que ninguno de los valores esperados sea menor que 5. No se debe aplicar cuando la variable dependiente (la que se coloca en las columnas de la tabla de contingencia) es ordinal. No se aplicaría por ejemplo, si se desea comparar la proporción de ocurrencia de cáncer de pulmón entre tres grupos de fumadores clasificados según el nº de cigarrillos (<5, 5-19 y >0) 07. Inferencia paramétrica: relación entre dos variables cualitativas 5-10

. Metodología en Salud Pública Veamos los pasos que debemos seguir para realizar este test con el siguiente ejemplo. Ejemplo 7.: Se realiza un estudio sobre el cáncer de piel en ancianos y su relación con el hábito de fumar. Suponemos que hubo 15 casos de cáncer en un total de 35 fumadores y 10 casos de cáncer entre un total de 50 no fumadores. Si planteamos la Hipótesis nula de nuestro estudio sería que la proporción de cáncer de piel en ancianos será la misma en los dos grupos, fumadores y no fumadores. Es decir, que la incidencia de cáncer es la misma en los expuestos al tabaco que en los no expuestos. La Hipótesis alternativa sería que las proporciones de los que desarrollan cáncer son distintas entre fumadores y no fumadores. H 0: H 1: fumadores no fumadores fumadores no fumadores Los valores observados quedan reflejados en la siguiente tabla x: Calculamos los valores esperados partiendo de la tabla anterior pero sólo con los valores totales de las filas y las columnas (a estos valores totales se les llama en estadística marginales ). Se multiplica el total de la fila por el total de la columna y se divide por el total de observaciones. ESPERADOS FUMA NO FUMA TOTAL CÁNCER (35x5) / 85=10,3 (50x5) / 85=14,7 5 NO CÁNCER 4,7 35,3 60 TOTAL 35 50 85 Como la proporción total de cáncer = 5/85 =9.4%, el número de cánceres esperados entre los fumadores será igual a 0.94 x 35 =10,3. Obtenido este esperado y considerando fijos los valores marginales, ya no queda libertad para cambiar más datos (esto es lo que se entiende como tener 1 solo grado de libertad). 07. Inferencia paramétrica: relación entre dos variables cualitativas 6-10

. Metodología en Salud Pública De manera que, pueden calcularse los otros 3 esperados mediante restas con el total de la respectiva fila o columna: 5-10,3 =14,7 no fumadores con cáncer 35-10,3 =4,7 fumadores sin cáncer 60-4,7 =35,3 no fumadores sin cáncer Calculamos el valor de la ji cuadrado: (15 10,3) 10,3 (10 14,7) 14,7 (0 4,7) 4,7 (40 35,3) 35,3 5,16 Los grados de libertad, se calculan de forma general de la siguiente forma: En nuestro caso, g.l.= (-1) (-1)=1 g.l.= (columnas-1) (filas-1) Consultamos en la tabla 5 de la Ji Cuadrado si un valor de 5,16 es significativo para 1 grado de libertad (figura 7.): X,71 3,84 5,0 6,63 p 0,10 0,05 0,05 0,01 Conclusión: Figura 7. Como el valor calculado ji-cuadrado =5,16 está entre ji-cuadrado 1; 0.05= 5,0 y jicuadrado 1; 0.01=6,63, podemos afirmar que la diferencia es estadísticamente significativa, tenemos evidencias para rechazar la H 0 ya que le corresponde un valor p < 0,05. Podemos decir que existe una asociación estadísticamente significativa entre ser fumador y la incidencia de cáncer de piel en ancianos (se puede afirmar que existen evidencias de un mayor riesgo de cáncer de piel entre fumadores). 7..3 Test exacto de Fisher No vamos a entrar en el desarrollo del test exacto de Fisher ya que tiene las mismas utilidades que la ji cuadrado en tablas de contingencia. Aplicaremos el test exacto de Fisher en vez de la ji cuadrado cuando uno de los valores esperados es menor que 5. 5 Una alternativa es usar Excel, que con la expresión =DISTR.CHI (valor de chi; grados de libertad) nos devuelve el valor p. 07. Inferencia paramétrica: relación entre dos variables cualitativas 7-10

. Metodología en Salud Pública Realmente, el test exacto de Fisher no tiene requisitos de aplicación. Por tanto, al ser un método más exacto, siempre se puede utilizar para comparar proporciones (incluso cuando todos los valores esperados sean iguales o superiores a 5). Cuando se pida a SPSS una ji cuadrado para una tabla x, siempre calculará el test exacto de Fisher, que es válido siempre en este tipo de tablas. Además, SPSS nos señalará siempre cuántas casillas tienen una frecuencia esperada inferior a 5. En las tablas que tengan más de cuatro casillas, al menos el 80% de los valores esperados deben ser superiores o iguales a 5. Cálculo de la ji cuadrado con SPSS para tablas x: Se selecciona Analizar / Estadísticos descriptivos / Tablas de contingencia y dentro del botón Estadísticos seleccionamos Chi-cuadrado. Figura 7.4 07. Inferencia paramétrica: relación entre dos variables cualitativas 8-10

. Metodología en Salud Pública Figura 7.5 Utilizaremos el estadístico chi cuadrado si queremos determinar si el tratamiento al que son sometidos los pacientes tras diagnosticarles un tumor, está relacionado con el sexo. 07. Inferencia paramétrica: relación entre dos variables cualitativas 9-10

. Metodología en Salud Pública Interpretación: Dentro de la tabla de contingencia aparecen los valores observados para cada combinación. Como veis aparecen también los marginales (suma por filas, columnas y total). En la segunda tabla, la primera ji cuadrado que aparece es la de Pearson (0,040). Como ya hemos comentado SPSS ofrece también el test exacto de Fisher. Todas las pruebas de significación estadística con ji cuadrado son aproximadas, es decir, se aproximan tanto mejor a la exactitud cuanto mayor es el tamaño de la muestra. En cambio, el test de Fisher es exacto, por eso los valores p aparecen en una columna distinta para el test de Fisher. El programa también nos da el mínimo de los valores esperados (,41).Si algún valor esperado en una tabla x es inferior a 5 no sirve la ji cuadrado, en ese caso utilizaríamos el test exacto de Fisher. Conclusión: al usar la ji cuadrado (p=0,84 > 0,05) no rechazaremos H 0, luego no existe relación significativa entre el tratamiento al que son sometidos los pacientes y el sexo. 07. Inferencia paramétrica: relación entre dos variables cualitativas 10-10