Análisis de datos Categóricos

Documentos relacionados
Análisis de datos Categóricos

Estadística Bayesiana

Guillermo Ayala Gallego Universidad de Valencia

Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste.

INFERENCIA ESTADISTICA

INDICE. Prólogo a la Segunda Edición

Estimación de Parámetros.

Análisis de datos Categóricos

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Tema 10: Introducción a los problemas de Asociación y Correlación

Definición Una hipótesis es una afirmación acerca de un parámetro.

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

MODELOS DE SIMULACIÓN ESTADÍSTICOS CLASE 4: DISTRIBUCIÓN t, CHI-CUADRADA y EXPONENCIAL PROFESOR: OSCAR SAAVEDRA ANDRÉS DURANGO.

Índice general. Pág. N. 1. Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN. Diseño. Población. Muestra. Individuo (Observación, Caso, Sujeto) Variables

Estadística Diplomado

INDICE Prefacio 1. Introducción 2. Distribuciones de frecuencia: tablas estadísticas y graficas

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

Técnicas Cuantitativas para el Management y los Negocios I

Preparación de los datos de entrada

FLACSO / Facultad Latinoamericana de Ciencias Sociales Maestría en Ciencias Políticas & Sociología Metodología de la Investigación Social

Determinación del tamaño de muestra (para una sola muestra)

MEDIDAS DE ASOCIACION

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

El análisis de correspondencias. Ana María López Jiménez Dept. Psicología Experimental (USE)

DISTRIBUCIONES BIDIMENSIONALES

Tema: Medidas de Asociación con SPSS

MODELO DE RESPUESTAS Objetivos 2, 3, 4, 5, 6, 7, Y 8.

Información general. Fundamentos de Análisis de datos. Obligatoria básica o de fundamentación X. Obligatoria profesional

INFERENCIA PARÁMETRICA: RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Estimación por intervalos

2 Contraste de independencia

ANÁLISIS DE REGRESIÓN

Pasos. i Aplicar la prueba X 2 para determinar la significación estadística de las proporciones entre ambas variables (no son iguales)

Regresión ponderada y falta de ajuste

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos

DISTRIBUCIÓN CHI-CUADRADO O JI-CUADRADO X 2 CONCEPTO BÁSICO Frecuencia: es el número de datos que caen en cada celda. Frecuencias Observadas (fo):

Tema 6: Introducción a la Inferencia Bayesiana

PRUEBA DE BO DAD DE AJUSTE

Asignatura : INFERENCIA ESTADÍSTICA I Titulación : DIPLOMADO EN ESTADÍSTICA Profesor : ISABEL MOLINA PERALTA Capítulo 5 : INTERVALOS DE CONFIANZA

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

478 Índice alfabético

Estimación de Parámetros

Lucila Finkel Temario

INFERENCIA CON RECUENTOS

Tema 7. Contrastes no paramétricos en una población

Selección de distribuciones de probabilidad

ESTIMACIÓN Y PRUEBA DE HIPÓTESIS INTERVALOS DE CONFIANZA

Análisis estadístico de datos cualitativos

PRUEBAS DE BONDAD DE AJUSTE

Fundamentos de Estadística

Métodos de Investigación en Psicología (11) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

Cálculo de Probabilidades II Preguntas Tema 2

C L A S E N 5 I N S E M E S T R E O T O Ñ O,

Tema 13: Contrastes No Paramétricos

Análisis de Estructuras Espaciales Persistentes. Desempleo Departamental en Argentina.

Tema 4: Estimación por intervalo (Intervalos de Confianza)

Escuela Nacional de Estadística e Informática ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA

PROYECTO DE CARRERA: INGENIERÍA INDUSTRIAL ASIGNATURA: ESTADÍSTICAS II GUÍA DE EJERCICIOS N 2

Experimentos con factores aleatorios. Diseño de experimentos p. 1/36

PRUEBA DE BONDAD DE AJUSTE O PRUEBA CHI - CUADRADO

Parte de las notas tomadas de: Prof. Edgar Acuña UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ

Estudiaremos tres tipos de contrastes, cada uno de los cuales trata de responder a la pregunta correspondiente: Bondad del ajuste Proceden los datos

PROGRAMA DE CURSO. Horas de Trabajo Personal Horas de Cátedra. Básica. Resultados de Aprendizaje

CAPITULO ANÁLISIS ESTADÍSTICO MULTIVARIADO /1/ /2/ En el presente capítulo se realiza el análisis estadístico multivariado de los

Econometría Aplicada

Tema 7: Introducción a la Teoría sobre Estimación

Econometría III Examen. 29 de Marzo de 2012

Técnicas de Inferencia Estadística II. Tema 6. Contrastes de independencia

Tema 4. Regresión lineal simple

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Centro Universitario de Tonalá

Caso 105. Tamaño de muestra y potencia de una prueba. Diseño de experimentos. Jesús López Fidalgo

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

1. Muestreo e Inferencia Estadística

Ms. C. Marco Vinicio Rodríguez

ESTADÍSTICA. Tema 4 Regresión lineal simple

Inferencia Estadística. Pruebas paramétricas y no paramétricas. Análisis de datos

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Tema 5. Estadística descriptiva bivariable con variables categóricas y numéricas

UNIVERSIDAD DEL VALLE DE MÉXICO PROGRAMA DE ESTUDIO DE LICENCIATURA (PROGRAMA EJECUTIVO CUATRIMESTRAL)

La distribucion de preferencias de colores es la misma tanto para personas de distinto nivel socioeconómico.

Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis. Facultad de Ciencias Sociales, UdelaR

PRUEBA CHI-CUADRADO. Para realizar un contraste Chi-cuadrado la secuencia es:

LECCIÓN PÚBLICA. Tema 4 Descripción bivariante de datos. Profa. María Fátima Dos Santos

Estadística Inferencial. Sesión 2. Distribuciones muestrales

a. Poisson: los totales marginales y el total muestral varían libremente.

Análisis Multivariante de Datos

PROGRAMA DETALLADO VIGENCIA TURNO UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA DE LA FUERZA ARMADA 2009 DIURNO INGENIERÌA EN SISTEMAS ASIGNATURA

Análisis de Correspondencias Simple

El modelo de azar proporcional: la regresión de Cox

Principios de reducción de la data

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Análisis de datos cualitativos

Regresión Lineal Múltiple

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Transcripción:

Inferencia para tablas de contingencia Universidad Nacional Agraria La Molina 2013-1

Odds ratio Diferencia de proporciones Riesgo relativo Ejemplo Odds ratio El odds ratio muestral es: El estimador modicado es: ˆθ = n 11n 22 n 12 n 21 θ = (n 11 + 0,5) (n 22 + 0,5) (n 12 + 0,5) (n 21 + 0,5) El error estándar estimado para log ˆθ es: ( ) ˆσ log ˆθ = 1 n 11 + 1 n 12 + 1 n 21 + 1 n 22

Odds ratio Diferencia de proporciones Riesgo relativo Ejemplo Odds ratio Los estimadores ˆθ y θ tienen la misma distribución normal asintótica con respecto de θ. El intervalo de conanza (1 α) 100 % de Wald para log θ es: ( ) log ˆθ z 1 α/2ˆσ log ˆθ El intervalo de conanza correspondiente para θ es: { ( )} exp log ˆθ z 1 α/2ˆσ log ˆθ

Odds ratio Diferencia de proporciones Riesgo relativo Ejemplo Diferencia de proporciones La diferencia de proporciones y el riesgo relativo compara la distribución condicional de la variable respuesta en dos grupos. Se considera que y i BI (n i, π i ). La proporción muestral es: ˆπ i = y i n i cuyo valor esperado es π i y su variancia π i (1 π i ) /n i. Como ˆπ 1 y ˆπ 2 son independientes, entonces: E (ˆπ 1 ˆπ 2 ) = π 1 π 2

Odds ratio Diferencia de proporciones Riesgo relativo Ejemplo Diferencia de proporciones El error estándar es: σ (ˆπ 1 ˆπ 2 ) = π 1 (1 π 1 ) n 1 + π 2 (1 π 2 ) n 2 El intervalo de conanza (1 α) 100 % de Wald para π 1 π 2 es: (ˆπ 1 ˆπ 2 ) z 1 α/2ˆσ (ˆπ 1 ˆπ 2 )

Odds ratio Diferencia de proporciones Riesgo relativo Ejemplo Riesgo relativo El riesgo relativo muestral es: ˆr = ˆπ 1 ˆπ 2 El error estándar asintótico de log ˆr es: 1 π1 σ (log ˆr) = + 1 π 2 π 1 n 1 π 2 n 2 El intervalo de conanza (1 α) 100 % para log r es: log ˆr z 1 α/2ˆσ (log ˆr)

Odds ratio Diferencia de proporciones Riesgo relativo Ejemplo Ejemplo: Uso de aspirina e infarto al miocardio En este estudio se asignaron al azar 1360 pacientes, que habian sufrido un ataque previo, al grupo aspirina y al grupo placebo. Tabla 1 : Uso de asprina e infarto al miocardio Infarto al miocardio Grupo Si No Total Placebo 28 656 684 Aspirina 18 658 676 Hallar un intervalo del 95 % de conanza para el odds ratio, la diferencia de proporciones y el riesgo relativo.

Independencia en tablas de dos vías Se aplica sobre una muestra multinomial con probabilidades {π ij } para una tabla de contingencia I J. La hipótesis nula es: H 0 : π ij = π i+π +j i = 1,, I j = 1,, J Para muestras multinomiales en las I las la independencia corresponde a la homogeneidad en las probabilidades. En los capítulos anteriores se introdujo el estadístico chi-cuadrado de Pearson para probabilidades multinomiales.

Estadístico de prueba de Pearson Los estimadores de máxima verosimilitud para {π i+} y {π +j }: ˆπ i+ = n i+ n ˆπ +j = n +j n Las frecuencias esperadas: { ˆµ ij = nˆπ i+ˆπ +j = n i+n +j n El estadístico de prueba de Pearson es: } X 2 = i (n ij ˆµ ij ) 2 ˆµ ij j

Estadístico de prueba de Pearson Pearson (1900, 1904, 1922) consideró que la distribución de X 2 χ 2 con I J 1 grados de libertad. Fisher (1922) corrige el error de Pearson (sección 16.2) introduciendo en su artículo la noción de grados de libertad. Como se requiere estimar {π i+} y {π +j } los grados de libertad son: (I J 1) (I 1) (J 1) = (I 1) (J 1) Las dimensiones de {π i+} y {π +j } reejan la restricción i π i+ = j π +j = 1.

Prueba de razón de verosimilitud El estadístico score reproduce el estadístico de prueba chi-cuadrado de Pearson. Para un muestreo multinomial, el núcleo de la verosimilitud es: π n ij ij i j Bajo la hipótesis de independencia ˆπ ij = ˆπ i+ˆπ +j = n i+n +j /n 2. La razón de verosimilitud es: Λ = i n n i j (n i+n +j ) n ij j nn ij ij

Prueba de razón de verosimilitud El estadístico de prueba G 2 : G 2 = 2 log Λ = 2 n ij log donde {ˆµ ij = n i+n +j /n}. i j ( nij Cuanto mayores son los valores de G 2 y X 2 mayor evidencia existe en contra de la independencia. Para muestras grandes la distribución aproximada de G 2 χ 2 con (I 1) (J 1) grados de libertad. ˆµ ij )

Ejemplo: Creencias religiosas y educación La siguiente tabla clasica una muestra de 2726 personas de acuerdo a su creencia religiosa y al nivel de educación alcanzado. Tabla 2 : Creencias religiosas y educación Creencia religiosa Educación Extrema Moderada Liberal Total Primaria 178 138 108 424 Secundaria 570 648 442 1660 Bachiller 138 252 252 642 Total 886 1038 802 2726

Ejemplo: Creencias religiosas y educación Los estadísticos X 2 = 69,2 y G 2 = 69,8 con 4 grados de libertad proporcionan una fuerte evidencia de asociación entre las variables Tabla 3 : Frecuencias esperadas estimadas Creencia religiosa Educación Extrema Moderada Liberal Total Primaria 137.8 161.5 124.7 424 Secundaria 539.5 632.1 488.4 1660 Bachiller 208.7 244.5 188.9 642 Total 886 1038 802 2726

Seguimiento a las pruebas chi-cuadrado Una prueba de independencia chi-cuadrado tiene utilidad limitada. Un valor-p pequeño indica una fuerte evidencia de asociación pero proporciona poca información acerca de su intensidad. Se ha advertido sobre los peligros de conar únicamente en los resultados de las pruebas chi-cuadrado en lugar de estudiar la naturaleza de la asociación. En esta sección se discute una segunda etapa en el análisis para descubrir más acerca de la asociación entre las variables.

Una comparación celda a celda entre la frecuencia observada y la frecuencia esperada estimada puede ayudar a descubrir la naturaleza de la dependencia. El residual de Pearson se dene por: e ij = n ij ˆµ ij ˆµij El estadístico de prueba de Pearson es X 2 = e2. i j ij Bajo la hipótesis nula {e ij } son asintóticamente normales con media cero y variancia menor que uno.

Comparando los residuales de Pearson con los percentiles de la distribución normal estándar se pueden identicar, de manera conservadora, las celdas que presentan falta de ajuste. El residual estandarizado de Pearson se dene por: r ij = n ij ˆµ ij ˆµij (1 p i+) (1 p +j ) Un residual estandarizado de Pearson mayor a 2 ó 3, en valor absoluto, indica falta de ajuste al supuesto de independencia para dicha celda.

Ejemplo: Creencias religiosas y educación Los residuales estandarizados de Pearson se muestran a continuación: Tabla 4 : Residuales estandarizados de Pearson Creencia religiosa Educación Extrema Moderada Liberal Primaria 4.5-2.6-1.9 Secundaria 2.6 1.3-4.0 Bachiller -6.8 0.7 6.3

Ejemplo: Creencias religiosas y educación La tabla anterior muestra un residual positivo grande para los sujetos con educación primaria y con creencia religiosa extrema. Lo mismo se observa para los sujetos con bachillerato y creencia religiosa liberal. Lo anterior signica que hay más sujetos en esas combinaciones de lo que predice el supuesto de independencia. Similarmente, existen menos estudiantes con bachillerato y creencia religiosa extrema y menos estudiantes con secundaria y creencia religiosa liberal de lo que predice el supuesto de independencia.

Sea Z N (0, 1) entonces Z 2 χ 2 1. Una variable aleatoria con distribución chi-cuadrado con ν grados de libertad tiene representación Z 2 1 + Z 2 2 + + Z 2 ν. Luego, el estadístico chi-cuadrado podría particionarse en ν componentes chi-cuadrado con 1 grado de libertad. Ademas, si X1 2 y X 2 2 son variables aleatorias independientes con distribuciones chi-cuadrado con ν 1 y ν 2 grados de libertad respectivamente, entonces X 2 = X1 2 + X 2 2 χ2 ν 1 +ν 2. Un particionamiento puede mostrar que una asociación reeja básicamente diferencias entre ciertas categorías o grupos de categorías.

Ejemplo: Origen de la esquizofrenia La siguiente tabla clasica una muestra de psiquiatras de acuerdo al pensamiento de la escuela a la que pertenecen y su opinión sobre el origen de la esquizofrenía. Tabla 5 : Origen de la esquizofrenia Opinión sobre el origen Escuela Biogen Amb Comb Ecléctica 90 12 78 Médica 13 1 6 Psico 19 13 50 En la tabla anterior se tiene que G 2 = 23,04 con 4 grados de libertad.

Ejemplo: Origen de la esquizofrenia Para comprender mejor esta asociación se particiona G 2 en cuatro componentes independientes. Para la primera sub-tabla G 2 1 Para la segunda sub-tabla G 2 2 = 0,29 con 1 grado de libertad. = 1,36 con 1 grado de libertad. Tabla 6 : Sub-tablas 1 y 2 Bio Amb Bio+Amb Comb Ecl 90 12 Ecl 102 78 Med 13 1 Med 14 6

Ejemplo: Origen de la esquizofrenia Existe poca evidencia de tener diferencias entre el pensamiento de las escuelas Ecléctica y Médica sobre el origen de la esquizofrenia. Para la tercera sub-tabla G3 2 = 12,95 con 1 grado de libertad. Para la cuarta sub-tabla G4 2 = 8,43 con 1 grado de libertad. Tabla 7 : Sub-tablas 3 y 4 Bio Amb Bio+Amb Comb Ecl+Med 103 13 Ecl+Med 116 84 Psic 19 13 Psic 32 50

Ejemplo: Origen de la esquizofrenia Los resultados obtenidos en el análisis de las sub-tablas 3 y 4 indican que existen diferencias entre el pensamiento de la escuela Psicoanalítica y las otras escuelas (Ecl + Med). Los miembros de la escuela Psicoanálitica son mucho más contundentes que las otras escuelas en atribuir el origen de la esquizofrenia al Ambiente (sub-tabla 3) y a una Combinación (sub-tabla 4). La suma de los cuatro componentes es G 2 = 23,04 que es el valor obtenido en la prueba de independencia de la tabla 5.

Reglas para particionar La suma de los grados de libertad de las subtablas deber ser igual a los grados de libertad de la tabla completa. Cada frecuencia observada en la tabla completa debe aparecer en solamente una de las sub-tablas. Cada total marginal en la tabla completa debe ser un total marginal en solamente una de las sub-tablas. La suma del G 2 en cada sub-tabla es igual al que se obtiene con la tabla completa. Sin embargo no siempre ocurre lo mismo cuando se utiliza el estadistico X 2.

Limitaciones de las pruebas chi-cuadrado Las pruebas de independencia chi-cuadrado solo indican el grado de evidencia que tiene la hipótesis alterna de asociación entre las variables. Requieren un tamaño de muestra grande. Los estadísticos X 2 y G 2 no cambian de valor cuando se reordenan las las y columnas, lo cual indica que las variables son tratadas como nominales. Cuando al menos una de las variables es ordinal es preferible utilizar pruebas estadísticas que consideren esta característica.

Tendencia lineal Tendencia lineal Cuando las variables X y Y son ordinales es común observar una tendencia positiva o negativa en la asociación. Se asignan scores a las categorías para resumir la tendencia lineal. Una prueba estadística que es sensible a las tendencias lineales positivas o negativas utilizan información sobre la correlación. Sean u 1 u 2 u I y υ 1 υ 2 υ J los scores para las y columnas respectivamente. Los scores presentan mayores diferencias entre las categorías más separadas.

Tendencia lineal Tendencia lineal La suma u i j iυ j n ij pondera el producto cruzado de los scores usando las frecuencias. Una vez elegidos los scores, la correlación r entre X y Y se obtiene estandarizando la suma anterior sobre el intervalo 1 y +1. Una estadística para probar la independencia versus r 0 es: M 2 = (n 1) r 2 Si n es grande M 2 tiene una distribución chi-cuadrado con 1 grado de libertad.

Tendencia lineal Ejemplo: Satisfacción en el trabajo Las pruebas chi-cuadrado de independencia X 2 = 6,0 con p = 0, 74 y G 2 = 6,8 con p = 0,66 presentan poca evidencia de asociación pero ignoran la naturaleza ordinal de las variables. Suponga que los scores para la satisfacción en el trabajo y el ingreso son (1, 2, 3, 4) y (7.5, 20, 32.5, 60) respectivamente. Usando los scores anteriores la correlación es r = 0,20. La prueba estadística de tendencia lineal M 2 = 3,81 con p = 0,051 y muestra cierta evidencia de asociación.

Tendencia lineal Ejemplo: Satisfacción en el trabajo Un problema con el análisis anterior es que los scores imponen una escala de intervalo sobre las variables lo cual no es apropiado ya que sus niveles son ordinales. La evidencia es mucho más fuerte para la hipótesis alterna de una cola (tendencia positiva) usando M = n 1r = 1,95 con p = 0,026. La evidencia no trivial de asociación positiva podria sorprender ya que X 2 y G 2 no tienen valores impresionantes. Cuando existe una tendencia lineal, el análisis usado en su detección puede proporcionar valores de probabilidad p mucho más pequeños que los obtenidos de un análisis que ignora dicha tendencia.