Análisis de Datos Categóricos En el análisis de datos, a menudo nos encontramos con mediciones de respuestas que son de naturaleza categórica. Éstas respuestas reflejan información de categorías más que mediciones en escala de intervalos o razón. Extenderemos los principios básicos de la prueba de hipótesis a situaciones que implican variables categóricas. Trataremos información que se obtiene del recuento del número de casos que se presentan al estudiar características cualitativas Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 1
Introducción Análisis de Datos Categóricos Si consideramos la situación más sencilla de esta unidad donde cada observación de una muestra se clasifica como pertenecientes a un número finito de categorías: Ejemplo 1 Se observaron 80 nacimientos de un cruzamiento de cerdos de los cuales 42 fueron rojizos, 12 negros y 26 blancos. Las leyes de la herencia implican que estas tres categorías presentan un modelo genético 9:3:4, es decir que deben tener probabilidades 9/16; 3/16 y 4/16 de aparecer en cada cruzamiento. Son los datos consistentes con el modelo teórico propuesto? Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 2
Ejemplo 2 En la frontera fitosanitaria de la Patagonia se revisaron cargamentos de frutas de distinta procedencia para evaluar la posibilidad de introducción de mosca de las frutas (Ceratitis capitata), una plaga importante de los frutales, en áreas no infestadas. La información de cargamentos con presencia de la plaga se resume en la siguiente tabla: Presencia de la plaga Región de procedencia del cargamento Cuyo NOA NEA Con mosca 22 32 33 Sin mosca 67 5 10 Existe alguna dependencia entre la región de procedencia y la presencia de la plaga? Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 3
Ejemplo 3 Una formulación nueva de convertidor de oxido para tratar cierto material se comparó con la formulación de mayor uso. Para esto se tomó al azar un grupo de 300 piezas con herrumbre; a la mitad de éstas, tomados al azar, se las trató con la nueva formulación y a las otras 150, con la formulación tradicional. Luego de un tiempo se analizaron nuevamente las piezas con el siguiente resultado: Estado de las piezas luego del tratamiento Tratamiento Empeoró Sin efecto Mejoró Totales Nuevo 16 30 104 150 Tradicional 20 42 88 150 Totales 36 72 192 300 Considera que estos tratamientos se comportan de manera similar? Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 4
Distribución 2 -cuadrado Para resolver estos problemas utilizaremos la distribución 2 - cuadrado. La aplicaremos básicamente: 2- cuadrado Bondad de Ajuste Tablas de contingencia Pruebas con probabilidades de cada categoría completamente especificada Bondad de ajuste a una variable discreta Bondad de ajuste a una variable continua Pruebas de Homogeneidad Pruebas de Independencia Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 5
Propiedades 2 -cuadrado Antes de dar una descripción más detallada de estas pruebas repasemos algunas propiedades de esta distribución: Es asimétrica con sesgo hacia la derecha No toma valores negativos Tiene una distribución diferente para cada número de grados de libertad Probabilidad df = 3 df = 5 df = 10 Valores de ji-cuadrado Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 6
Pruebas de Bondad del Ajuste (Inferencias acerca del Experimento Multinomial) Se desea contrastar una distribución de frecuencias observada en una muestra con una distribución de frecuencias teórica Verificar si responde a un determinado modelo o situación preconcebida. Es una generalización del experimento binomial. Para aplicar la prueba se necesita una tabla donde se encuentren registradas las frecuencias observadas y las frecuencias teóricas o esperadas según el modelo. El estadístico que se utiliza en estas pruebas es el siguiente: k 2 o i e 2 i i1 ei donde k es el número de categorías y o i y e i son las frecuencia observada y esperada en la i-ésima categoría, respectivamente. Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 7
Características de la multinomial Consta de n ensayos independientes e idénticos. El resultado de cada ensayo cae en una de las k categorías posibles (medidas en escala nominal) de la única variable, donde k>2. Hay una probabilidad asociada a cada categoría, la cual es constante de un ensayo a otro Las categorías son exhaustivas y excluyentes, por lo cual la suma de sus probabilidades es 1 Se obtienen frecuencias observadas para cada categoría, siendo su suma igual a n. El número esperado de intentos que resulten en la categoría i es E(N i )= n* i,, donde i es la probabilidad de que cualquier observación en particular pertenezca a la categoría i Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 8
Prueba de hipótesis para el experimento multinomial Hipótesis nula Hipótesis alternativa Estadístico de prueba Región de rechazo Supuesto H 0 : 1, 2,..., k poseen valores especificados (iguales o no) H a : alguna probabilidad de las celdas. Difiere de los valores especificados en H 0 2 k o i e i 2 donde o y e representan las i1 ei Frecuencias observadas y esperadas para cada celda Está determinada por la distribución 2, con un determinado y k - 1 grados de libertad Las frecuencias esperadas no pueden ser en ningún caso inferiores a 5 Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 9
Prueba de hipótesis para el experimento multinomial Bajo la hipótesis nula los n i deben estar razonablemente cerca de n* i Cuando los valores de i difieran marcadamente de lo especificado en la hipótesis nula, los valores observados diferirán de los esperados. El procedimiento de prueba implica medir las discrepancias entre n i y n* i, rechazando la hipótesis nula cuando la discrepancia sea suficientemente grande Hay solo k -1 valores de celda determinadas libremente y por lo tanto k -1 grados de libertad. Dado que grandes discrepancias entre valores observados y esperados conducen a gran valor de ji-cuadrado el rechazo de H 0 es apropiado cuando 2 2, k 1(unilateral a la derecha) Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 10
Prueba de hipótesis para el experimento multinomial Veamos un ejemplo utilizando una distribución de las paradas de una máquina por falla en el proceso de producción. De la observación en el tiempo tenemos que el número de paradas de una máquina por fallas por día es x i f i 0 27 1 65 2 102 3 88 4 42 5 31 6 14 7 11 Total 380 Sería razonable, con = 0.05, pensar que el número de paradas por día por falla sigue una distribución de Poisson? Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 11
Prueba de hipótesis para el experimento multinomial 1. Hipótesis. H 0 : sigue una distribución de Poisson con parámetro = 0 ; H 1 : no sigue una distribución de Poisson con parámetro = 0 2. Nivel de significación. = 0.05. 3. Estadística de la prueba. que se distribuye compuesto que, para esta prueba k = 8 y, por consiguiente, = 8 1 = 7. 4. Regla de decisión. Rechazamos H 0 si, y solo si, el valor de 2 calculado es mayor que el valor crítico. En caso contrario, se acepta H 0. Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 12
Prueba de hipótesis para el experimento multinomial Aún cuando hemos desarrollado la prueba 2 cuadrado para situaciones donde k>2, también se puede utilizar cuando k=2. La hipótesis nula en este caso se puede expresar como H 0 : 1 = 10. Estas hipótesis también se pueden probar utilizando una prueba z de dos colas con estadísticos de prueba Z (N / n) ˆ 10 1 ( 1 ) 10 10 10 n n De manera sorprendente, los dos procedimientos de prueba son completamente equivalentes. Esto es porque se puede demostrar que Z 2 = 2 y (z /2 )= 2 1 de modo que 2 2, k 1 si y sólo si Z z /2. Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 13 10 20
Tablas de contingencia con dos criterios de clasificación En una tabla de contingencia la información está representada por conteos o frecuencias organizadas en i-filas y j-columnas (dos criterios de clasificación). Se presentan dos situaciones: 1. Hay i-poblaciones de interés ubicadas cada una en una fila de la tabla y en cada población se describen j-categorías o atributos. Se toma una muestra de cada población y las frecuencias se anotan en la celda de la tabla. 2. Hay una sola población de interés, y cada individuo es clasificado respecto a dos factores diferentes (i-categorías de un factor j- categorías de otro). Se toma una sola muestra y se anota el número de individuos en cada categoría de ambos factores. Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 14
Características de las tablas de contingencia Consta de n ensayos independientes e idénticos Hay 2 variables en juego y se representa una tabla de doble entrada El resultado de cada ensayo cae en una de las celdas, las cuales resultan de las combinaciones posibles de categorías (medidas en escala nominal) de ambas variables Hay una probabilidad asociada a cada celda, la cual es constante de un ensayo a otro La probabilidad asociada a cada celda resulta del producto de sus probabilidades marginales La suma de las probabilidades asociadas a cada celda es 1 Se obtienen frecuencias observadas para cada categoría, siendo su suma igual a n Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 15
Caso 1: Prueba de homogeneidad Ocurre cuando una de las 2 variables es controlada por el investigador, de modo que los totales por fila o por columna están predeterminados El análisis es idéntico al de las tablas de contingencia para independencia La hipótesis nula que se plantea en este caso consiste en sostener que la distribución de proporciones entre las categorías de la variable no controlada (por fila o por columna) es la misma para cada categoría de la variable controlada Otra manera de abordar el mismo problema es preguntarse si las muestras provienen de la misma población Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 16
Prueba de hipótesis para prueba de homogeneidad Hipótesis. H 0 : las i-muestras son extraídas de la misma población. H 1 : son extraídas de diferentes poblaciones. H 0 : 1j = 2j = 3j =...= ij H 1 : H 0 no es verdadera Nivel de significación. = 0.05. Estadística de la prueba. que se distribuye aproximadamente como. Aquí = (i 1) (j 1) Regla de decisión. Rechazamos H 0 si, y solo si, el valor de 2 calculado es mayor que 2,(i-1)*(j-1). En caso contrario, se acepta H. 0 k 2 oi ei i1 El esperado es estimado en cada celda e i Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 17 2 ê ij n i. n n...j
Ejemplo para prueba de homogeneidad Objetivo: establecer si las preferencias acerca del envase de dulce de leche son similares para hombres y mujeres Envase lata plástico cartón vidrio Total varones 27 30 19 24 100 (19,5) (29,5) (22,5) (28,5) mujeres 12 29 26 33 100 (19,5) (29,5) (22,5) (28,5) Total 39 59 45 57 200 H 0 : las preferencias acerca del envase de dulce de leche no difieren entre hombres y mujeres H 1 : las preferencias acerca del envase de dulce de leche difieren entre hombres y mujeres Estadístico 2 *: 8,296 2 tabla ( = 0,05; gl = 3): 7,81 Valor p: 0,0402 Conclusión: se rechaza h 0 : las preferencias acerca del envase de dulce de leche difieren entre hombres y mujeres Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 18
Caso 2: Prueba de independencia Este tipo de prueba se aplica cuando existe interés en determinar si dos atributos categóricos presentan algún tipo de asociación entre ellos o, por el contrario, son independientes. Este tipo de información se suele presentar en tablas de doble entrada. El estadístico que se utiliza en estas pruebas es el mismo que el empleado en las pruebas de bondad del ajuste y homogeneidad. Se estudia la relación entre dos factores diferentes de la misma población A diferencia de las pruebas de homogeneidad donde en general los totales de filas están fijos por anticipado, en las pruebas de independencia solo el tamaño muestral es fijo. Por lo tanto los totales de filas como de columnas son variables aleatorias Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 19
Prueba de hipótesis para independencia Hipótesis nula Hipótesis alternativa Estadístico de prueba Región de rechazo H 0 : ij = i. *.j las variables son independientes H a : ij i. *.j las variables no son independientes 2 2 O E donde O y E E representan las Frecuencias observadas y esperadas para cada celda Está determinada por la distribución 2, con un determinado y (i -1)(j -1) grados de libertad Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 20
Ejemplo para prueba de independencia Una muestra de 500 estudiantes ingresantes en una universidad participó en un estudio diseñada con el fin de evaluar el grado de conocimiento en matemáticas. La siguiente tabla muestra los estudiantes clasificados según su formación secundaria (escuelas técnicas, bachiller y otras) y el nivel de conocimiento en matemáticas (bueno=aprobó el examen; deficiente = no aprobó el examen): Bueno Deficiente Técnicas 20 60 Bachiller 15 150 Otras 25 230 Confirman estos datos que la aptitud en matemáticas depende de la orientación de los estudios secundarios? H 0 : La aptitud en matemáticas es independiente de la orientación del secundario H 1 : La aptitud en matemáticas es dependiente de la orientación del secundario Estadístico 2 *:15,289 2 tabla( = 0,05; gl = 2): 5.99 Valor p: 0,00047845 Conclusión: se rechaza h 0 : La aptitud en matemáticas es independiente de la orientación del secundario, por lo tanto las variables son dependientes. Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 21
Precauciones en la interpretación de resultados Los grados de libertad dependen de la cantidad de categorías de las variables y no del número de casos, de modo que el valor de tabla no se modifica al aumentar el número de casos Utilizando muestras grandes, se dice poca cosa al decir que una relación es significativa, ya que es relativamente fácil establecer significación, aún en el caso de que la relación existente sea muy superficial. Material Preparado por la Lic. Olga S. Filippini y el Lic. Hugo Delfino 22