La estadística unidimensional estudia los elementos de un conjunto de datos considerando sólo una variable o característica. Si ahora incorporamos, otra variable, y se observa simultáneamente el comportamiento de ambas, entonces estamos en el campo del análisis bidimensional, cuya agrupación da origen a las distribuciones bidimensionales de frecuencia. No se trata de elegir dos variables cualesquiera, es una observación simultánea de variables que tengan entre sí alguna relación, afinidad o dependencia. Podemos considerar dos aspectos: a. Las distribuciones bidimensionales de frecuencia, que se refiere a la presentación de tablas de frecuencia, a través del cálculo de medidas de resumen. b. Determinar modelos estadísticos y medir la relación o asociación entre dos variables. Frecuencias Absolutas Los valores que aparecen dentro de la tabla son las frecuencias absolutas que representan el número de veces, que de las n observaciones aparece el valor repetido el valor de la primera variable junto al valor de de la segunda variable. Frecuencias marginales. Sumando las frecuencias absolutas que figuran en cada fila (línea horizontal) se obtiene una cifra que indica cuántas veces se repite cada valor de y que se indica al margen derecho de la tabla, que se representa por
CURSO: ESTADÍSTICA DESCRIPTIVA TABLAS DE CONTINGENCIA Las tablas de contingencia se utilizan para conocer si existe o no relación entre variables de tipo cualitativo. Este tipo de variables pueden ser de tipo nominal por ejemplo sexo del encuestado (hombre; mujer), o tipos de marcas de un producto (Coca-cola, Pepsi-cola, ), u ordinal tales como la medición del grado de satisfacción de un grupo de clientes empleando una escala del tipo ( = Nada; 1 = Poco; = Indiferente; 3 = Bastante; 4 = Mucho). El empleo de las tablas de contingencia está especialmente indicado si las variables son de tipo nominal. 1º. Existe relación entre dos variables de tipo cualitativo? En qué condiciones se pueden utilizar las tablas de contingencia? º. Qué grado de relación existe entre las variables? 3º. En qué grado existe la relación? Para responder a la primera pregunta estudiaremos el test de la x Para responder a la segunda analizaremos diferentes coeficientes de asociación: el de contingencia, el de la Q de Yule, la Gamma, el Tau-b, y el Tau-c de Kendall, y la D de Sommers. Para responder a la tercera estudiaremos la técnica de los residuos estandarizados. Explicación de la técnica De forma general, si dos factores o atributos A y B se estudian sobre una misma población y se miden las unidades estadísticas (frecuencias absolutas) se obtienen dos series representativas de cada uno de los factores o atributos. Por ejemplo, tras realizar un estudio en su supermercado sobre la relación entre el sexo del encuestado y la compra de un determinado producto se obtienen los siguientes datos. Compradores sexo Hombres Mujeres Total Si 3 1 4 No 11 7 38 Total 43 37 8
Sobre estos datos podríamos preguntar si existe relación entre esas variables, es decir existe asociación entre la compra del producto y el sexo al que se pertenece? Una forma de plantear los resultados, para contestar al tipo de cuestiones anteriormente planteadas, es su disposición en una tabla de doble entrada, conocida como tabla de contingencia. En nuestro ejemplo, la tabla de contingencia sería: Estas tablas se usan para mostrar la dependencia o independencia entre dos factores, para el caso de muestras independientes. En esta tabla observamos dos atributos (Varón, mujer) X dos atributos (Compra, No compra). Estas tablas se pueden expresar de modo general: A, B, C, y D son las frecuencias observadas del suceso en realidad (3, 1, 11 y 7 en nuestro ejemplo). N es el número total de casos estudiados (8). A + B, C + D, A + C y B + D son las totales marginales. En nuestro ejemplo A + B sería el número total de compradores (4), C + D el número total de no compradores (38), A + C el número total de hombres (43), y B + D (37) el número total de mujeres. En esta clase se analizará la utilidad de las tablas de contingencia para determinar la dependencia/independencia entre varios factores. Analizaremos primero las tablas más sencillas (las tablas x ) para pasar posteriormente a otras más complejas. Cuando los datos de investigación consisten en frecuencias medidas en escala nominal u ordinal, como es el caso de las tablas de contingencia puede usarse la prueba x para determinar la significación de las diferencias entre dos grupos independientes. La hipótesis que usualmente se pone a prueba supone que los dos grupos difieren con respecto a alguna característica y, por lo tanto, con respecto a la frecuencia relativa con que los miembros del grupo son encontrados en diferentes categorías. Para probar esta hipótesis, contamos el número de casos de cada grupo en cada categoría y compramos la proporción de casos en las diferentes categorías de un grupo con las de otro grupo.
MÉTODO La hipótesis de nulidad [que implica que existe independencia entre los dos factores(sexo y compra o no del producto)] puede probarse por medio de: ( ) (1) Donde: O ij (Frecuencia observada) es el número de casos observados clasificados en la fila i de la columna j. E ij (Frecuencias esperada ó teórica) es el número de casos esperados correspondientes a esa fila y a esa columna. Podemos definirla como aquella frecuencia que se daría si los sucesos (en el ejemplo de compra y sexo del encuestado) fuesen independientes. Los valores de x dados por la fórmula (1) están distribuidos como una chi-cuadrada con grados de libertad = (r 1)(k - 1), donde r es el número de filas y k es el número de columnas en la tabla de contingencia. Qué está midiendo este estadístico? Está midiendo la diferencia entre el valor que debería resultar si los dos factores (compra del producto y sexo) fueran completamente independientes [determinado por la frecuencia esperada (E ij )], y el que se ha observado en la realidad [recogido en la frecuencia observada O ij ]. Cuanto mayor sea la diferencia entre ambas frecuencias mayor será la relación entre ambas variables. La elevación de la diferencia al cuadrado convierte en positiva a cualquier tipo de diferencia. Este test es por ello un test no dirigido. Indica si existe o no relación entre los factores pero no nos muestra el signo. Es decir, en nuestro ejemplo el estadístico (1) nos indicaría si existe o no relación entre el sexo y el hecho de comprar o no el artículo, pero no podemos saber si el signo de la relación es positivo o negativo, o en otras palabras si son los hombres los que compran más el artículo o sucede al contrario.
Distribución chi cuadrado ( x ) La distribución chi cuadrado es la técnica estadística utilizada con mayor frecuencia para el análisis de conteo o datos de frecuencias. Existen tres tipos de pruebas: prueba de bondad de ajuste, prueba de homogeneidad y prueba de independencia. a) Prueba de bondad de ajuste.- Consiste en determinar si los datos de cierta muestra corresponden a cierta distribución poblacional. En este caso es necesario que los valores de la variable de la muestra y sobre la cual queremos realizar la inferencia esté dividida en clases de ocurrencia, o equivalentemente, sea cual sea la variable de estudio, deberemos categorizar los datos asignando sus valores a diferentes clases o grupos. Este tipo de pruebas se verá cuando se revisen las pruebas no paramétricas. b) Prueba de homogeneidad.- Consiste en comprobar si varias muestras de carácter cualitativo proceden de una misma población. c) Prueba de independencia.- Consiste en comprobar si dos características cualitativas están relacionadas entre sí. Prueba de Homogeneidad. Ejemplo Se tienen un grupo de pacientes procedentes de tres localidades (campo, rural y urbano) en las cuales se ha observado la presencia del síndrome metabólico, como aparece en la tabla: Síndrome metabólico Procedencia Campo Rural Urbano Total Con SM 1 4 36 Sin SM 1 9 6 5 Total 1 19 3 61 Para la prueba Chi cuadrado procedemos de la siguiente manera:
1. Formulación de hipótesis: H : La presencia de síndrome metabólico no difiere de acuerdo la procedencia. H : 1 La presencia de síndrome metabólico difiere de acuerdo la procedencia. Establecer un nivel de significancia:.5 3. Elección del estadístico de prueba: 4. Determinar la región crítica. x 5.99 tab x n ( oi ei) e i 1 i 5. Decisión: como p=.1<.5 entonces rechazamos H 6. Conclusión: La presencia de síndrome metabólico difiere de acuerdo a la procedencia o dicho de otro modo el síndrome metabólico se encuentra en frecuencias diferentes en cada una de estas tres poblaciones. Prueba de independencia Ejemplo: Se tiene 61 personas de diferente sexo; masculino y femenino, algunas con síndrome metabólico y otras sin él, tal como muestra la siguiente tabla: Síndrome Sexo Metabólico Femenino Masculino Total Con SM 18 5 3 Sin SM 1 8 38 Total 8 33 61
Se desea saber si existe una relación entre la variable síndrome metabólico y la variable sexo. 1. Formulación de hipótesis: H : La presencia de síndrome metabólico es independiente del sexo. H : 1 La presencia de síndrome metabólico es dependiente del sexo. Establecer un nivel de significancia:.5 3. Elección del estadístico de prueba: x n ( oi ei) e i 1 4. Determinar la región crítica. x 3.84 5. Decisión: como p=.<.5 entonces rechazamos H tab 6. Conclusión: Existe una dependencia entre estas dos variables. La variable síndrome metabólico es dependiente de la variable sexo. i Corrección por continuidad o corrección de yates Ejemplo En la siguiente tabla se muestran los datos de 43 niños de diferente género, en donde se ha evaluado la satisfacción familiar Satisfacción Sexo Familiar Femenino Masculino Total Satisfecho 4 8 3 Insatisfecho 4 7 11 Total 8 15 43 Lo que se plantea es que alguno de los dos géneros pueda tener mayor frecuencia de satisfacción familiar. 1. Formulación de hipótesis: H : La satisfacción familiar es igual en hombres y mujeres. H : 1 La satisfacción familiar no es igual en hombres y mujeres
. Establecer un nivel de significancia:.5 3. Elección del estadístico de prueba: x n ( oi ei) e i 1 4. Determinar la región crítica. x 3.84 5. Decisión: como p=.<.5 entonces rechazamos H tab 6. Conclusión: La satisfacción familiar no es igual en hombres que en mujeres. i Sin embargo una casilla o el 5% de las casillas, tienen una frecuencia esperada menor a 5. La frecuencia mínima esperada es 3.84. Este valor nos indica que debemos realizar una corrección. Deberemos, por lo tanto, utilizar la corrección por continuidad. Esta corrección se utiliza cuando los valores en la tabla son muy pequeños Corrección de Yates: x n ( oi ei.5) e i 1 i 5. Decisión: como p=.51 no es menor que,5 entonces no rechazo H. 6. Conclusión: No existe suficiente evidencia estadística para afirmar que la satisfacción familiar no es igual en hombres y mujeres. Es importante aclarar que cuando la hipótesis nula no es rechazada, tampoco se puede decir que se acepta. Se debe decir que la hipótesis nula no se rechaza. Se debe evitar el uso de la palabra aceptar en este caso porque pudiera haberse cometido el error de tipo II. Dado que, frecuentemente, la probabilidad de cometer un error de tipo II puede ser realmente alta, no se pretende cometerlo al aceptar la hipótesis nula.
Test Exacto de Fisher Ejemplo Se tienen 17 niños de diferente sexo; masculino y femenino, a quienes se les ha evaluado la satisfacción familiar. Los datos se presentan en la siguiente tabla: Satisfacción Sexo Familiar Femenino Masculino Total Satisfecho 8 1 Insatisfecho 5 7 Total 1 7 17 1. Formulación de hipótesis: H : La satisfacción familiar es igual en hombres y mujeres. H : 1 La satisfacción familiar no es igual en hombres y mujeres. Establecer un nivel de significancia:.5 3. Elección del estadístico de prueba: x n ( oi ei) e i 1 4. Determinar la región crítica. x 3.84 5. Decisión: como p=.34<.5 entonces rechazamos H tab 6. Conclusión: La satisfacción familiar no es igual en hombres que en mujeres. i Sin embargo, tres casillas, es decir, el 75% de ellas tienen una frecuencia esperada menor a 5. La frecuencia mínima esperada es.88. Como este valor es demasiado bajo no se puede aplicar la corrección de Yates. Aplicamos entonces la siguiente regla de decisión: cuando una de las frecuencias esperadas es menor que 5 aplicamos la corrección de yates; sin embargo, si esta frecuencia es menor a tres, aplicaremos la corrección de Fisher.
CURSO: ESTADÍSTICA DESCRIPTIVA En este caso la frecuencia mínima esperada es,9 que es menor que 3; por lo tanto aplicaremos la corrección de Fisher o el Test exacto de Fisher. Test de Fisher Calcula exactamente la probabilidad a través de: ( a b)!( c d)!( a c)!( b d)! p n! a! b! c! d! 5. Decisión: como p=.58>.5 entonces no rechazamos H 6. Conclusión: No existe suficiente evidencia estadística para afirmar que la satisfacción familiar no es igual en hombres que en mujeres. Hay que tener en cuenta que a pesar que las proporciones son muy diferentes y aparentemente existe diferencias, no se puede afirmar tal hecho debido a que la muestra es muy pequeña.