Tabulación Cruzada El procedimiento de Tabulación Cruzada esta diseñado para resumir dos columnas de datos. Esta construye una tabla de dos-caminos mostrando las frecuencias de ocurrencia de cada uno de los pares formados de las dos columnas. Estadísticas son construidas para cuantificar el grado de asociación entre las columnas, y pruebas son corridas para determinar si hay dependencia estadísticamente significante entre las columnas o no. Las frecuencias son mostradas en forma tabular y graficadas como un grafico de barras, grafico mosaico o grafico tridimensional. Sample StatFolio: crosstabulation.sgp Datos del Ejemplo: El archivo 93cars.sf contiene información acerca de variables para n = 93 marcas y modelos de automóviles, tomadas de Lock (1993). La siguiente tabla muestra una lista parcial de 4 columnas de este archivo: Make (Marca) Model (Modelo) Type (Tipo) Passengers (Pasajeros) Acura Integra Small 5 Acura Legend Midsize 5 Audi 90 Compact 5 Audi 100 Midsize BMW 535i Midsize 4 Buick Century Midsize Buick LeSabre Large Buick Roadmaster Large Buick Riviera Midsize 5 Cadillac DeVille Large Cadillac Seville Midsize 5 Chevrolet Cavalier Compact 5 Una tabulación cruzada será realizada entre el tipo de vehículo y el número de pasajeros que transporta. 005 por StatPoint, Inc. Tabulación Cruzada - 1
Entrada de Datos La caja de dialogo de entrada especifica las columnas que contienen los datos que serán tabulados Variable Renglón: Columna numérica o no numérica que contiene el atributo usado para definir los renglones de la tabla. Variable Columna: Columna numérica o no numérica que contiene el atributo usado para definir las columnas de la tabla. Selección: Selección de un subconjunto de los datos. Resumen del Análisis El Resumen del Análisis muestra el número de valores únicos en las variables renglón y columna, tan bien como el número de observaciones (renglones y columnas sin datos perdidos). Tabulación Cruzada - Type por Passengers Variable para Filas: Type Variable para Columnas: Passengers (persons) Número de Observaciones: 93 Número de filas: Número de columnas: 005 por StatPoint, Inc. Tabulación Cruzada -
Tabla de Frecuencias La Tabla de Frecuencias muestra la frecuencia de ocurrencia de cada par de valores en las variables filas y columnas, junto con otra información como se definió en la caja de dialogo Opciones del Panel. Tabla de Frecuencias para Type por Passengers 4 5 7 8 Total por Fila Compact 0 1 13 0 0 1 Large 0 0 0 11 0 0 11 Midsize 0 15 5 0 0 Small 0 8 13 0 0 0 1 Sporty 1 0 0 0 0 14 Van 0 0 0 0 8 1 9 Total por Columna 3 41 18 8 1 93 Contenido de las celdas: Frecuencia Observada La muestra consiste de r = diferentes tipos de vehículos por c = diferentes números de pasajeros. Incluidos en la tabla están: Frecuencias Observadas: Las celdas en la parte principal de la tabla contienen O, el número de veces que el renglón i ha aparecido junto con la columna j. Total de Renglones: La columna de hasta la derecha contiene los totales de los renglones R i : c R i = O j= 1 Total de Columnas: El renglón de hasta abajo contiene el total de las columnas C j : (1) C j = O r i= 1 () Total de la Tabla : La celda inferior derecha contiene el numero de valores tabulados n = r c O i= 1 j= 1 (3) Por ejemplo, 14 de los 93 carros fueron clasificados como Sporty. De estos, son para pasajeros mientras que el resto es para 4 pasajeros. 005 por StatPoint, Inc. Tabulación Cruzada - 3
Opciones del Panel Información adicional puede ser adherida a cada celda de la tabla usando Opciones del Panel Porcentajes de la Tabla: El porcentaje de cada celda es con respecto a el total de toda la tabla, definido por O 100 n % (4) Porcentajes de Renglón: El porcentaje de cada celda es con respecto a su renglón y es definido por O 100 R i % (5) Porcentajes de Columna: El porcentaje de cada celda es con respecto a su columna y es definido por O 100 C j % () Frecuencia Esperada: E, el numero esperado de veces que el renglón i habría aparecido junto con la columna j en le archivo de datos si las clasificaciones del renglón y la columna fueron independientes: RiC j E = (7) n Desviaciones: La diferencia entre lo esperado y las frecuencias esperadas: O E (8) 005 por StatPoint, Inc. Tabulación Cruzada - 4
Valores Chi-Cuadrada: La contribución de cada celda a la estadística chi-cuadrada, usada para probar independencia entre los renglones y las columnas: ( O E ) E Residuos Ajustados: Una forma de estandarizar residuos calculados dividiendo cada desviación de la celda por un estimador de su error estándar: ( O E ) ε = (10) ( 1 R (1 C i ) j ) E n n (9) Ejemplo Información Adicional sobre Sporty Cars Tabla de Frecuencias para Type por Passengers 4 5 7 8 Row Total Sporty 1 0 0 0 0 14.15% 1.90% 0.00% 0.00% 0.00% 0.00% 15.05% 14.9% 85.71% 0.00% 0.00% 0.00% 0.00% 100.00% 5.17% 0.00% 0.00% 0.00% 0.00% 0.30 3.4.17.71 1.0 0.15 1.70 8.54 -.17 -.71-1.0-0.15 9.59 1.05.17.71 1.0 0.15 3.40 5.74-3.0-1.99-1.5-0.4 Total por Columna 3 41 18 8 1 93.15% 4.73% 44.09% 19.35% 8.0% 1.08% 100.00% Contenido de las celdas: Frecuencia Observada Porcentaje de la tabla Porcentaje de la fila Porcentaje de la columna Fecuencia Esperada Frecuencia Observada - experada Contribución a la chi-cuadrada Residuos Ajustados Los 1 carros Sporty en los datos del ejemplo de dos pasajeros representan: 1.90% del total de n = 93 carros 85.71% de los 14 carros Sporty 5.17% de los 3 carros de 4 pasajeros El renglón y la columna fueron clasificaciones independientes, el número esperado de carros que deberían ser Sporty y de 4 pasajeros es 3.4, con una desviación de 8.54. En los cálculos de estadística Chi-cuadrada, descrita mas abajo, esta celda adhiere un total de 1.05 a esta estadística. Los residuos ajustados indican que los números observados de carros en esta celda es 5.74 desviaciones estándar sobre su valor esperado. 005 por StatPoint, Inc. Tabulación Cruzada - 5
Diagrama de Barras Una manera común para mostrar los datos es usando un diagrama de barras múltiple. Diagrama de Barras para Type según Passengers frecuencia 15 1 9 Passengers 4 5 7 8 3 0 Compact Large Midsize Small Sporty Van Type La altura de cada barra en la grafica anterior representa el número de carros de cada tipo que acarrean cada número de pasajeros. Opciones del panel Tipo de Grafico: Las barras pueden estar conglomeradas como se muestra en el ejemplo o apiladas una sobre otra. Escala: Si la escala del eje muestra las frecuencias O o el porcentaje dado por 005 por StatPoint, Inc. Tabulación Cruzada -
O p = 100 % (11) n Dirección: Si las barras se extienden horizontal o verticalmente. Línea Base: El valor de el cual las barras se extienden. Ejemplo Diagrama de barras apiladas horizontal por porcentaje Diagrama de Barras para Type según Passengers Type Compact Large Midsize Small Passengers 4 5 7 8 Sporty Van 0 4 8 1 1 0 4 frecuencia Grafico de Mosaico Una interesante variación del diagrama de barras es si lo ancho y la altura de cada barra son escalados para representar las frecuencias de las celdas correspondientes en la tabla. Gráfico de Mosaico para Type segúnpassengers Compact Large Midsize Small Passengers 4 5 7 8 Sporty Van En este grafico el tamaño de cada renglón es proporcional a su total de renglón R i. el ancho de cada barra dentro de cada renglón es proporcional a la frecuencia de cada celda dentro de ese 005 por StatPoint, Inc. Tabulación Cruzada - 7
renglón. Esto resulta en barras cuyas áreas son proporcionales a la frecuencia en una celda particular. En los datos del ejemplo, la barra mas grande corresponde a automóviles de Media Talla que cargan 5 pasajeros Opciones del Panel Dirección: la orientación de las barras. Diagrama Tridimensional Todas las celdas de frecuencias pueden también ser representadas usando barras verticales. Gráfico Rascacielos para Type según Passengers frecuencia 15 1 9 3 0 Compact Large Midsize Type Small Sporty Van 4 5 8 7 Passengers Opciones del Panel Grafico: Escalando para el eje vertical. 005 por StatPoint, Inc. Tabulación Cruzada - 8
Pruebas de Independencia Una pregunta común acerca de los datos en una tabla es si los renglones y columnas son o no independientes, es decir el hecho que un objeto caiga en un renglón particular no afecta la probabilidad de que caiga en una columna dada. En el ejemplo actual. Independencia implicaría que el tipo de vehículo no tiene relación con el número de pasajeros que transportan. Prueba Chi-cuadrada La prueba mas común para independencia es la prueba chi-cuadrada. Esta prueba compara las frecuencias esperadas y observadas calculando: r c ( O E ) χ = (1) E i= 1 j= 1 STATGRAPHICS despliega los resultados de esta prueba y su correspondiente P-valor: Pruebas de Independencia Prueba Estadístico Gl Valor-P Chi-Cuadrada 197.595 5 0.0000 Advertencia: algunas celdas contienen menos de 5 casos. El P-valor es calculando comparando la estadística de prueba a una chi-cuadrada con (r-1)(c-1) grados de libertad. P-valores pequeños (menos de 0.05 si se opera en un nivel de confianza de 95%) indican una dependencia significativa entre los renglones y columnas. El P-Valor en la tabla anterior claramente muestra que el tipo de auto y el número de pasajeros que transportan no son independientes. Si el valor esperado E en cualquier celda es menor que 5, una advertencia será desplegada. En tales casos, el cálculo de la estadística Chi-cuadrada puede no estar bien representada por una distribución chi-cuadrada. Es particularmente serio si cualquier valor esperado es menor que. Cuando esto ocurre, se debería reconsiderar combinar clases que no contienen muchos datos. Como es el caso en el ejemplo actual con automóviles de 7 y 8 pasajeros. Opciones del Panel Prueba El tipo de prueba que será realizada. 005 por StatPoint, Inc. Tabulación Cruzada - 9
En lugar de realizar la prueba Chi-cuadrada, una prueba alternativa puede ser corrida. Detalles sobre estas pruebas están contenidos en la documentación del procedimiento Tablas de Contingencia. Resumen Estadístico Varias estadísticas pueden también ser calculadas midiendo los grados de asociación entre renglones y columnas. Resúmen Estadístico Con Filas Con Columnas Estadístico Simétrico Dependientes Dependientes Lambda 0.4715 0.3803 0.59 Coef. de Incertidumbre 0.5303 0.4730 0.034 Somer's D -0.0-0.193-0.187 Eta 0.0001 0.8810 Estadístico Valor Valor-P Gl Coef. De Contingencia 0.84 Cramer's V 0.519 Gamma Condicional -0.48 Pearson's R 0.0001 0.0001 91 Kendall's Tau b -0.08 0.0174 Kendall's Tau c -0.1840 Como un ejemplo, V de Cramer es una estadística que mide el grado de asociación entre los valores de las variables renglón y columna en una escala de 0 a 1, es basada en la prueba estadística usual chi-cuadrada. A diferencia de la estadística coeficiente de contingencia, esta puede alcanzar el valor 1 para todas las tablas. Detalles sobre estas pruebas están contenidos en la documentación del procedimiento Tablas de Contingencia. Razón de Momios El panel Razón de Momios provee información especial sobre casos donde hay exactamente renglones y columnas. Para un ejemplo sobre esto, ver la documentación del procedimiento Tablas de Contingencia Grabar Resultados Los siguientes resultados pueden ser guardados en una hoja de datos: 1. Celda de Frecuencias (una columna) Las frecuencias de celdas O en una sola columna, un renglón después de otro.. Etiquetas de las Filas Los identificadores para cada renglón de la tabla. 3. Etiquetas de las Columnas Los identificadores para cada columna de la tabla. 4. Frecuencias de Celdas (matriz) - Las frecuencias de celdas O en múltiples columnas, paralelas al formato de la tabla. 005 por StatPoint, Inc. Tabulación Cruzada - 10