ORGANIZACIÓN DE DATOS EN DISTRIBUCIONES DE FRECUENCIA www.cedicaped.com
ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS INTRODUCCIÓN Una vez que los datos de una muestra estadística han sido recolectados es conveniente organizarlos de alguna manera; existen diversos métodos para la organización de los datos, para esto se debe tomar en cuenta: el número de datos, el número de variables y el tipo de variables que se pretende organizar. La herramienta más eficaz para la organización de la información disponible es una estructura tabular denominada Tabla de distribución de frecuencias; estas tablas varían en su contenido dependiendo del número de variables y del tamaño de la muestra o población de estudio. Por otro lado, junto con la tabla de distribución de frecuencias el resumen estadístico va acompañado de un gráfico que representa la organización de los datos; en lo que sigue, se dará una descripción de la elaboración de las tablas y de la creación de los gráficos correspondientes. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE.- VARIABLE CUALITATIVA Cuando los datos son cualitativos podrán organizarse en una tabla de frecuencia simple en la que se indique los casos registrados para cada uno de los valores de la variable cualitativa; se podrá también establecer el porcentaje de frecuencia en cada una de estas variables, como también el porcentaje acumulado. A manera de ejemplo, el cuadro que se indica a continuación es un resumen del número de accidentes de tránsito ocurridos durante el año pasado, en las diferentes provincias de la Zona 2: PROVINCIA FRECUENCIA PORCENTAJE Napo 10 12.66% Orellana 31 39.24% Pichincha 38 48.10% Total 79 100.00% Es conveniente que estas tablas presenten además un gráfico estadístico representativo; para variable cualitativa existen dos tipos de gráficos muy comunes: a. Gráfico de barras verticales u horizontales, b. Gráfico de sector circular. El gráfico de barras verticales es una representación cartesiana de las variables de estudio, en el eje horizontal se ubicará la variable cualitativa y en cada una de ellas se dibujará un rectángulo cuya altura representa la frecuencia de la variable. El gráfico circular, en cambio toma un círculo y distribuye su área (360º) en forma proporcional a la frecuencia de la variable cualitativa. etc. A continuación se presenta el gráfico estadístico de barras verticales y de sector circular para los datos de la Distribución de frecuencias anterior: w w w. c e d i c a p e d. c o m Página 1
REGISTRO DE ACCIDENTES DE TRÁNSITO.- ZONA 2 10, 13% 38, 48% Napo 31, 39% Orellana Pichincha Tablas cruzadas Una tabla cruzada, tabla de contingencia o tabla bivariable es una estructura tabular que permite registrar los casos que ocurren en dos variables; a continuación se exponen algunos ejemplos de tablas cruzadas: PROVINCIA SEXO Napo Orellana Pichincha Total general Femenino 2 5 5 12 Masculino 8 26 33 67 Total general 10 31 38 79 w w w. c e d i c a p e d. c o m Página 2
PROVINCIA DISTRITO Napo Orellana Pichincha Total general Urbano 7 28 17 52 Rural 3 3 21 27 Total general 10 31 38 79 DISTRIBUCIÓN DE FRECUENCIAS SIMPLE.- VARIABLE CUANTITATIVA Cuando la variable estadística se presenta de manera cuantitativa, sea esta discreta o continua, se puede organizar la información mediante tablas de frecuencia, tablas cruzadas y tablas de frecuencia por intervalos. Veamos un ejemplo de cómo organizar los datos que se indican la antigüedad (en años) de los empleados y funcionarios de la Agencia Nacional de Investigaciones: ANTIGÜEDAD FRECUENCIA PORCENTAJE 1 14 9.33% 2 13 8.67% 3 16 10.67% 4 13 8.67% 5 19 12.67% 6 15 10.00% 7 20 13.33% 8 18 12.00% 9 13 8.67% 10 9 6.00% Total general 150 100,00% HISTOGRAMA DE FRECUENCIAS El histograma de frecuencias es el resumen gráfico de la Distribución de frecuencias; en el histograma de frecuencias, se utiliza a la marca de clase como variable independiente (eje horizontal) y a los valores de: frecuencias, relativa o absoluta, como variable dependiente (eje vertical). w w w. c e d i c a p e d. c o m Página 3
Junto con el histograma se puede graficar el polígono de frecuencias, para lo cual es necesario agregar en los extremos de la distribución dos intervalos de frecuencia cero, llamados intervalos ficticios; el polígono de frecuencias se obtiene mediante un trazo continuo desde el intervalo ficticio inferior y por los puntos medios superiores de cada una de las barras que conforman el histograma, finalizando en el intervalo ficticio superior de la distribución de frecuencia. Variable Cuantitativa Continua: Los valores que registra la variable cuantitativa continua presentan muchos casos, lo que conlleva a elaborar tablas de frecuencia que no resultan ser muy prácticas en su manejo; en estos casos es conveniente agrupar a los valores en intervalos. De esta manera, se obtendrán tablas de frecuencia agrupadas en una escala de valores. A manera de ejemplo en la siguiente tabla se presenta la organización de datos de la variable Edad en 5 intervalos de clase: menos de 30 años; entre 30 y 40 años; entre 40 y 50 años, entre 50 y 60 años y más de 60 años. INTERVALO EDAD Total < 30 22 30-36 40-28 50-40 > 60 24 Total general 150 Por otro lado, se podrá también elaborar tablas cruzadas tomando en cuenta a variables cuantitativas continuas entre sí; o una variable cuantitativa continua y una variable discreta o una variable cualitativa. INTERVALO EDAD INTERVALO INGRESOS < 1000 1000-2000 2000-3000 TOTAL GENERAL < 30 5 7 10 22 30-40 4 19 13 36 40-50 6 16 6 28 50-60 9 18 13 40 > 60 2 13 9 24 TOTAL 26 73 51 150 DISTRIBUCIONES DE FRECUENCIA POR INTERVALOS O CLASE Cuando los datos son numerosos es conveniente organizarlos en una tabla de distribución de frecuencias; esta tabla agrupa los datos en diversas clases, intervalos o categorías y permite obtener la frecuencia absoluta, la frecuencia relativa y la frecuencia acumulada; la tabla adjunta es el modelo estándar de esta organización de datos. w w w. c e d i c a p e d. c o m Página 4
INTERVALOS Frecuencia Frecuencia Frecuencia Marca de absoluta relativa Acumulada clase L. Inferior L Superior f fr fa x Para la construcción de una distribución de frecuencias es conveniente tomar en cuenta las siguientes definiciones: Rango El rango de una muestra es la diferencia que existe entre el valor máximo y el valor mínimo del grupo de datos a organizar. Intervalos o Clases Los datos recogidos se agrupan en intervalos o categorías, a estos grupos se los llama comúnmente intervalos o clases; se recomienda que la muestra se la divida entre cinco (mínimo) y quince intervalos (máximo). Ancho de Clase El ancho de clase (c) es un valor que se obtiene al dividir el rango de la muestra para el número de intervalos escogidos para la formar la distribución de frecuencias. Límites del Intervalo Como su nombre lo indica, son valores que limitan el intervalo, habrá entonces un límite inferior y un límite superior, los límites de cada uno de los intervalos que forman la distribución de frecuencia se calculan de la siguiente manera: 1. Se toma el valor mínimo, este valor será el límite inferior del primer intervalo, a este valor, se suma el ancho de clase previamente calculado y se obtendrá el límite superior del primer intervalo. 2. Para el cálculo de los límites de los demás intervalos, se asume como intervalo inferior el valor del intervalo superior del intervalo anterior; a este valor, se suma el ancho de clase para obtener el límite superior de este intervalo. El límite superior del último intervalo, será el valor máximo de la muestra. Frecuencia La frecuencia (f) de cada uno de los intervalos, es el número de observaciones de la muestra cuyos valores son iguales o mayores que el límite inferior y menores que el límite superior. La suma de las frecuencias de todos los intervalos, debe ser igual al tamaño de la muestra o población en análisis. w w w. c e d i c a p e d. c o m Página 5
Frecuencia Relativa La frecuencia relativa (fr) de cada uno de los intervalos, es el cociente que se obtiene al dividir la frecuencia de cada intervalo para el total de la muestra. La suma de las frecuencias relativas de todos los intervalos, es igual a la unidad. Si a cada uno de los valores de la frecuencia relativa se multiplica por 100 se tendrá el porcentaje de observaciones que se encuentran contenidas en cada uno de los intervalos, obviamente la suma de estas frecuencias porcentuales, será igual a 1 o 100. Frecuencia Acumulada La frecuencia acumulada (fa) de cada uno de los intervalos de la distribución de frecuencias, recoge todas las observaciones de los intervalos anteriores y de su propio intervalo; la forma de calcular es la siguiente: La frecuencia acumulada del primer intervalo será igual a la frecuencia del intervalo, la frecuencia acumulada de los demás intervalos, será igual a la frecuencia acumulada del intervalo anterior más la frecuencia del intervalo; la frecuencia acumulada del último intervalo, será igual al tamaño de la muestra. Marca de Clase La marca de clase (x), es el valor representativo de cada uno de los intervalos, este valor es igual al promedio de los límites de cada uno de los intervalos. Para mejor entendimiento de esta parte, se incluye a continuación el histograma de frecuencia absoluta correspondiente a la siguiente distribución de frecuencias: 12 10 9 11 15 16 9 10 10 11 12 13 14 15 11 11 12 16 17 17 16 16 15 14 12 11 11 12 12 11 12 15 13 14 16 15 18 19 18 10 11 12 12 11 13 13 15 13 11 12 Valor máximo de la muestra 19,00 Valor mínimo de la muestra 9,00 Rango de la muestra 10,00 Número de intervalos 7,00 Cálculo del ancho de clase 1,43 Límites del Intervalo Marca de Frecuencia Frecuencia Frecuencia Clase Li <x <Ls Clase Relativa Acumulada Li Ls (x) (f) (fr) f(a) 0 7,57 9,00 8,29 0 0,00 0,00 1 9,00 10,43 9,71 6 0,12 6,00 2 10,43 11,86 11,14 10 0,20 16,00 3 11,86 13,29 12,57 15 0,30 31,00 4 13,29 14,71 14,00 3 0,06 34,00 5 14,71 16,14 15,43 11 0,22 45,00 6 16,14 17,57 16,86 2 0,04 47,00 7 17,57 19,00 18,29 3 0,06 50,00 8 19,00 20,43 19,71 0 0,00 50,00 w w w. c e d i c a p e d. c o m Página 6
Observe que se han agregado dos intervalos ficticios, al inicio y al final de la tabla; estos intervalos ficticios de frecuencia cero permitirán construir el polígono de frecuencia. w w w. c e d i c a p e d. c o m Página 7