Descripción de los Datos Esta parte se orienta al tratamiento de datos estadísticos, esto es, al análisis estadísticos de poblaciones finitas. Para estas poblaciones, analiza una o más características, con el objeto de resumir el comportamiento de cada una de ellas dentro de la población, o la relación entre varias. Las siguientes son algunas formas de presentación de los datos: Distribución de Frecuencia Es una organización tabular de los datos mediante clases (intervalos) y frecuencias. Hay dos tipos de distribución de frecuencia que vamos a considerar, agrupada y no agrupada. Agrupada: Se obtiene construyendo intervalos para los datos y listando el número de valores (frecuencias) que hay en cada intervalo. No Agrupada: Lista los datos distintos junto con el número de veces (frecuencia) que cada uno ocurre. Frecuencia La frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico. Se representa por f i. La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N. i=n f i = N i=1 Frecuencia relativa: Es la frecuencia dividida por el número total de datos. Se puede representar de forma porcentual. La suma de las frecuencias relativas es igual a 1. n i = f i N Frecuencia acumulada: Para un valor especifico en una tabla de frecuencias, es la suma de las frecuencias para todos los valores iguales o menores al valor dado. Se representa como F i 1
2 Frecuencia relativa acumulada: es el cociente entre la frecuencia acumulada de un determinado valor y el número total de datos. Se puede expresar de forma porcentual. Ejemplo 1. Se realiza un censo de los estudiantes de primer semestre en la Universidad de Antioquia en determinada carrera para relacionar sus edades. Se obtuvo lo siguiente: 22, 21, 18, 19, 23, 22, 21, 20, 21, 21, 17, 18, 19, 20, 22, 21, 21, 20, 20, 19, 19, 20, 20, 21, 20, 21, 24, 23, 23, 19, 19. En la primera columna de la tabla colocamos la variable ordenada de menor a mayor, en la segunda hacemos el recuento y en la tercera anotamos la frecuencia absoluta. x i f i F i n i N i 17 1 1 0.032 0.32 18 2 3 0.065 0.097 19 6 9 0.194 0.290 20 7 16 0.226 0.516 21 8 24 0.258 0.774 22 3 27 0.097 0.871 23 3 30 0.097 0.968 24 1 31 0.032 1 31 1 Cuadro 1: Tabla o distribución de frecuencias del Ejemplo 1. Distribución de Frecuencias Agrupadas La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un número grande de valores o la variable es continua. Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente. Límites de la clase: Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase. Amplitud de la clase: Es la diferencia entre el límite superior e inferior de la clase. Marca de clase: La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el cálculo de algunos parámetros. Ejemplo 2. Construcción de una tabla de datos agrupados: 3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
3 c i f i F i n i N i 0-5 2.5 1 1 0.025 0.025 5-10 7.5 1 2 0.025 0.050 10-15 12.5 3 5 0.075 0.125 15-20 17.5 3 8 0.075 0.200 20-25 22.5 3 11 0.075 0.275 25-30 27.5 6 17 0.150 0.425 30-35 32.5 7 24 0.175 0.600 35-40 37.5 10 34 0.250 0.850 40-45 42.5 4 38 0.100 0.950 45-50 47.5 2 40 0.050 1 40 1 Cuadro 2: Tabla o distribución de frecuencias del Ejemplo 2. 1. Se localizan los valores menor y mayor de la distribución. En este caso son 3 y 48. 2. Se restan y se busca un número entero un poco mayor que la diferencia y que sea divisible por el número de intervalos queramos establecer. Es conveniente que el número de intervalos oscile entre 6 y 15. En este caso, 48 3 = 45, incrementamos el número hasta 50 : 5 = 10 intervalos. Se forman los intervalos teniendo presente que el límite inferior de una clase pertenece al intervalo, pero el límite superior no pertenece intervalo, se cuenta en el siguiente intervalo. Diagrama de Barras Es una representación visual de los datos utilizando rectángulos horizontales o verticales, cuyas longitudes son proporcionales a las cantidades que representan. Los diagramas de barras se deben utilizar para datos cualitativos o categóricos. Pueden utilizarse también para describir variables cuantitativas discretas. En está representación, cada elemento es representado por rectángulos que tienen por longitud la frecuencia del elemento. Histograma La mayoría de las variables cuantitativas con de tipo continuo, de manera que toman demasiados valores como para que la representación de su distribución de frecuencias sea útil. Por ello el método gráfico más común y tradicional para datos cuantitativos es el histograma. El histograma es una variante del diagrama de barras donde se agrupan los valores de
4 la variable en intervalos para que esos intervalos tengan frecuencias mayores que uno. Para obtener un diagrama deben seguirse los siguientes pasos: 1. Calculamos el número, N, de intervalos que vamos a utilizar. Se recomienda que sea aproximadamente a la raíz cuadrada del número de datos. Sin embargo, los programas estadísticos suelen utilizar otro método, llamado Método de Sturges, en el que N = [log 2 n + 1], en donde n es el número de dato. 2. Calculamos el rango, R del histograma, que será ligeramente más amplio que el rango de los datos. El histograma debe comenzar en un número (x m ) ligeramente por debajo del mínimo de los datos y terminar en un número (x M ) ligeramente por encima del máximo. El rango del histograma será, por tanto, R = r M r m. 3. Calculamos la longitud, L, de los intervalos, como el cociente entre el rango del histograma y el número de intervalos, es decir, L = R N 4. Se construyen los N intervalos: I 1 = [x m, x m + L] I 2 = [x m + L, x m + 2L] I 1 = [x m + 2L, x m + 3L]... I N = [x m + N L, x M ] 5. Para cada intervalo, contamos el número de datos que hay en él, es decir, la frecuencia del intervalo. 6. El histograma es un diagrama de barras donde en el eje X se colocan los intervalos y sobre ellos se construyen barras cuya altura sea la frecuencia o frecuencia relativa del intervalo. En este caso, las barras deben dibujarse sin espacio entre ellas. En ocasiones, en vez de tomar frecuencia relativa como altura de las barras, se toma dicha frecuencia relativa como área de las barras: en ese caso, se habla de un histograma en escala de densidad. Ejemplo 3. En una empresa con cadena de montaje donde se empaquetan piezas en cajas se realiza un estudio sobre la calidad de producción. Los datos siguientes informan sobre el número de piezas defectuosas encontradas en una muestra de cajas examinadas: 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 6 6 6 6 6 7 7 7 8 8 9
5 (a) Diagrama de barras (b) Histograma Figura 1: Gráficas del Ejemplo 3.