Capítulo : PRESENTACIÓN DE DATOS Al realizar una investigación estadística, los datos que obtenemos como resultado, forman lo que llamamos una muestra aleatoria. Estos datos se deberán organizar y presentar. La organización y presentación de datos es muy importante, ya que rara vez, datos en bruto y desorganizados proporcionan una imagen significativa de la verdadera naturaleza de la muestra. También, sabemos muy bien que las columnas de números evocan temor, aburrimiento, apatía e incomprensión. Algunas personas parecen no tener interés en la información estadística presentada en forma tabulada, pero podrían prestarle mucha atención a los mismos puntajes si les fueran presentados en forma de grafico o cuadro. Como resultado, muchos investigadores prefieren usar gráficos en contraposición a las tablas (gráficos de sectores, gráficos de barras, polígonos de frecuencia, etc) en un esfuerzo por aumentar el interés de sus hallazgos. El proverbio de que "una imagen vale mas que mil palabras" resume la importancia de la representación grafica. Es mucho mas fácil comprender una imagen clara, correspondiente a grandes cantidades de datos obtenidos, que todo un párrafo al respecto. 83
.1 ESTADIGRAFÍA Mediante los gráficos podemos representar todo tipo de datos estadísticos; por lo que la estadigrafía está compuesta por diferentes tipos de gráficos: Gráfico de barras. Gráfico de barras compuestas. Gráfico de líneas. Gráfico de líneas que se entrecrucen. Gráfico de líneas que no se entrecruzan. Gráfico de partes componentes. Gráfico de dimensiones. Pictogramas. Mapas estadísticos. Gráficos en espiral. Gráficos en forma Z..1.1 Tablas de Distribución de Frecuencias Toda encuesta, censo o simplemente cualquier recopilación de informaciones con fines estadísticos significa disponer de una gran cantidad de datos que es preciso ordenar y presentar de manera que sean de fácil capitación y permita un análisis adecuado, distribuyéndolas en categorías y clases que permitan determinar el número de individuos que pertenecen a cada clase. El número de individuos que pertenecen a cada clase son llamados frecuencia de clase (ni). 84
Una ordenación de datos con sus respectivas frecuencias de clase, se conoce como Tablas o Cuadros de Distribución de Frecuencias. El número inferior de cada clase se llama límite inferior de clase y el número superior de cada clase es el límite superior de clase; conformando cada pareja de límites el intervalo de clase. Una distribución queda completamente descrita cuando se conocen sus: Medidas de Centralización o Promedios (X, G, H, RMS, Md, Mo). Medidas de Dispersión o de Variación (R, D.Q., D.M., S ó, S ó ). El sesgo (1er CSKP, do CSKP, CSq, CSp, CSm). La kurtosis (CKq, CSp, CKm). Los momentos (m1, m, m3, m4). Existen varios tipos de distribuciones de frecuencias: Distribución de igual amplitud de clase. Distribución de diferente amplitud de clase. Distribución de clases abiertas (usada generalmente para el control de calidad)..1. Distribución de igual amplitud de clase Un ejemplo de un cuadro de distribución de frecuencias de igual amplitud de clase es el que nos indica la forma en que se han distribuido 50 obreros, de acuerdo a sus salarios, en una distribución de 5 clases. Dado que es el primer cuadro de distribución de frecuencias que desarrollamos, indicaremos en la parte superior el significado de cada uno de los símbolos y operaciones indicadas. 85
.1.3 Distribución de diferente amplitud de clase Como vemos en la siguiente tabla de distribución de frecuencias, en ella es diferente cada amplitud de clase (i). PUNTO MEDIO O FRECUENCIA MARCA DE CLASE Yi ABSOLUTA DE CLASE ni 5 7 10 1 1 15 15 0 8 8 3 i = 5 i = i = 3 i = 7 i = 6 N = 65 86
.1.4 Distribución de clases abiertas Esta clase de tablas de distribución de frecuencias es usada comúnmente para realizar una verificación del control de calidad. A continuación, vemos un ejemplo de cómo es este tipo de tablas: CLASES REALES FRECUENCIA Lím Inf Lím Sup L1 L ABSOLUTA DE CLASE ni Menos de 300 0 300 400 30 400 500 40 500 600 80 600 700 60 700 800 50 800 900 0 1000 10 900 1000 1100 5 1100 ó Más N = 317 87
. Número de Clases de una Distribución El número de clases, sustentado en la cantidad de mínimo y máximo, depende del número de valores a ser agrupados y varía de un mínimo de 5 a un máximo de 0. Los límites clase superior e inferior establecidos en una distribución de frecuencias nos indican las cotas o fronteras de cada clase en la distribución, y pueden ser reales u ordinarias..3 Límites de Clase Los límites de clase superior o inferior establecidos en una distribución o tabla de frecuencias, nos indican las cotas o fronteras de cada clase en la distribución y pueden ser reales u ordinarias..3.1 Límites Reales de Clase (L1 L) Se encuentran mediante la semisuma de un límite ordinario superior y en límite ordinario inferior de cada clase contigua; también se determina mediante la semisuma de dos puntos medios contiguos. Los límites reales se reconocen cuando el límite superior de una clase es igual al límite inferior de la clase contigua. 88
A continuación vemos un sector de un cuadro de distribución de frecuencias, con los límites reales claramente señalados. L1 ni L 35 45 7 45 55 1 55 65 15 65 75 0 75 85 8 85 95 3 N = 65 89
.3. Límites Ordinarios de Clase (Yi 1 Y i ) Los límites ordinarios son reconocidos porque el límite superior de una clase es diferente al límite inferior de la clase contigua. A continuación un ejemplo. LIMITES REALES LIMITE ORDINARIO FRECUENCIA Lím Inf Lím Inf L1 L Lím Inf Lím Inf YI1 YI ABSOLUTA DE CLASE ni 35 45 35.5 44.5 7 45 55 45.5 54.5 1 55 65 55.5 64.5 15 65 75 65.5 74.5 0 75 85 75.5 84.5 8 85 95 85.5 94.5 3 N = 65 90
.3.3 Puntos Medios o Marcas de Clase (Yi) Es el típico representativo de las frecuencias de clase. Es el valor que sustituye a la clase o intervalo de clase. Se determina mediante la semi suma de dos límites reales contiguos o mediante la semi suma de un límite inferior de clase con el límite superior de clase del mismo intervalo. LIMITES REALES LIMITE ORDINARIO PUNTOS MEDIOS O Lím Inf Lím Inf L1 L MARCAS DE CLASE Yi Lím Inf Lím Inf YI1 YI 40 50 40.5 49.5 45 50 60 50.5 59.5 55 60 70 60.5 69.5 65 70 80 70.5 79.5 75 80 90 80.5 89.5 85 91
Si usamos los Límites Reales, tenemos que: Yi = 60 + 70 = 65 En el caso de que usemos los Límites Ordinarios, obtenemos el mismo resultado: Yi = 60.5 + 69.5 = 65.3.4 Amplitud de Clase (i ó C) Es la diferencia numérica que existe entre cada par de Límites Reales contiguos, Límites Ordinarios Inferiores contiguos, Límites Ordinarios Superiores contiguos y entre Puntos Medios o Marcas de Clase contiguos. Cabe señalar que por convención se acostumbra a medir la amplitud de clase en forma vertical. A continuación tenemos una parte de un Cuadro de Distribución de Frecuencias del que se debe calcular la amplitud de clase. 9
LIM ITESREALES LIM ITEO RDINARIO PUNTOM EDIOO LímInf LímInf LímInf LímInf YI1 YI L1 L 35 M ARCADECLASE Yi 45 35.5 44.5 40 55 45.5 54.5 50 i =10 45 i =10 55 65 55.5 64.5 60 74.5 70 i =10 65 75 65.5 i =10 75 85 75.5 84.5 80 85 95 85.5 94.5 90 Con los Límites Reales i = 55 45 = 10 93
Con los Límites Ordinarios i = Lím Ord. Inf. Lím Ord. Inf. de la clase anterior = 65.5 55.5 = 10 i = Lím Ord. Sup. Lím Ord. Sup. de la clase anterior = 84.5 74.5 = 10 Con los Puntos Medios o Marcas de Clase i = 60 50 = 10 94
.4 Reglas para construir Cuadros de Distribución de Frecuencias No es conveniente señalar reglas generales ya que la construcción del Cuadro de Distribución de Frecuencias depende del tamaño de la muestra, objetivos que se persigue y es la experiencia del estadístico, que es quien en última instancia va a determinar la presentación del cuadro; sin embargo, existen dos métodos para construir Cuadros de Distribución de Frecuencias: el Método Empírico y el Método de Sturges..4.1 Método Empírico El método empírico nos exige cumplir con las siguientes reglas: 1) Determinar el rango o amplitud total (R) restando el mayor dato de la serie el valor del menor dato de la misma. R = MAX MIN ) Determinar la amplitud de clase dividiendo el rango entre el número de clases (50), redondeándolos a una cantidad fácil de operar, en lo posible múltiplo o submúltiplo de 10. R i= N de clases 95
3) Colocar de cada uno de los datos en sus correspondientes intervalos de clase, para posteriormente determinar las llamadas frecuencias de clase. Nota: La construcción del cuadro debe considerar los siguientes pasos: El límite inferior de la primera clase debe ser menor que el mínimo de los datos. El límite de los datos debe estar girando alrededor de su punto medio. Si un dato coincide con un límite real superior de clases debe ser considerado en la clase inmediata superior. La siguiente tabla nos proporciona aproximadamente en N de clases que debe de tener una distribución de acuerdo al N de datos. Nº dedatos menosde50 50 100 100 50 másde50 Nº declases 5 6 7 10 7 10 1 0 96
Ejemplo: Construir un cuadro de distribución de frecuencias de 5 clases, con las distancias recorridas por 0 alumnos al venir a la universidad desde sus hogares. Las distancias son las siguientes: 0.8, 1.,.6,.8, 3.3, 3.4, 3.7, 4, 4.5, 5.3, 5.8, 6.1, 6., 6.5, 7.1, 7.3, 7.4, 7.6, 7.8 y 9. Solución: R= 9. 0.8 = 8.4 8.4 i = = 1.68 = (redondeando) 5 L1 L Yi 0 1 0.8, 1. 4 3.6,.8, 3.3, 3.4, 3.7 5 4 6 5 4, 4.5, 5.3, 5.8 4 6 8 7 6.1, 6., 6.5, 7.1, 7.3, 7.4, 7.6, 7.8 8 8 10 9 9. 1 Datos ni N = 0 97
.4. Método de Sturges 1) Determinar el rango o amplitud total (R) restando el mayor dato de la serie el valor del menor dato de la misma. R = Máx. Mín. ) Determinar el número de clases mediante la aplicación de la siguiente fórmula: n = 1 + 3.33 Log(N) donde: n = número de clases. N = número de datos. 3) Determinar la amplitud de clase, pudiendo presentarse dos casos: a) Cuando la amplitud va a ser mayor que 1. (i > 1) i= R + 1 n 0 también: n 98
b) Cuando la amplitud va a ser menor que 1. (i < 1) i= R 1 n n 4) Determinar R R = n. i 5 ) Determinar el exceso (E) E = R R 6) Determinar los límites de clases : Lím. Inf. de la Primera Clase; que es igual al mínimo de los datos menos el exceso dividido entre dos Lím. Inf. (1ra Clase) = Mín E. 99
Lím Sup. de la Ultima Clase; que es igual al máximo de los datos menos el exceso dividido entre dos Lím. Sup. (úl ti m a cl a se ) = Mín E. Ejemplo 1: Construir un cuadro de distribución de frecuencias de 5 clases, con las distancias recorridas por 0 gestantes al venir al hospital desde sus hogares. Las distancias son las siguientes: 0.8, 1.,.6,.8, 3.3, 3.4, 3.7, 4, 4.5, 5.3, 5.8, 6.1, 6., 6.5, 7.1, 7.3, 7.4, 7.6, 7.8 y 9. Solución: R = MÁX MÍN R = 9. 0.8 R = 8.4 n = 1+ 3.33 Log (N) n = 1+ 3.33 Log (0) n = 1 +3.33 (1.30109996) n = 5.33449887 5<n<6 n=5 100
i= R + 1 (n > 1) n I= 8.4 + 1 5.3349886 I= 1.7679861 R = n x i R = 5 x R = 10 E = R R E = 10 8.4 E = 1.6 Lim. Inferior de 1era clase = Min. E Lim. Inferior de 1era clase = 0.8 1.6 Lim. Inferior de 1era clase = 0.8 0.8 Lim. Inferior de 1era clase = 0 101
Lim. Superior de ultima clase = Max. + E Lim. Superior de ultima clase =9. + 1.6 Lim. Superior de ultima clase = 9. + 0.8 = 10 L1 L Yi ni 0 1 4 3 5 4 6 5 4 6 8 7 8 8 10 9 1 N = 0 Ejemplo : Construir un cuadro de distribución de frecuencias para un conjunto de 30 datos, conociendo que el máximo es 900 y el mínimo es 500 Solución: R = 900 500 = 400 10
n = 1 + 3.33 Log (30) = 5.918813778 = 6 (redondeando) i= R + 1 n 400 + 1 i= = 67.75006193 = 68 (redondeando) 5.918813778 R = n i = 6 x 68 = 408 E = R R = 408 400 = 8 Límites de Clase: Lím. Inf. (1ra Clase) = 500 (8/) = 496 Lím. Sup. (Ultima Clase) = 900 + (8/) = 904 L 1 L Y i 1 Y i Y n i 4 9 6 5 6 4 4 9 6.5 5 6 3.5 5 3 0 5 6 4 6 3 5 6 4.5 6 3 1.5 5 9 8 6 3 7 0 0 6 3.5 6 9 9.5 6 6 6 7 0 0 7 6 8 7 0 0.5 7 6 7.5 7 3 4 7 6 8 8 3 6 7 6 8.5 8 3 5.5 8 0 8 3 6 9 0 4 8 3 6.5 9 0 3.5 8 7 0 N i = 3 0 103
EJERCICIOS DE REFORZAMIENTO MÉTODO EMPÍRICO Ejemplo: Construir un cuadro de distribución de 5 clases, con las distancias recorridas por 0 alumnos al venir a la UNAC des de sus hogares. Las distancias son las siguientes: 0.8, 1.,.6,.8, 3.3, 3.4, 3.7, 4, 4.5, 5.3, 5.8, 6.1, 6., 6.5, 7.1, 7.3, 7.4, 7.6, 7.8 y 9. Solución: R = 9. 0.8 = 8.4 i = 8.4 = 1.68 = (redondeando) 5 L1 L Yi Datos ni 0 1 0.8, 1. 4 3.6,.8, 3.3, 3.4, 3.7 5 4 6 5 4, 4.5, 5.3, 5.8, 4 6 8 7 6.1, 6., 6.5, 7.1, 7.3, 7.4, 7.6, 7.8 8 8 10 9 9. 1 N = 0 104
MÉTODO DE STURGES Ejemplo (1): Construir un cuadro de distribución de frecuencias de 5 clases con la distancia recorrida por 0 gestantes al venir al hospital desde sus hogares. Las distancias son las siguientes: 0.8, 1.,.6,.8, 3.3, 3.4, 3.7, 4, 4.5, 5.3, 5.8, 6.1, 6., 6.5, 7.1, 7.3, 7.4, 7.6, 7.8 y 9. Solución: R = 9. 0.8 = 8.4 n = 1 + 3.33Log0 = 5.3349886 = 5 (redondeando) i= 8.4 + 1 = 1.7679861 = 5.3349886 (redondeando) R = n * i = 5 * = 10 E = R R = 10 8.4 = 1.6 Limites de clase: Lim. Inf. (1era clase) = 0.81.6 = 0 Lim. Sup. (ultima clase) = 9.+1.6 = 10 105
Ejemplo (): Construir por el metodo de Sturges, un cuadro de distribución de frecuencias para un conjunto de 30 datos, conociendo que el maximo es 900 y el minimo es 500 Solución: R = 900 500 = 400 n = 1 + 3.33Log30 = 5.918813778 = 6 (redondeando) i= 400 + 1 = 67.75006193 = 68 (redondeando) 5.918813778 R = n * i = 6 * 68 = 408 E = R R = 408 400 = 8 Limites de clase: Lim. Inf. (1era clase) = 500 8= 496 Lim. Sup. (ultima clase) = 900 8 = 904 L1 L Y i1 Y i Yi 496 564 496.5 563.5 530 564 63 564.5 631.5 598 63 700 63.5 699.5 666 700 768 700.5 767.5 734 768 836 768.5 835.5 80 836 904 836.5 903.5 870 ni N = 30 106
.4.3 HISTOGRAMAS Y POLÍGONOS DE FRECUENCIAS Son dos representaciones gráficas de las distribuciones de frecuencias. La relación que debe existir entre la altura del gráfico y su base es de dos tercios (/3) a tres cuartas (3/4) partes..4.3.1 Histogramas o Histogramas de Frecuencias Consiste en una serie de rectángulos que tienen: Sus bases sobre el eje horizontal y con centro en sus puntos medios o marcas de clase y una amplitud igual a la amplitud de clase. Las superficies de cada uno de los rectángulos son proporcionales a las frecuencias de clase. En la construcción de los histogramas pueden presentarse dos casos: 1) Haciendo uso de los Límites Ordinarios de Clase. ) Haciendo uso de los Límites Reales de Clase..4.3. Polígonos de Frecuencia Es el gráfico que se obtiene uniendo los puntos medios o marcas de clase de cada uno de los rectángulos en su parte superior, agregando dos puntos medios de frecuencia cero (uno superior y otro inferior) para cerrar el polígono. La relación que debe existir entre el eje de frecuencia (ni) y el eje de los puntos medios es de /3 a ¾ partes. 107
Ejemplo 1: Construir el Histograma y Polígono de Frecuencias de la siguiente distribución haciendo uso tanto de los Límites Reales de Clase como de los Límites Ordinarios de Clase. L1 L Yi 1 Yi Yi ni 45 55 45.5 54.5 50 4 55 65 55.5 64.5 60 1 65 75 65.5 74.5 70 0 75 85 75.5 84.5 80 10 85 95 85.5 94.5 90 4 N=50 108
Ejemplo : La siguiente tabla muestra la distribución de frecuencia del número semanal de minutos que pasan escuchando radio 00 personas. Se pide: A. Construir un histograma y su polígono de frecuencia. B. Graficar el polígono de frecuencia. Tiempo de Clases escuchar radio ordinarias por minuto Punto medio Número de o marca de estudiantes clase L1 L Y I 1 Y I YI ni 300 400 300.5 399.5 350 14 400 500 400.5 499.5. 450 46 500 600 500.5 599.5 550 600 700 600.5 699.5 650 6 700 800 700.5 799.5 750 50 800 900 800.5 899.5 850 35 900 1000 900.5 999.5 950 7 N = 00 109
.4.3.3 Distribución de Frecuencia Relativa o Porcentual La columna de las Frecuencias Relativas o Porcentuales se determina mediante una regla de tres simple, según la cual el total de las frecuencias absolutas equivale al 100%. Los Histogramas y Polígonos de Frecuencias Relativas o Porcentuales se caracterizan por tener una escala relativa o porcentual paralela al eje de las frecuencias, pudiendo presentarse dos casos: Cuando frente a la mayor frecuencia de clase le corresponde una frecuencia relativa múltiplo de 10. Cuando frente a la mayor frecuencia de clase no le corresponde una frecuencia relativa múltiplo de 10. Primer Caso Ejercicio: Construir el Histograma y Polígono de Frecuencias Relativo o Porcentual correspondiente a la siguiente distribución. La mayor frecuencia de clase es 0 L1 L Y i 1 Y i Y i ni hi 45 55 45.5 54.5 50 4 8% 55 65 55.5 64.5 60 1 4% 65 75 65.5 74.5 70 0 40% 75 85 75.5 84.5 80 10 0% 85 95 85.5 94.5 90 4 8% N=50 110
Segundo Caso Ejercicio: Construir el Histograma y Polígono de Frecuencias Relativo o Porcentual correspondiente a la siguiente distribución. L1 L Yi 1 0.0005 0.005 0.001 0.005 0.0045 0.003 0.0045 0.0065 0.0045 0.0065 Y i Yi ni hi 0.00 0.0015 30 11.5% 0.004 0.0035 50 19.3% 0.005 0.006 0.0055 40 15.4% 0.0065 0.007 0.008 0.0075 0 7.5% 0.0085 0.009 0.0010 0.0095 60 3.1% 0.0085 0.0105 0.011 0.01 0.0115 10 3.8% 0.0105 0.015 0.013 0.014 0.0135 50 19.3% N = 50 La mayor frecuencia de clase es 60 La frecuencia relativa que le corresponde es 3.1% 3.1% no es múltiplo de 10 Por lo que se aproxima al múltiplo de 10 más cercano: 30% Si 3.1% 30% 60 x x = 1800 / 3.1 = 77.9 111
Ejercicio: Construir el Histograma y polígono de frecuencia relativa o porcentual de la siguiente distribución que nos indica el control de calidad de 60 repuestos de computadoras. L1 L Y I 1 Y I YI ni hi 0.00050.005 0.001 0.00 0.0015 30 11.5% 0.0050.0045 0.003 0.004 0.0035 50 19.% 0.00450.0065 0.005 0.006 0.0055 40 15.4% 0.00650.0085 0.007 0.008 0.0075 0 7.7% 0.00850.0105 0.009 0.010 0.0095 60 3.1% 0.01050.015 0.011 0.01 0.0115 10 3.8% 0.0150.0145 0.013 0.014 0.0135 50 19.% Si 3.1 tiene 60 ni 30 X X = 1800 3.1 X =77.9078 11
.4.3.4 Distribución de Frecuencias Acumuladas (Ni) u Ojivas Este tipo de distribución sirve para saber inmediatamente cuantas frecuencias hay por encima o por debajo de un límite real dado, para esto es suficiente construir las columnas de frecuencias acumuladas mayor y menor que el gráfico correspondiente a los distribuciones de frecuencias acumuladas reciben el nombre de OJIVAS pudiendo ser simétricas o asimétricas. Las distribuciones de frecuencias perfectamente simétricas reciben el nombre de curvas normales o campanas de Gauss y sirven de unidad de medida de comparación para determinar el sesgo construir la OJIVA correspondiente al siguiente cuadro de distribución de frecuencias. Una distribución simétrica se reconoce cuando la (X = Md =Mo). La distribución asimétrica pueden presentar las siguientes relaciones según estén segadas a la derecha o izquierda X > Md > Mo X < Md < Mo Gráficamente las Frecuencias Acumuladas "menores que" se construyen de derecha a izquierda; y las Frecuencias Acumuladas "mayores que" se construyen de izquierda a derecha. 113
Ejercicio: Construir la Ojiva correspondiente al siguiente cuadro de distribución frecuencias. L1 L Yi Ni Ni Ni < 45 = 0 > 45 = 50 hi Hi 45 55 50 4 < 55 = 4 > 55 = 46 8% 8% 55 65 60 1 < 65 = 16 > 65 = 34 4% 3% 65 75 70 0 < 75 = 36 > 75 = 14 40% 7% 75 85 80 10 < 85 = 46 > 85 = 4 0% 9% 85 95 90 4 < 95 = 50 > 95 = 0 8% 100% N = 50 HI = 100% 114
.4.3.5 Tipos de Curvas 1) SIMÉTRICA O BIEN FORMADA Característica: las distancias son iguales. X = Md = Mo X Md Mo ) SESGO POSITIVO O SESGADO A LA DERECHA + X > Md > Mo X > Md > Mo Mo Md X 115
3) SESGO NEGATIVO O SESGADO A LA IZQUIERDA X < Md < Mo X Md Mo 4) FORMA DE J 116
5) FORMA DE J INVERTIDA 6) FORMA DE U 7) FORMA BIMODAL 117
8) FORMA MULTIMODAL 9) SESGO + 118
10) KURTOSIS Zeptocúrtica Mesocúrtica Platicúrtica 1994 1995 1996 1997 1998 1999 000 ti 119