CAPÍTULO 6 DISTRIBUCIÓN NORMAL Cuando los datos están distribuidos con frecuencias ascendentes-descendentes aproimadamente simétricas, se le llama distribución normal. Cuando se trata de una variable discreta, o sea que solamente puede tomar valores como,, 3, 4, etc., pero no.04 ó 5.6, el histograma correspondiente está formado por un conjunto de barras como se muestra en la figura 6. a). Si, en cambio, la variable es continua, el histograma es una curva como la mostrada en la figura 6. b), llamada curva normal. figura 6. 85
En una curva normal lo que se utilia es el área bajo la curva entre dos valores y, ver figura 6.b, cuyo valor se emplea para obtener diferentes informaciones de los datos que conforman dicha curva. El procedimiento para obtener esa área es la que se va a estudiar en este tema. Además, en una curva normal las tres medidas de tendencia central coinciden en el centro: la media, la moda la mediana; si acaso, puede haber una escasa diferencia entre algunas de ellas. También es simétrica respecto de la media, que es el punto más elevado de la curva y, por lo tanto, el área bajo la curva hacia la iquierda de la media es del 50% y el otro 50% se localia a la derecha. Ver figura 6.. Una característica muy importante de la curva normal es que a partir de su eje de simetría se puede dividir como lo muestra la figura 6.3, de tal manera que el valor igual a cero de la gráfica corresponda siempre a la media aritmética de la distribución normal de datos, y luego los datos nominales se pueden transformar a uno equivalente de la escala de 3 a + 3 de la figura 6.3. Por eso, a los datos comprendidos en la escala de - 3 a + 3 se les llama dato estándar. figura 6. figura 6.3 En esa escala estandariada, el representa una desviación estándar, el representa dos desviaciones estándares, y así sucesivamente. El signo positivo solamente indica que está a la derecha del cero y el signo negativo significa que está a la iquierda. Con los ejemplos venideros se aclararán esos significados. 86
6. ESTANDARIZACIÓN DE DATOS Por lo dicho en el párrafo anterior, los datos pertenecientes a una distribución normal se pueden estandariar o normaliar, lo cual se consigue utiliando la fórmula s en donde: s dato estandariado o normaliado valor nominal del dato a estandariar media aritmética del conjunto de datos desviación estándar. Ejemplo : Convertir cada uno de los datos nominales de la siguiente tabla a datos estandariados. Solución: Para transformar un dato nominal en dato estándar, también llamado dato, se requiere calcular la media de todo el conjunto. Para este caso ya se da por hecho que se sabe calcular la media y la desviación estándar, por lo que se omiten sus cálculos. La media es y la desviación estándar es s 994.. Se tienen ya todos los datos para utiliar la fórmula del dato : s. f 6 7 8 3 9 5 0 9 5 8 3 5 4 9 5 5 6 3 7 8 88 87
dato nominal sustituyendo dato 6 7 8 9 0 3 4 5 6 7 8 6 994. -.6093 7 994. -.744 8 994. -.7395 9 994. -.3046 0. 994-0.8697. 994-0.4348. 994 0 3 994. 0.4348 4. 994 0.8697 5. 994.3046 6. 994.7395 7 994..744 8. 994. 6093 88
El significado, a partir de que la media aritmética del conjunto es y la desviación estándar es s 994., es el siguiente: Un valor estandariado significa una distancia a partir de la media aritmética igual a una desviación estándar a la derecha, es decir una distancia de.994. Un valor estandariado significa una distancia a partir de la media aritmética igual a dos desviaciones estándar a la iquierda, es decir, una distancia de 4.5988. Ahora bien, si al dato nominal 6 le corresponde un dato estándar -.609, significa que ese 6 se alejó de la media.609 desviaciones estándares a la iquierda. Y así con cada uno de los datos nominales. Gráficamente: figura 6.4 89
C U E S T I O N A R I O 5 ) Convertir a datos estándar o dato cada uno de los datos nominales de las siguientes tablas con distribución normal: a) f b) f 4 0 9 5 3 6 7 3 8 7 35 5 0 8 7 7 8 9 9 3 0 0 c) f d) f 4 0 00 5 4 300 6 7 6 800 7 9 8 900 8 7 0 800 9 300 0 0 4 00 e) f f) f 40 00 39 0 45 0 40 3 50 45 4 6 55 65 4 0 60 45 43 6 65 0 44 3 70 00 45 0 90
6. AÉREAS BAJO LA CURVA NORMAL En una curva normal, el área bajo la curva desde el etremo iquierdo hasta la media, es decir, hasta el eje de simetría, es del 50% y, obviamente, el otro 50% está en la parte derecha. Una característica importante de la curva normal y de los datos normaliados es que el área bajo la curva desde la media hasta una desviación estándar, es decir desde 0 hasta, ya sea a la iquierda o a la derecha, siempre es del 34.3% respecto del área total que puede haber bajo la curva. Ver parte superior de la figura 6.5. De la misma forma, el área bajo la curva desde la media hasta dos desviaciones estándar, es decir desde 0 hasta, ya sea a la iquierda o a la derecha, es del 47.7%. Ver parte inferior de la figura 6.5. figura 6.5 9
Como la curva normal sale de graficar los datos recolectados, es obvio que esos porcentajes de áreas bajo la curva también lo son para dichos datos, es decir, para una desviación estándar, el porcentaje de datos entre la media y es de 34.3% aproimadamente; para dos desviaciones estándar el porcentaje de datos entre la media y es también aproimadamente de 47.7%. Por lo tanto, es posible obtener el porcentaje de área bajo la curva entre la media y cualquier valor estandariado, lo cual se ha concentrado en una tabla. La tabla de la siguiente página epresa el porcentaje de área desde la media hasta cada correspondiente valor. Esto último es muy importante: Debe tomarse en cuenta que los valores mostrados en la tabla son siempre desde la media hasta el valor estandariado. Ejemplo : Al recolectar 50 datos, se obtuvo que la media es 765. y la desviación estándar s 4.. Calcular el número de datos aproimados que hay entre la media y el dato nominal 8.. Solución: En este caso el enunciado proporciona los valores de la media y de la desviación estándar, por lo que los incisos a) y b) del proceso quedan sin efecto. Entonces, continuando con el inciso c), hay que convertir a dato el valor nominal 8.. con la fórmula dada en la página 85, o sea: s 8. 765. 00. 4. Se toman solamente dos decimales porque así vienen en las tablas. A continuación, conforme a lo establecido en el inciso d) se busca en las tablas (ver página siguiente) el valor de 00., para lo cual se localia en la columna de la iquierda el valor 0. y en la primera fila de la tabla el 0. La celda intersección de lo anterior es el valor buscado para 00.. 9
PORCENTAJES DE AÉREAS BAJO LA CURVA NORMAL DESDE Z 0 HASTA Z 3.99 0 3 4 5 6 7 8 9 0.0 0 0.40 0.80.0.60.99.39.79 3.9 3.59 0. 3.98 4.38 4.78 5.7 5.57 5.96 6..36 6.75 7.4 7.54 0. 7.93 8.3 8.7 9.0 9.48 9.87 0.6 0.64.03.4 0.3.79.7.55.93 3.3 3.68 4.06 4.43 4.80 5.7 0.4 5.54 5.9 6.8 6.64 7.00 7.36 7.7 8.08 8.44 8.79 0.5 9.5 9.50 9.85 0.9 0.54 0.88.3.57.90.4 0.6.58.9 3.4 3.57 3.89 4. 4.54 4.86 5.8 5.49 0.7 5.80 6. 6.4 6.73 7.04 7.34 7.64 7.94 8.3 8.5 0.8 8.8 9.0 9.39 9.67 9.96 30.3 30.5 30.78 3.06 3.33 0.9 3.59 3.86 3. 3.38 3.64 3.89 33.5 33.40 33.65 33.89.0 34.3 34.38 34.6 34.85 35.08 35.3 35.54 35.77 35.99 36.. 36.43 36.65 36.86 37.08 37.9 37.49 37.70 37.90 38.0 38.30. 38.49 38.69 38.88 39.07 39.5 39.44 39.6 39.80 39.97 40.5.3 40.3 40.49 40.66 40.8 40.99 4.5 4.3 4.47 4.6 4.77.4 4.9 4.07 4. 4.36 4.5 4.65 4.79 4.9 43.06 43.9.5 43.3 43.45 43.57 43.70 43.8 43.94 44.06 44.8 44.9 44.4.6 44.5 44.63 44.74 44.84 44.95 45.05 45.5 45.5 45.35 45.45.7 45.54 45.64 45.73 45.8 45.9 45.99 46.08 46.6 46.5 46.33.8 46.4 46.49 46.56 46.64 46.7 46.78 46.86 46.93 46.99 47.06.9 47.3 47.9 47.6 47.3 47.38 47.44 47.50 47.56 47.6 47.67.0 47.7 47.78 47.83 47.88 47.93 47.98 48.03 48.08 48. 48.7. 48. 48.6 48.30 48.34 48.38 48.4 48.46 48.50 48.54 48.57. 48.6 48.64 48.68 48.7 48.75 48.78 48.8 48.84 48.87 48.90.3 48.93 48.96 48.98 49.0 49.04 49.06 49.09 49. 49.3 49.6.4 49.8 49.0 49. 49.5 49.7 49.9 49.3 49.3 49.34 49.36.5 49.38 49.40 49.4 49.43 49.45 49.46 49.48 49.49 49.5 49.5.6 49.53 49.55 49.56 49.57 49.59 49.60 49.6 49.6 49.63 49.64.7 49.65 49.66 49.67 49.68 49.69 49.70 49.7 49.7 49.73 49.74.8 49.74 49.75 49.76 49.77 49.77 49.78 49.79 49.79 49.80 49.8.9 49.8 49.8 49.8 49.83 49.84 49.84 49.85 49.85 49.86 49.86 3.0 49.87 49.87 49.87 49.88 49.88 49.89 49.89 49.89 49.90 49.90 3. 49.90 49.9 49.9 49.9 49.9 49.9 49.9 49.9 49.93 49.93 3. 49.93 49.93 49.94 49.94 49.94 49.94 49.94 49.95 49.95 49.95 3.3 49.95 49.95 49.95 49.96 49.96 49.96 49.96 49.96 49.96 49.97 3.4 49.97 49.97 49.97 49.97 49.97 49.97 49.97 49.97 49.97 49.98 3.5 49.98 49.98 49.98 49.98 49.98 49.98 49.98 49.98 49.98 49.98 3.6 49.98 49.98 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 3.7 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 3.8 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 3.9 50.00 50.00 50.00 50.00 50.00 50.00 50.00 50.00 50.00 50.00 93
El valor que le corresponde de 7.93% es el porcentaje de área bajo la curva entre la media y el dato 0.0, pero como ese porcentaje también corresponde a los datos recolectados, entonces puede obtenerse por una simple regla de tres el número de datos nominales comprendidos en esa región: figura 6.6 50 nd 00% 7. 93% de donde el número de datos nd es nd nd 9. 8 50 7. 93 00 El número datos en forma calculada es nd 9.8, pero ese valor carece de sentido ya que los datos recolectados siempre son números enteros, porque se recolectan 00 datos, o 0 datos, o 300 datos, pero jamás 9.8. Entonces entre la media aritmética y el dato 00. no pueden haber 9.8 datos nominales, o hay 9 o hay 0, pero no una fracción de ellos. De manera que lo correcto es redondear y epresarlo no como que es igual, sino como aproimadamente. La solución entonces se epresa así: Hay aproimadamente 0 datos entre la media 765. y el dato nominal 8.. 94
Ejemplo : Al recolectar 850 datos con una distribución normal, se obtuvo una media de 7 y una desviación estándar s 5.34. Calcular el número de datos aproimados que hay entre la media y el dato nominal 0. Solución: En este caso el enunciado proporciona los valores de la media y de la desviación estándar, por lo que los incisos a) y b) del proceso quedan sin efecto. Entonces, continuando con el inciso c), hay que convertir a dato el valor nominal 0, con la fórmula: s 0 7 3. 534. En este caso el valor de es negativo, lo que significa que el dato nominal 0 está a la iquierda de la media aritmética, pero en las tablas se busca simplemente como 3. ; le corresponde un porcentaje de área de 40.49%. Ver figura 6.7. figura 6.7 Entonces puede obtenerse por una simple regla de tres el número aproimado de datos nominales comprendidos en esa región: 95
850 nd 00% 40. 49% de donde el número de datos nd es nd 850 40. 49 00 nd 344. 6 El número datos en forma calculada es nd 344.6, pero ese valor carece de sentido ya que los datos recolectados, como se eplicó en el ejemplo anterior, siempre son números enteros. De tal manera que entre la media aritmética y el dato 3. no pueden haber 344.6 datos nominales, o hay 344 o hay 345 aproimadamente, pero no una fracción de ellos. De manera que lo correcto es redondear y epresarlo no como que es igual, sino como aproimadamente. La solución entonces se epresa así: Hay aproimadamente 344 datos entre la media 7 y el dato nominal 0. 6.3 PORCENTAJE ENTRE DOS DATOS NOMINALES Otra problema que puede presentarse es cómo obtener el porcentaje de área bajo la curva ya no a partir de la media, sino entre dos datos nominales. Hay dos opciones: La primera es que los datos estandariados y se localicen uno a la iquierda y el otro a la derecha de la media. La solución a éste nuevo problema es muy simple, pues por una lógica muy elemental se puede deducir que el área total es igual a la suma del área más el área, como se ve en la figura 6.8, en donde es el área desde la media hasta el dato estanda- A 96
riado, la que se obtiene en tablas siguiendo el mismo procedimiento del apartado anterior, A es el área desde la media hasta el dato estandariado. figura 6.8 Otra opción que puede presentarse es la que se muestra en la figura 6.9, consistente en que ambos valores estandariados y se encuentren del mismo lado respecto de la media, en la que también por una lógica muy elemental puede deducirse que el área total es simplemente la resta del área menos el área, ver figura 6.9, en donde es el área desde la media hasta el dato estanda- riado A, la que se obtiene en tablas siguiendo el mismo procedimiento del apartado anterior; A es el área desde la media hasta el dato estandariado entre y es la resta de porcentajes bajo la curva de cada uno.. De tal manera que el porcentaje de datos figura 5.9 Ejemplo 3: De un conjunto de datos con una distribución normal, se obtuvo una media de 33. y una desviación estándar s 9.4. Calcular el porcentaje de área bajo la curva que hay entre el dato nominal 4 y el dato nominal 45. Solución: Estandariando ambos datos nominales y localiando en las tablas el porcentaje de área bajo la curva que a cada uno le corresponde se obtiene que 97
s 4 33. 04. 94. A 47. 93% s 45 33. 5. 94. A 39. 44% Como es negativo significa que su región o porcentaje de área está a la iquierda de la media y como es positivo, su porcentaje de área está a la derecha de la media. Por lo tanto, el porcentaje total de área bajo la curva es la suma de ambas, como se muestra en la figura 6.0: figura 6.0 La suma de los porcentajes de áreas es el porcentaje total de área buscado: A 47. 93% + 39. 44% A 87. 37% 98
Ejemplo 4: De un conjunto de datos con una distribución normal, se obtuvo una media de 43. y una desviación estándar s 89.. Calcular el porcentaje de área bajo la curva que hay entre el dato nominal 53 y el dato nominal 68. Solución: Estandariando ambos datos nominales y localiando en las tablas el porcentaje de área bajo la curva que a cada uno le corresponde se obtiene que s 53 43. 0. 89. A 36. 43% s 68 43. 78. 89. A 49. 73% El porcentaje total de área bajo la curva es la resta de ambas (ver la figura 6.): figura 6. A 49. 73% 36. 43% A 3. 3% 99
Ejemplo 5: De un conjunto de datos con una distribución normal, se obtuvo una media de 0. 4 y una desviación estándar s 89.. Calcular el porcentaje de área bajo la curva que hay entre el dato nominal y el dato nominal 5. 5 Solución: Estandariando ambos datos nominales y localiando en las tablas el porcentaje de área bajo la curva que a cada uno le corresponde se obtiene que 5 04. 66. 5. A 50% 5 0. 4 84. 5. A 46. 7% En este caso el porcentaje de área bajo la curva para 66. es del 50% porque en las tablas a partir de 399. ya está abarcada toda la mitad, o sea ya le corresponde el 50% de área bajo la curva. Significa que de 399. en adelante está considerada ya toda la mitad de la curva. En casos como el de este ejemplo debe interpretarse que el dato nominal no eiste, lo que no impide que se proponga en el enunciado. 5 Es el equivalente a que se preguntara: cuántos alumnos de la preparatoria tienen menos de 85 años de edad? Una cosa es que nadie tenga 85 años y otra cosa es que todos los alumnos de la preparatoria tengan menos de 85 años de edad. El 00% de los estudiantes están por debajo de 85 años, aunque no eiste el dato de persona con 85 años. Entonces el porcentaje total de área bajo la curva es la suma de ambas por estar a ambos lados de la media, como se muestra en la figura 6.: figura 6. 00
A A + A A 50% + 46.7% A 96. 7% Ejemplo 6: De un conjunto de datos con una distribución normal, se obtuvo una media de 33 y una desviación estándar s 45.. Calcular el porcentaje de área bajo la curva que hay entre el dato nominal 38 y el dato nominal más grande. Solución: Estandariando el dato nominal 38 : 38 33. 45. que le corresponde un porcentaje de área desde la media de que al dato nominal más grande le corresponde A 50% de la media. Por lo tanto, el porcentaje de área pedido es la resta: A A A A 50% 36. 65% A 3. 35% La figura 6.3 muestra la lógica de las operaciones anteriores: A 36. 65 %, mientras de área bajo la curva a partir figura 6.3 0
C U E S T I O N A R I O 6 ) Al recolectar 450 datos con una distribución normal se obtuvo una media de 50 y una desviación estándar s 7. 4. Calcular el número de datos aproimados que hay entre el dato nominal 34 y el dato nominal 6. ) Al recolectar 70 datos con una distribución normal se obtuvo una media de 400 y una desviación estándar s 4. Calcular el número de datos aproimados que hay entre el dato nominal 387 y el dato nominal 430. 3) Al recolectar 500 datos con una distribución normal se obtuvo una media de 5 y una desviación estándar s. Calcular el número de datos aproimados que hay entre el dato nominal 03 y el dato nominal. 4) Al recolectar 940 datos con una distribución normal se obtuvo una media de 0 y una desviación estándar s 6. Calcular el número de datos aproimados que hay entre el dato nominal 8 y el dato nominal 60.OJO 5) Al recolectar 873 datos con una distribución normal se obtuvo una media de 0. y una desviación estándar s 5. Calcular el número de datos aproimados que hay entre el dato nominal 9 y el dato nominal 96. 6. 6) De un conjunto de datos con una distribución normal se obtuvo una media de 99 y una desviación estándar s 54.. Calcular el porcentaje de área bajo la curva que hay entre el dato nominal 7. 9 y el dato nominal 96. 0
7) De un conjunto de datos con una distribución normal se obtuvo una media de 809 y una desviación estándar s. 8. Calcular el porcentaje de área bajo la curva que hay entre el dato nominal 787. y el dato nominal 809. 8) De un conjunto de datos con una distribución normal se obtuvo una media de 0 y una desviación estándar s 9. Calcular el porcentaje de área bajo la curva que hay entre el dato nominal 0 y el dato nominal 53. 9) De un conjunto de datos con una distribución normal se obtuvo una media de 5 y una desviación estándar s 3. 9. Calcular el porcentaje de área bajo la curva que hay entre el dato nominal 4. y el dato nominal 475. 0) De un conjunto de datos con una distribución normal se obtuvo una media de 09. 6 y una desviación estándar s 0.. Calcular el porcentaje de área bajo la curva que hay entre el dato nominal 5 y el dato nominal 54. ) De un conjunto de datos con una distribución normal se obtuvo una media de 33 y una desviación estándar s 85.. Calcular el porcentaje de área bajo la curva que hay entre el dato nominal 5 y el dato nominal más grande. ) De un conjunto de datos con una distribución normal se obtuvo una media de 33 y una desviación estándar s 85.. Calcular el porcentaje de área bajo la curva que hay entre el dato nominal 5 y el dato nominal más chico. 3) De un conjunto de datos con una distribución normal se obtuvo una media de 55. 5 y una desviación estándar s 5.. Calcular el porcentaje de área bajo la curva que hay entre el dato nominal 5 y el dato nominal 80. 03
4) El área bajo la curva desde el dato nominal 0 hasta otro dato nominal es del 40.5% dentro de un conjunto de datos con una distribución normal cuya media es de 39 y su desviación estándar de s 4. 5. Calcular el valor del dato nominal. 5) El área bajo la curva desde el dato nominal 0 hasta otro dato nominal es del 80.5% dentro de un conjunto de datos con una distribución normal cuya media es de 39 y su desviación estándar de s 4. 5. Calcular el valor del dato nominal. 6) El área bajo la curva desde el dato nominal más pequeño hasta otro dato nominal es del 33% dentro de un conjunto de datos con una distribución normal cuya media es de 39 y su desviación estándar de s 4. 5. Calcular el valor del dato nominal. 7) El área bajo la curva desde el dato nominal más pequeño hasta otro dato nominal es del 93.7% dentro de un conjunto de datos con una distribución normal cuya media es de 39 y su desviación estándar de s 4. 5. Calcular el valor del dato nominal. 04