Actividad 2: La distribución Normal ACTIVIDAD 2: La distribución Normal CASO 2-1: CLASE DE BIOLOGÍA El Dr. Saigí es profesor de Biología en una prestigiosa universidad. Está preparando una clase en la que pretende mostrar con ejemplos el hecho de que la distribución normal es muy útil a la hora de describir el comportamiento de muchas variables fisiológicas de los seres vivos. Así, p.e., se sospecha que la longitud de una determinada planta sigue un comportamiento aproximadamente normal con media µ = 64 cm y desviación estándar σ = 3,1 cm. El Dr. Saigí pretende comparar los resultados obtenidos en una práctica de campo, en la que sus alumnos midieron 60 plantas de la especie anterior, con una simulación por ordenador realizada a partir de una normal. 1. Simular con Minitab la medición de 60 plantas de la especie anterior. A fin de que todos obtengamos los mismos datos, usar como base para la generación de datos aleatorios provenientes de una normal el número 333. Seleccionamos Calc > Set Base : Ahora usamos la opción Calc > Random Data > Normal : A2-1
Estadística Aplicada con Minitab Habremos generado 60 valores aleatorios procedentes de una distribución normal con los parámetros indicados. 2. Mostrar un resumen descriptivo y gráfico (histograma + gráfico de normalidad) de los datos obtenidos en el apartado anterior mediante simulación. Seleccionar Stat > Basic Statistics > Display Descriptive Statistics > Graphs : El programa nos dará el siguiente output: Descriptive Statistics Variable N Mean Median TrMean StDev SE Mean SIMULADO 60 64,584 64,523 64,635 2,931 0,378 Variable Minimum Maximum Q1 Q3 SIMULADO 58,051 70,316 62,734 66,640 Histogram of SIMULADOS, with Normal Curve 10 Frequency 5 0 60 65 70 SIMULADOS A2-2
Actividad 2: La distribución Normal Ahora queremos un gráfico de normalidad: Stat > Basic Statistics > Normality Test: Normal Probability Plot Probability,999,99,95,80,50,20,05,01,001 60 Av erage: 64,5844 Anderson-Darling Normality Test StDev : 2,93060 A-Squared: 0,236 N: 60 P-Value: 0,780 65 SIMULADOS 70 Observar que los puntos se aproximan bastante a la línea roja, lo cual era de esperar puesto que esto ocurrirá siempre que los datos sean aproximables por una distribución normal (y de hecho estos datos provienen de una normal). A2-3
Estadística Aplicada con Minitab 3. Hacer lo mismo que en el apartado 2 pero ahora con los datos obtenidos en el campo, los cuales se encuentran en el archivo campo.mtw. Qué podrían concluir los alumnos del Dr. Saigí?. Repitiendo los pasos anteriores con estos nuevos datos, obtendremos los siguientes resultados: Descriptive Statistics Variable N Mean Median TrMean StDev SE Mean Longitud 60 65,357 66,000 65,402 3,472 0,448 Variable Minimum Maximum Q1 Q3 Longitud 57,200 71,300 62,425 68,225 Histogram of Longitud, with Normal Curve 8 7 6 Frequency 5 4 3 2 1 0 60 65 70 Longitud Normal Probability Plot,999,99,95 Probability,80,50,20,05,01,001 Av erage: 65,3567 StDev : 3,47155 N: 60 60 65 Longitud 70 W-test for Normality R: 0,9853 P-Value (approx): > 0,1000 Si bien ahora los puntos se alejan más que antes de la línea roja, siguen estando lo suficientemente próximos a la misma como para que consideremos que se distribuyen de forma aproximadamente normal. Parece pues que los dos conjuntos de datos son bastante similares. A2-4
Actividad 2: La distribución Normal CASO 2-2: SALARIOS MEDIOS Según viene publicado en una prestigiosa revista de economía, el salario semanal medio de los profesores universitarios europeos es de 406,15. Se estima además que la desviación estándar de dichos salarios es de 55,50. Supongamos ahora que pretendemos tomar una muestra aleatoria de 100 profesores para estudiar sus salarios. Calcular las siguientes probabilidades referentes a la media de dicha muestra: 1. La probabilidad de que la media de la muestra sea menor de 400. En primer lugar, observar lo siguiente: como n = 100 >> 30, por el Teorema Central del Límite tendremos que la distribución de las medias muestrales X se podrá aproximar por una normal con media 406,15 y desviación estándar 5,50. Hemos de hallar P ( X < 400) : Seleccionamos: Calc > Probability Distributions > Normal : Cumulative Distribution Function Normal with mean = 406,150 and standard deviation = 5,55000 x P( X <= x) 400,0000 0,1339 A2-5
Estadística Aplicada con Minitab 2. La probabilidad de que la media de la muestra esté entre 400 y 410. Sabemos que P ( 400 < X < 410) = P( X < 410) P( X < 400). La segunda de éstas probabilidades ya la hemos calculado en el apartado anterior. Para calcular la primera se razona análogamente, obteniendo que: Cumulative Distribution Function Normal with mean = 406,150 and standard deviation = 5,55000 x P( X <= x) 410,0000 0,7561 Por tanto, tendremos: P ( 400 < X < 410) = P( X < 410) P( X < 400) = 0,6222 3. La probabilidad de que la media de la muestra sea mayor de 415. En este caso, P ( X > 415) = 1 P( X < 415). Hemos de calcular pues esta última probabilidad, lo cual haremos de forma análoga a los apartados anteriores. Obtendremos lo siguiente: Cumulative Distribution Function Normal with mean = 406,150 and standard deviation = 5,55000 x P( X <= x) 415,0000 0,9446 Por consiguiente, P ( X > 415) = 1 P( X < 415) = 0,0554 4. Hallar el valor del salario medio c tal que P( X < c) = 0,95. Seleccionamos nuevamente: Calc > Probability Distributions > Normal, pero ahora elegiremos la opción Inverse Cumulative Probability, con lo que obtendremos : Inverse Cumulative Distribution Function Normal with mean = 406,150 and standard deviation = 5,55000 P( X <= x) x 0,9500 415,2789 A2-6
Actividad 2: La distribución Normal CASO 2-3: APROXIMACIÓN NORMAL A UNA BINOMIAL Para muchas combinaciones de n y p es posible aproximar bastante bien una distribución binomial B(n,p) mediante una distribución normal de media µ = np y varianza σ 2 = np(1-p). Generalmente, esta aproximación tiende a ser tanto mejor cuanto mayor es el número de pruebas n. 1. Introducir en la columna C1 de una hoja de trabajo los números 0, 1, 2,..., 16. En la columna C2 calcular P(X = 0), P(X = 1),..., P(X = 16), siendo X una binomial de parámetros n = 16 y p = 0,5. Seleccionamos: Calc > Make Patterned Data > Simple Set of Numbers : Ahora hacemos: Calc > Probability Distributions > Binomial : A2-7
Estadística Aplicada con Minitab El resultado será el siguiente: Data Display Row C1 C2 1 0 0,000015 2 1 0,000244 3 2 0,001831 4 3 0,008545 5 4 0,027771 6 5 0,066650 7 6 0,122192 8 7 0,174561 9 8 0,196381 10 9 0,174561 11 10 0,122192 12 11 0,066650 13 12 0,027771 14 13 0,008545 15 14 0,001831 16 15 0,000244 17 16 0,000015 2. Introducir en la columna C3 el valor de la función de densidad de probabilidad (f.d.p.) asociada a los valores de la C1 para una distribución normal que aproxime a la binomial anterior. Observar que: µ = n*p = 8 y σ 2 = n*p*(1-p) = 4 Hacemos: Calc > Probability Distributions > Normal : A2-8
Actividad 2: La distribución Normal 3. Dibujar un diagrama de barras con los datos de las columnas C1 (en eje x) y C2 (en eje y). Superpuesto a él, dibujad la función de densidad que se obtiene a partir de las columnas C1 (en eje x) y C3 (en eje y). Qué observas?. A fin de superponer ambos gráficos, elegimos la opción: Graph > Layout : Seleccionamos: Graph > Chart : Finalmente hacemos: Graph > Plot : A2-9
Estadística Aplicada con Minitab Para representar los gráficos superpuestos basta con hacer: Graph > End Layout : Aproximación normal a una binomial 0,2 C2 y C3 0,1 0,0 binomial fdp normal 0 1 2 3 4 5 6 7 8 9 C1 10 11 12 13 14 15 16 A partir del gráfico anterior se comprende mejor el hecho de que podemos aproximar la probabilidad de que una variable binomial tome un determinado valor mediante la f.d.p. de una distribución normal. Así, p.e., podemos estimar P(X = 7) (área en azul) por P(6,5 < X < 7,5) (área comprendida entre la curva roja y ambos puntos). En el primer caso estamos considerando que la variable X es binomial, mientras que en el segundo consideramos que es normal (y por tanto hacemos uso de la aproximación por continuidad, puesto que para cualquier variable continua la probabilidad puntual es cero). A2-10