TEMA 3: MUESTREO Y ESTIMACIÓN Estimación de la Media
INTRODUCIÓN Supongamos que queremos estudiar una determinada característica de una población. Como vimos en el anterior power point, es muy complejo hacer el estudio sobre el total. Es por ello que recurrimos a hacerlo en una muestra de tamaño n. La inferencia estadística sirve para deducir rasgos de la población conociendo sólo los resultados obtenidos en la muestra Vamos a estudiar una de las principales aplicaciones de la inferencia estadística, que es la estimación de la media de la población a partir de la media muestral
DISTRIBUCIÓN DE LA MEDIA MUESTRAL Supongamos una población a estudiar cualquiera, y que vamos a seleccionar una muestra de tamaño n. Es fácil darse cuenta de que no existe una única muestra con dicho tamaño sino que, por el contrario, existen muchísimas muestras posibles. En cada una de las muestras podemos calcular la media muestral. Si calculásemos las medias de todas las muestras posibles, obtenemos lo que se llama distribución de las medias muestrales. Sobre dicha distribución se tiene el siguiente resultado
TEOREMA CENTRAL DEL LÍMITE Dada una población de media µ y desviación típica σ, no necesariamente normal, la distribución de las medias muestrales de tamaño n, cuando n tiende a infinito, σ es una variable normal de media µ y desviación típica n CONSIDERACIONES: Si la distribución de partida es normal, también lo será la distribución de las medias muestrales, cualquiera que sea el valor de n Si la distribución de partida no es normal, la distribución de medias muestrales es cada vez más parecida a la normal cuanto mayor sea el valor de n, y se suele tomar que n 30 para afirmar que es prácticamente normal
EJEMPLO Las bolsas de azúcar envasadas por una cierta máquina tienen una media de 500g y. una desviación típica de 35 g. Si elegimos una muestra de 100 unidades: a) Calcular la probabilidad de que la media de esa muestra sea menor que 495 Tal y como dice el teorema central del límite (TCL) la muestra es una variable normal de µ = 500 y σ = 35/10 = 3.5 Entonces: p(x < 495) = p(z < 495 500 ) = p(z < 1.43) 3.5 Mirando la tabla de la normal obtenemos p = 0.0764 b) Calcular el intervalo centrado en la media de manera que en él se encuentre el 90% de las media muestrales Se trata de encontrar el intervalo característico para p = 0.90
EJEMPLO b) Calcular el intervalo centrado en la media de manera que en él se encuentre el 90% de las media muestrales Se trata de encontrar el intervalo característico para p = 0.90 Como aprendimos en el tema pasado, en primer lugar calculamos el intervalo característico como si fuera una N(0,1) y después destipificamos p( z < z < z ) = 0.90 p(z > z ) = 0.10 = 0.05 Es decir: p(z z ) = 1 0.05 = 0.95 z = 1. 645 < El intervalo entonces es (-1.645, 1.645) que podemos escribir x µ - 1.645 < z < 1.645 1.645< < 1. 645 σ - 1.645 < z < 1.645 x 500 1.645< < 1.645 3.5
EJEMPLO Ahora destipificamos: - 1.645 < z < 1.645 x µ x 500 1.645< < 1. 645 1.645< < 1. 645 σ 3.5 Inecuación 1: x 500 1.645< 3.5 500 1.645 3.5 < x 494.4 < x Inecuación : x 500 < 1.645 3.5 x < 500 + 1.645 3.5 x < 505.76 Es decir el 90% las medias muestrales estarán en el intervalo (494.4, 505.76)
INTERVALO DE CONFIANZA PARA LA MEDIA En la población del ejemplo anterior (bolsas de azúcar) supongamos que no conocemos la media (que antes decíamos que era 500) pero si la desviación típica 35g No podemos saber exactamente cuánto vale la media de la población, pero si la de una muestra que llamaremos media muestral x con ella podemos estimar entre qué valores está la media de la población (intervalo de confianza) con un nivel de confianza determinado (que antes llamábamos probabilidad) y que suele representarse también como p = 1 - Basta saber si la población es normal o bien que el tamaño de la muestra es mayor o igual que 30, y el intervalo de confianza se calcula exactamente igual que como hemos hecho el intervalo característico en el ejemplo anterior
INTERVALO DE CONFIANZA PARA LA MEDIA OBSERVACIONES: 1.- Una vez extraída la muestra y calculada la media x, estará o no en el intervalo que calculemos, pero ya no podemos hablar de probabilidad. Por eso, diremos que tenemos un nivel de confianza (del 90%, 95,..) de que µ esté en dicho intervalo.- Si la desviación típica es desconocida, hay que estimarla a partir de la muestra, que para valores relativamente grandes de n se puede utilizar justamente la desviación típica de la muestra.
EJEMPLO 1 Deseamos conocer el grado de conocimientos de historia de una población de varios miles de alumnos. Sabemos que σ = 3. Nos proponemos estimar µ pasando una prueba a 100 alumnos. a) Calcular el intervalo característico para x correspondiente a una probabilidad del 0,95 Como no sabemos el valor de µ, lo dejamos como una letra. Del teorema central del límite, sabemos que las medias de todas las posibles muestras de tamaño 100 se distribuyen como,3 N σ, N, µ = µ = N( µ,0.3) n 100 Hallamos el valor crítico como aprendimos en el tema anterior y nos sale z =1. 96
EJEMPLO 1(continuación) Deseamos conocer el grado de conocimientos de historia de una población de varios miles de alumnos. Sabemos que σ = 3. Nos proponemos estimar µ pasando una prueba a 100 alumnos. El intervalo característico es entonces x µ 1.96 < z < 1.96 1.96 < < 1.96.3 µ 1.96.3 < x < µ + 1.96.3 µ 0.45 < x < µ + 0.45 ( µ 0.45, µ + 0.45) Es decir: que la diferencia entre la media de una muestra y la media real de la población en el 95% de los casos es menor que 0.45
EJEMPLO 1(continuación) Deseamos conocer el grado de conocimientos de historia de una población de varios miles de alumnos. Sabemos que σ = 3. Nos proponemos estimar µ pasando una prueba a 100 alumnos. b) Una vez realizada la prueba a 100 alumnos concretos se ha obtenido que la media es 6,3. Hallar el intervalo de confianza para µ con un nivel de confianza del 95% x =6.3 Como el nivel de confianza es el mismo que en el apartado anterior, usamos la fórmula que nos salió, pero poniendo este valor en lugar de µ ( x 0.45,x + 0.45) = ( 5.87,6.77) Es decir, tenemos una confianza del 95% de que la media de la población (real) esté entre 5.87 y 6.77
EJEMPLO Para estimar la media de los resultados que obtendrían el resolver un cierto test los alumnos de 4º ESO de toda una comunidad autónoma, se les pasa dicho test a 400 de ellos elegidos al azar. Los resultados se muestran en la tabla adjunta. Estimar con un nivel de confianza del 95% el valor de la media de la población x i 1 3 4 5 f i 4 80 13 101 63 En este caso son desconocidos tanto la media poblacional como la desviación típica, pero como es muy grande la muestra podemos utilizar los de la muestra Si hacemos los cálculos x = 3.4 σ = 1.1 Como el nivel de confianza es el mismo que en el apartado anterior, se va a obtener otra vea que z =1. 96 El TCL nos dice que las medias se distribuyen de manera s 1.1 N x, N 3.5, = = N n 400 (3.5,0.056)
EJEMPLO (continuación) Para estimar la media de los resultados que obtendrían el resolver un cierto test los alumnos de 4º ESO de toda una comunidad autónoma, se les pasa dicho test a 400 de ellos elegidos al azar. Los resultados se muestran en la tabla adjunta. Estimar con un nivel de confianza del 95% el valor de la media de la población x i 1 3 4 5 f i 4 80 13 101 63 Entonces el intervalo de confianza será: µ 3.5 1.96 < z < 1.96 1.96 < < 1.96 0.056 3.14 < µ < 3.36 Es decir, con una confianza del 95% podemos decir que la media de la población está entre 3.4 y 3.36
VALORES MÁS USUALES En la mayoría de los ejercicios se usan niveles de confianza del 90%, 95% o 99%, es por lo que se detallan los valores correspondientes por si te los quieres aprender de memoria p = 1-0.90 0.95 0.99 / 0.05 0.05 0.005 Z / 1.645 1.96.575
te basta con saberte fórmulas? El intervalo de confianza (y el intervalo característico también) se puede calcular de muchas maneras, yo he mostrado una en clase y en los power point, pero en el vídeo se muestra otra. También puede simplemente aplicarse la fórmula que es x z σ,x + z n σ n
ERROR ADMISIBLE σ Al valor E = z se le llama error máximo admisible y además: n Cuanto mayor sea la muestra, menor es el error (mejor es la estimación) Cuánto mayor sea 1 a (es decir cuanto mas seguro queramos estar de nuestra estimación) mayor es E
Hallar el tamaño de la muestra Si fijamos el error máximo admisible y el nivel de confianza, podemos calcular el mínimo tamaño de la muestra con solo despejar de la fórmula anterior z = n σ E EJEMPLO: La desviación típica de los resultados de las distintas mediciones para calcular lo que dura un proceso es de 0.5s, Cuál es el número de medidas que hay que realizar para que, con un 99% de confianza el error de la estimación no exceda 0.1s? Si miramos la tabla de la diapositiva 15 obtenemos que z =, 575 z n = σ E.575 0.5 = 0.1 = 165.76 Es decir hay que hacer 166 mediciones
HALLAR EL NIVEL DE CONFIANZA Si conocemos el tamaño de la muestra y el error admisible, podemos determinar el intervalo de confianza. Para ello, despejamos de la expresión anterior E n z = σ A partir de la tabla de la normal se obtiene / y de aquí ya podemos concluir 1-
EJEMPLO Un coronel desea estimar la estatura media de todos los soldados de su regimiento con un error menor que 0,5 cm utilizando una muestra de 30 soldados. Sabiendo que la desviación típica es de 5,3, cuál será el nivel de confianza con el que se realiza la estimación E n 0.5 30 z = = = 0.5 σ 5.3 Usamos ahora la tabla de la normal, y calculamos p( z < 0.5) = 0.6985 = p(z 0.5) = 1 0.6985 = 0.3015 = 0.3015 = 0.6030 1 = 0,3970 39,70% Un nivel de confianza demasiado bajo, debido a que se pretendía afinar mucho (error menor que medio centímetro y que la muestra era muy pequeña