EXAMEN DE ESTADÍSTICA Septiembre 2011

EXAMEN DE ESTADÍSTICA Septiembre 2011 Apellidos: Nombre: DNI: GRUPO: 1. De una clase de N alumnos se tiene la siguiente información sobre las calificaciones obtenidas del 1 al 8 en una cierta asignatura Se pide: a) Acabar de rellenar la tabla estadística. x i n i N i f i F i 1 4 0.08 2 4 3 16 0.16 4 7 0.14 5 5 28 6 38 7 7 45 0.14 8 b) Número de alumnos que se han examinado. c) Número de alumnos que han obtenido una nota superior a 3. d) Número de alumnos que han obtenido una nota igual a 6. e) Porcentaje de alumnos que han obtenido una nota superior a 4. f) Número de alumnos que han obtenido una nota superior a 2 e inferior a 4. a) Las frecuencias absolutas n i que no aparecen indicadas se van obteniendo a partir de las acumuladas N i que figuran a su derecha. Para calcular el último valor de la frecuencia absoluta se requiere conocer el número total de datos. Dicho número se deduce de la frecuencia relativa, sabiendo que es la frecuencia absoluta dividida por el número de datos. Por ejemplo, f 1 = 0.08 = n 1 /N, por lo que N = n 1 /f 1 = 4/0.08 = 50. Una vez calculadas todas las frecuencias absolutas n i, se completan de manera automática los valores de N i así como los de f i y F i. x i n i N i f i F i 1 4 4 0.08 0.08 2 4 8 0.08 0.16 3 8 16 0.16 0.32 4 7 23 0.14 0.46 5 5 28 0.10 0.56 6 10 38 0.20 0.76 7 7 45 0.14 0.90 8 5 50 0.10 1.00 1

b) N = 50, valor que ya ha sido necesario calcular para completar la tabla en el apartado anterior. c) Se puede calcular de varias formas. Una de las más obvias es 8 N alumnos (x i > 3) = n i = 7 + 5 + 10 + 7 + 5 = 34 alumnos i=4 d) Directamente de la tabla se puede ver que N alumnos (x i = 3) = n 6 = 10 alumnos e) De forma similar al apartado c), es inmediato obtener 8 N alumnos (x i > 4) = n i = 5 + 10 + 7 + 5 = 27 alumnos i=5 El porcentaje pedido será entonces f) En este caso se pide calcular 27/50 100 = 54 % N alumnos (2 < x i < 4) = N alumnos (x i = 3) = n 3 = 8 alumnos 2

2. La media de una variable aleatoria normal es 5 veces la desviación típica. Se cumple además que P (X 6) = 0.8413. Calcule la media y la desviación típica. Sabemos que P (X 6) = 0.8413. Si tipificamos la variable aleatoria tendremos ( P Z 6 µ ) ( = 0.8413 P Z > 6 µ ) = 1 0.8413 = 0.1587 σ σ de donde se concluye 6 µ = 1 σ Por otro lado, el enunciado nos indica que µ = 5σ. expresiones se calcula de forma inmediata µ = 5 y σ = 1 Combinando las dos últimas 3

3. Un día del mes de diciembre se produce un accidente en una carretera de montaña. Históricamente se sabe que, como promedio, en dicho mes hay en esa zona 25 días de niebla y que la probabilidad de accidente en día de niebla es 10 veces mayor que en un día sin ella. Cuál es la probabilidad de que el accidente se haya producido en un día de niebla? Definamos los siguientes sucesos: N, día de niebla N, día de no niebla A, accidente A, no accidente A partir de los datos del enunciado calculamos de forma inmediata: P (N) = 25/31 P (N) = 6/31 P (A N) = 10p P (A N) = p donde la probabilidad p es desconocida (veremos más abajo que no es necesario conocer su valor). Sabiendo que N y A son sucesos dependientes, podemos expresar las probabilidades condicionadas como: P (N A) P (N A) = P (A) P (A N) = P (N A) P (N) Finalmente, utilizando el Teorema de Bayes, podemos calcular: P (N A) = P (A N)P (N) P (A) = P (A N)P (N) P (A N)P (N) + P (A N)P (N) = = 10p 25/31 10p 25/31 + p 6/31 = 10 25 10 25 + 6 = 250 256 = 0.976 4

4. Se tiene una muestra de 100 datos representados en un histograma con 10 marcas de clase. Se establece la hipótesis nula de que la función de densidad teórica a la que se ajustarían dichos datos es una normal y se aplica un test de bondad del ajuste para comprobar dicha hipótesis. Los parámetros poblacionales de la distribución se estiman a partir de los 100 datos de la muestra. El estadístico de contraste da un valor de 15.04. Discutir los niveles de significación para los cuales se aceptaría o rechazaría la hipótesis nula. La hipótesis nula se acepta si χ 2 ν < χ 2 α,ν, donde el número de grados de libertad es ν = k p 1 con k = 10 (intervalos), p = 2 (dos parámetros poblacionales estimados a partir de la misma muestra), es decir, ν = 10 2 1 = 7. Si acudimos a la tabla de la χ 2 con ν = 7 vemos χ 2 0.050,7 = 14.067 y χ 2 0.025,7 = 16.013, por lo que el valor umbral de α estará comprendido entre 0.025 y 0.050. De hecho, el dato del enunciado, 15.04, es justo la media aritmética de los dos valores anteriores, por lo que una interpolación lineal nos daría que para α < (0.025 + 0.050)/2 = 0.0375 aceptaríamos la hipótesis nula, y que para α > 0.0375 la rechazaríamos. Nota: usando disttool de MATLAB se obtiene que el valor exacto es α = 1 chi2cdf(15.04,7)=0.0355. 5

5. Sea {x 1, x 2, x 3,..., x n } una muestra aleatoria obtenida de una población con función de densidad { x /2γ f(x) = γ e x2 si x > 0 0 resto de casos que depende del parmetro desconocido γ. Encontrar el estimador de máxima verosimilitud de γ. n x i L(γ) = γ e 2γ ( n xi ln L = ln γ e ) 2γ ( n = ln x ) i γ x2 n n i = ln x i n ln γ 2γ 2γ ln L γ = n γ + n 2γ 2 = 0 γ = n 2n 6

6. La tabla siguiente refleja las fechas en las cuales se heló un lago en Los Pirineos durante un periodo de 220 años: 1796 1816 1856 1875 1884 1904 1912 1934 1961 1979 a) Calcule la probabilidad de que el lago se hiele una vez en los próximos 10 años. b) Calcule la probabilidad de que el lago se hiele al menos una vez en los próximos 10 años. c) Calcule el intervalo de confianza del 95% para el parámetro de la distribución que siguen los datos. d) A la vista de los resultados anteriores, aceptaría que el valor del parámetro poblacional fuera 0.08 con α = 0.05? (2.5 puntos) Suponemos que sigue una distribución binomial con p = 10/220 = 0.045 (que puede aproximarse por una distribución de Poisson). a) P (X = 1) = b(x; n, p) = b(1; 10, 0.045) = ( ) 10 0.0456(1 0.045) 9 = 0.30 1 Si lo hacemos por Poisson, λ = 10/22 = 0.45 heladas en cada intervalo de 10 años. Por tanto P (X = 1) = p(x; λ) = p(1; 0.45) = 0.45 e 0.45 = 0.29 1! b) Usando las probabilidades acumuladas de Poisson P (X 1) = 1 P (X = 0) = 1 0.638 = 0.362 c) 0.045 I = λ ± 1.96 = [0.045 ± 0.028] = [0.017, 0.073] 220 d) Como 0.08 está fuera del intervalo anterior, no lo aceptamos. 7

7. Con el fin de conocer la incidencia sobre la contaminación atmosférica de una determinada industria se mide la concentración de monóxido de sulfuro en dos puntos diferentes de una ciudad. La tabla muestra las medidas obtenidas en unidades típicas de este contaminante. Concentración de Desviación Zona monóxido de sulfuro típica A 0.86 0.82 0.75 0.61 0.89 0.64 0.81 0.68 0.65 s A = 0.104 B 0.87 0.74 0.63 0.55 0.76 0.70 0.69 0.57 0.53 s B = 0.112 a) Determine si la varianza de las dos muestras se puede considerar la misma. b) Compruebe si la contaminación en A es mayor que en B. Utilícese un nivel de significación de 0.05. a) Vamos a suponer poblaciones normales. { H0 : σ 2 1 = σ 2 2 H 1 : σ 2 1 σ 2 2 Se acepta H 0 si Por un lado F = s2 1 s 2 2 [ F 1 α/2,n1 1,n 2 1, F α/2,n1 1,n 2 1 F = s2 1 = 0.1042 s 2 2 0.112 = 0.862 2 Por otro lado, empleando α = 0.05 y acudiendo a las tablas: F 1 α/2,n1 1,n 2 1 = 1/F α/2,n2 1,n 1 1 = 1/F 0.025,8,8 = 0.226 F α/2,n1 1,n 2 1 = F 0.025,8,8 = 4.43 ] (2.5 puntos) Como 0.862 [0.226, 4.43] podemos considerar que σ 2 1 = σ 2 2 b) De los datos de la tabla es inmediato calcular x 1 = 0.746 y x 2 = 0.671. Por tanto las hipótesis a plantear son: { H0 : µ 1 µ 2 H 1 : µ 1 > µ 2 El resultado del apartado a) nos permite asumir que las varianzas son iguales (aunque desconocidas). Además, n 1 + n 2 30. Por tanto, se aceptará H 0 si con Con los datos que tenemos t = x 1 x 2 s p 1 n 1 + 1 n 2 s 2 p = 8 0.1042 + 8 0.112 2 9 + 9 2 t α,n1 +n 2 2 s 2 p = (n 1 1)s 2 1 + (n 2 1)s 2 2 n 1 + n 2 2 = 0.01168 s p = 0.108 t = 0.746 0.671 0.108 1 9 + 1 9 = 1.46 Finalmente, t α,n1 +n 2 2 = t 0.05,16 = 1.746 no se rechaza H 0 8