Tema 4. Intervalos de confianza Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 1
Definición Sea X una v.a. con distribución de probabilidad dada por un modelo paramétrico cuya expresión matemática es totalmente conocida a excepción de algún parámetro desconocido θ. Sea X 1,..., X n una muestra aleatoria de la población X. Fijamos 0 < α < 1. Sea (T 1, T 2 ) un intervalo tal que T i = T i (X 1,..., X n ) para i = 1, 2 y 1 α = P θ {T 1 (X 1,..., X n ) < θ < T 2 (X 1,..., X n )} = P θ {θ (T 1, T 2 )}. Entonces, para cada observación (x 1,..., x n ) de la muestra, el intervalo (T 1 (x 1,..., x n ), T 2 (x 1,..., x n )) es un intervalo de confianza para θ al nivel de confianza 1 α. Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 2
Para construir un intervalo de confianza se utiliza el método de la cantidad pivotal. Se puede ver una descripción de este método en las pgs. 114 116 del libro Estadística Aplicada de Julián de la Horra (ver guía docente de la asignatura). Nosotros utilizamos directamente las expresiones de los intervalos de confianza que aparecen en el formulario que se puede bajar de la web de la asignatura. Por ejemplo, sea x 1,..., x n una muestra observada de X N(µ, σ). Si σ es conocido un intervalo de confianza para µ al nivel de confianza 1 α es ) ) σ σ σ IC 1 α (µ) = ( x z α/2 n, x + z α/2 n = ( x z α/2 n. Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 3
Interpretación intuitiva de un intervalo de confianza: Si se observan 100 muestras de tamaño n de X F θ y se construyen los correspondientes 100 intervalos de confianza para θ, IC 1 α (θ), aproximadamente en (1 α)100 de ellos está el parámetro desconocido θ: x (1) 1,..., x (1) n IC (1) 1 α (θ) x (2) 1,..., x (2) n IC (2) 1 α (θ). x (100) 1,..., x (100) n IC (100) 1 α (θ) Ver fichero Excel 100Ics.xlxs. Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 4
Por qué construir un intervalo de confianza Ejemplo 2.17 (cont.): Una genetista pesó 28 corderos hembra al nacer. Los pesos fueron: 4.3 5.2 6.2 6.7 5.3 4.9 4.7 5.5 5.3 4.0 4.9 5.2 4.9 5.3 5.4 5.5 3.6 5.8 5.6 5.0 5.2 5.8 6.1 4.9 4.5 4.8 5.4 4.7 Pesos de corderos al nacer Si suponemos que X = peso de un cordero al nacer sigue una distribución N(µ,σ), los e.m.v. de los parámetros son ˆµ = x = 5.168 y ˆσ 2 = 0.413. 0.0 0.2 0.4 0.6 Frecuencia relativa Distribución normal 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 5
Ejemplo 2.17 (cont.): Estas estimaciones puntuales están sujetas a error de muestreo. No es un mero error de medida debido a, por ejemplo, la precisión de la báscula. La muestra es imperfecta, incompleta porque se han pesado sólo 28 corderos, en lugar de pesar toda la población de corderos Rambouillet de las mismas características. ˆµ = x = 5.168 es una estimación puntual razonable de µ = Peso esperado de un cordero hembra Rambouillet nacido en abril y con las características fijadas en el estudio, porque sabemos que E( X ) = µ. Para evaluar la fiabilidad o precisión de esta estimación puntual ˆµ = x podemos considerar la desviación típica del estimador, V ( X ) = σ/ n, o una estimación de la misma, s/ n (error típico de la media muestral). Pero también podemos calcular el intervalo de confianza para el parámetro desconocido µ, que parece más fácil de interpretar. Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 6
Distribuciones asociadas a la normal Son distribuciones de probabilidad de ciertos estadísticos construidos a partir de muestras de distribuciones normales. La distribución χ 2 de Pearson Sean X 1,..., X n v.a. independientes idénticamente distribuidas (i.i.d.) con distribución N(0, 1). La variable aleatoria n i=1 X i 2 sigue una distribución χ 2 de Pearson con n grados de libertad: n χ 2 Densidad de la χ 2 n n i=1 X 2 i 1 0.8 χ 2 1 χ 2 2 χ 2 3 0.6 0.4 χ 2 4 χ 2 5 0.2 0 0 2 4 6 8 Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 7
La distribución t de Student Sean Y, X 1,..., X n v.a.i.i.d. con distribución N(0, 1). La variable Y aleatoria 1 sigue una distribución t de Student con n n n i=1 X i 2 grados de libertad, t n. 0.4 0.3 Densidad de la t N(0,1) t 5 t 2 0.2 0.1 0 5 0 5 Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 8
La distribución F de Fisher Sean X 1,..., X m, Y 1,..., Y n v.a.i.i.d. con distribución N(0, 1). La v.a. 1 m i=1 X i 2 n j=1 Y j 2 m 1 n sigue una distribución F de Fisher con m y n grados de libertad, F m,n. 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Densidad de la F F 5,3 F 4,6 0 0 1 2 3 4 5 6 Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 9
Intervalos de confianza en poblaciones normales Propiedad: Sea X 1,..., X n una muestra aleatoria de X N(µ, σ). Entonces X y S 2 son v.a. independientes, ( ) σ n 1 X N µ,, n σ 2 S X 2 χ 2 µ n 1 y t n 1 Sea x 1,..., x n una muestra de X N(µ, σ). Si σ es conocido un intervalo de confianza para µ al nivel de confianza 1 α es ) ) σ σ σ IC 1 α (µ) = ( x z α/2 n, x + z α/2 n = ( x z α/2 n. ( ) s Si σ es desconocido, IC 1 α (µ) = x t n 1;α/2 n IC 1 α (σ 2 ) = ( (n 1)s 2 χ 2, n 1;α/2 (n 1)s 2 χ 2 n 1;1 α/2, S n ). y Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 10
Ejemplo 4.1: Se sabe que una solución estándar de glucosa es 5.05 mm. Se analiza repetidamente mediante el método de la glucosa oxidasa obteniendo 5.15 5.06 5.21 5.18 5.26. Suponiendo normalidad, calcular un intervalo de confianza para µ, la concentración media de glucosa, y decidir si hay alguna evidencia de error sistemático. El error sistemático es el que provoca que todas las observaciones de un experimento sean erróneas en el mismo sentido, demasiado grandes o demasiado pequeñas. Entonces las medidas tienen sesgo. 5.00 5.05 5.10 5.15 5.20 5.25 5.30 Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 11
Sean x 1,..., x m e y 1,..., y n muestras independientes de X N(µ 1, σ) e Y N(µ 2, σ) respectivamente (σ desconocido). Entonces ( ) IC 1 α (µ 1 µ 2 ) = x ȳ t m+n 2;α/2 s p 1 m + 1 n, donde s 2 p = (m 1)s2 1 + (n 1)s2 2 m + n 2 es una media ponderada de las cuasivarianzas muestrales s 2 1 = 1 m 1 m i=1 (x i x) 2 y s 2 2 = 1 n 1 n (y i ȳ) 2. i=1 Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 12
Ejemplo 4.2: La mostaza silvestre (Brassica campestris) tiene un ciclo de crecimiento rápido que la hace adecuada para estudiar factores que afectan al crecimiento de las plantas. En un estudio se trató 7 plantas con Ancymidol y se comparó con 8 plantas de control a las que se les suministró agua potable. Se midieron las alturas de las plantas tras 15 días de crecimiento, obteniéndose: Control (X ) 15.0 13.2 19.8 14.6 20.3 13.9 21.2 19.3 Ancymidol (Y ) 13.2 14.5 11.0 5.8 12.8 7.1 7.7 Suponiendo que estas variables siguen distribuciones normales homocedásticas, calcular un intervalo de confianza para la diferencia media de crecimiento entre ambos tipos de tratamiento. Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 13
Sean x 1,..., x m e y 1,..., y n muestras aleatorias independientes de X N(µ 1, σ 1 ) e Y N(µ 2, σ 2 ) respectivamente (σ 1 y σ 2 desconocidas). Entonces IC 1 α ( σ 2 1 σ 2 2 ) ( = s 2 1 /s2 2 F m 1;n 1;α/2, Observación: F m;n;1 α = 1 F n;m;α s 2 1 /s2 2 F m 1;n 1;1 α/2 Ejemplo 4.2 (cont.): Calcular un intervalo de confianza al 90 % para el cociente de las varianzas. ). Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 14
Datos emparejados: Sea (X 1, Y 1 ),..., (X n, Y n ) una muestra aleatoria de (X, Y ) donde X e Y no son independientes, pero los pares (X i, Y i ) son independientes entre sí. Denotemos E(X ) = µ 1 y E(Y ) = µ 2 y supongamos que D = X Y N(µ = µ 1 µ 2, σ). Entonces D 1 = X 1 Y 1,..., D n = X n Y n es una muestra aleatoria de D. Podemos construir intervalos de confianza para µ = µ 1 µ 2 y para σ como se indicó en la página 10. Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 15
Ejemplo 4.3: (Ensayo cĺınico cruzado) Se quiere comparar el efecto X de un nuevo medicamento con el efecto Y de otro ya comercializado. Se administran ambos a 14 personas con insuficiencia respiratoria, asignando aleatoriamente a cada paciente un tratamiento, y manteniéndolo durante un mes. Luego se le da el tratamiento alternativo durante otro mes. En la cuarta semana de cada tratamiento se observa FEV1 (forced expiratory volume), el volumen de aire que un paciente expulsa en un segundo, tras una inhalación profunda. Paciente X Y D Paciente X Y D 1 2.9 3.9-1.0 8 3.9 2.4 1.5 2 4.0 3.9 0.1 9 2.5 3.6-1.1 3 3.4 3.3 0.1 10 6.5 2.1 4.4 4 3.2 4.3-1.1 11 5.5 4.0 1.5 5 3.8 3.2 0.6 12 4.0 3.9 0.1 6 5.2 3.5 1.7 13 5.3 4.0 1.3 7 3.9 2.7 1.2 14 4.3 2.3 2.0 Calcular un intervalo de confianza al 90 % para la diferencia media de FEV1 con ambos medicamentos. Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 16
Intervalos de confianza para otras distribuciones Intervalo para una proporción p Sea X 1,..., X n una muestra de X Bernoulli(p). Por el TCL, ( ) ( ) ( ) X aprox VX p(1 p) ˆp(1 ˆp) N E(X ), = N p, N p,, n n n siendo ˆp = X. Por tanto, ( ) x(1 x) IC 1 α (p) = x z α/2 n (aproximadamente, para n grande) Ejemplo 4.4: Un laboratorio de cosmética se plantea comercializar una crema para tratar una afección cutánea específica. Para conocer la eficacia de la crema se prueba en una muestra de 50 personas con dicha enfermedad cutánea. Al cabo de un mes de su uso continuado se observa una clara remisión de la enfermedad en 38 de los voluntarios. Construir un intervalo de confianza para la probabilidad de que el producto sea efectivo. Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 17
Mínimo tamaño muestral El error cometido al estimar un parámetro θ mediante un intervalo de confianza IC 1 α (θ) es la semi-amplitud del intervalo. Observación: Esta definición tiene sentido principalmente en intervalos del tipo IC 1 α (θ) = (ˆθ semilongitud). Objetivo: Determinar el mínimo tamaño muestral n necesario para que el error cometido al estimar θ mediante un intervalo de confianza sea menor que una cierta cantidad. Motivación: Queremos que la estimación por intervalo de confianza tenga una determinada precisión. El valor de n obtenido debe tomarse como orientativo, especialmente cuando la semilongitud del intervalo dependa de la muestra observada. Estadística Aplicada (Bioquímica). Profesora: Amparo Baíllo Tema 4: Intervalos de confianza 18