Técnicas de Inferencia Estadística II. Tema 2. Contrastes de hipótesis en poblaciones normales

Técnicas de Inferencia Estadística II Tema 2. Contrastes de hipótesis en poblaciones normales M. Concepción Ausín Universidad Carlos III de Madrid Grado en Estadística y Empresa Curso 2010/11

Tema 2. Contrastes de hipótesis en poblaciones normales Contenidos Contrastes para una muestra de una población normal. Contrastes para la media con varianza conocida. Contrastes para la media con varianza desconocida. Contrastes para la varianza. Contrastes para dos muestras de dos poblaciones normales independientes. Contrastes para la igualdad de varianzas. Contrastes para la igualdad de medias. Contrastes para una muestra bivariante de una población normal bivariante (dos muestras no independientes). Contrastes para la igualdad de medias. Contrastes para muestras grandes.

Contrastes para una muestra de una población normal Suponemos una muestra aleatoria simple (X 1, X 2,..., X n ) de una población normal, N(µ, σ 2 ). Queremos resolver contrastes del tipo: Bilateral Unilateral Unilateral por la derecha por la izquierda H 0 : θ = θ 0 H 0 : θ = θ 0 H 0 : θ = θ 0 H 1 : θ θ 0 H 1 : θ > θ 0 H 1 : θ < θ 0 donde θ representa el parámetro de interés, que puede ser la media, µ, o la varianza, σ 2. Las región de rechazo se obtiene usando un estadístico de contraste, que es una medida de discrepancia entre la muestra de datos y la hipótesis nula. Un estadístico de contraste será cualquier función de la muestra y del parámetro especificado en H 0 (con distribución conocida cuando H 0 es cierta) que permita decidir hasta qué punto la muestra de datos está de acuerdo o no con la hipótesis nula.

Contrastes para la media con varianza conocida Suponemos primero una muestra aleatoria (X 1, X 2,..., X n ) de una población normal, N(µ, σ 2 ), con la varianza, σ 2 conocida. Queremos resolver contrastes para la media del tipo: H 0 : µ = µ 0 H 0 : µ = µ 0 H 0 : µ = µ 0 H 1 : µ µ 0 H 1 : µ > µ 0 H 1 : µ < µ 0 El estadístico de contraste en este caso es: X µ 0 σ/ n H 0 N(0, 1) Este estadístico proporciona una medida de discrepancia entre los datos y la hipótesis nula. Para elegir la región de rechazo, de la hipótesis nula debemos de fijar el nivel de significación, α, donde recordamos que: α = Pr(rechazar H 0 H 0 cierta)

Contrastes para la media con varianza conocida H 0 : µ = µ 0 vs H 1 : µ µ 0 Las regiones de aceptación-rechazo dependen d Dados los datos, (x1,..., x n), si x µ 0 es grande, se rechazará H 0. Contrastes de hipótesis σ/ n a) H La región de rechazo 1 : θ θ es: 0. La región de rechazo la forman las dos colas { } de x µ 0 R = σ/ la distribución del n > z α/2 estadístico bajo H0, ambas con la misma probabilidad α/2. Aceptación b) la est Rechazo Rechazo α 2 1 α α 2 ) p-valor = 2 Pr (Z c) H > x µ 0 : σ/ θ > n θ. La región de rechazo la forman 1 0

Ejemplo 2.1. Uno de los productos de una empresa es café molido en paquetes de 200 gramos. Se diseña un experimento en el que se pesan con precisión el peso de 15 paquetes, seleccionados aleatoriamente. Los pesos son 208, 206, 210, 199, 202, 196, 198, 209, 211, 204, 206, 197, 196, 203 y 207. Se supone que el peso de estos paquetes sigue una distribución normal y que su desviación típica es conocida (no realista) e igual a 4.5 gramos. La empresa desea saber si el peso medio de los paquetes es distinto de los 200 gramos que figuran en la etiqueta. Contrastar dicha hipótesis usando el p-valor para α = 0.05 y 0.01. Construir dos intervalos de confianza al 95 % y al 99 % para el valor real del peso medio de un paquete de café.

e rechazo la forman Contrastes para la media con varianza conocida a distribución del H 0 : µ = µ 0 vs H 1 : µ > µ 0 bas con la misma b) H 1 : θ < θ. La región de rechazo la forman 0 la cola inferior de la distribución del estadístico bajo H0, con la probabilidad α. Rechazo α 2 Dados los datos, (x1,..., x n), si Rechazo Aceptación x µ 0 σ/ n La región de rechazo es: { } x 1 α µ0 α R = σ/ n > zα es grande, se rechazará H0. e rechazo la forman la distribución del la probabilidad α. Aceptación 1 α Rechazo α ) p-valor = Pr (Z > x µ 0 σ/ n

Contrastes para la media con varianza conocida H 0 : µ = µ 0 vs H 1 : µ < µ 0 ión-rechazo dependen Dados los datos, de la (x1, hipótesis..., x n), alternativa, si σ/ es pequeño, se rechazará H0. n H1: x µ 0 La región de rechazo es: rechazo la forman b) H { } 1 : θ < θ. La región de rechazo la forman 0 x µ0 R = distribución del la cola inferior σ/ de n la < zα distribución del bas con la misma estadístico bajo H0, con la probabilidad α. Aceptación Rechazo Rechazo α 2 α 1 α ) p-valor = Pr (Z < x µ 0 e rechazo la forman σ/ n Aceptación Rechazo

Ejemplo 2.2. Uno de los productos de una empresa es café molido en paquetes de 200 gramos. Se diseña un experimento en el que se pesan con precisión el peso de 15 paquetes, seleccionados aleatoriamente. Los pesos son 208, 206, 210, 199, 202, 196, 198, 209, 211, 204, 206, 197, 196, 203 y 207. Se supone que el peso de estos paquetes sigue una distribución normal y que su desviación típica es conocida (no realista) e igual a 4.5 gramos. A la vista del resultado anterior, la empresa desea saber si el peso medio de los paquetes es de hecho superior a los 200 gramos que figuran en la etiqueta. Contrastar dicha hipótesis usando el p-valor para α = 0.05 y 0.01.

Contrastes para la media con varianza desconocida En la práctica, la varianza poblacional σ es casi siempre desconocida. Consideramos ahora el caso para una muestra aleatoria (X 1, X 2,..., X n ) de una población normal, N(µ, σ 2 ), con la varianza, σ 2, desconocida. Queremos resolver contrastes del tipo: H 0 : µ = µ 0 H 0 : µ = µ 0 H 0 : µ = µ 0 H 1 : µ µ 0 H 1 : µ > µ 0 H 1 : µ < µ 0 El estadístico de contraste en los tres casos es: X µ 0 S/ n H 0 t n 1 Gracias a la simetría de la distrbución t, las regiones de rechazo se obtienen de manera equivalente a las de los contrastes para la media con varianza conocida.

Contrastes para la media con varianza desconocida Cálculo del p-valor H 0 : µ = µ 0 vs H 1 : µ > µ 0 ( p-valor = Pr t n 1 > x µ ) 0 s/ n H 0 : µ = µ 0 vs H 1 : µ < µ 0 ( p-valor = Pr t n 1 < x µ ) 0 s/ n H 0 : µ = µ 0 vs H 1 : µ µ 0 ( p-valor = 2 Pr t n 1 > x µ ) 0 s/ n

Ejemplo 2.3. Uno de los productos de una empresa es café molido en paquetes de 200 gramos. Se diseña un experimento en el que se pesan con precisión el peso de 15 paquetes, seleccionados aleatoriamente. Los pesos son 208, 206, 210, 199, 202, 196, 198, 209, 211, 204, 206, 197, 196, 203 y 207. Se supone que el peso de estos paquetes sigue una distribución normal y que su desviación típica es desconocida. La empresa desea saber si el peso medio de los paquetes es distinto de los 200 gramos que figuran en la etiqueta y, en ese caso, averiguar si es superior a 200 gramos. Contrastar dicha hipótesis usando el p-valor para α = 0.05 y 0.01. Construir dos intervalos de confianza al 95 % y al 99 % para el valor real del peso medio de un paquete de café.

$ # %&'('&!"# $ # %&'(!"# Contrastes para la varianza Consideramos una muestra aleatoria (X 1, X 2,..., X n ) de una población Varianza normal, N(µ, deσuna 2 ), con población µ, desconocida. normal Queremos contrastar: Procedimiento H 0 : σ 2 = σ0 2 H 0 : σ 2 = σ 2 H 1 : σ 2 σ0 2 0 H 0 : σ 2 = σ 2 H 1 : σ 2 > σ0 2 0 H 1 : σ 2 < σ0 2 Seleccionamos los valores como El estadístico de contraste en los tres casos es: P(χ 2 n 1 χ 2 n 1,1 α/2) = 1 (n 1)S 2 α/2, P(χ 2 n 1 χ 2 n 1,α/2) = α/2 Estos valores cumplen σ 2 0 H0 χ 2 n 1 Las regiones de rechazo P(χ 2 se obtienen de manera equivalente a los casos n 1,1 α/2 χ 2 n 1 χ 2 n 1,α/2) = 1 anteriores, pero teniendo en cuenta que la distribución χ 2 α n 1 es asimétrica.!"# 1-!!"#

Contrastes para la varianza Cálculo del p-valor H 0 : σ 2 = σ 2 0 vs H 1 : σ 2 > σ 2 0 p-valor = Pr (χ 2n 1 > H 0 : σ 2 = σ 2 0 vs H 1 : σ 2 < σ 2 0 p-valor = Pr (χ 2n 1 < H 0 : σ 2 = σ0 2 vs H 1 : σ 2 σ0 2 { p-valor = mín 2 Pr (χ 2n 1 > ) (n 1)s2 σ0 2 ) (n 1)s2 σ0 2 ) (n 1)s2 σ0 2, 2 Pr (χ 2n 1 < )} (n 1)s2 σ0 2

Ejemplo 2.4. Un inversor quiere saber si la variación del precio de las acciones de una compañía este mes será superior a la variación del mes pasado, que fue de 114.09. Ha observado que la varianza muestral de los precios de los primeros 10 días de este mes ha sido igual a 110.2. Asumiendo que los 10 datos pueden considerarse una muestra aleatoria de una población normal, contrastar al 5 % la hipótesis anterior.

En las siguientes secciones, vamos a abordar problemas en los que disponemos de dos muestras de poblaciones normales. Distinguiremos dos casos: Dos muestras independientes: Suponemos dos muestras aleatorias simples (X 1, X 2,..., X n ) e (Y 1, Y 2,..., Y m ) de dos poblaciones normales independientes: X N(µ 1, σ 2 1) e Y N(µ 2, σ 2 2). Una muestra bivariante: Suponemos una muestra bivariante, {(X 1, Y 1 ),..., (X n, Y n )} de una población normal bivariante, (( ) ( )) µ1 σ 2 (X, Y ) N, 1 σ 12 µ 2 σ 12 σ2 2. En el primer caso las variables X e Y son independientes. En el segundo, X e Y son dependientes (a no ser que σ 12 = 0). Supondremos siempre que las medias (µ 1 y µ 2 ), las varianzas (σ 1 y σ 2 ), y en su caso, la covarianza (σ 12 ), son desconocidas.

Ejemplo 2.5. En los siguientes ejemplos distinguir si se trata de dos muestras independientes de dos variables X e Y independientes o de una muestra bivariante de una variable (X, Y ) de modo que X e Y puedan ser dependientes. 1. (X 1, X 2,..., X 10 ) e (Y 1, Y 2,..., Y 15 ) representan los salarios de 10 mujeres y 15 hombres, respectivamente. 2. (X 1, X 2,..., X 8 ) e (Y 1, Y 2,..., Y 8 ) son las calificaciones de 8 estudiantes en matemáticas y estadística, respectivamente. 3. (X 1, X 2,..., X 16 ) e (Y 1, Y 2,..., Y 16 ) son las edades de 16 fumadores y 16 no fumadores. 4. (X 1, X 2,..., X 20 ) e (Y 1, Y 2,..., Y 20 ) representan el número de parados en 20 ciudades de dos paises distintos. 5. (X 1, X 2,..., X 32 ) e (Y 1, Y 2,..., Y 32 ) representan el peso de 32 pacientes antes y después de un tratamiento de adelgazamiento.

Contrastes para dos muestras independientes de dos poblaciones normales Suponemos ahora la primera situación en la que disponemos de dos muestras aleatorias simples (X 1, X 2,..., X n ) e (Y 1, Y 2,..., Y m ) de dos poblaciones normales, N(µ 1, σ1 2) y N(µ 2, σ2 2 ), independientes. Queremos resolver contrastes del tipo: H 0 : µ 1 = µ 2 H 0 : µ 1 = µ 2 H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 H 1 : µ 1 > µ 2 H 1 : µ 1 < µ 2 H 0 : σ 2 1 = σ2 2 H 1 : σ 2 1 σ2 2 H 0 : σ 2 1 = σ2 2 H 1 : σ 2 1 > σ2 2 H 0 : σ 2 1 = σ2 2 H 1 : σ 2 1 < σ2 2

Contrastes para la igualdad de varianzas Se tienen dos muestras (X 1, X 2,..., X n ) e (Y 1, Y 2,..., Y m ) de dos poblaciones normales e independientes, N(µ 1, σ1 2) y N(µ 2, σ2 2 ), con medias, µ 1 y µ 2, desconocidas. Queremos resolver contrastes del tipo: H 0 : σ 2 1 = σ2 2 H 1 : σ 2 1 σ2 2 El estadístico de contraste es: H 0 : σ 2 1 = σ2 2 H 1 : σ 2 1 > σ2 2 H 0 : σ 2 1 = σ2 2 H 1 : σ 2 1 < σ2 2 S1 2 S2 2 H0 F n 1,m 1 Las regiones de rechazo y el cálculo del p-valor se realiza de manera análoga al contraste para la varianza, teniendo en cuenta que la distribución de F n 1,m 1 es asimétrica.

Ejemplo 2.6. Se conjetura que las acciones de una compañía sufrirían más variación en una industria con competencia en precios que en una en la que existiera un duopolio y colusión tácita. En un estudio sobre la industria de generadores mediante turbinas de vapor, se halló que en 4 años de competencia en precios la variación de las acciones de la General Electric fue de 114.09. En los siguientes 7 años, en los cuales hubo un duopolio y colusión tácita, esta varianza fue de 16.08. Asumir que los datos pueden considerarse muestras aleatorias independientes de dos poblaciones normales y contrastar al 5 % la conjetura anterior.

Contrastes para la igualdad de medias Se tienen dos muestras (X 1, X 2,..., X n ) e (Y 1, Y 2,..., Y m ) de dos poblaciones normales e independientes, N(µ 1, σ1 2) y N(µ 2, σ2 2 ), con varianzas, σ1 2 y σ2 2, desconocidas. Queremos resolver contrastes del tipo: H 0 : µ 1 = µ 2 H 0 : µ 1 = µ 2 H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 H 1 : µ 1 > µ 2 H 1 : µ 1 < µ 2

Contrastes para la igualdad de medias Si las varianzas son iguales: σ 2 1 = σ 2 2 El estadístico de contraste es: X Ȳ (n 1)S 2 1 +(m 1)S2 2 n+m 2 1 n + 1 m H0 t n+m 2 Si las varianzas son distintas: σ 2 1 σ 2 2 El estadístico de contraste es: X Ȳ S 2 1 n + S2 2 m H0 t f donde: f = 1 n 1 ( S 2 1 n ( S 2 1 ) 2 n + S2 2 m ) 2 + 1 m 1 ( ) S 2 2 2 m

Ejemplo 2.7. De una muestra aleatoria de 12 licenciados en Económicas en una Universidad pública, los sueldos de su primer empleo fueron los siguientes (expresados en miles de dólares): 26.2, 29.3, 31.3, 28.7, 27.4, 25.1, 26.0, 27.2, 27.5, 29.8, 32.6, 34.6 De otra muestra aleatoria independiente de 10 licenciados en Económicas en una Universidad privada los primeros sueldos fueron los siguientes: 25.3, 28.2, 29.2, 27.1, 26.8, 26.5, 30.7, 31.3, 26.3, 24.2 Asumiendo normalidad en los datos, discutir si existen diferencias entre los sueldos de los licenciados de Universidades públicas y privadas.

Contrastes para una muestra bivariante de una población normal bivariante Consideramos que se tiene una muestra (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ) de una población normal bidimensional: (( ) ( )) µ1 σ 2 (X, Y ) N, 1 σ 12 µ 2 σ 12 σ2 2. Queremos resolver contrastes del tipo: H 0 : µ 1 = µ 2 H 0 : µ 1 = µ 2 H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 H 1 : µ 1 > µ 2 H 1 : µ 1 < µ 2

Contrastes para una muestra bivariante de una población normal bivariante Transformamos el problema en otro en el que se tiene una sola muestra (D 1 = X 1 Y 1, D 2 = X 2 Y 2,..., D n = X n Y n ) de la variable: donde µ D = E[X Y ] = µ 1 µ 2. D = X Y N(µ D, σ 2 D) El problema se convierte en resolver los contrastes: H 0 : µ D = 0 H 1 : µ D 0 El estadístico de contraste es: H 0 : µ D = 0 H 1 : µ D > 0 H 0 : µ D = 0 H 1 : µ D < 0 D S D / n H 0 t n 1 donde S 2 D es la cuasivarianza muestral de (D 1,..., D n ).

Ejemplo 2.8. Antes de lanzar una promoción muy agresiva de un cierto producto dirigida a los hipermercados de grandes superficies, la directora de marketing de la empresa quiere saber si es o no rentable. Para ello se seleccionan al azar 5 hipermercados de Madrid para llevar a cabo la promoción y se recogen datos de las ventas en miles de euros antes y después de la promoción. Se supone que las ventas se distribuyen normalmente. Antes 102 120 135 114 175 Después 110 125 141 113 182 Contrastar la hipótesis de que dicha promoción sea rentable, teniendo en cuenta que se trata de datos apareados. Contrastar la misma hipótesis, pero asumiendo que son muestras independientes. Comparar y explicar las diferencias en los dos apartados anteriores.

Contrastes para muestras grandes: contraste para una media Supongamos que se tiene una muestra (X 1,..., X n ) de una población cualquiera con n grande (n >30). Aunque la población no sea normal, se pueden resolver contrastes para la media: H 0 : µ = µ 0 H 0 : µ = µ 0 H 0 : µ = µ 0 H 1 : µ µ 0 H 1 : µ > µ 0 H 1 : µ < µ 0 utilizando el Teorema Central del Límite, que garantiza que: X µ 0 S/ n H 0 N(0, 1)

Ejemplo 2.9. La vida media de una muestra de 55 tubos fluorescentes producidos por una empresa es de 1750 horas con una cuasi-desviación típica de 120 horas. Contrastar la hipótesis de que la vida media sea distinta de 1600 horas, utilizando un nivel de significación de 0.05.

Contrastes para muestras grandes: contraste para la igualdad de dos medias Consideramos ahora que se tienen dos muestras (X 1, X 2,..., X n ) e (Y 1, Y 2,..., Y m ) de dos poblaciones no necesariamente normales de medias µ 1 y µ 2 y varianzas, σ1 2 y σ2 2, resp., tales que n y m sean grandes (n, m >30). Aunque las poblaciones no sean normales, se pueden resolver contrastes para la diferencia de medias: H 0 : µ 1 = µ 2 H 0 : µ 1 = µ 2 H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 H 1 : µ 1 > µ 2 H 1 : µ 1 < µ 2 utilizando el Teorema Central del Límite, que garantiza que: X Ȳ S 2 1 n + S2 2 m H0 N(0, 1)

Ejemplo 2.10. El método MATWES fue diseñado para medir las actitudes hacia las mujeres ejecutivas. Una puntuación alta indica actitudes negativas hacia las mujeres ejecutivas. Se conjetura que la actitud hacia las mujeres ejecutivas cambia en función del sexo. Para contrastar esta hipótesis se tomaron muestras aleatorias independientes de 151 hombres y de 108 mujeres estudiantes de M.B.A. En el grupo de los hombres se obtuvo una puntuación media de 85.8 con una desviación típica de 19.3. En el de mujeres se obtuvo una puntuación media de 71.5 con una desviación típica de 12.2. Plantea el contraste oportuno y resuélvelo para α = 0.01. Cómo se construiría un intervalo de confianza al 99 % para la diferencia de puntuaciones medias? contendría al 0?

Contrastes para muestras grandes: contraste para una proporción Consideramos que se tiene una muestra (X 1, X 2,..., X n ) con n grande (n >30) de una población Bernouilli, B(1, p): X = { 1, con probabilidad p 0, con probabilidad 1 p Aunque la población no sea normal, se pueden resolver contrastes para la proporción: H 0 : p = p 0 H 0 : p = p 0 H 0 : p = p 0 H 1 : p p 0 H 1 : p > p 0 H 1 : p < p 0 utilizando el Teorema Central del Límite, que garantiza que: ˆp p 0 p 0(1 p 0) n H0 N(0, 1) donde, n i=1 ˆp = X i. n

Ejemplo 2.11. Se trabaja con la hipótesis de que uno de cada diez varones manifiesta algún tipo de daltonismo. Elegidos 400 varones, se detectan 50 daltónicos. Con un nivel de significación del 10 %, se puede rechazar la hipótesis de partida? se obtendrá la misma conclusión si el nivel de significación es del 2 %?

Contrastes para muestras grandes: contraste para la igualdad de dos proporciones Consideramos ahora que se tiene dos muestras independientes (X 1, X 2,..., X n ) y (Y 1, Y 2,..., Y m ) con n y m grandes (n, m >30) de dos poblaciones Bernouilli, B(1, p 1 ) y B(1, p 2 ). Aunque las poblaciones no sean normales, se pueden resolver contrastes para la diferencia de proporciones: H 0 : p 1 = p 2 H 0 : p 1 = p 2 H 0 : p 1 = p 2 H 1 : p 1 p 2 H 1 : p 1 > p 2 H 1 : p 1 < p 2 utilizando el Teorema Central del Límite, que garantiza que: ˆp 1 ˆp 2 p 0 (1 p 0 ) ( 1 n + ) 1 H 0 N(0, 1) m donde p 0 = p 1 = p 2 es la proporción común bajo H 0 que se estima mediante: ˆp 0 = nˆp 1 + m ˆp 2 n + m.

Ejemplo 2.12. Se quiere determinar si el paro en dos grandes áreas urbanas del país, como son Madrid y Barcelona, es diferente. Para ello se toman muestras aleatorias en ambas ciudades, cada una de 500 personas, obteniéndose que en Madrid 35 estaban desempleadas y en Barcelona 25. Existe alguna razón para creer que las frecuencias de paro en Madrid y Barcelona son diferentes? Plantea el contraste oportuno con un nivel de significación del 5 %, especificando claramente la hipótesis nula y alternativa que consideras, así como las hipótesis de trabajo.