Universidad Nacional de San Cristóbal de Huamanga Facultad de Ingeniería de Minas, Geología y Civil Departamento Académico de Matemática y Física Área de Estadística Inferencia Estadística Alejandro Guillermo Monzón Montoya http://www.estadistica.260mb.com o http://amonzon.tk http://www.estadisticaunsch.blogspot.com o http://amonzonblog.tk mail: amonzon@hotmail.es AYACUCHO, PERÚ 27 de diciembre de 2010
Índice general 1. Pruebas de hipótesis 5 1.1. Errores de tipo I y tipo II......................... 6 1.2. Pasos a seguir para una prueba de hipótesis............... 6 1.3. Prueba de hipótesis para la media poblacional.............. 7 1.3.1. Cuando el valor de la varianza poblacional es conocido..... 7 1.3.2. Cuando el valor de la varianza poblacional no es conocido... 9 1.4. Prueba de hipótesis para la proporción p................. 10 1.5. Prueba de hipótesis para la varianza................... 12 1.6. Comparación de medias.......................... 13 1.7. Diferencia de medias............................ 14 1.8. Prueba de hipótesis sobre dos proporciones................ 15 1.9. Prueba para la igualdad de dos varianzas................. 16 3
Capítulo 1 Pruebas de hipótesis La prueba de hipótesis estadística es una de las áreas más importantes de la teoría de la decisión. Esta prueba consiste en determinar si una afirmación supuesta de un parámetro de una población, es contradicha o no por los resultados de una muestra. Definición 1 (Hipótesis estadística) Es un supuesto acerca de la distribución de probabilidad de una o más variables aleatorias. En la práctica, la distribución de la población es a menudo implícitamente supuesta, especificándose una hipótesis con el valor o los valores del parámetro o los parámetros que la definen. Ejemplos: i) El promedio poblacional de la altura de los peruanos es 1,60m. µ = 1, 60 ii) La varianza poblacional de los salarios de los obreros de la industria textil es (S/. 500) 2 σ 2 = (S/. 500) 2 =250 000 soles 2 iii) La distribución de los pesos de los alumnos de Ciencias Físico Matemáticas es normal. En la prueba de hipótesis, la suposición que deseamos probar recibe el nombre de hipótesis nula y se representa con H 0. Si los resultados de la muestra no apoyan la hipótesis nula, debemos concluir que no son verdaderos. Cada vez que rechazamos la hipótesis nula, la conclusión que aceptamos es llamada hipótesis alternativa y se representa por H 1. Ejemplo 1 Si H 0 : µ = 1, 60 5
6 CAPÍTULO 1. PRUEBAS DE HIPÓTESIS H 1 : µ 1, 60 Luego de formular la hipótesis nula y la hipótesis alternativa se fija el nivel de significancia adecuado (α); el nivel de significancia indica el porcentaje de medias muestrales que se encuentra fuera de ciertos límites. Supongamos que α = 5 % Se rechaza H 0 si el estimador de la muestra cae en cualquiera de las regiones de rechazo. Se acepta H 0 si el estimador se ubica en la región de aceptación. 1.1. Errores de tipo I y tipo II En toda prueba de hipótesis es posible cometerse dos tipos de errores: rechazar la hipótesis H 0, cuando en realidad es verdadera o aceptarla cuando es falsa. Al rechazar una hipótesis nula cuando es verdadera se comete el error de tipo I y se le representa por α (nivel de significancia de la prueba). Al aceptar una hipótesis nula cuando es falsa se comete el error de tipo II y se le representa por β. DECISIÓN H 0 es verdadera H 1 es verdadera Aceptar H 0 Decisión correcta Error de tipo II Aceptar H 1 Error de tipo I Decisión correcta α = P [error tipo I] = P [rechazar H 0 /H 0 es verdadera] β = P [error tipo II] = P [aceptar H 0 /H 0 es falsa] El riesgo de cometer estos 2 tipos de errores son inversamente proporcionales; es decir que cuanto menor sea el riesgo de cometer un error de tipo I, tanto mayor será el riesgo de cometer un error de tipo II, y viceversa. Sin embargo, es posible reducir ambos tipos de errores en forma simultánea, aumentando el tamaño de la muestra.
1.2. PASOS A SEGUIR PARA UNA PRUEBA DE HIPÓTESIS 7 1.2. Pasos a seguir para una prueba de hipótesis Sea el parámetro θ. i) Formular las hipótesis nula y alternativa de acuerdo al problema. H 0 : θ = θ 0 H 1 : θ < θ 0, θ > θ 0, θ θ 0 ii) Escoger un nivel de significancia α (probabilidad máxima aceptable de incurrir en un error de tipo I). iii) Escoger el estadístico de prueba apropiado suponiendo que H 0 es cierta. iv) Establecer las regiones de aceptación y de rechazo. v) Calcular el valor de la prueba estadística de una muestra aleatoria de tamaño n. vi) CONCLUSIÓN: Rechazar H 0 si el valor del estimador calculado cae en la región crítica y aceptar si cae en la región de aceptación. 1.3. Prueba de hipótesis para la media poblacional 1.3.1. Cuando el valor de la varianza poblacional es conocido i) Hipótesis estadística: Hay tres formas de plantear las hipótesis estadísticas; de ellas elegimos la que se ajusta a nuestro problema. a) H 0 : µ = µ 0 H 1 : µ < µ 0 b) H 0 : µ = µ 0 H 1 : µ > µ 0 c) H 0 : µ = µ 0 H 1 : µ µ 0 ii) Elegir el nivel de significancia α; los valores de α más usuales son: 10 %, 5 % y 1 %. iii) El estadístico de prueba es X y la función de probabilidad es: Z = X µ σ/ n N(0, 1) iv) Región de aceptación y de rechazo:
8 CAPÍTULO 1. PRUEBAS DE HIPÓTESIS v) Valor experimental: Se obtiene reemplazando valores en la función pivotal del paso (iii). Es decir: Z 0 = X µ 0 σ/ n donde Xes la media muestral, µ 0 es la media supuesta de la población, σ es la desviación estándar poblacional y n es el tamaño de la muestra. vi) Si Z 0 R.A./H 0, se acepta H 0 (rechazamos H 1 ). Si Z 0 R.R./H 0, se rechaza H 0 (aceptamos H 1 ). Ejemplo 2 Un comprador de ladrillos cree que la calidad de los ladrillos está disminuyendo. De experiencias anteriores se sabe que la resistencia media al desmoronamiento de tales ladrillos es 200kg, con una desviación estándar de 10kg. Una muestra de 100 ladrillos arroja una media de 195kg. Probar la hipótesis de que la calidad media no ha cambiado contra la alternativa que ha disminuido. Ejemplo 3 Se sabe que el consumo mensual per cápita de un determinado producto tiene distribución normal, con una desviación estándar de 2kg. El gerente de una firma que fabrica ese producto resuelve retirar el producto de la línea de producción si la media del consumo per cápita es menor que 8kg; en caso contrario, continuará fabricando. Fue realizada una investigación de mercado; tomando una muestra de 25 individuos 25 se verificó que X i = 180kg, donde X i representa el consumo mensual del i-ésimo i=1 individuo de la muestra. a) Construir una prueba de hipótesis adecuada, utilizando α = 0, 05, y en base a la muestra seleccionada determinar la decisión a ser tomada por el gerente. b) Si el gerente hubiese fijado α = 0, 01, la decisión sería la misma? c) Si la desviación estándar de la población fuese 4kg cuál sería la decisión?
1.3. PRUEBA DE HIPÓTESIS PARA LA MEDIA POBLACIONAL 9 Ejemplo 4 Una máquina que empaqueta bolsas de café automáticamente está regulada para embalar bolsas cuyos pesos se distribuyen normalmente, con media µ y varianza 400. El valor de µ puede ser fijado en un mostrador situado en una posición un poco inaccesible de esa máquina. La máquina fue regulada para µ = 500gr. Se decide escoger una muestra de 16 bolsas a cada media hora con la finalidad de verificar si la producción está bajo control o no, es decir, si µ = 500gr o no. Si una de esas muestras tiene una media X = 492gr, pararías o no la producción para verificar si el mostrador está o no en la posición correcta? 1.3.2. Cuando el valor de la varianza poblacional no es conocido Sea x 1, x 2,..., x n una muestra aleatoria de una población N(µ, σ 2 ). i) Hipótesis: a) H 0 : µ = µ 0 H 1 : µ < µ 0 b) H 0 : µ = µ 0 H 1 : µ > µ 0 c) H 0 : µ = µ 0 H 1 : µ µ 0 ii) Nivel de significancia: α iii) Cuando n 30: t = X µ S/ n t (n 1), donde S 2 = n (x i x) 2 i=1 n 1 Cuando n > 30: Z = X µ S/ n N(0, 1) iv) Región de aceptación y de rechazo: v) Valor experimental: t 0 = X µ 0 S/ n, n 30
10 CAPÍTULO 1. PRUEBAS DE HIPÓTESIS Z 0 = X µ 0 S/ n, n > 30 vi) Si t 0 (o Z 0 ) R.A./H 0, se acepta H 0 ; por lo tanto se rechaza H 1. Si t 0 (o Z 0 ) R.R./H 0, se rechaza H 0 y se acepta H 1. Ejemplo 5 Un fabricante afirma que sus cigarros contienen 30mg de nicotina. Una muestra de 25 cigarros da una media de 31,5mg y una desviación estándar de 3mg. Suponiendo que el contenido de nicotina en cada cigarro es una v.a. con distribución normal, al nivel del 5 %, los datos refutan o no la afirmación del fabricante? Ejemplo 6 Un distribuidor de cosméticos ha conseguido cobrar sus cuentas pendientes en un plazo medio de 22 días, durante el año pasado. Este promedio se considera un estándar para medir la eficiencia del departamento de crédito y cobranzas. Sin embargo, durante el mes en curso, un chequeo aleatorio de 81 cuentas dio como resultado un promedio de 24 días, con una desviación estándar de 9 días. La gerencia cree que el cobro de cuentas se está realizando más despacio y está interesada en averiguar si el tiempo promedio de las cuentas por cobrar ha aumentado; Es significativo el resultado al nivel del 5 %? 1.4. Prueba de hipótesis para la proporción p de una población Bernoulli Sea x 1,..., x n proporción poblacional. n i=1 X i Sea ˆp = = n donde X B(n, p). una m.a. seleccionada de una población Bernoulli, donde p es la número de éxitos en la muestra n = X n Para n suficientemente grande (n 30) se tiene que ˆp N(p, pq n ) i) Hipótesis: la proporción muestral, a) H 0 : p = p 0 H 1 : p < p 0 b) H 0 : p = p 0 H 1 : p > p 0 c) H 0 : p = p 0 H 1 : p p 0 ii) Nivel de significancia α. iii) Z 0 = X np 0 np0 (1 p 0 ) = ˆp p 0 p 0 (1 p 0 ) n N(0, 1)
1.4. PRUEBA DE HIPÓTESIS PARA LA PROPORCIÓN P 11 iv) Región de aceptación y de rechazo: v) Si Z 0 R.A./H 0, se acepta H 0. Ejemplo 7 Un ingeniero de transporte afirma que el 30 % de los vehículos demoran más de 5 minutos para pasar por una garita de control. Con el fin de evaluar esta afirmación se escogió una muestra aleatoria de 400 vehículos y se encontró que 100 de ellos demoraron más de 5 minutos en pasar la garita. 1. Al nivel de significación del 1 %, presenta esta muestra suficiente evidencia que indique que el porcentaje de vehículos que demoran más de 5 minutos en pasar tal garita es diferente de 0,3? 2. Calcular la probabilidad de tomar la decisión errada de aceptar la afirmación del ingeniero cuando la verdadera proporción de todos los vehículos que usan más de 5 minutos para pasar la garita es 0,2. (Rpta: β = P [aceptar H 0 /p = 0, 2] = 0, 0202) Ejemplo 8 En una estación de televisión se afirma que 60 % de los televisores estaban sintonizando su programa especial del último domingo. Una red competidora desea contrastar esa afirmación y decide para esto usar una m.a. de 200 familias, encontrando que 100 de las familias encuestadas sintonizan ese programa. A un nivel de significancia del 1 %, es cierto lo que afirma la estación televisora? Ejemplo 9 El consumidor de un cierto producto acusó al fabricante diciendo que más de 20 % de las unidades que fabrica son defectuosas. Para confirmar su acusación, el consumidor usó una m.a. de tamaño 50, donde 27 % de las unidades eran defectuosas. Qué conclusión se puede extraer? Usar α = 0,1 NOTA: (Prueba con muestras pequeñas) Sea x la cantidad de éxitos en una muestra aleatoria pequeña de tamaño n (n < 30) Prueba unilateral cola derecha: Se calcula P = P [X x cuando p = p 0 ] = n k=x ( ) n p k k 0q0 n k
12 CAPÍTULO 1. PRUEBAS DE HIPÓTESIS y se rechaza H 0 : α. p = p 0, si el valor de P es menor o igual que el nivel de significación Prueba unilateral cola izquierda: Se calcula y se rechaza H 0 : α. P = P [X x cuando p = p 0 ] = x k=0 ( ) n p k k 0q0 n k p = p 0, si el valor de P es menor o igual que el nivel de significación Prueba bilateral: Si x < np 0 se calcula y si x > np 0 se calcula P = P [X x cuando p = p 0 ] = P = P [X x cuando p = p 0 ] = x k=0 n k=x ( ) n p k k 0q0 n k ( ) n p k k 0q0 n k Se rechaza H 0 : p = p 0, si P α/2. Ejemplo 10 Un producto cambiará sus actuales envases sólo si al menos el 80 % de los consumidores habituales opinan a favor del cambio. Si en una muestra aleatoria de 15 consumidores se encontró que 9 opinaron a favor del cambio y al nivel de significación α = 0, 05, se deberían cambiar los actuales envases?. RPTA: Dado que P = 0, 061 > α = 0, 05, no se debe rechazar H 0. 1.5. Prueba de hipótesis para la varianza Sea x 1,..., x n una muestra aleatoria seleccionada de una población N(µ, σ 2 ) donde µ y σ 2 son desconocidas. i) Hipótesis: a) H 0 : σ 2 = σ 2 0 H 1 : σ 2 > σ 2 0 ii) Nivel de significancia α. b) H 0 : σ 2 = σ 2 0 H 1 : σ 2 < σ 2 0 c) H 0 : σ 2 = σ 2 0 H 1 : σ 2 σ 2 0 iii) χ 2 0 = (n 1)S2 σ 2 0 χ 2 (n 1) iv) Región de aceptación y de rechazo:
1.6. COMPARACIÓN DE MEDIAS 13 v) Si χ 2 0 R.A./H 0, se acepta H 0. Ejemplo 11 Un profesor de biología de la UNSCH cree que la varianza del tiempo de vida de cierto organismo al ser expuesto a un agente mortal, es a lo más 625 min 2. Una m.a. de 15 organismos dio una varianza de 1225. Proporcionan estos datos evidencia suficiente como para concluir que la tesis del profesor acerca de la variabilidad es incorrecta? Asumir que la v.a. tiene distribución N(µ, σ 2 ). Ejemplo 12 Una de las maneras de mantener bajo control la calidad de un producto es controlar su varianza. Una máquina para enlatar conserva de pescado está regulada para llenar con una desviación estándar de 10gr y media 500 gr. El peso de cada lata de conserva sigue una distribución N(µ, σ 2 ). Diría usted que la máquina ha sido adecuadamente regulada en relación a la varianza, si una muestra de 16 latas de conserva dio una varianza de 169 gr 2?. 1.6. Comparación de medias de dos poblaciones normales independientes de varianzas conocidas i) Hipótesis: a) H 0 : µ 1 = µ 2 H 1 : µ 1 < µ 2 b) H 0 : µ 1 = µ 2 H 1 : µ 1 > µ 2 c) H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 ii) Nivel de significancia α. iii) Z 0 = (X 1 X 2 ) (µ 1 µ 2 ) σ 2 1 n 1 + σ2 2 n 2 = X 1 X 2 σ 2 1 n 1 + σ2 2 n 2 N(0, 1) iv) Región de aceptación y de rechazo:
14 CAPÍTULO 1. PRUEBAS DE HIPÓTESIS v) Si Z 0 R.A./H 0, se acepta H 0. Ejemplo 13 Un diseñador de productos está interesado en reducir el tiempo de secado de una pintura. Se prueban dos fórmulas de pintura; la fórmula 1 tiene el contenido químico estándar, y la fórmula 2 tiene un nuevo ingrediente secante que debe reducir el tiempo de secado. De la experiencia se sabe que la desviación estándar del tiempo de secado es 8 minutos, y esta variabilidad inherente no debe verse afectada por la adición del nuevo ingrediente. Se pintan 10 especímenes con la fórmula 1, y otros 10 con la fórmula 2. Los dos tiempos promedio de secado muestrales son X 1 = 121 y X 2 = 112, respectivamente. A que conclusiones puede llegar el diseñador del producto sobre la eficacia del nuevo ingrediente, utilizando α = 0, 05? 1.7. Dócima de hipótesis sobre las medias de dos poblaciones normales independientes, varianzas desconocidas i) Hipótesis: a) H 0 : µ 1 = µ 2 H 1 : µ 1 < µ 2 b) H 0 : µ 1 = µ 2 H 1 : µ 1 > µ 2 c) H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 ii) Nivel de significancia α. iii) CASO 1: σ 2 1 = σ 2 2 = σ 2 t 0 = X 1 X 2 ( (n 1 1)S 2 1 +(n 2 1)S 2 2 n 1 +n 2 2 ) t (n1+n2 2) 1 n 1 + 1 n 2 CASO 2: σ 2 1 σ 2 2 t 0 = X 1 X 2 t (v), donde v = S1 2 n 1 + S2 2 n 2 ( S 2 1 n 1 + S2 2 n 2 ) 2 ( S 2 1 n 1 ) 2 n 1 +1 + ( S 2 2 n 2 ) 2 n 2 +1 2
1.8. PRUEBA DE HIPÓTESIS SOBRE DOS PROPORCIONES 15 iv) Región de aceptación y de rechazo: v) Si t 0 R.A./H 0, se acepta H 0. Ejemplo 14 Un fabricante de monitores prueba dos diseños de microcircuito para determinar si producen un flujo de corriente equivalente. El departamento de ingeniería ha obtenido los datos siguientes: Diseño 1: n 1 = 15 X 1 = 24, 2 S1 2 = 10 Diseño 2: n 2 = 10 X 2 = 23, 9 S2 2 = 20 Con α = 0, 10, determinar si existe alguna diferencia significativa en el flujo de corriente promedio entre los dos diseños, donde se supone que las dos poblaciones son normales, pero no es posible suponer que las varianzas desconocidas σ1 2 y σ2 2 sean iguales. 1.8. Prueba de hipótesis sobre dos proporciones i) Hipótesis: a) H 0 : p 1 = p 2 H 1 : p 1 < p 2 b) H 0 : p 1 = p 2 H 1 : p 1 > p 2 c) H 0 : p 1 = p 2 H 1 : p 1 p 2 ii) Nivel de significancia α. iii) Z 0 = p 1 p 2 ( ) 1 p q n 1 + 1 n 2 N(0, 1), donde p = X 1 + X 2 n 1 + n 2 y q = 1 p iv) Región de aceptación y de rechazo:
16 CAPÍTULO 1. PRUEBAS DE HIPÓTESIS v) Si Z 0 R.A./H 0, se acepta H 0. Ejemplo 15 Se evalúan dos tipos diferentes de soluciones para pulir, para su posible uso en una operación de pulido en la fabricación de lentes intraoculares utilizados en el ojo humano después de una cirugía de cataratas. Se pulen 300 lentes con la primera solución y, de éstos, 253 no presentaron defectos inducidos por el pulido. Después se pulen otros 300 lentes con la segunda solución, de los cuales 196 resultan satisfactorios. Existe alguna razón para creer que las dos soluciones para pulir son diferentes? Utilizar α = 0, 01 Ejemplo 16 Los administradores de los hospitales, en muchos casos, se encargan de obtener y calcular algunas estadísticas que son de suma importancia para los médicos y para los encargados de decidir en el hospital. En los registros del Hospital Regional de Ayacucho se tiene que 80 hombres, de una muestra de 900 hombres, y 51 mujeres, de una muestra de 800 mujeres, ingresaron al hospital por causa de alguna enfermedad venérea. Puede o no considerarse que estos datos presentan evidencia suficiente en el sentido de que existe una mayor tasa de afecciones venéreas en los hombres que ingresan al hospital? NOTA: Si las hipótesis son de la forma: a) H 0 : p 1 p 2 = p 0 H 1 : p 1 p 2 < p 0 b) H 0 : p 1 p 2 = p 0 H 1 : p 1 p 2 > p 0 c) H 0 : p 1 p 2 = p 0 H 1 : p 1 p 2 p 0 la función pivotal es: Z 0 = ( p 1 p 2 ) p 0 p1 q 1 + p 2 q 2 n 1 n 2 1.9. Prueba para la igualdad de dos varianzas Supongamos que se tiene interés en dos poblaciones normales independientes, donde las medias y varianzas de la población, µ 1, σ 2 1, µ 2 y σ 2 2, son desconocidas. Se desea probar
1.9. PRUEBA PARA LA IGUALDAD DE DOS VARIANZAS 17 la hipótesis sobre la igualdad de las dos varianzas. Supongamos que para ello se tienen disponibles dos muestras aleatorias; una de tamaño n 1 tomada de la población 1, y la otra de tamaño n 2 proveniente de la población 2, y sean S1 2 y S2 2 las varianzas muestrales. i) Hipótesis: a) H 0 : σ 2 1 = σ 2 2 H 1 : σ 2 1 > σ 2 2 ( σ 2 1 σ 2 2 ( σ 2 1 σ 2 2 ) = 1 ) > 1 b) H 0 : σ 2 1 = σ 2 2 H 1 : σ 2 1 σ 2 2 ( σ 2 1 σ 2 2 ( σ 2 1 σ 2 2 ) = 1 ) 1 ii) Nivel de significancia: α. iii) F 0 = S2 1 S 2 2 F (n1 1,n 2 1) iv) Región de aceptación y de rechazo: v) Si F 0 R.A./H 0, se acepta H 0. NOTA: Como las etiquetas asignadas a las poblaciones son arbitrarias, hagamos que σ1 2 sea la varianza de la población que se propone como la mayor. Ejemplo 17 Dos compañías de compuestos químicos pueden surtir materia prima. La concentración de un elemento en particular en este material es importante. La concentración promedio de ambos proveedores es la misma, pero se sospecha que la variabilidad en la concentración puede diferir entre las dos compañías. La desviación estándar de la concentración en una m.a. de 15 lotes producidos por la compañía 1 es 4,7gr/l, mientras que para la compañía 2, una m.a. de 20 lotes proporciona una desviación estándar de 5,8gr/l. Existe evidencia suficiente para concluir que las varianzas de las dos poblaciones son diferentes? Usar α = 0, 05.