Págia 1 de 13 CAPÍTULO 7: INFERENCIA PARA PROPORCIONES Y MEDIAS E este capítulo etraremos al fial del ciclo del método cietífico, usado la iformació de la muestra para geeralizar y llegar a coclusioes acerca de la població de iterés. Recordemos alguas defiicioes: Parámetro es ua medida de resume umérica que se calcularía usado todas las uidades de la població. Es u úmero fijo. Geeralmete o lo coocemos. Estadística es ua medida de resume umérica que se calcula de las uidades de la muestra. El valor de la estadística se cooce cuado tomamos ua muestra, pero varia de muestra e muestra variació muestral. Iferecia estadística: es el proceso de sacar coclusioes acerca de la població basados e la iformació de ua muestra de esa població. Objetivos de la iferecia: estimació de parámetros, itervalos de cofiaza y docimasia, prueba o test de hipótesis (o prueba de sigificació estadística). La estimació de parámetros cosiste e el cálculo de estadísticas e muestras, co el fi de obteer iformació sobre el valor de los parámetros de la població. Esta iducció se basa e la teoría de probabilidades y sólo es posible cuado se cooce la coducta o "distribució muestral" de las estadísticas. La docimasia de hipótesis cosiste e coocer la probabilidad de ocurrecia, bajo la hipótesis ula, del resultado obteido e la ivestigació, basádose e la distribució muestral de la estadística utilizada para medir tal resultado. Iferecia Simple para Proporcioes Tomado decisioes acerca de la proporció de ua població Primero revisemos el caso dode lo que os iteresa es ivestigar sobre ua proporció de ua població. Ejemplo Embarazo adolescete E el año 2, el 16% de las embarazadas era e adolescetes meores de 2 años de edad, Habrá aumetado esta cifra? Escriba las hipótesis ula y alterativa que usaría para probar la aseveració aterior. Las hipótesis debe ser expresadas e térmios del parámetro P, la proporció de iterés e la població. H versus H : Hipótesis: : 1 Acá, uestro parámetro de iterés es el porcetaje de embarazadas que so adolescetes meores de 2 años, es decir, P.16.
Págia 2 de 13 Para resolver, se cosidera ua muestra de 74 partos ocurridos e el Hospital de Talca, dode 132 de ellos correspode a embarazadas que so Adolescetes meores de 2 años de edad. Co la iformació aterior, es posible determiar el porcetaje observado e la muestra de los embarazos que correspode a Adolescetes meores de 2 años de edad, siedo 132 p ˆ,1875. 74 Para la obteció del valor-p, se requiere coocer la distribució probabilística de la proporció muestral pˆ: Distribució muestral de pˆ, la proporció muestral Si P represeta la proporció de elemetos e ua població co algua característica. Tomamos ua muestra aleatoria simple de tamaño de esa població y si es suficietemete grade (cuado P 5 y (1 P) 5), etoces la distribució de la proporció muestral pˆ es aproximadamete ormal: P(1 - P) pˆ~& N P, etoces la proporció muestral estadarizada es: pˆ - P Z ~& N(,1) P( 1 P) Test Z para ua proporció e la població Al docimar ua hipótesis acerca del parámetro e la població P, la hipótesis ula es H : P p, dode p es u valor hipotético de P. Supuestos: Se recomieda usar este test cuado los datos proviee de ua muestra aleatoria de tamaño, dode satisface que p (1 ) es mayor o igual a 5. y p Nuestra decisió acerca del parámetro P estará basada e el valor de la proporció muestral estadarizada, la cual es: pˆ p Z obs p (1 p ) Este score o putaje z es el test estadístico, y su distribució bajo H es aproximadamete N (,1 ). Notar que el test estadístico o depede de la hipótesis alterativa. Calculamos el valor-p del test, el cual depede de la direcció de la hipótesis alterativa:
Págia 3 de 13 Test Uilateral, cola superior Si H 1 : P > p, etoces el valor-p es P Z > z ) es el ( obs área a la derecha del test estadístico observado bajo H. N(,1) Test Uilateral, cola iferior Si H 1 : P < p, etoces el valor-p es P Z < z ) es el ( obs área a la izquierda del test estadístico observado bajo H. N(,1) Test Bilateral Si H 1 : P p, etoces el valor-p es P ( Z > z ) el 2 obs área afuera de las dos colas del test estadístico observado bajo H. N(,1) 2 2 Z OBS Z Z OBS Z -Z Z OBS +Z OBS Decisió: Si el valor-p es meor o igual al ivel de sigificació rechazamos H. E uestro ejemplo: Hipótesis: H H 1 : P,16 : P>,16 El Test Estadístico Observado está dado por: Z obs pˆ p p (1 p ),1875,16,16(1,16 ) 74 1,99 La direcció del extremo es hacia el lado derecho, luego el valor-p: Valor p P [ Z> 1,99] 1 P[ Z 1,99] 1,9767, 233 Decisió: El valor-p resultó ser del 2,33%, cuyo valor es meor al ivel de sigificació del 5%, luego, existe evidecia para rechazar la H. Coclusió: Por lo aterior, se cocluye que ha aumetado el porcetaje de embarazadas que so Adolescetes meores de 2 años de edad.
Págia 4 de 13 Iferecia Simple para Medias Tomado decisioes acerca de la media de ua població Ahora veremos el caso dode lo que os iteresa es ivestigar sobre la media de ua població. Ejemplo Moóxido de Carboo La Comisió Federal de Comercio (Federal Trade Commissio http://www.ftc.gov/bcp/meu-tobac.htm) de Estados Uidos clasifica aualmete las variedades de cigarrillos segú su coteido de alquitrá, icotia y moóxido de carboo. Se sabe que estas tres sustacias so peligrosas para la salud de los fumadores. Estudios ateriores ha revelado que los icremetos e el coteido de alquitrá y icotia de u cigarrillo va acompañados por u icremeto e el moóxido de carboo emitido e el humo de cigarrillo. Sea µ media de moóxido de carboo e la població de todos los paquetes de cigarrillos. E el pasado esa media ha sido 15 mg, co ua desviació estádar de 4,8 mg y queremos saber si la media actual µ es meor que la media atigua de 15 mg. Escriba las hipótesis ula y alterativa que usaría para probar la aseveració aterior. Las hipótesis debe ser expresadas e térmios del parámetro µ, la media de la població de iterés. Hipótesis: H : versus H 1 : Acá, uestro parámetro de iterés es la media de moóxido de carboo e la població de todos los paquetes de cigarrillos. Para resolver, se requiere ua muestra, la cual se describe a cotiuació: La base de datos cotiee los datos sobre moóxido de carboo (e miligramos) e ua muestra de 25 marcas de cigarrillos (co filtro). MARCA CO MARCA CO Alpie 13,6 Multifilter 1,2 Beso & Hedges 16,6 Newport Lights 9,5 Bull Dirham 23,5 Now 1,5 Camel Lights 1,2 Old Gold 18,5 Carlto 5,4 Pall Mall Lights 12,6 Chesterfield 15, Raleigh 17,5 Golde Lights 9, Salem Ultra 4,9 Ket 12,3 Tareyto 15,9 Kool 16,3 True 8,5 L&M 15,4 Viceroy Rich Lights 1,6 Lark Lights 13, Virgiia Slims 13,9 Marlboro 14,4 Wisto Lights 14,9 Merit 1,
Págia 5 de 13 4% 3% Porcetaje 2% 1% 5 1 15 2 25 Moóxido de Carboo (mg) Estadísticos descriptivos N Media Desv. típ. CO 25 12.528 4.7397 N válido (segú lista) 25 Segú la iformació proporcioada, se tiee: 25 x 12,528 s 4,7397 Para la obteció del valor-p, se requiere coocer la distribució probabilística del promedio muestral x : Distribució muestral del x, el promedio muestral Si tomamos ua muestra aleatoria simple de tamaño de ua població co media µ y desviació estádar σ, dode σ es coocida, y......si la població origial distribuye ormal, x σ N µ, x µ σ ~ Z ~ N(,1)...si la població origial o es ecesariamete ormal, pero el tamaño muestral es suficietemete grade, x aprox. N µ, σ x µ σ es (TCL) Z es aprox. N(,1).
Págia 6 de 13 Test Z para la media de ua població co σ coocida Al docimar ua hipótesis acerca de la media poblacioal µ, la hipótesis ula es H µ, dode µ es u valor hipotético de µ. : µ Asumimos que los datos proviee de ua muestra aleatoria de tamaño, de ua població co distribució Normal co desviació estádar σ coocida. El supuesto de ormalidad o es crucial si el tamaño de la muestra es grade. Nuestra decisió acerca de µ estará basada e el valor de la media muestral estadarizada x, la cual es: Z obs x σ Este score o putaje z es el test estadístico y su distribució bajo H es aproximadamete N (, 1 ). Notar que el test estadístico o depede de la hipótesis alterativa Calculamos el valor-p del test, el cual depede de la direcció de la hipótesis alterativa: µ Test Uilateral, cola superior Si H 1 : µ > µ, etoces el valor-p es P Z > z ) es el ( obs área a la derecha del test estadístico observado bajo H. N(,1) Test Uilateral, cola iferior Si H 1 : µ < µ, etoces el valor-p es P Z < z ) es el ( obs área a la izquierda del test estadístico observado bajo H. N(,1) Test Bilateral Si H 1 : µ µ, etoces el valor-p es P ( Z > z ) el 2 obs área afuera de las dos colas del test estadístico observado bajo H. N(,1) 2 2 Z OBS Z Z OBS Z -Z Z OBS +Z OBS Decisió: Si el valor-p es meor o igual al ivel de sigificació se rechaza H. E uestro ejemplo: Hipótesis: H H 1 : µ 15 : µ < 15
Págia 7 de 13 El Test Estadístico Observado está dado por: Z obs x µ σ 12,528 15 4,8 25 2,58 La direcció del extremo es hacia el lado izquierdo, luego el valor-p: Valor p P Z< 2,58, [ ] 49 Decisió: El valor-p resultó ser el,49%, cuyo valor es meor al ivel de sigificació del 5%, luego, existe evidecia para rechazar la H. Coclusió: Por lo aterior, se cocluye que la media actual de moóxido de carboo e la població de todos los paquetes de cigarrillos es iferior a 15 mg. Qué ocurre si σ es descoocida? El cálculo del error estádar del promedio muestral icluye a σ, pero casi uca vamos a coocer la variabilidad e la població e estudio. Cuado se descooce el σ del uiverso, el error estádar del promedio debe calcularse a partir de la desviació estádar de la muestra: s x s E este caso ya o es lícito trabajar co la distribució ormal y la variable ormal estádar, x µ x µ z σ x σ sio que se trabajará co la variable t de Studet: t x µ x µ s s Esta variable t sigue ua distribució t de Studet co (-1) grados de libertad. x
Págia 8 de 13 Propiedades de la distribució t de Studet N(,1) t(15) t(3) Los valores de t depede del úmero de grados de libertad, los que se determia a partir del úmero usado e el deomiador para el cálculo de la desviació estádar (s) es decir (-1). La fució de desidad de la distribució t de Studet tiee forma de campaa simétrica, similar a la distribució ormal N(,1). Es u poco más chata y tiee colas más pesadas que la N(,1). Cuado el tamaño de la muestra aumeta, la distribució t de Studet se aproxima a la N(,1).
Págia 9 de 13 t(df) Areaα Tabla: Percetiles de la distribució t de Studet t α gl t. 6 t. 7 t. 8 t. 9 t. 95 t. 975 t. 99 t. 995 1.325.727 1.376 3.78 6.314 12.76 31.821 63.657 2.289.617 1.61 1.885 2.92 4.33 6.965 9.925 3.277.584.978 1.638 2.353 3.182 4.541 5.841 4.271.569.941 1.533 2.132 2.776 3.747 4.64 5.267.559.92 1.476 2.15 2.571 3.365 4.32 6.265.553.96 1.44 1.943 2.447 3.143 3.657 7.263.549.896 1.415 1.895 2.365 2.998 3.925 8.262.546.889 1.397 1.86 2.36 2.896 3.841 9.261.543.883 1.383 1.833 2.262 2.821 3.64 1.26.542.879 1.372 1.812 2.228 2.764 3.169 11.26.54.876 1.363 1.796 2.21 2.718 3.16 12.259.539.873 1.356 1.782 2.179 2.681 3.55 13.259.538.87 1.35 1.771 2.16 2.65 3.12 14.258.537.868 1.345 1.761 2.145 2.624 2.977 15.258.536.866 1.341 1.753 2.131 2.62 2.947 16.258.535.865 1.337 1.746 2.12 2.583 2.921 17.257.534.863 1.333 1.74 2.11 2.567 2.898 18.257.534.862 1.33 1.734 2.11 2.552 2.878 19.257.533.861 1.328 1.729 2.93 2.539 2.861 2.257.533.86 1.325 1.725 2.86 2.528 2.845 21.257.532.859 1.323 1.721 2.8 2.518 2.831 22.256.532.858 1.321 1.717 2.74 2.58 2.819 23.256.532.858 1.319 1.714 2.69 2.5 2.87 24.256.531.857 1.318 1.711 2.64 2.492 2.797 25.256.531.856 1.316 1.78 2.6 2.485 2.787 26.256.531.856 1.315 1.76 2.56 2.479 2.779 27.256.531.855 1.314 1.73 2.52 2.473 2.771 28.256.53.855 1.313 1.71 2.48 2.467 2.763 29.256.53.854 1.311 1.699 2.45 2.462 2.756 3.256.53.854 1.31 1.697 2.42 2.457 2.75 4.255.529.851 1.33 1.684 2.21 2.423 2.74 6.254.527.848 1.296 1.671 2. 2.39 2.66 12.254.526.845 1.289 1.658 1.98 2.358 2.617.253.524.842 1.282 1.645 1.96 2.326 2.576 gl -t. 4 -t. 3 -t. 2 -t. 1 -t. 5 -t. 25 -t. 1 -t. 5
Págia 1 de 13 Ejemplo Uso de la Tabla t. a) Ecuetre el percetil 99 de la distribució t co 4 gl: t.99 (4): b) Ecuetre el percetil 1 de la distribució t co 3 gl: t.1 (3): c) Ecuetre el percetil 95 de la distribució t co gl: Se observa, por ejemplo, que el percetil 97,5 que e la curva ormal correspode a u valor de z 1,96, e la distribució de t para 24 grados de libertad correspode a u t de 2,64. Para ifiito la distribució t de Studet es igual a la ormal, pero e la práctica cuado el úmero de observacioes es superior a 3, los valores de z y t ya so ta parecidos que se puede utilizar como aproximació, la distribució ormal. Test t simple para la media de ua població co σ descoocida. Estamos iteresados e docimar la hipótesis acerca de la media de ua població µ. La hipótesis ula es H : µ µ dode µ es u valor hipotético para µ. La hipótesis alterativa da la direcció del test. Se asume que los datos proviee de ua muestra aleatoria de tamaño de ua població co distribució Normal co desviació estádar σ descoocida. El supuesto de ormalidad o es crucial si el tamaño de la muestra es grade. Nuestra decisió acerca de µ, será e base al valor del promedio muestral x µ estadarizada x, el cual es t obs s. Este es el test estadístico y su distribució bajo H, es ua distribució t co -1 grados de libertad.
Págia 11 de 13 El valor-p del test, depede de la hipótesis alterativa: Test Uilateral, cola superior Si H 1 : µ > µ, etoces el valor-p es P t > t ) es el ( obs área a la derecha del test estadístico observado bajo H. T t(-1) OBS T Test Uilateral, cola iferior Si H 1 : µ < µ, etoces el valor-p es P t < t ) es el ( obs área a la izquierda del test estadístico observado bajo H. T OBS t(-1) T Test Bilateral Si H 1 : µ µ, etoces el valor-p es P ( t > t ) el área 2 obs afuera de las dos colas del test estadístico observado bajo H. 2 t(-1) 2 -T T OBS +T OBS Decisió: Si el valor-p es meor que el ivel de sigificacia etoces rechazamos H. Revisió de supuestos del test: Este test de hipótesis asume que los datos proviee de ua muestra aleatoria de tamaño de ua població co distribució Normal co desviació estádar descoocida. El supuesto de ormalidad o es crucial si el tamaño de la muestra es grade ( > 3). Si embargo es importate primero describir los datos y verificar presecia de sesgos y valores extremos que pudiera hacer pesar que la distribució de la població o es Normal. Ejemplo Datos del mar Laegelmavesi, Filadia * Se tiee ua muestra de peces que fuero pescados e el mar Laegelmavesi de Filadia (http://www.amstat.org/publicatios/jse/datasets/fishcatch.txt). Se está ivestigado el peso de los peces e kilos. Se quiere docimar la hipótesis de que el peso es meor que 16 kilos. µ peso medio de los percas (perch) e la població e kilos. Estadísticos para ua muestra peso N Desviació Error típ. de Media típ. la media 56 15.839 1.3618.182 * Fuete: Brofeldt, Pekka: Bidrag till keedom o fiskbestodet i vaera sjoear. Laegelmavesi. T.H.Jaervi: Filads Fiskeriet Bad 4, Meddelade utgiva av fiskerifoereige i Filad. Helsigfors 1917
Págia 12 de 13 Test estadístico observado: x µ t obs s 15,839 16 1,3618 56,885 -,885 os dice que la media muestral esta a,885 errores estádar debajo de la media hipotética de 16. Usado la Tabla t: Ya que el test t observado de -,885 cae etre el percetil 1 y el 2, e la distribució t co 4 grados de libertad, el valor-p estará etre,1 y,2.,1< valor p <,2 t ( 5 5 ) t ( 4 ) Valor-p - 1. 3 3 -. 8 8 5 -. 8 5 1 t. 1 T O B S t. 2 E SPSS Comparar Medias > Prueba T para ua muestra > Valor de Prueba (16). Prueba para ua muestra peso Valor de prueba 16 95% Itervalo de cofiaza para la Diferecia diferecia t gl Sig. (bilateral) de medias Iferior Superior -.883 55.381 -.167 -.525.24 t-,883 y 55 grados de libertad, para el test uilateral de cola iferior se obtiee u valor-p de,195 (,381/2). Por lo tato co u ivel de sigificacia del 5% o podemos rechazar H. Así, parece que el peso medio de las percas e este mar, o es sigificativamete meor que 16 kilos.
Págia 13 de 13 E resume, podemos otar que los pasos e ua prueba de hipótesis se repite, lo que cambia es el parámetro de iterés: 1. Establecer la hipótesis 2. Defiir el ivel de sigificació 3. Obteer los datos 4. Defiir test estadístico y verificar los supuestos 5. Calcular el test estadístico observado bajo H 6. Calcular el valor p 7. Tomar la decisió co respecto a H 8. Coclusió del ivestigador