PLAN DE TRABAJO 9 Período 3/09/07 al 28/09/07

PLAN DE TRABAJO 9 Período 3/09/07 al 28/09/07 TEMAS A ESTUDIAR En esta guía nos dedicaremos a estudiar el tema de Estimación por intervalo y comenzaremos a estudiar las pruebas de hipótesis paramétricas. Para ello deberás terminar de leer el Cap. 9 y comenzar con el capítulo 10 del Novales. Deberás comprender los conceptos de intervalo aleatorio e intervalo de confianza. Posteriormente, te dedicarás al estudio de la estimación por intervalo de distintos parámetros poblacionales: media, varianza y proporción. Concretamente es importante que conozcas los siguientes casos: Estimación de la media en población normal con varianza conocida. Estimación de la media en población normal con varianza desconocida. Estimación de la media en una muestra cualquiera. Estimación de proporción. Estimación de varianza en población normal con media conocida. Estimación de varianza en población normal con media desconocida. Estimación de diferencia de medias. Estimación de diferencia de proporciones. Estimación de diferencia de varianzas. Luego de leído el teórico intenta resolver los ejercicios 1, 2, 3, 4, 8 10, 11 y 13 de la Práctica 11. Los ejercicios 10 y 11 son similares puedes optar por uno de los dos. Luego de finalizar con la estimación por intervalos estudiarás los contrastes de hipótesis estadísticas o las pruebas de hipótesis. Para ello deberás leer el capítulo 10 del Novales. Como en todos los planes de trabajo intentaremos definirte prioridades en el estudio del tema, pero en este intentaremos resumirte algunos de los conceptos claves esperando que sea de utilidad para ti. Hasta el momento nuestro objetivo era encontrar una estimación para el parámetro de la población de interés, ahora lo que haremos será formular una hipótesis sobre un valor del parámetro y utilizaremos la información de una muestra aleatoria para confirmar o rechazar la hipótesis planteada. 1

A continuación te presentamos algunas definiciones que te deberás asegurarte de haber comprendido en profundidad: 1) DEF. HIPOTESIS ESTADISTICA : Consiste en realizar una afirmación respecto a alguna característica desconocida de una población de interés. 2) DEF. PRUEBA DE HIPOTESIS ESTADISTICA: Una prueba de hipótesis es considerada cualquier regla para decidir si rechazo la hipótesis estadística realizada con respecto a alguna característica desconocida de la población de interés, (llamada hipótesis nula H0). Esa regla se basa en una sola muestra aleatoria de la población de tamaño n, a partir de la cual se calculará algún estadístico apropiado llamado estadístico de prueba. Deberás comprender el método a utilizar en estas pruebas: a) Planteo del problema b) Definición de las hipótesis estadísticas, hipótesis nula y alternativa. c) Realización del muestreo necesario d) Determinación del estadístico adecuado e) Determinación por parte del investigador del criterio de decisión, en función de los datos muestrales. Antes de obtener la muestra, ya se ha conjeturado que el muestreo se llevará a cabo sobre una distribución con la hipótesis nula cierta. Si la afirmación es estadísticamente posible con evidencia experimental, entonces no existen elementos para rechazar la hipótesis nula (esto no significa que se decida la aceptación de la hipótesis nula). En cambio si la afirmación H0 no tiene apoyo estadístico con evidencia experimental la decisión será rechazar H0. Por lo tanto las posibles decisiones que se pueden tomar con una prueba de hipótesis son: a) No rechazar H0 ------ no quiere decir aceptar H0 b) Rechazar H0 ------------- apoyo probabilísticamente la hipótesis alternativa pero esto no significa que la afirmación sea que H1 sea verdad, solo puedo afirmar que: H0 es improbable y que H1 es probable 2

Estados de la naturaleza--------- hechos reales H0 es V H0 no V DECISIONES Rechazo H0 ERROR 1 CORRECTO No rechazo H0 CORRECTO ERROR 2 3) ERRORES INFERENCIALES: a) ERROR TIPO 1 ----- rechazo H0 cuando H0 es verdadera b) ERROR TIPO 2 ----- no rechazo H0 cuando H0 no es verdadera Las decisiones son excluyentes, por lo que luego de optar por una de ellas no puedo cometer los dos errores simultáneamente. Ex ante si podría cometer ambos, ya veremos más adelante como se consideran los dos errores cuando fijemos el criterio de decisión. Me interesan conocer las probabilidades de los errores: P(error 1) = P(rechazar H0/H0 cierta) = α P(error 2) = P( no rechazar H0/ H0 no es cierta) = β α nivel de significación de la prueba Se define como la máxima probabilidad de error de tipo 1 4) Las hipótesis estadísticas pueden ser simples o compuestas. Generalmente se da que: H0) simple H1) compuesta A su vez las compuestas podrán ser unilaterales o bilaterales: H0) θ = θ0 simple H1) θ > θ0 ó θ < θ0 compuesta unilateral H2) θ θ0 bilateral Sólo si las dos hipótesis, tanto la simple como la compuesta son simples se pueden determinar valores únicos de los tamaños de los errores de tipo 1 y 2. 3

5) DEF. DE REGION CRITICA O REGION DE RECHAZO DE LA PRUEBA: Es un conjunto de resultados muestrales tal que: Si t I (X1, X2,-------,Xn) C rechazo H0 donde t es la realización del estadístico a utilizar para estimar el parámetro poblacional, la realización del estadístico es un real, son operaciones con vectores (X1 X2 ---Xn) traspuesto. El criterio a utilizar para rechazar o no la hipótesis nula es ver si el estadístico evaluado en la muestra pertenece o no al intervalo de los reales en el cual considero que los casos que se pueden observar son raros considerando H0 cierta, y por lo tanto rechazo la hipótesis nula planteada. Si t I ( X1,X2.----Xn) C rechazo H0 Si t I (X1,X2,-----Xn) C no rechazo H0 OBS1: La región crítica son los valores muestrales que hacen pertenecer a la realización del estadístico al intervalo de rechazo de H0, es el dominio de la función por la se obtiene el estadístico: t = f (X1, X2,----Xn) dominio OBS 2: Si se rechaza H0 esto no significa que P(H0 sea correcta) = α Se debe dar una interpretación de P(error 1) similar a la de los intervalos de confianza, daremos una interpretación de frecuencia tomando muchas muestras de igual tamaño. Si la hipótesis nula es cierta y tomo muchas muestras aleatorias de la población de tamaño n fijo; debe esperarse que en un 100α% de las veces se encuentre un valor del estadístico perteneciente al intervalo de la Región Crítica ( I ), y por lo tanto debe rechazarse H0. 6) DEF. FUNCION DE POTENCIA: Dadas las hipótesis nula y alternativa H0 y H1 utilizadas en una prueba reativa al parámetro θ; se llama función de potencia P( θ ) a la función que para cada valor del parámetro da la probabilidad de rechazar H0 P(θ) = P (rechazar H0 / H0) = α P (rechazar H0 / H1) = 1- β(θ) La función de potencia es el error de tipo 1 cuando la hipótesis nula es verdadera y el complemento del error de tipo 2 cuando la hipótesis alternativa es verdadera. (Ver gráfica) 4

La palabra potencia hace refiere a la probabilidad de detectar que H0 es falsa, dado cualquier valor del parámetro. Al valor de la función de potencia en cada punto del espacio paramétrico se le denomina Potencia de la prueba en un punto. Cuándo puede decirse que una prueba es buena? Cuando se minimizen las probabilidades de error de tipo 1 y tipo 2 de la prueba. Esto significa minimizar la potencia de la prueba en H0 y lo más grande posible para los restantes valores de θ H1. En general no se pueden achicar los dos errores a la vez, sino que se mueven en forma inversa: Si achico la Región Crítica disminuye la P (error 1) Si achico la Región Crítica aumenta la P(error2) Existe algún procedimiento para que permita reducir ambas probabilidades de error simultáneamente? La respuesta es afirmativa siempre y cuando tenga posibilidades de agrandar el tamaño de la muestra utilizada para efectuar la prueba de hipótesis. Ahora bien, esto tiene importantes desventajas asociadas; económicas y de disponibilidad de tiempo por ejemplo. El mecanismo con un tamaño de muestra fija n es el siguiente: prefijar el error de tipo 1 en el máximo que se pueda o se quiera aceptar y elegir la Región Crítica Optima de manera de minimizar el error de tipo 2. La pregunta es: existe algún método para determinar regiones críticas que minimizen la P(error 2) o, lo que es lo mismo, que maximizen la función de potencia cuando H1 es cierta? 7) DEF. REGION CRITICA OPTIMA ( RCO ) PARA UN NIVEL DE SIGNIFICACION DADO α Dadas dos hipótesis simples con respecto a un parámetro θ: H0) θ = θ0 H1) θ = θ1 Se define a la Región Crítica Optima a la Región Crítica que tiene la máxima potencia para θ = θ1 de todas las Regiones Críticas con la misma potencia ( α ) para θ = θ0. Es la RC que dentro del conjunto de las RC de una prueba encontradas con el mismo nivel de significación α, minimizan la P ( error 2 ) 5

TEOREMA DE NEYMANN PEARSON Este teorema nos permite responder a la interrogante planteada anteriormente. Es un método que nos proporcionará las RCO de las pruebas que utilizen dos hipótesis simples referentes a un parámetro poblacional de interés, para un nivel de significación dado.. TEOREMA: H) Sea X: X f (x, θ ) (X1,X2,----Xn) es una MAS proveniente de X El problema consiste en probar: H0) θ = θ0 contra H1) θ = θ1 para un nivel de significación αdado. Si existe una Región Crítica C de tamaño α y una constante positiva k tal que: L0 (X1,X2,------Xn; θ0) / L1 (X1,X2,----Xn;θ1) k L0 (X1,X2,------Xn; θ0) / L1 (X1,X2,----Xn;θ1) k si k C si k C T) C es la mejor Región Critica de nivel de significación α para probar H0) θ = θ0 contra H1) θ = θ1 en donde L0 y L1 son las funciones de verosimilitudes relativas a H0 y H1. Esto significa que la potencia de la RCO encontrada por este método es máxima. OBSERVACIONES: a) La constante k > 0 se determina con la P ( T > k / θ0 ) = α. Por lo tanto es necesario conocer la distribución en el muestreo de T cuando θ = θ0 b) El teorema en ningún momento afirma que exista una RCO ni que esta sea única. La existencia de la RCO queda supeditada a la existencia del k > 0. En general no puede afirmarse la unicidad de la RCO. c) El teorema sirve para casos en que H1 no es una hipótesis simple. d) Pueden existir otros parámetros en la distribución de la variable aleatoria X 6

8) DEF REGION CRITICA UNIFORMEMENTE MAS POTENTE C es una RCUMP de nivel de significación α para probar la H0) θ = θ1 simple contra la alternativa H1 compuesta θ > θ1 ó θ < θ1 C es una RCO probar H0 contra cada hipótesis θ1 simple H1 compuesta 9) DEFINICION DEL P-VALUE En un análisis estadístico de los datos X, uno frecuentemente trabaja, con un modelo o hipótesis dada H 0 f(x) es una densidad continua. Se elige un estadístico T (X) para investigar la compatibilidad del modelo con los datos observados x obs, valores grandes de T indican menos compatibilidad con Ho. El p valor es entonces definido como: P ( T(x) t(obs) ) Definición: el P- valor es la probabilidad (bajo Ho cierta) de que el estadístico sea mayor que la realización del estadístico obtenido en la prueba. O sea es la probabilidad de que el estadístico a utilizar supere al valor del estadístico que obtuve con la muestra utilizada. Los p valor son la herramienta más comúnmente utilizada para medir la evidencia en contra de una hipótesis o modelos con hipótesis. Ejemplo de una prueba de hipótesis acerca de la media de una distribución. Ho) µ = µ o con µ 1 > µ o H1) µ = µ 1 Esta es una prueba de hipótesis donde la región crítica es a rama derecha..f ( X ) p- valor k x obs El nivel de significación de la prueba se calcula como la P{ X > k}. Es el área bajo la función de densidad de la media muestral a partir del valor crítico k. 7

El p- value es el área bajo la misma curva pero a partir de la realización del estadístico, en este caso x obs. Posibles valores del P-value: Por ser una probabilidad está entre 0 y 1. Si el p- value es igual al nivel de significación, entonces el valor del estadístico obtenido en la muestra es igual al nivel crítico de la prueba. O sea P { T > k } = α bajo Ho cierta. Si el p-value es menor que el nivel de significación de la prueba significa que el valor del estadístico obtenido en la prueba es mayor que el valor crítico k y por lo tanto la decisión sería rechazar Ho. Si el p- value es mayor que α, significa que la realización del estadístico es menor que el valor crítico k, por lo tanto la decisión a tomar es no rechazar Ho. Si P-value < α rechazo Ho Si P- value > α no rechazo Ho 8

A continuación te presentamos el cronograma para que puedas planificar el uso de tu tiempo: Tema Setiembre 3 4 5 6 7 10 11 12 13 14 17 18 19 20 21 Estimación por intervalo. Cap. 9 Ejercicios de estimación por intervalo Lectura del capítulo 10.1 del Novales Ejercicio 1 de la práctica 12 Lectura de los capítulos 10.2 a 10.4 del Novales Ejercicios 2, 4, 5,7 y 8 Lectura de los capítulos 10.5 a 10.11 del Novales Ejercicios 6, 15 y 17 Para el sector económico se recomiendan resolver además los ejercicios 18, 19 y 23. Te dejamos una semana de tu tiempo para que administres como quieras y tengas tiempo para repasar para el control. 9