CONTRASTE DE HIPÓTESIS Antonio Morillas A. Morillas: Contraste de hipótesis 1
CONTRASTE DE HIPÓTESIS 1. Introducción 2. Conceptos básicos 3. Región crítica óptima i. Teorema de Neyman-Pearson ii. Región uniformemente más potente iii. Test de la razón de verosimilitudes A. Morillas: Contraste de hipótesis 2
INTRODUCCIÓN-1 Inferencia estadística: Estimación valor numérico (punto o intervalo) Contraste de hipótesis elección entre dos teorías (hipótesis) en conflicto DECISIÓN La verificación o contraste de hipótesis usa la teoría de la probabilidad (riesgo) en este proceso de decisión, ligado a experimentos con resultados dicotómicos. A. Morillas: Contraste de hipótesis 3
INTRODUCCIÓN-2 Cada una de las dos posibles alternativas del experimento se llama HIPÓTESIS: La que se considera correcta, hasta que no se demuestre lo contrario, se llama HIPÓTESIS NULA (H 0 ). La que está en competencia con ella se llama HIPÓTESIS ALTERNATIVA (H 1 ). A. Morillas: Contraste de hipótesis 4
EJEMPLO-1 PROBLEMA: Decisión acerca de ampliar una centralita de teléfonos en una empresa ENTORNO DE LA DECISIÓN: Capacidad actual de recepción: 3 llamadas por minuto Confrontación de hipótesis: H 0 : Recibe media de 3 llamadas por minuto (µ=3) HIPÓTESIS NULA H 1 : Media de más de 3 llamadas por minuto (µ>3) HIPÓTESIS ALTERNATIVA A. Morillas: Contraste de hipótesis 5
EJEMPLO-1 Información para la toma de la decisión: muestra representativa (n) Aplicar algún criterio de decisión, en función de la discrepancia entre lo observado y lo propuesto como hipótesis nula (p. ej. x > 4,5 Rechazar H 0 ) SOLUCIÓN: Elegir entre H 0 y H 1, en un ambiente de incertidumbre:» Probabilidad Riesgo Coste A. Morillas: Contraste de hipótesis 6
INTRODUCCIÓN-3 RESUMEN En un contraste de hipótesis hay 4 cuestiones importantes: Dos, de procedimiento (se dan por asumidas): Formulación correcta de las hipótesis Muestra representativa y de tamaño adecuado Otras dos, cruciales, que hay que desarrollar teóricamente: Definir la regla o criterio de decisión Estudiar cuando un test es mejor que otro (test óptimo) y encontrar el procedimiento para llevarlo a cabo. A. Morillas: Contraste de hipótesis 7
CONCEPTOS BÁSICOS-1 Hipótesis estadística: enunciado sobre alguna característica de una variable aleatoria ( X ): Paramétrica: sobre algún parámetro de X. Se conoce la forma de f(x) Ejemplo: la media de una distribución exponencial es 3 No paramétrica: sobre supuestos teóricos o sobre el modelo de f(x) Ejemplo: la muestra obtenida es aleatoria y/o procede de una normal A. Morillas: Contraste de hipótesis 8
CONCEPTOS BÁSICOS-2 Tipos de hipótesis: Simple: H 0 : θ = θ 0 (valor singular) f(x;θ) queda especificada. Compuesta: H 0 : θ > θ 0 (unilateral derecha) f(x) no especificada H 0 : θ < θ 0 (unilateral izquierda) f(x) no especificada H 0 : θ θ 0 (bilateral) f(x) no especificada A. Morillas: Contraste de hipótesis 9
fx () CONCEPTOS BÁSICOS-3 H 0 : µ=3 H 0 : µ>3 H 0 : µ<3 µ<3 3 µ>3 x Nµ (,1) En general: H 0 : θ ω 0 ω 0 ω 1 H 1 : θ ω 1 ω 0 ω 1 = ω espacio paramétrico = una de las dos es cierta A. Morillas: Contraste de hipótesis 10
CONCEPTOS BÁSICOS-4 Test, contraste o verificación: Es la regla o criterio de decisión: Nos permite decir cuál de las dos hipótesis es más acertada. Se basa en dos cuestiones: El valor que toma un estadístico muestral ( para µ, por ejemplo) La definición de una región crítica x A. Morillas: Contraste de hipótesis 11
CONCEPTOS BÁSICOS-5 Región crítica: Subconjunto de valores muestrales ( C ), tal que: Si el observado en la muestra pertenece a C (x 1, x 2,..., x n ) C H 0 falsa A. Morillas: Contraste de hipótesis 12
CONCEPTOS BÁSICOS-6 Ejemplo centralita: Distribución teórica de valores muestrales y región crítica Discrepancia razonable x obs H 0 es falsa ----------- ------------------------------------- ----------------- H 0 : µ=3 Reg. Aceptación Región crítica (C) x > 4,5 x A. Morillas: Contraste de hipótesis 13
CONCEPTOS BÁSICOS-7 Tipos de error: decisión cierta o errónea Tabla de decisión H 0 CIERTA H 0 FALSA RECHAZAR H 0 Error Tipo I Decisión correcta ACEPTAR H 0 Decisión correcta Error Tipo II A. Morillas: Contraste de hipótesis 14
CONCEPTOS BÁSICOS-8 Tamaño del error: riesgo asumido, valorado en términos de probabilidad Probabilidades asociadas H 0 CIERTA H 0 FALSA RECHAZAR H 0 α 1-β ACEPTAR H 0 1-α β A. Morillas: Contraste de hipótesis 15
CONCEPTOS BÁSICOS-9 Probabilidad del error de Tipo I y de Tipo II: a) H 0 : θ = θ 0 H 1 : θ = θ 1 Contraste hipótesis simples α = P(rechazar H 0 /H 0 ) nivel de significación β = P(aceptar H 0 /H 1 ) tamaño error Tipo II Probabilidades complementarias: 1-α = P(aceptar H 0 /H 0 ) nivel de confianza 1-β = P(rechazar H 0 /H 1 ) potencia del contraste A. Morillas: Contraste de hipótesis 16
f() x H 0 : µ = 3 H 1 : µ = 5 α y β α = P(Rechazar H 0 / H 0 ) β = P(Aceptar H H 0 / H 1 ) 0 H 1 f() x β α 3 d c =1,5 4,5 5 x H 0 H 1 α β 3 3,5 5 A. Morillas: Contraste de hipótesis 17 x
f() x f() x σ σ H 0 : µ = 3 H 1 : µ = 5 n 1 2 2 x = σ H 0 : µ = 3 H 1 : µ = 5 n 2 > n 1 2 2 x = σ / / n n 1 2 α, β y n H 0 H 1 β 3 5 3 x c 5 A. Morillas: Contraste de hipótesis 18 α H 0 H 1 β x c α α = P(Rechazar H 0 / H 0 ) β = P(Aceptar H 0 / H 1 ) α < α β < β x x
CONCEPTOS BÁSICOS-10 Función de potencia y función característica: b) H 0 : θ ω 0 H 1 : θ ω Contraste hipótesis compuestas 1 α =max P(rechazar H 0 /H 0 )= maxα(θ) tamaño error Tipo I θ ω 0 β =max P(aceptar H 0 /H 1 )=max β (θ) tamaño error Tipo II θ ω 1 θ ω 1 θ ω 0 π(θ)=1-β(θ)= P(rechazar H 0 / H 1 ) función de potencia Si θ ω 0 π(θ) = α(θ) β(θ)= P(aceptar H 0 / H 1 ) función característica A. Morillas: Contraste de hipótesis 19
CÓMO CONTRASTAR UNA HIPÓTESIS f(d) Distribución de d cuando H 0 es cierta 1. Se fija α α 0 2. Se obtiene d c según α 0 Aceptación (d d c ) Rechazo (d > d c ) R.C. α = α 0 = P(d> d c / H 0 ) H 0 ˆd 3 d c Evidencia muestras ˆd 1 ˆd 2 d Medida de discrepancia (estadístico) Discrepancia grande Probabilidad pequeña de salir (α =0,05 ; α =0,01) A. Morillas: Contraste de hipótesis 20
CRÍTICAS A LA FIJACIÓN DEL NIVEL DE SIGNIFICACIÓN (α) El resultado del test depende de α (arbitrario) Rechazar, sin más, no permite diferenciar distintos grados de evidencia con que se rechaza una hipótesis (muestras 1 y 2 en figura anterior) Cuando se rechaza el valor de un parámetro, hay que distinguir entre significación estadística y práctica con n grande se puede rechazar una hipótesis con una discrepancia muy pequeña dar intervalo estimación (función de n). A. Morillas: Contraste de hipótesis 21
SOLUCIÓN A ESTAS CRÍTICAS (DOS PRIMERAS) Dar el nivel crítico del test (p-level o p-value): p = P( d > dˆ / H cierta) A menor p, menor credibilidad de H 0 Rechazarla 0 p=0,35 p=0,001 p=0,10 ˆd Aceptar α=0,25 Rechazar ˆd α= 0,01 α= 0,25. Opinión. Consecuencias. Evidencia A. Morillas: Contraste de hipótesis 22? ˆd α= 0,01
REGIÓN CRÍTICA ÓPTIMA Vamos a ver: Su definición: lema de Neyman-Pearson Procedimientos para obtenerla: H 0 y H 1 simples Neyman-Pearson H 0 simple y H 1 unilateral Tests uniformemente más potentes (Neyman-Pearson) Caso general Test de la razón de verosimilitudes A. Morillas: Contraste de hipótesis 23
LEMA DE NEYMAN-PEARSON H 0 y H 1 simples: H 0 : θ = θ 0 H 1 : θ = θ 1 Diremos que C es una REGIÓN CRÍTICA ÓPTIMA de tamaño α, si para cualquier otro subconjunto A del espacio muestral de igual tamaño, P[(X1, X2,...,Xn) A /H 0 ] = α, 1. P[(X 1, X 2,...,X n ) C /H 0 ] = α 2. P[(X 1, X 2,...,X n ) C /H 1 ] P[(X 1, X 2,...,X n ) A /H 1 ] Es decir, para dos RC con igual α, será óptima la que haga que el test tenga mayor potencia (menor β): π C π A β C β A A. Morillas: Contraste de hipótesis 24
PROCEDIMIENTO DE NEYMAN-PEARSON H 0 y H 1, simples. Sean: 1. C un subconjunto del espacio muestral 2. k una constante positiva 3. L 0 y L 1 las funciones de verosimilitud de una muestra de tamaño n, bajo la hipótesis nula y alternativa respectivamente. C será la mejor región crítica de tamaño α, si se cumple que: 1. L 0 /L 1 k, para valores muestrales pertenecientes a C 2. L 0 /L 1 k, para valores muestrales NO pertenecientes a C 3. P[(X 1, X 2,...,X n ) C /H 0 ] = α A. Morillas: Contraste de hipótesis 25
CÁLCULOS EN NEYMAN-PEARSON 1. Se obtiene el cociente de verosimilitudes bajo H 0 y H 1 : (L 0 /L 1 ) = [L(X 1, X 2,...,X n ; θ 0 ) / L(X 1, X 2,...,X n ; θ 1 ) 2. Al cociente obtenido se le impone la primera condición y se busca el estadístico muestral resultante y su distribución, pasando todas las constantes a la derecha de la desigualdad: (L 0 /L 1 ) = ϕ 1 (X 1, X 2,...,X n ; θ 0, θ 1 ) k 1 3. La función ϕ 1 es el estadístico de prueba. El punto crítico del test (k 1 ), lo da el tamaño de la región crítica (α): P[ϕ 1 (X 1, X 2,...,X n ; θ 0, θ 1 ) k 1 /H 0 ] = α, RC a izquierda P[ϕ 1 (X 1, X 2,...,X n ; θ 0, θ 1 ) k 1 /H 0 ] = α, RC a derecha A. Morillas: Contraste de hipótesis 26
REGIÓN UNIFORMEMENTE MÁS POTENTE-1 Ejercicio previo Sea X ~ N(µ, σ). Obtener la RCO para contrastar H 0 : µ= µ 0 frente a H 1 : µ= µ 1, con un α = 0,05 y muestra de tamaño n. Solución Si µ 1 > µ 0 Si µ 1 < µ 0 x x > k 1 cola derecha < k 1 cola izquierda Si µ 1 µ 0 No hay una RCO única con Neyman-Pearson k 1 = µ 0 ± Z 1-α (σ/ n) Discrepancia máxima permitida (significación práctica α, σ y n ) Según cola A. Morillas: Contraste de hipótesis 27
REGIÓN UNIFORMEMENTE MÁS POTENTE-2 H 0 simple, H 1 compuesta unilateral: Hemos visto en el ejemplo anterior como se podía generalizar la solución para cualquier valor singular en H 1 y como existía una RCO para los casos en que el contraste se conciba con las hipótesis unilaterales H 1 : θ > θ 0 (θ = θ 1, θ 1 > θ 0 ) o H 1 : θ < θ 0 (θ = θ 1, θ 1 < θ 0 ), pero que no estaba definida para contrastes bilaterales del tipo H 0 : θ θ 0. El procedimiento de Neyman-Pearson está concebido para hipótesis simples. Pero, para hipótesis compuestas unilaterales, podemos considerar que contrastamos H 0 contra todas y cada una de las hipótesis simples contenidas en H 1. A. Morillas: Contraste de hipótesis 28
REGIÓN UNIFORMEMENTE MÁS POTENTE-3 Como se ha visto en el ejemplo, para θ > θ 0 la RCO estaría formada por la cola derecha y si θ < θ 0, por la de la izquierda. Esta región se llama REGIÓN CRÍTICA UNIFORMEMENTE MÁS POTENTE, porque es la región crítica óptima para contrastar H 0 frente a todas y cada una de las hipótesis simples contenidas en H 1. Al contraste asociado se le llama TEST UNIFORMEMENTE MÁS POTENTE. A. Morillas: Contraste de hipótesis 29
TEST DE LA RAZÓN DE VEROSIMILITUDES H 0 y H 1 compuestas (generalmente, H 0 simple y H 1 bilateral) 1. Es un procedimiento general 2. Coincide con Neyman-Pearson en el caso de hipótesis simples 3. No garantiza la obtención de tests óptimos 4. Tiene buenas propiedades en muestras grandes 5. Se basa en el cociente entre dos razones de verosimilitud: 1. L(ω 0 ), correspondiente a la hipótesis nula 2. L (ω), correspondiente a todo el espacio paramétrico A. Morillas: Contraste de hipótesis 30
fx () LA LÓGICA DEL TEST DE LA R.V. H 0 : µ 3 H 1 : µ>3 n = 5 ω 0 3 ω 1 x L(ω 0 )/L (ω) 1, cuanto más creíble sea H 0 L(ω 0 )/L (ω) 0, cuanto menos creíble sea H 0 Pero los parámetros no están especificados ni en H 0 ni en H 1, como en N-P, por lo que no es posible obtener un estadístico a partir de este cociente, ni calcular probabilidades. A. Morillas: Contraste de hipótesis 31
EL ESTADÍSTICO DEL TEST DE LA R.V. Para construir un estadístico sustituiremos los parámetros desconocidos por sus estimadores máximo verosímiles: max L( ω ) L( ˆ ω ) θ ω 0 λ(x,x,...,x ) = λ = 0 = 0 1 2 n L( ˆ ω) max L( ω) θ ω La probabilidad del numerador siempre será menor o igual que la del denominador, por lo que: 0 λ 1 La distribución de λ puede utilizarse para contrastar la hipótesis, aunque no sea simple. A. Morillas: Contraste de hipótesis 32
REGIÓN CRÍTICA DEL TEST DE LA R.V. Región crítica del test de la razón de verosimilitudes: - λ próxima a uno H 0 es muy verosímil. - λ próxima a cero H 0 es poco verosímil - Por tanto, la RC de tamaño α, estará en la cola izquierda de la distribución de λ: λ λ 0 P(λ λ 0 /H 0 ) = α? λ 0 λ λ observado Rechazar H 0 A. Morillas: Contraste de hipótesis 33
DISTRIBUCIÓN DEL ESTADÍSTICO Fijado α, es preciso conocer la distribución del estadístico λ, cosa que no es siempre fácil. Bajo ciertas condiciones, en el límite, se tiene que: -2 ln λ χ 2 r siendo r el número de parámetros considerados en H 0. En este caso, la RC estará en la cola de la derecha de la Jicuadrado, pues: λ 0 : -2 ln λ y λ 1 : -2 ln λ 0 A. Morillas: Contraste de hipótesis 34
QUÉ HEMOS APRENDIDO EN LA LECCIÓN 1ª? Contraste de hipótesis Decisión entre dos propuestas alternativas (H 0 y H 1 ) basada en una regla de decisión o test y en la información suministrada por una muestra A. Morillas: Contraste de hipótesis 35
CÓMO HEMOS DE PROCEDER, EN RESUMEN? 1. Establecer H 0 y H 1 2. Construir la regla de decisión: Obtener la medida de discrepancia (ESTADÍSTICO DE PRUEBA) y su distribución de probabilidad Localizar la REGIÓN CRÍTICA ÓPTIMA: H 0 simple H 1 > H 0 cola de la derecha H 1 < H 0 cola de la izquierda Neyman-Pearson Caso general: H 1 H 0 dos colas (Test de la RV) Fijar el NIVEL DE SIGNIFICACIÓN (α) y obtener la discrepancia máxima permitida (significativa) entre H 0 y el valor observado en la muestra (PUNTO CRÍTICO DEL TEST) 3. Decidir basándonos en la MUESTRA (valor observado del estadístico) A. Morillas: Contraste de hipótesis 36