ASIGNATURA: ESTADÍSTICA II (Grado ADE,MIM,FBS) TEMA 4: CONTRASTES DE HIPÓTESIS. CONCEPTOS BÁSICOS 4.1. Hipótesis estadística. Tipos de hipótesis 4.2. Región crítica y región de aceptación 4.3. Errores tipo I y tipo II. Función de potencia 4.4. Concepto de p-valor: cálculo e interpretación 4.5. Etapas en la realización de un contraste 1
OBJETIVOS: Al finalizar este tema, el alumno será capaz de: formular la hipótesis nula y la hipótesis alternativa identificar hipótesis simples e hipótesis compuestas obtener el valor crítico de un contraste para un nivel de significación dado calcular e interpretar el p-valor 2
4.1. HIPÓTESIS ESTADÍSTICA. TIPOS DE HIPÓTESIS Hipótesis estadística: afirmación sobre la distribución que genera los datos o sobre alguna característica concreta de dicha distribución. En inferencia paramétrica: Modelo paramétrico: X F(x;θ) las hipótesis son afirmaciones sobre un(os) parámetro(s) desconocido(s), θ, del modelo Ejemplo 1: el partido A no obtendrá mayoría absoluta en las elecciones del 20N X= 1 0 si gana A si no gana p A 1 p Ejemplo 2: una moneda es perfecta X= 1 0 si sale cara p si sale cruz 1 p b(p) hipótesis: p 0.5 b(p) hipótesis: p=0.5 Ejemplo 3: hay discriminación salarial entre hombres y mujeres X 1 =log(salario hombres) N(µ 1,σ 1 ) X 2 =log(salario mujeres) N(µ 2,σ 2 ) hipótesis: µ 1 µ 2 3
En inferencia no paramétrica (Tema 6): no se supone a priori un modelo paramétrico, sino que se contrastan hipótesis más generales. Ejemplo 3: hay discriminación salarial entre hombres y mujeres X 1 =salario hombres F 1 (x) X 2 =salario mujeres F 2 (x) Hipótesis: F 1 F 2 Hipótesis simple: asigna valores puntuales concretos a todos los parámetros del modelo la distribución queda totalmente especificada Ejemplo 2: X b(p) hipótesis: p=0.5 Hipótesis compuesta: asigna un rango de valores a los parámetros Ejemplo 1: X b(p) hipótesis: p 0.5 Ejemplo 3: X 1 =log(salario hombres) N(µ 1,σ 1 ) X 2 =log(salario mujeres) N(µ 2,σ 2 ) hipótesis: µ 1 µ 2 Ejemplo 4: X N(µ,σ) hipótesis: µ=2 (realmente es: µ=2, σ>0 compuesta!) 4
Hipótesis nula H 0 : hipótesis que se somete a prueba y se matendrá como cierta a menos que los datos muestren suficiente evidencia en su contra. (En general, H 0 corresponde al modelo más sencillo: incluye el =) Hipótesis alternativa H 1 : posibles alternativas a la hipótesis nula Ejemplo 2: H 0 : p=0.5 H 0 : p=0.5 H 0 : p=0.5 H 1 : p>0.5 H 1 : p<0.5 H 1 : p 0.5 Unilateral derecha Unilateral izqa. Bilateral Contrastes de una cola Contraste de dos colas 5
4.2. REGIÓN CRÍTICA Y REGIÓN DE ACEPTACIÓN Una vez definidas las hipótesis, realizar el contraste consiste en : Decidir si la hipótesis nula está sustentada por la evidencia empírica que proporcionan los datos de una muestra aleatoria (X 1,...,X n ). Analizar el grado de discrepancia entre los datos (observados) y la hipótesis nula (postulada) La decisión se basa en un estadístico de contraste =T(X 1,...,X n ). Ejemplo 5: dos monedas, una perfecta (p=0.5) y otra con p=p(cara)>0.5 H 0 : p=0.5 H 1 : p>0.5 Estadístico de contraste: pˆ =X 0.75 Rechazo si X 0.75 6
Región crítica=c={valores muestrales que conllevan rechazar H 0 } Valor crítico= valor a partir del cual se rechaza H 0 Ejemplo 4: (continuación) Rechazo H 0 si la proporción de caras en la muestra es mayor que 0.75, por qué? Porque observar una proporción de caras superior al 75% sería harto improbable si H 0 fuera cierta (moneda perfecta) los datos no sustentan H 0, por eso rechazo H 0 Región aceptación=a= ={valores muestrales que conllevan no rechazar H 0 } Ejemplo 4: (continuación) Muestra concreta: n=30, x =0.3 < 0.75 No rechazo H 0 OBSERVACIÓN: No rechazar H 0 no implica que H 0 sea cierta, sino que no hay evidencia suficiente en los datos muestrales para rechazarla. Rechazar H 0 no significa que H 0 sea falsa, sino que resulta muy difícil creer que se haya podido observar algo tan improbable bajo H 0. 7
4.3. ERRORES TIPO I Y TIPO II. FUNCIÓN DE POTENCIA Qué consecuencias puede conllevar la regla de decisión establecida? Cuál es el coste de equivocarse tomando una decisión errónea? Estado de la naturaleza Decisión H 0 es cierta H 0 es falsa Aceptar H 0 correcto Error tipo II Rechazar H 0 Error tipo I correcto α(θ) = p(error tipo I) = p(rechazar H 0 /H 0 cierta) = ( ) β(θ) = p(error tipo II) = p( Aceptar H 0 /H 0 falsa) = ( ) (ERROR I) Función de potencia=p(rechazar H 0 )=p θ (C)= 1 (ERROR II) 8
Objetivo minimizar p(error tipo I) minimizar p(error tipo II) Para una muestra de tamaño n dada, IMPOSIBLE! Metodología clásica de Neyman-Pearson: Fijar el tamaño máximo tolerable de la p(error tipo I), que llamaremos nivel de significación α. Valores habituales: α={0.01, 0.05, 0.1} Elegir, entre todos las regiones críticas de nivel α, la que minimice la p(error tipo II): Test uniformemente más potente 9
Ejemplo 6: (X 1,...,X 16 ) m.a.s. de una distribución N(µ,5) H 0 : µ=10 H 1 : µ=15 Estadístico de contraste µˆ =X Región crítica en la dirección de la alternativa C= { X λ α } Valor crítico: Determinar λ α para un nivel de significación dado? Tomemos α=0.1 0.1 = p (C) = p ( ) H µ = 10 X λα = = p X 10 λ α 10 µ = 10 0 5/ 16 5/ 16 = X 10 p µ = 0 zα 1.25 1 Tablas: z α =1.28 Bajo H 0 :µ=10 X N(10, 5/ 16 ) X 10 1.25 H 0 N(0,1) 0.90 0.1 z α Región crítica X 10 Rechazar H 0 cuando: 1.25 1.28 X 11.6 10
β=p(error tipo II) = H 1 (C) X 15 11,6 15 p = p µ=15( X 11, 6) = µ = 15 1.25 1.25 p =Φ(-2.72)=0.0033 β=0.0033 H 0 H 1 α=0.1 µ=10 µ=15 λ α =11,6 R. Aceptación Región crítica Si α=p(error tipo I) disminuye aumenta β=p(error tipo II) β=0.0465 H 0 H 1 α=0.01 µ=10 µ=15 λ α =12,9 R. Aceptación Región crítica 11
La única forma de reducir ambos errores simultáneamente es aumentar n Si n=100 Bajo H 0 : X N(10,5/ 100 ); Bajo H 1 : X N(15,5/ 100 ) α β H 0 H 1 β α 11.6 R. Aceptación Región crítica Alejar H 1 de H 0 β aumenta la potencia: es más fácil discernir entre dos hipótesis alejadas que entre dos hipótesis cercanas β=0 H 0 H 1 α=0.1 µ=10 µ=20 λ α =11,6 12
4.4. CONCEPTO DE P-VALOR: CÁLCULO E INTERPRETACIÓN Limitaciones de la selección del nivel de significación: Ejemplo 6: (continuación) Estadístico: Z*= H 0 : µ=10 H 1 : µ=15 X 10 1.25 H 0 X 10 N(0,1) Si α=0.10 Rechazo H 0 si Z*= 1.25 1.28 a) Si x obs =15 z obs = 15 10 1. 25 =4 1.28 Rechazo H 0 al 10% (z obs significativo al 10%) 12.5 10 b) Si x obs =12.5 z obs = 1.25 =2 1.28 Rechazo H 0 al 10% (z obs significativo al 10%) Misma decisión, pero poseen las dos muestras la misma evidencia contra H 0? 13
El p-valor se define, para una muestra concreta, como la probabilidad de observar, bajo H 0, un valor del estadístico de contraste igual o más extremo (en la dirección de la alternativa) que el observado en la muestra probabilidad de obtener más discrepancia con H 0 que la obtenida con la muestra Cuanto menor el p-valor más extremo el resultado muestral más evidencia contra H 0 Ejemplo 6: (continuación) a) x obs =15 z obs =4 p-valor = p(z* z obs ) = p(n(0,1) 4) = 0.00003 Obtener el valor observado, z obs, o alguno mayor es casi imposible bajo la hipótesis nula rechazo H 0 (no creo que H 0 haya generado mis datos). b) x obs =12.5 z obs =2 p-valor = p(z* z obs ) = p(n(0,1) 2) = 0,0228 El valor observado tiene una probabilidad de aparecer muy pequeña si H 0 es cierta, pero no es tan improbable como antes rechazo H 0 pero con menos garantías. 14
p-valor muy pequeño sería muy improbable observar lo observado si H 0 hubiera generado mis datos los datos proporcionan evidencia suficiente en contra de H 0 rechazo H 0 p-valor grande nuestros datos no proporcionan evidencia suficiente en contra de H 0 (es probable que H 0 haya generado mis datos) y no rechazo. 15
RELACIÓN ENTRE nivel de significación y p-valor Qué ocurriría en el ejemplo anterior si el nivel de significación fuera α=0.01? X 10 El valor crítico sería z α =2.33 rechazaríamos H 0 si Z*= 1.25 2.33 Si x obs =12.5 z obs =2 < 2.33 No rechazo al 1% (Si rechazaba al 10%) α=0.10 p-valor=0.0218 1-α α=0.01 1.28 2 2.33 Rechazo H 0 al 1% Rechazo H 0 al 10% Rechazamos H 0 para niveles α p-valor No rechazamos H 0 para niveles α< p-valor p-valor = menor nivel de significación al que se rechaza H 0 16
4.5. ETAPAS EN LA REALIZACIÓN DE UN CONTRASTE 1. Describir el modelo y formular la hipótesis nula y la alternativa 2. Definir un estadístico de contraste que cuantifique la discrepancia entre los datos y la hipótesis nula, y cuya distribución sea conocida bajo H 0 3. Definir la región crítica: Qué valores del estadístico de contraste rechazan H 0? 4. Determinar el valor crítico para un nivel de significación α dado 5. Tomar los datos y calcular el valor del estadístico de contraste 4.' Tomar los datos y calcular el valor del estadístico de contraste 5.' Calcular el p-valor 6. Tomar la decisión de rechazar o no H 0 17
BIBLIOGRAFÍA BÁSICA Canavos, G.C. (2001), Probabilidad y estadística: aplicaciones y métodos, Madrid: McGraw-Hill. Secciones 9.1-9.3, 9.5 Casas, J.M. (1997), Inferencia estadística (incluye ejercicios resueltos). 2ª ed. Madrid: Centro de Estudios Ramón Areces. Capítulo 5 BIBLIOGRAFÍA COMPLEMENTARIA: Peña, D. (2008), Fundamentos de estadística, Madrid : Alianza Secciones 10.1 10.3 18