Contraste de hipótesis paramétricas Prof, Dr. Jose Jacobo Zubcoff Departamento de Ciencias del Mar y Biología Aplicada
Proceso de la investigación estadística Etapas PROBLEMA HIPÓTESIS DISEÑO RECOLECCIÓN DE DATOS ANÁLISIS Sin valor científico La hipótesis no se confirma La hipótesis se confirma Se elimina como eplicación Se establece una teoría Aplicación A partir de Alarcón, 006
Contraste de bondad de ajuste Hipótesis estadística
Objetivo Se trata de decidir si se acepta o rechaza que el valor del parámetro estimado se sitúa en una determinada región del espacio paramétrico. Definición Un test para contrastar la hipótesis nula frente a la 0 : Θ 0 hipótesis alternativa consiste en decidir, para cada H1 : θ Θ 1 posible muestra, si aceptamos o rechazamos θ ; por lo tanto, un test consistirá en dividir el espacio muestral (conjunto de todas las posibles muestras) en dos regiones: una región crítica R, o de rechazo de y una región A o de aceptación de H H 0 H 0 H 0
Metodología contrastes
Hipótesis estadística: Hipótesis estadística: Afirmación o conjetura sobre la distribución de una o más v.a., o bien sobre alguna característica de la misma Hipótesis nula (H 0 ): Hipótesis que se desea contrastar Hipótesis alternativa (H 1 ): Hipótesis aceptada cuando la evidencia muestral está en contra Realización Suponemos a priori una ley de prob. conocida Se etrae una muestra aleatoria de la pob. Si la distr. De la muestra es diferente la la distr. de prob. la suposición inicial será errónea
Hipótesis estadística: es una afirmación respecto a alguna característica de una población. H o : Hipótesis nula H 1 : Hipótesis alternativa Errores que se pueden cometer Pueden ser unilaterales o bilaterales Conclusiones a partir de una muestra aleatoria y significativa, permite aceptar o rechazar la hipótesis nula
Nivel de significación Alfa: Alfa: Probabilidad de rechazar erróneamente la hipótesis nula 1 - Alfa: Probabilidad de que contenga el verdadero valor del parámetro. El nivel de confianza suele ser 0,90 (90%), 0,95 (95%) ó 0,99 (99%). Región crítica Es conocida antes de realizar el eperimento: resultados eperimentales que refutarían H 0 Nivel de significación: α Número pequeño: 1%, 5% Fijado apriori por el investigador Probabilidad de rechazar H 0 cuando es cierta
Contrastes de bondad de ajuste Gráficamente: para una normal tipificada, un intervalo de confianza del 95% se puede representar como: 95% La probabilidad de que una variable normal tipificada tome valores en el intervalo [-1.96,1.96] es del 95%..5%.5%
Qué necesitamos para un contraste?: H H 0 1 : P 1 : P 1 = P P Región de aceptación: No rechazo Región crítica: Rechazo No hay evidencia contra H 0 No se rechaza H 0 Eperimento no concluyente Contraste no significativo 1 α = 0.95 α = 0.05 Estadístico Umbral
P-valor: Probabilidad de obtener un resultado al menos tan etremo como el que realmente se ha obtenido. Es la probabilidad que tendría una región crítica que comenzase eactamente en el valor del estadístico obtenido de la muestra. Valor conocido después de realizar el eperimento Contraste no significativo cuando p>alfa
Sobre α Número pequeño, elegido a priori antes de diseñar el eperimento Sobre p Es conocido tras realizar el eperimento Conocido α sabemos todo sobre la región crítica Conocido p sabemos todo sobre el resultado del eperimento Sobre el criterio de rechazo Contraste significativo = p menor que α
H H 0 1 : P 1 : P 1 = P P Región de aceptación: No rechazo Región crítica: Rechazo 1 α = 0.95 p! valor p-valor α = 0.05 Estadístico Umbral
Metodología Plantear contraste 1 Establecer Ho, H1, alfa H 0 :...! " H 1 :...# error!!!"! error!!!" " Plantear Estadístico!, ks, z, F,t 3 Dibujar Gráfico (Curva, Pto. Crítico, R.R.Ho, etc) 4 5 Obtener estadístico y p-valor Dar la conclusión X ept > Pto.crítico? p <!?
Tipos de contrastes: 1. Pruebas paramétricas: Suponen conocida la distribución de la población y la hipótesis es acerca de los parámetros de dicha distribución.. Pruebas no paramétricas: No se sabe cual es la distribución de la población y se desea probar la hipótesis de que cierta distribución en particular será un modelo satisfactorio.
Contraste de bondad de ajuste Contrastes de bondad de ajuste no paramétricos para distribuciones discretas y continuas
Chi-cuadrado ( χ ): Test diseñado para variables aleatorias discretas con un número finito de valores (aunque se puede aplicar a v.a.c. por intervalos) Hipótesis nula simple H Para una muestra aleatoria simple de una v.a. X con valores en las clases C 1, C,,C k, y O i =nº de individuos para la clase C i, se analiza la región crítica como: R c : χep χk p 1,1 α 0 : X F 0
H0= Adherencia de la muestra a la distribución hipotética H1= La muestra NO se ajusta a la distribución hipotética Rechazamos H0 si: p valor = P( χ > Punto crítico c ( O E ) k χ = i i > ep t E i=1 i ) ept χ K es el numero de Intervalos m es el Nº de parámetros estimados c χ k-m-1,α
H H 0 1 : P 1 : P 1 = P P Región de aceptación: No rechazo Región crítica: Rechazo 1 α = 0.95 α = 0.05 Estadístico χ ept Umbral: χk m 1, α
El estadístico eperimental se calcula como: χ ep t = k i= 1 ( O E ) i E i i Restricciones: Mín Si E i k 4 5. En caso contrario se debe agrupar en clases se debe aplicar el estadístico de corrección de Yates: χ = ( ) k O i Ei 0. 5 i= 1 E i
Variable aleatoria normal y su ajuste Density 0.0 0.1 0. 0.3 0.4!!1 0 1 3
Oi= Frecuencia absoluta Observada Ei = n P Oi χ ep t = k i= 1 ( O E ) i E i i Intervalo i-ésimo
Ejemplo (LANCASTER 1965): El resultado de cruces de 5 caracteres entre heterocigóticos y homocigóticos recesivos. Aa Bb Cc Dd Ee X aa bb cc dd ee Sea X= Nº de caracteres dominantes en la primera generación Numero de ensayos = 5 Independientes por la º ley de Mendel: los caracteres se segregan independientemente Muestra de 551 individuos de la primera generación H0= Adherencia de la muestra a la distribución Binomial H1= La muestra NO se ajusta a la distribución Binomial
Valores X Oi 0 1 3 4 5 17 81 15 180 104 17 E(X)=X= n π = 5 π p = X/5 =.588 / 5 = 0.517
Valores X Oi 0 1 3 4 5 17 81 15 180 104 17 p i 0.06 0.141 0.301 0.3 0.173 0.037 E(X)=X= n π = 5 π p = X/5 =.588 / 5 = 0.517 P( X = ) O TABLAS = n p q n
Valores X Oi 0 1 3 4 5 17 81 15 180 104 17 p i 0.06 0.141 0.301 0.3 0.173 0.037 E i =551 p i 14.33 77.69 165.8 177.4 95.3 0.39 E i > 5
Valores X Oi 0 1 3 4 5 17 81 15 180 104 17 p i 0.06 0.141 0.301 0.3 0.173 0.037 E i =551 p i 14.33 77.69 165.8 177.4 95.3 0.39 χ ep t k = i= 1 ( ) Oi Ei = E i χ = (17-14.33) 14.33 +..+ (104-95.3) 95.3 χ ept = 3.187 χ χ k-m-1,α = Buscar en Tabla 6-1-1,0.05
H H 0 1 : P 1 : P 1 = P P 1 α = 0.95 α = 0.05 χep t = 3.187 Región de aceptación: No rechazo χ 6 1 1,0.05 = 9.488 Región crítica: Rechazo
Valores X Oi 0 1 3 4 5 17 81 15 180 104 17 p i 0.06 0.141 0.301 0.3 0.173 0.037 E i =551 p i 14.33 77.69 165.8 177.4 95.3 0.39 P-valor = P(χ k-m-1 >3.187) χ = 3.187 χ χ k-m-1,α = Buscar en Tabla 6-1-1,0.05
H H 0 1 : P 1 : P 1 = P P Región de aceptación: No rechazo Región crítica: Rechazo 1 α = 0.95 α = 0.05 χ ep t = 3.187 χ 6 1 1,0.05 = 9.488 P
Valores X Oi 0 1 3 4 5 17 81 15 180 104 17 p i 0.06 0.141 0.301 0.3 0.173 0.037 E i =551 p i 14.33 77.69 165.8 177.4 95.3 0.39 P-valor = P(χ k-m-1 >3.187) 0.1 < P-valor < 0.9 en la Tabla para gl=4
Ejercicios propuesto Ejercicios Sea una variable aleatoria el nº de peces que son pescadas en intervalos de 30min, queremos saber a qué distribución se podría ajustar X = { Nº de peces por área} X 0 1 3 4 5 >=6 O i 5 9 19 7 1 0 1 Tamaño muestral n = 109
Ejercicios Valores X Oi 0 1 3 4 5 >=6 5 9 19 7 1 0 1 Debemos estimar el valor de λ a partir de la E(X) Luego podemos calcular las p i con la función de probabilidad teórica o con la tabla
Valores X Oi 0 1 3 4 5 >=6 5 9 19 7 1 0 1 p i 0.4069.3659.1645.049.0111.00.0003 E i = 109 p i 44.351 39.8831 17.9305 5.368 1.099 0.18.037 E i > 5
Valores X Oi 0 1 3 4 5 >=6 5 9 19 7 1 0 1 p i 0.4069.3659.1645.049.0111.00.0003 E i = 109 p i 44.351 39.8831 17.9305 5.368 1.099 0.18.037 Agrupar
Valores X Oi 0 1 >=3 5 9 19 9 p i 0.4.37.16.066 E i = 109 p i 44.36 39.89 17.9 6.834
Valores X Oi 0 1 >=3 5 9 19 9 p i 0.4.37.16.063 E i = 109 p i 44.351 39.8831 17.9305 6.834 χ = Σ(Oi-Ei) Ei χ = (5-44.351) +..+ (9-6.834) 44.351 6.834 χ = 5.0466 χ χ k-m-1,α = Buscar en Tabla 4-1-1,0.05
Valores X Oi 0 1 >=3 5 9 19 9 p i 0.4.37.16.063 E i = 109 p i 44.36 39.89 17.98 6.791 P-valor = P(χ k-m-1 >5.0466) 0.05 < P-valor < 0.1 en la Tabla para gl=
Ajuste a una Dist. Normal Valores de X (74 valores observados en una tabla de datos) H0= Adherencia de la muestra a la distribución hipotética H1= La muestra NO se ajusta a la distribución hipotética ( O E ) k χ = i i > ep t E i=1 i c
Ejemplo: Las tallas en cm. de una muestra de tiburones, ordenados de menor a mayor, fueron los siguientes: Contrastar el ajuste a una normal.
( O E ) k i i χ t = ep > i=1 Ei c
0. ( O E ) k i i χ t = ep > i=1 Ei c
0. 0.4 ( O E ) k i i χ t = ep > i=1 Ei c
Valores X (74 valores observados en una tabla de datos) Intervalos O i p i 0. 0. 0. 0. 0. E i = 74 p i
Valores X (74 valores observados en una tabla de datos) Intervalos O i p i 0. 0. 0. 0. 0. E i = 74 p i 14.8 14.8 14.8 14.8 14.8
0. P 0 -k 1 -k k k 1
K 1 = K = P 80 s P 60 s -K 1= P 0 s -K = P 40 s -k 1 -k k k 1 Tabla
K 1 = K = P 80 s P 60 s -K = P 40 s -K 1= P 0 s -k 1 -k k k 1 Normal estándar
Destipificando obtenemos los valores de la variable (Percentiles 0, 40, 60 y 80) K 1 = P 80 s Estadística P 80 = + K1. s = 79.10 K = P 60 s P 60 = + K. s = 7.44 -K = P 40 s -K 1= P 0 s P 40 = - K. s = 66.79 P 0 = - K1. s = 60.13
Intervalos <60.13 [60.13, 66.7) [66.7, 7.44) [7.44, 79.10) >79.10 O i p i 0. 0. 0. 0. 0. E i = 74 p i 14.8 14.8 14.8 14.8 14.8
Intervalos <60.13 [60.13, 66.7] [66.7, 7.44] [7.44, 79.10] >79.10 O i 18 18 1 14 1 p i 0. 0. 0. 0. 0. E i = 74 p i 14.8 14.8 14.8 14.8 14.8 E i > 5
Intervalos <60.13 [60.13, 66.7] [66.7, 7.44] [7.44, 79.10] >79.10 O i 18 18 1 14 1 p i 0. 0. 0. 0. 0. E i = 74 p i 14.8 14.8 14.8 14.8 14.8 χ = Σ(Oi-Ei) Ei χ = (1-14.8) 14.8 +..+ (1 14.8) 14.8 χ = 5.991 χ χ k-m-1,α = Buscar en Tabla 5--1,0.05
Intervalos <60.13 [60.13, 66.7] [66.7, 7.44] [7.44, 79.10] >79.10 O i 18 18 1 14 1 p i 0. 0. 0. 0. 0. E i = 74 p i 14.8 14.8 14.8 14.8 14.8 P-valor = P(χ k-m-1 >5.991) 0.1 < P-valor < 0.9 en la Tabla para gl=
Kolmogorov-Smirnov (k-s): Test diseñado para v.a.c. dadas de forma puntual (aunque se puede aplicar a ordinales). Normalmente se usa para pruebas con muestras pequeñas Proceso de la prueba: 1. Se desarrolla la distribución acumulativa de la distribución teórica y la de los datos empíricos. Se comparan y se selecciona aquel intervalo de clase que tenga mayor desviación absoluta entre las desviaciones teóricas y observadas 3. Se compara la desviación con los valores críticos de la tabla de Kolmogorov
Desarrollo de la prueba: 1. Ordenar los datos de menor a mayor. Calcular la función de distribución empírica 3. Calcular la discrepancia D n = ma F n calculando para cada punto: D n ( ) F( ) { F ( ) F( ), F ( ) F( )} ( h) = ma n h h n h 1 h 1... n 0, si < 1 i Fn ) =, si i < i+ n 1, si n ( 1
Vamos a suponer que tenemos una muestra de 9 individuos a los que se les observa el nivel de Ac. Úrico. 0.676, 0.71, 0.797, 0.833, 0.863, 0.878, 0.9, 0,96, 1.066 Si esta variable es Normal, podemos profundizar en el análisis posterior con estudios paramétricos Pasos: 4.1. Ordena de menor a mayor 4.. Calcula la función empírica. Qué? necesitamos? S = = 1 n i = ( ) n 1 1 7.703 = 0.86 9 = 0.118 8 = 0.114
X Faci Zi Фi F- Фi 0,676,710,797 1,066
X Faci Zi Фi F- Фi 0,676,710,797 1,066
X Faci Zi Фi F- Фi 0,676 0,11,710 0,,797 0,33 1,066 1
µ z = X i σ X Faci Zi Фi F- Фi 0,676 0,11-1,49,710 0, -1,0,797 0,33-0,49 1,066 1 1,73
Tabla Z X Faci Zi Фi F- Фi 0,676 0,11-1,49 0,068,710 0, -1,0 0,115,797 0,33-0,49 0,31 1,066 1 1,74 0.959
X Faci Zi Фi F- Фi 0,676 0,11-1,49 0,068 0,043,710 0, -1,0 0,115 0,107,797 0,33-0,49 0,31 0,01 1,066 1 1,74 0.959 0.041
X Faci Zi Фi F- Фi 0,676 0,11-1,49 0,068 0,043,710 0, -1,0 0,115 0,107,797 0,33-0,49 0,331 0,01 1,066 1 1,73 MAX 0,57
X Faci Zi Фi F- Фi F i-1 - Фi 0,676 0,11-1,49 0,068 0,043 0,085,710 0, -1,0 0,115 0,107 0,11-0,115,797 0,33-0,49 0,31 0,01 MAX 0,107 1,066 1 1,74
H0= Adherencia de la muestra a la distribución hipotética H1= La muestra NO se ajusta a la distribución hipotética Rechazamos H0 si: Ma( Fi-Фi ) > c Punto crítico c En la tabla de Kolmogorov-Smirnov D n = F i i Ma( φ ) = 0.107 D( α, n) = D(0.05,9) = 0.430 D n < D( α, n) NO SE RECHAZA
Comando a utilizar con R. Chi-cuadrado: chisq.test(, y = NULL, correct = TRUE,p = rep(1/ length(), length()), rescale.p = FALSE,simulate.p.value = FALSE, B = 000)
Comando a utilizar con R. k-s: t.test(, y = NULL,alternative = c("two.sided", "less", "greater"),mu = 0, paired = FALSE, var.equal = FALSE,conf.level = 0.95,...)