Aplicación de la distribución empírica: Tests de bondad de ajuste 4 de marzo de 2009
Test de bondad de ajuste Supongamos que se dispone de una m.a.s de tamaño n de una población X con distribución desconocida F. Los tests de bondad de ajuste tratan de decidir si puede admitirse una determinada hipótesis de tipo paramétrico sobre F. Ejemplo Estudios previos sugieren que el número de accidentes diarios en un regimiento del ejército en zona de conflicto sigue una distribución de Poisson de parámetro 2. Se decide comprobar esa hipótesis en un regimiento determinado destinado en Afganistan. Para ello se registran los accidentes ocurridos a lo largo de 200 días número de accidentes 0 1 2 3 4 5 6 7 número de días 22 53 58 39 20 5 2 1
Análisis gráfico (I) Podemos comprobar gráficamente si la hipótesis es plausible: ni=c(22,53,58,39,20,5,2,1) pi=c(22,53,58,39,20,5,2,1)/sum(ni) p0=dpois(0:7,2) matriz=rbind(pi,p0) colnames(matriz)=0:7 barplot(matriz,beside=t,legend=c( Observada, + Teórica )) Observada Teórica 0.00 0.05 0.10 0.15 0.20 0.25 0 1 2 3 4 5 6 7
Análisis gráfico (II) También podemos comparar la distribución teórica con la distribución empírica. Negro Empírica, Rojo Teórica Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 0 2 4 6 8 x
Hipótesis simple Formalmente lo que debemos plantear es un contraste de hipótesis. En este caso la hipótesis no es sobre un parámetro de la distribución como la media o la varianza sino que la hipótesis es sobre toda la distribución que genera los datos. Trataremos, en primer lugar, de contrastar si puede aceptarse la hipótesis H 0 : F = F 0, donde F 0 es una hipótesis completamente especificada, que no depende de ningún parámetro desconocido. En este sentido, la hipótesis nula es simple, mientras que la alternativa H 1 : F F 0 es bilateral y de tipo no paramétrico ya que, en principio, está compuesta por todas las distribuciones diferentes de F 0.
El estadístico de Kolmogorov-Smirnov El test de Kolmogorov-Smirnov se basa en medir las diferencias existentes entre la distribución empírica, F n, y la distribución F 0. Para medir esta discrepancia se utilizará el estadístico de Kolmogorov-Smirnov D n = sup F n (x) F 0 (x). x R Observación A veces interesa contrastar las hipótesis unilaterales H + 1 : F > F 0 o H 1 : F < F 0, para lo cual se utilizarán los estadísticos de Kolmogorov D + n = sup F n (x) F 0 (x) Dn x R = sup F 0 (x) F n (x). x R
El estadístico de Kolmogorov-Smirnov es de distribución libre Rechazaremos H 0 cuando D n sea grande. Obviamente para decidir rechazar H 0 debemos tener en cuenta el tamaño muestral ya que los valores de D n tenderán a ser cada vez más pequeños (bajo H 0 ) al aumentar el tamaño muestral. Debemos tener en cuenta también F 0? Sorprendentemente no. Teorema Sea X 1,..., X n una m.a.s de X con distribución F 0 continua. La distribución de D n no depende de F 0. Lo mismo ocurre para D n + y Dn.
El estadístico de Kolmogorov-Smirnov es de distribución libre: Prueba (I) Demostración Sea X (1),..., X (n) los estadísticos ordenados. Sea además X (0) =, X (n+1) = +. Así F n (x) = i n, X (i) x < X (i+1), i = 0,..., n. D + n = sup [F n (x) F 0 (x)] = máx sup [F n (x) F 0 (x)] x R 0 i n X (i) x<x (i+1) [ ] [ ] i i = máx 0 i n n ínf F 0 (x) = máx X (i) x<x (i+1) 1 i n n F 0(X (i) )
El estadístico de Kolmogorov-Smirnov es de distribución libre: Prueba (II) Análogamente y D n [ = máx F 0 (X (i) ) i 1 ], 1 i n n { i D n = máx(d n +, Dn ) = máx 1 i n n F 0(X (i) ), F 0 (X (i) ) i 1 }. n Por tanto D n, D + n y D n dependen solamente de las variables aleatorias U (1) = F 0 (X (1) ),..., U (n) = F 0 (X (n) ), es decir, de la muestra ordenada de U 1 = F 0 (X 1 ),..., U n = F (X n ). Pero, como F 0 es continua, U i sigue una distribución uniforme (0, 1) sea cual sea F 0.
El test de Kolmogorov-Smirnov Se puede entonces calcular la distribución de D n suponiendo que F 0 es la distribución uniforme en (0, 1). Gracias a esto es posible deducir la distribución de D n bajo H 0 (véase Gibbons y Chakrabortib 1992). Así podemos calcular D n,α, donde, P(D n D n,α F = F 0 ) = α. El test de Kolmogorov-Smirnov propone rechazar H 0 cuando D n D n,α. Se procedería de forma análoga con las alternativas unilaterales H + 1 y H 1. En estos casos se emplearían los estadísticos D+ n y D n, respectivamente.
Distribución asintótica del estadístico de Kolmogorov-Smirnov Se puede demostrar el siguiente teorema Teorema ĺım n P( nd n z) = K(z) = k= ( 1) k e 2k2 z 2. La función K(z) está tabulada y nos permite aproximar la distribución de nd n para n grande. A partir de n = 40, D n,α se puede aproximar por α 0.2 0.15 0.1 0.05 0.01 1.07/ n 1.22/ n 1.36/ n 1.52/ n 1.63/ n
Intervalos de confianza para la distribución usando el estadístico de Kolmogorov-Smirnov El valor crítico D n,α también se puede usar para construir bandas de confianza para la función de distribución. Sabemos que con probabilidad (1 α), D n D n,α o, lo que es lo mismo F n (x) D n,α F 0 (x) F n (x) + D n,α, para todo x R, donde F 0 es la distribución (desconocida) de la población. Como F n (x) D n,α puede ser negativo y F n (x) + D n,α mayor que uno se coge como ĺımites inferior y superior de la banda de confianza las funciones L n y U n respectivamente, donde L n (x) = máx(0, F n (x) D n,α ), U n (x) = mín(1, F n (x) + D n,α ).
El test χ 2 : alternativa para distribuciones discretas El test χ 2 de bondad de ajuste es especialmente adecuado para distribuciones discretas. En general supondremos que hemos dividido el soporte de la distribución F 0 en k conjuntos disjuntos A 1,..., A k. Sea p i = P F (X A i ), las probabilidad de cada A i bajo la distribución F y p 0 i = P F0 (X A i ), las probabilidades de cada A i bajo H 0.
Distribución multinomial Sea (N 1, N 2,..., N k ) el vector aleatorio que cuenta el número de observaciones de la muestra en cada uno de los subconjuntos A 1, A 2,... A k. Se tiene que P(N 1 = n 1, N 2 = n 2,..., N k = n k ) = n! n 1!n 2!... n k! pn 1 1 pn 2 2 pn k k Se dice que (N 1,..., N k ) sigue una distribución multinomial de parámetros n y p = (p 1,..., p k ).
Distribución multinomial Sea (N 1, N 2,..., N k ) el vector aleatorio que cuenta el número de observaciones de la muestra en cada uno de los subconjuntos A 1, A 2,... A k. Se tiene que P(N 1 = n 1, N 2 = n 2,..., N k = n k ) = n! n 1!n 2!... n k! pn 1 1 pn 2 2 pn k k Se dice que (N 1,..., N k ) sigue una distribución multinomial de parámetros n y p = (p 1,..., p k ). Nótese que y, por tanto, p 1 + + p k = 1 p k = 1 (p 1 + + p k 1 ). El espacio paramétrico tiene así dimensión k 1.
Planteamiento del test de bondad de ajuste La idea básica del test χ 2 de bondad de ajuste consiste en sustituir el contraste no paramétrico inicial por el contraste con p 0 = (p 0 1,..., p0 k ) frente a H 0 : p = p 0, H 1 : p p 0. El contraste se realizará utilizando los valores n 1,..., n k que la muestra ha proporcionado al vector aleatorio (N 1,..., N k ). El test que se utilizará será el de razón de verosimilitudes.
Razón de verosimilitudes El siguiente método proporciona en la mayoría de los casos un test óptimo, en caso de que tal test exista. Supongamos que disponemos de X 1,..., X n una m.a.s de una población X {F θ } θ Θ R k y queremos contrastar H 0 : θ Θ 0 frente a H 1 : θ Θ 1, Θ = Θ 0 Θ 1. El test de razón de verosimilitudes es un método general que se basa en comparar la verosimilitud bajo H 0 con la verosimilitud bajo el modelo sin ninguna restricción. Así, se define la razón de verosimilitudes como el cociente 0 λ(x 1,..., x n ) = sup θ Θ 0 f θ (x 1,..., x n ) sup θ Θ f θ (x 1,..., x n ) 1 Si H 0 es cierta λ debería de estar cerca de uno. En caso contrario es de esperar que λ esté próxima a cero.
Test de razón de verosimilitudes El test de razón de verosimilitudes viene dado por { Rechazar H0 si λ(x ϕ(x 1,..., x n ) = 1,..., x n ) < c No rechazar H 0 si λ(x 1,..., x n ) c, donde 0 < c < 1 se escoge de forma que el tamaño del test sea α. Ejercicio Calcula la razón de verosimilitudes, λ(n 1,..., n k ) para contrastar con p 0 = (p 0 1,..., p0 k ) frente a H 0 : p = p 0, H 1 : p p 0.
Test de razón de verosimilitudes: Teoría asintótica (I) Para muestras grandes el siguiente resultado es de gran utilidad. Teorema Supongamos que la población depende de un parámetro θ Θ R k y que la hipótesis nula viene dada por Θ 0 = g(ω), donde Ω es un subconjunto abierto de R q, con g de clase uno. Entonces, bajo ciertas condiciones de regularidad (véase Vélez-Ibarrola, 1993), se tiene que, para cada θ Θ 0, 2 log(λ(x 1,..., X n )) d χ 2 k q.
Test de razón de verosimilitudes: Teoría asintótica (II) El resultado anterior nos permite calcular la región crítica o zona de rechazo del test de razón de verosimilitudes de una forma muy sencilla. Para ello debemos tener en cuenta que el conjunto {λ < c} coincide con el conjunto { 2 log λ > k} con k = 2 log(c) (0, ). Si queremos que el test tenga tamaño α, bajo las condiciones del teorema anterior, si la muestra es grande para cada θ Θ 0, tenemos que P θ ( 2 log λ > k) P(χ 2 k q > k), y, por tanto, debemos tomar k = χ 2 k q,α.
Test de razón de verosimilitudes: Ejercicios (I) El resultado anterior es una herramienta muy potente que se puede utilizar tanto el contexto paramétrico como no paramétrico. El siguiente ejercicio plantea el ANOVA de una vía para un modelo paramétrico frecuentemente utilizado para distribuciones discretas. Ejercicio 1 Sea X 1,..., X k, k poblaciones con distribución de Poisson de parámetro λ i, i = 1,..., k. En cada población tenemos n i observaciones, X i,j, independientes entre si y entre cada grupo. Si n = n 1 + n k es suficientemente grande, calcula la versión asintótica del test de razón de verosimilitudes para contrastar la hipótesis nula H 0 : λ 1 = = λ k
Test de razón de verosimilitudes: Ejercicios (II) El siguiente ejercicio pide que se calcule la distribución asintótica de 2 log λ en un caso particular sin necesidad de recurrir al teorema general. Ejercicio 2 Sea X 1,..., X n una muestra aleatoria simple de una N(µ, σ 2 ), donde σ 2 es un parámetro conocido. Supongamos que se desea contrastar: H 0 : µ = µ 0, H 1 : µ µ 0. Calcula la razón de verosimilitudes, λ, y prueba que 2 log λ sigue una distribución χ 2 con un grado de libertad. Utiliza este resultado para encontrar la expresión del test de razón de verosimilitudes con tamaño α.
El test de razón de verosimilitudes para el contraste de bondad de ajuste Volvamos al problema de bondad de ajuste. Para el contraste H 0 : p = p 0 que planteábamos antes se tiene que 2 log λ(n 1,..., n k ) = 2 k n i (log(ˆp i ) log(pi 0 )), donde ˆp i = n i /n es el estimador de máxima verosimilitud del parámetro p i. Si p = p 0 entonces 2 log λ sigue asintóticamente una distribución χ 2 k 1 y, por tanto, debemos rechazar H 0 cuando 2 i=1 k n i (log(ˆp i ) log(pi 0 )) > χ 2 k 1,α. i=1
El contraste χ 2 clásico La tradición estadística, iniciada por Pearson en 1900 antes del desarrollo de los test de razón de verosimilitudes, hace que normalmente no se emplee el estadístico 2 log λ. Lo usual es sustituirlo por una medida, en cierta forma más natural, de la discrepancia entre las ˆp i y las pi 0, definida por G = k i=1 (n i npi 0)2 npi 0. Se puede demostrar (Velez-Ibarrola 1993) que, si H 0 es cierta, la distribución asintótica de G es nuevamente una χ 2 con k 1 grados libertad. Habitualmente se considera que la aproximación asintótica es buena cuando np 0 i 5, para cada i = 1,..., k.
Hipótesis simple: Ejemplo (I) En el ejemplo de los accidentes, bajo la hipótesis de que F = F 0 sigue una distribución de Poisson de parámetro 2 se tiene que i 0 1 2 3 4 5 6 7 Observados 22 53 58 39 20 5 2 1 npi 0 27.07 54.13 54.13 36.09 18.04 7.21 2.4 0.69 donde, recordemos, n = 200.
Hipótesis simple: Ejemplo (I) En el ejemplo de los accidentes, bajo la hipótesis de que F = F 0 sigue una distribución de Poisson de parámetro 2 se tiene que i 0 1 2 3 4 5 6 7 Observados 22 53 58 39 20 5 2 1 npi 0 27.07 54.13 54.13 36.09 18.04 7.21 2.4 0.69 donde, recordemos, n = 200.Si queremos que npi 0 5 debemos agrupar los valores más extremos. Por ejemplo, si la última categoría es 5 accidentes o más i 0 1 2 3 4 5 Observados 22 53 58 39 20 8 npi 0 27.07 54.13 54.13 36.09 18.04 10.53
Hipótesis simple: Ejemplo (II) Se tiene que G = 5 i=0 (n i np 0 i )2 np 0 i = 2.303. Si H 0 es cierta el estadístico G sigue (aproximadamente) una distribución χ 2 con 5 grados de libertad. Si tomamos como nivel de significación α = 0.05 deberíamos rechazar si G 11.07. Lo cual no es caso. Además, el p-valor del contraste vale Ejercicio Comprueba que 2 log λ = 2.4 P(χ 2 5 2.303) = 0.806.
Hipótesis simple: Ejercicio (I) Los impactos de 60 bombas volantes sobre la superficie de Londres durante la segunda guerra mundial, considerada cuadrada, fueron clasificados en 9 zonas obtenidas dividiendo cada lado en tres partes iguales, con los siguientes resultados: 8 7 3 5 9 11 6 4 7 Los responsables de la defensa aérea querían averiguar si los alemanes eran capaces de dirigir con precisión las bombas y, por tanto, éstas perseguían algún objetivo concreto o bien se distribuían al azar sobre la superficie de la ciudad. Podemos aceptar, con un nivel de significación de α = 0.1 que era esto último lo que realmente ocurría?
Hipótesis simple: Ejercicio (II) Prueba que la distribución asintótica de G = k i=1 (n i npi 0)2 npi 0, es una χ 2 con k 1 grados libertad en el caso particular en que k = 2.