Conceptos básicos de inferencia estadística (IV): Inferencia no paramétrica: Contrastes de aleatoriedad.

Conceptos básicos de inferencia estadística (IV): Inferencia no paramétrica: Contrastes de aleatoriedad. Tema 1 (IV) Estadística 2 Curso 08/09 Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 1 / 16

Introducción Contrastes de aleatoriedad Introducción Los métodos ("clásicos") de inferencia estadística se basan en: X 1,..., X n m.a.s.de X Por tanto suponen que X 1,..., X n son independientes. La ausencia de aleatoriedad es difícil de corregir y puede in uir notablemente en el análisis estadístico Si existe dependencia entre las observaciones muestrales (i.e. el conocimiento de X i proporciona información sobre los valores de X i+1, X i+2,... ) los métodos estudiados no son válidos (pueden conducir a conclusiones erróneas). Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 2 / 16

Contrastes de aleatoriedad Introducción Esto es debido principalmente a que introduce un sesgo en los estimadores de las varianzas (obtenidos bajo independencia) Por tanto, los correspondientes intervalos de con anza y contrastes de hipótesis tendrán una con anza o una potencia distinta de la que deberían. Si X 1 y X 2 son independientes (Cov(X 1, X 2 ) = 0): Var(X 1 + X 2 ) = Var(X 1 ) + Var(X 2 ) En el caso general (dependencia): Var(X 1 + X 2 ) = Var(X 1 ) + Var(X 2 ) + 2Cov(X 1, X 2 ) Típicamente Cov(X 1, X 2 ) > 0 por lo que con los métodos "clásicos" (basados en independencia) se suelen producir subestimaciones de las varianzas (IC más estrechos y tendencia a rechazar H 0 en contrastes). Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 3 / 16

Contrastes de aleatoriedad Introducción Métodos para detectar dependencia Sería de esperar que datos cercanos en el tiempo (o en el espacio) sean más parecidos (dependientes) que datos más alejados ) dependencia temporal (espacial, espacio-temporal). Métodos para detectar dependencia temporal: Grá cos: Dispersión de variable frente a índice (tiempo) f(i, X i )g n i =1 Dispersión f(x i, X i +1 )g n i =1 1 Correlograma Contrastes: Tests basados en rachas Test de Ljung-Box Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 4 / 16

Grá co secuencial Métodos grá cos Grá co secuencial El grá co de dispersión f(i, X i )g n i=1 permite detectar la presencia de una dependencia temporal. Es importante mantener/guardar el orden de recogida de los datos. Si existe una tendencia los datos no son homogéneos (debería tenerse en cuenta la variable índice, o tiempo, como variable explicativa). Podría indicar la presencia de un "efecto aprendizaje". Independencia Tendencia (lineal) Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 5 / 16

Métodos grá cos Grá co secuencial Valores próximos muy parecidos (valores grandes seguidos de grandes y viceversa) indicarían una posible dependencia positiva. Valores próximos dispares (valores grandes seguidos de pequeños y viceversa) indicarían una posible dependencia negativa. Dependencia positiva Dependencia negativa Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 6 / 16

Métodos grá cos Grá co de dispersion retardado Grá co de dispersion retardado El grá co de dispersión f(x i, X i+1 )g n i=1 1 permite detectar dependencias a un retardo (relaciones entre valores separados por un instante) Independencia X i+1 X i Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 7 / 16

Métodos grá cos Grá co de dispersion retardado Dependencia positiva Dependencia negativa X i+1 X i+1 X i X i Se puede generalizar al grá co f(x i, X i+k )g que permite detectar dependencias a k retardos (separadas k instantes). Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 8 / 16

El correlograma Métodos grá cos El correlograma Para estudiar si el grado de relación (lineal) entre X i y X i+k podemos utilizar el coe ciente de correlación: ρ (X i, X i+k ) = Cov (X i, X i+k ) σ (X i ) σ (X i+k ) En el caso de datos homogéneos (estacionarios): ρ (X i, X i+k ) ρ (k) denominada función de autocorrelación simple (fas) o correlograma. Su estimador es el correlograma muestral: k r(k) = n i=1 (X i X )(X i+k X ) n i=1(x i X ) 2 Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 9 / 16

Métodos grá cos El correlograma En caso de independencia es de esperar que las autocorrelaciones muestrales sean próximas a cero (valores "grandes" indicarían dependencia positiva o negativa según el signo). Suponiendo normalidad e independencia, asintóticamente: r(k) N ρ(k), 1 aprox. n Si el tamaño muestral es grande, podríamos aceptar H 0 : ρ (k) = 0 si: jr(k)j < 2 p n En el grá co de autocorrelaciones muestrales (también denominado correlograma) se representan las estimaciones r(k) de las autocorrelaciones correspondientes a los primeros retardos (típicamente k < n/4) y las correspondientes bandas de con anza (para detectar dependencias signi cativas). Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 10 / 16

ACF est. ACF est. Métodos grá cos El correlograma ACF est. Independencia 1,0,5 0,0,5 1,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Dependencia positiva Retardo Dependencia negativa 1,0 1,0,5,5 0,0 0,0,5,5 1,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Retardo Retardo Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 11 / 16

Test de rachas Contrastes de hipótesis Test de rachas Permite contrastar si el orden de aparición de dos valores de una variable dicotómica es aleatorio. Supongamos que X toma los valores + y Observamos una muestra del tipo: + + + + + + + + + + + + + y nos interesa contrastar: H0 : La muestra es aleatoria H 1 : La muestra no es aleatoria Una racha es una secuencia de observaciones iguales (o similares): + + {z ++ } 1 {z } 2 + {z + + } 3 {z} 4 + + + {z + ++ } 5 {z } 6 Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 12 / 16

Contrastes de hipótesis Test de rachas Una muestra con muchas o pocas rachas sugeriría que la muestra no es aleatoria (con dependencia negativa o positiva, respec.). Estadístico del contraste: R = "N o total de rachas en la muestra" Bajo la hipótesis nula de aleatoriedad: R N 1 + 2n 1n 2, 2n 1n 2 (2n 1 n 2 n) aprox. n n 2 (n 1) siendo: n 1 = n o de signos + en la muestra n 2 = n o de signos (n 1 + n 2 = n) Para tamaños muéstrales pequeños (n < 40), la aproximación anterior no es buena y conviene utilizar la distribución exacta (o utilizar corrección por continuidad). Los valores críticos de esta distribución están tabulados. Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 13 / 16

Contrastes de hipótesis Test de rachas Este contraste se emplea también para variables continuas, se ja un punto de corte para dicotomizarlas. Normalmente se toma como punto de corte la mediana. En este caso si k = n 1 (' n 2 ) y (si n ' 2k > 40): k(k 1) R N k + 1, aprox. 2k 1 Se rechaza la hipótesis nula de aleatoriedad si el número de rachas es signi cativamente pequeño o grande. Si el tamaño muestral es grande, el p-valor será:! R E (R) p ' 2 P Z p Var(R) Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 14 / 16

Contrastes de hipótesis Ejemplo test de rachas Ejemplo (problema 2.4) X = "tiempo de funcionamiento (en cientos de horas) de cierto tipo de impresoras antes de la primera avería" Se ha observado una muestra de diez impresoras (orden fabricación): 16.16 18.39 1.69 4.70 3.68 2.99 3.03 9.72 15.87 7.32 Contrastar la aleatoriedad de la muestra. 1 Se calcula la mediana = 4.70+7.32 2 = 6.01 2 Se obtienen las rachas: 16.16 18.39 1.69 4.70 3.68 2.99 3.03 9.72 15.87 7.32 + + - - - - - + + + 3 n 1 = n 2 = 5 y R = 3 4 p valor = 2 0.04 ) se acepta (con poca "seguridad") la aleatoriedad Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 15 / 16

Contrastes de hipótesis El contraste de Ljung-Box El contraste de Ljung-Box Test muy utilizado (en series de tiempo) para contrastar la hipótesis de independencia. Se contrasta la hipótesis nula de que las primeras m autocorrelaciones son cero: H0 : ρ 1 = ρ 2 =... = ρ m = 0 H 1 : ρ i 6= 0 para algún i Se elige un m tal que la estimación r(m) de ρ m = ρ(m) sea " able". El estadístico del contraste: Q = n(n + 2) m k=1 r(k) 2 n k aprox. χ2 m 1, si H 0 es cierta. Se rechaza H 0 si el valor observado es grande (Q χ 2 m 1,1 α ): p = P χ 2 m 1 Q Tema 1 (IV) (Estadística 2) Contrastes de aleatoriedad Curso 08/09 16 / 16