Test de Kolmogorov-Smirnov



Documentos relacionados
Técnicas de validación estadística Bondad de ajuste

Técnicas de validación estadística Bondad de ajuste

Test de Kolmogorov Smirnov Patricia Kisbye El test chi-cuadrado en el caso continuo

Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste

Tests de hipótesis. Técnicas de validación estadística Bondad de ajuste. Pruebas de bondad de ajuste. Procedimiento en una prueba de hipótesis

Pruebas de Bondad de Ajuste

Estadística Avanzada y Análisis de Datos

Validación de hipótesis de un proceso de Poisson no homogéneo

CONCEPTOS FUNDAMENTALES

Estadistica II Tema 1. Inferencia sobre una población. Curso 2009/10

Técnicas Cuantitativas para el Management y los Negocios I

Unidad Temática 5 Estimación de parámetros: medias, varianzas y proporciones

Tema 11: Intervalos de confianza.

6. ESTIMACIÓN DE PARÁMETROS

Teoría de la decisión Estadística

Propiedades en una muestra aleatoria

D.2 ANÁLISIS ESTADÍSTICO DE LAS TEMPERATURAS DE VERANO

DISTRIBUCIONES DE PROBABILIDAD (RESUMEN)

Generación de eventos en Procesos de Poisson

TEMA 4: CONTRASTES DE HIPÓTESIS. CONCEPTOS BÁSICOS

ESTADISTICA INFERENCIAL

Tema 5: Principales Distribuciones de Probabilidad

Tema 5. Muestreo y distribuciones muestrales

El método de mínimos cuadrados. Curso de Estadística TAE, 2005 J.J. Gómez-Cadenas

INTERVALO DE CONFIANZA PARA LA PROPORCIÓN

Tema 2. Contraste de hipótesis en una población

Problemas resueltos. Tema 12. 2º La hipótesis alternativa será que la distribución no es uniforme.

FORMULARIO. Rango intercuartílico: Diferencia entre el tercer y primer cuartil

Tema Correlación. Correlación. Introducción

Pruebas de bondad de ajuste

ANÁLISIS CUANTITATIVO DE DATOS EN CIENCIAS SOCIALES CON EL SPSS (I) Tablas de contingencia y pruebas de asociación

PROBABILIDAD Y ESTADÍSTICA. Sesión 5 (En esta sesión abracamos hasta tema 5.8)

Estadística II Tema 3. Comparación de dos poblaciones. Curso 2010/11

Nivel socioeconómico medio. Nivel socioeconómico alto SI NO TOTAL

Métodos Estadísticos de la Ingeniería Tema 10: Inferencia Estadística, Intervalos de Confianza Grupo B

Test de suma de rangos

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA

Variable Aleatoria. Relación de problemas 6

Estadística II Tema 2. Conceptos básicos en el contraste de. Curso 2010/11

ESTADISTICA APLICADA: PROGRAMA

Soluciones Examen de Estadística

Validación de los métodos microbiológicos HERRAMIENTAS ESTADISTICAS. Bqca. QM Alicia I. Cuesta, Consultora Internacional de la FAO

CAPITULO II : MARCO TEORICO INTRODUCCIÓN A LA MODELACIÓN Y A LA SIMULACIÓN

Selección de distribuciones de probabilidad

Econometria. 4. Modelo de Regresión Lineal Simple: Inferencia. Prof. Ma. Isabel Santana

Práctica 2 Métodos de búsqueda para funciones de una variable

Tema 13: Contrastes No Paramétricos

CÁLCULO DE SIGNIFICANCIA ESTADÍSTICA PARA RESULTADOS SIMCE

9. EL VALOR-P. Para esta hipótesis alternativa, el valor-p es la probabilidad que queda a la derecha del valor Tobs. bajo la curva de densidad.

Estadística II Examen Final - Enero Responda a los siguientes ejercicios en los cuadernillos de la Universidad.

Universidad de Managua

Pruebas de Acceso a Enseñanzas Universitarias Oficiales de Grado (PAEG) Matemáticas aplicadas a las Ciencias Sociales II - Junio Propuesta B

Análisis estadístico básico (I) Magdalena Cladera Munar Departament d Economia Aplicada Universitat de les Illes Balears

3. Análisis univariable y bivariable

ESTADÍSTICA INFERENCIAL

PONTIFICIA UNIVERSIDAD CATOLICA DEL ECUADOR FACULTAD DE INGENIERIA ESCUELA DE INGENIERIA DE SISTEMAS

Tema 3: Estimadores de máxima verosimilitud

EJERCICIOS RESUELTOS TEMA 7

7. Distribución normal

Unidad III Variables Aleatorias Unidimensionales

Análisis de Capabilidad (Porcentaje Defectuoso)

CÁLCULO DE SIGNIFICANCIA ESTADÍSTICA PARA RESULTADOS DE LAS PRUEBAS SIMCE

Distribuciones de probabilidad. El teorema central del límite

ÍNDICE CAPITULO UNO CAPITULO DOS. Pág.

Ejercicios resueltos y propuestos sobre tests no paramétricos (Unidad 3)

Conceptos básicos de inferencia estadística (III): Inferencia no paramétrica: Contrastes de bondad de ajuste.

REVISION DE CONCEPTOS BÁSICOS

1. Límites normales de tolerancia: estos límites asumen que los datos son una muestra aleatoria de una distribución normal.

Distribución muestral de proporciones. Algunas secciones han sido tomadas de: Apuntes de Estadística Inferencial Instituto Tecnológico de Chiuhuahua

Intervalos para la diferencia de medias de dos poblaciones

UNA COMPARACIÓN DE LOS MODELOS POISSON Y BINOMIAL NEGATIVA CON STATA: UN EJERCICIO DIDÁCTICO

Muestreo y Distribuciones muestrales. 51 SOLUCIONES

3. VARIABLES ALEATORIAS

CAPITULO III: METODOLOGIA. En el presente capítulo se describirá el conjunto de pasos a seguir para lograr el

4. Medidas de tendencia central

Ejercicios de Vectores Aleatorios

Estadística Inferencial 3.7. Prueba de hipótesis para la varianza. σ gl = n -1. Es decir: Ho: σ 2 15 Ha: σ 2 > 15 (prueba de una cola)

El supermercado XYZ desea conocer el comportamiento del mismo en una sola hora de un día típico de trabajo.

Estadística Inferencial. Sesión No. 8 Pruebas de hipótesis para varianza.

Cabrera Hernández Elizabeth Ramírez Bustos Fabián GENERACION DE NUMEROS ALEATORIOS

ESTADÍSTICA INFERENCIAL

TEMA II: DISTRIBUCIONES RELACIONADAS CON LA NORMAL

DISTRIBUCIONES DE PROBABILIDAD

4,2 + 0,67 Y c) R 2 = 0, En la estimación de un modelo de regresión lineal se ha obtenido:

Estadística inferencial. Aplicación con el SPSS

Estadística Inferencial. Sesión 5. Prueba de hipótesis

Introducción a la estadística básica, el diseño de experimentos y la regresión

PRUEBAS DE ACCESO A LA UNIVERSIDAD L.O.E.

COMPARACIÓN DE SUPERFICIES DE RESPUESTA CON BÚSQUEDA TABÚ Y ALGORITMOS GENÉTICOS

Aplicación de la distribución empírica: Tests de bondad de ajuste

Propuesta A. 2 0 b) Dada la ecuación matricial: X = , despeja y calcula la matriz X. (0.75 ptos) 2 1

1) Características del diseño en un estudio de casos y controles.

Índice general Intervalo de confianza para la media si la varianza poblacional es. conocida desconocida... 3

PRUEBAS PARA DOS MUESTRAS RELACIONADAS

Generación de Números Aleatorios. Modelos de Probabilidad. Introducción a la Simulación con EXCEL.

Pruebas de acceso a enseñanzas universitarias oficiales de grado Castilla y León

PROBLEMAS RESUELTOS SELECTIVIDAD ANDALUCÍA 2004 MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES TEMA 6: TEORÍA DE MUESTRAS

Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste

Transcripción:

Test de Kolmogorov-Smirnov Georgina Flesia FaMAF 2 de junio, 2011

Test de Kolmogorov-Smirnov El test chi-cuadrado en el caso continuo H 0 : Las v.a. Y 1, Y 2,..., Y n tienen distribución continua F. Particionar el rango de Y = Y j en k intervalos distintos: [y 0, y 1 ), [y 1, y 2 ),..., [y k 1, y k ), Considerar las n v.a. discretizadas Y d 1, Y d 2,..., Y d n dadas por Y d j = i si Y i [y j 1, y j ). La hipótesis nula es entonces H 0 ) P(Y d j = i) = F(y i ) F (y i 1 ), i = 1,..., k. Proceder ahora como en el caso discreto.

Test de Kolmogorov Smirnov Inconveniente: No es sencillo construir los intervalos a partir de las probabilidades. Se pierde información al agrupar los datos en intervalos. Aconsejable: Utilizar el test de Kolmogorov-Smirnov. Test de Kolmogorov Smirnov Compara las funciones de distribución empírica de la muestra y la que se desea contrastar. Es aplicable a distribuciones continuas. Para distribuciones discretas, los valores críticos no están tabulados. Para distribuciones continuas, los valores críticos están tabulados para: distribuciones con parámetros especificados, algunas distribuciones con parámetros no especificados (normal, Weibull, gamma, exponencial).

Aplicación del test K-S Observar Y 1, Y 2,..., Y n y considerar la distribución empírica F e (x) = #{i Y i x}. n F e (x): proporción de valores observados menores o iguales a x. Hipótesis nula: F e (x) es cercana a F(x). Estadístico de Kolmogorov-Smirnov D max F e (x) F (x), < x <. x

Implementación Ordenar los datos observados Y 1 = y 1, Y 2 = y 2,..., Y n = y n en orden creciente: y (j) = j ésimo valor más pequeño y (1) < y (2) < < y (n). Por ejemplo: y 1 = 3, y 2 = 5, y 3 = 1 y n = 3, entonces y (1) = 1, y (2) = 3, y (3) = 5. 0 x < y (1) 1 n y (1) x < y (2) Distribución empírica F e (x) = y (j) x < y (j+1). j n. 1 y (n) x

Gráficamente 1 F(x) y (1) y (2) y (3) y (4) y (5)

Estadístico de Kolmogorov-Smirnov D sup F e (x) F(x) <x< Podemos considerar las diferencias F e (x) F(x) y F (x) F e (x) y analizar sus valores máximos (supremos). D + = sup {F e (x) F(x)}, D = sup {F(x) F e (x)}. <x< <x< F e (y (n) ) = 1. Por lo tanto, D + 0. F e (x) = 0 si x < y (1), por lo que D 0. D = max{d +, D }

El estadístico D F (y (4) ) F e (y (3) ) 1 D F e (y (2) ) D + F (y (2) ) y (1) y (2) y (3) y (4)

Cálculo de D Notemos que: D + se alcanza en el límite inferior de algún intervalo, ya que F(x) es creciente y F e (x) es constante en [y (j 1), y (j) ): {( ) D + { ( ) ( )} j = max Fe y(j) F y(j) = max F ( ) } y (j) 1 j n 1 j n n D es el límite por izquierda calculado en el extremo derecho de algún intervalo, ya que F e (x) es discontinua en tal punto: ( ) j F e y(j) = n = F ( e y(j) ɛ ) + 1 n, ɛ pequeño. { D { ( ) ( )} = max F y(j) Fe y(j 1) = max F ( } ) j 1 y (j) 1 j n 1 j n n

Estadístico de Kolmogorov-Smirnov { j D = max 1 j n n F(y (j)), F (y (j) ) j 1 } n Estadístico de K-S Elegir un grado de significación (nivel de rechazo) α. Tomar la muestra y ordenar los datos observados. Calcular el estadístico D en los datos observados. Valor observado: D = d. Calcular el valor p = P F (D d). valor p < α: se rechaza H0. valor p > α: no se rechaza H0. Cómo calcular el valor p? Cuál es la distribución del estadístico D?

Estimación del valor p P F (D d) no depende de la distribución F. El estadístico D depende de las n observaciones Y 1, Y 2,..., Y n : D = sup x F e (x) F(x) = sup x Si Y tiene distribución F entonces F(Y ) U(0, 1). #{i Y i x} n Como F es una función creciente, entonces Y i x implica F (Y i ) F (x). F(x)

Estimación del valor p D = sup x #{i F (Y i ) F(x)} n Equivalentemente, se puede reemplazar F(x) F(Y i ) por U i, v.a. uniformemente distribuida en (0, 1), y F(x) por y [0, 1]. D = sup 0 y 1 #{i U i y} n y

Estimación del valor p D = sup 0 y 1 #{i U i y} n y Esta expresión no depende de la distribución F. valor p = P F (D d) = P U (D d), U U(0, 1). Puede estimarse mediante simulación: Generar n números aleatorios Ui, 1 i n, Evaluar D y comparar con el valor observado d de la muestra original. sup #{i U i y} y n d 0 y 1 Repetir el procedimiento r veces. Se estima el valor p como la proporción de veces que se cumple la desigualdad D d.

Estimación del valor p sup 0 y 1 #{i U i y} n y d Para calcular este supremo, procedemos como para el cálculo de d. D D + Ordenar u (1),..., u (n). Calcular max 1 j n { j n u (j), u (j) j 1 } n u (1) u (2) u (n)

Ejemplo Si n = 3 y U 1 = 0.7, U 2 = 0.6, U 3 = 0.4, entonces U (1) = 0.4, U (2) = 0.6, U (3) = 0.7, y el valor D para este conjunto de datos es { 1 D = max 3 0.4, 2 3 0.6, 1 0.7, 0.4, 0.6 1 3, 0.7 2 } = 0.4 3 1 2/3 y = F (y) 1/3 0.4 0.60.7

Ejemplo Se quiere probar la hipótesis que una determinada distribución es exponencial con media 100 F(x) = 1 e x/100. Los valores ordenados para una muestra de tamaño 10 para esta distribución son: 66, 72, 81, 94, 112, 116, 124, 140, 145, 155, qué conclusión puede obtenerse?

Ejemplo j j valores F (y j ) n F (y j 1 j) n F (y j) 1 66 0,48-0,38 0,48 2 72 0,51-0,31 0,41 3 81 0,56-0,26 0,36 4 94 0,61-0,21 0,31 5 112 0,67-0,17 0,27 6 116 0,69-0,09 0,19 7 124 0,71-0,01 0,11 8 140 0,75 0,05 0,05 9 145 0,77 0,13-0,03 10 155 0,79 0,21-0,11 d = 0, 48315 Calcular el valor p mediante simulaciones. Si el p valor es 0.012, se rechaza la hipótesis nula.

Pruebas de bondad de ajuste si hay parámetros no especificados Caso discreto: test chi-cuadrado Dadas n observaciones, Y 1,..., Y n, éstas se agrupan en k intervalos distintos. La hipótesis nula está dada por H 0 ) P(Y i = j) = p j, para 1 j k, i = 1... n.. En algunos casos se tiene alguna hipótesis sobre la forma de la distribución pero no sobre los parámetros de la misma: media, desviación estándar, varianza, etc. Esto puede implicar que se desconozca p j : P(Y = j) = e λ λ j j! λ desconocido? En este caso, se estiman el o los parámetros desconocidos a partir de la muestra.

El caso discreto A partir de estas estimaciones, se obtienen las probabilidades estimadas: ˆp j. El estadístico es el siguiente: T = k (N j nˆp j ) 2 j=1 nˆp j Nj : cantidad de observaciones en el j-ésimo intervalo. ˆp j : probabilidad estimada, según H 0, que Y j caiga en la región j. Si el valor observado del estadístico es t, y se han debido estimar m parámetros: valor p = P(T t) P(χ 2 k 1 m t).

Ejemplo En un período de 30 días se registraron 6 días sin accidentes, 2 con un accidente, 1 con dos accidentes, 9 con 3 accidentes, 7 con 4 accidentes, 4 con 5 accidentes y 1 con 8 accidentes. Realizar una prueba de hipótesis para determinar si el número de accidentes sigue una distribución de Poisson. Estimamos la media λ de la distribución: número de accidentes = 6 0 + 2 1 + 1 2 + 9 3 + 7 4 + 4 5 + 1 8 = 87. ˆλ = número de accidentes total de días = 87 30 = 2.9 2.9 (2.9)j ˆp j+1 = P(Y = j) = e, j = 0, 1, 2,... j!

Ejemplo Se establecen los k intervalos. Elegimos k = 6: I 1 = {0} I 2 = {1} I 3 = {2} I 4 = {3} I 5= {4} I 6 = {5, 6, 7,... } ˆp 1 = 0.0500 ˆp 4 = 0.2237 ˆp 2 = 0.1596 ˆp 5 = 0.1622 ˆp 3 = 0.2312 ˆp 6 = 0.1682 Frecuencias observadas: N 1 = 6, N 2 = 2, N 3 = 1, N 4 = 9, N 5 = 7, N 6 = 5. Frecuencias esperadas: 30 ˆp j, 1 j 6. Estadístico: T = 6 (N j 30 ˆp j ) 2 = 19.887. 30 ˆp j j=1

Valor p El valor observado del estadístico es t = 19.887. Como se estimó 1 parámetro, y se consideraron 6 intervalos, se estima el valor p utilizando una distribución χ 2 con 6 1 1 = 4 grados de libertad: valor p P(χ 2 4 > 19.887) = 0.0005. Conclusión: se rechaza la hipótesis nula. Simulación para determinar el valor p La hipótesis nula no especifica completamente la distribución. El procedimiento es similar al caso anterior, pero los parámetros deben estimarse nuevamente en cada simulación.

Valor p con parámetros estimados - El modelo H 0 ) Los datos de la muestra Y 1, Y 2,..., Y n provienen de una distribución determinada, salvo por un conjunto de parámetros desconocidos θ 1,..., θ m. Primer paso ˆθj : estimación de θ j a partir de la muestra, j = 1, 2,..., m. ˆp j : si la distribución tiene parámetros ˆθ 1,..., ˆθ m. Estadístico T : T = k (N j nˆp j ) 2 j=1 nˆp j t valor observado del estadístico T.

Valor p con parámetros estimados Simulación Objetivo: estimar el valor p. ˆF: distribución propuesta en H0, con los parámetros estimados según la muestra. El procedimiento consiste en repetir r veces los siguientes pasos: 1. Generar Y 1,..., Y n ˆF. 2. Calcular N j = #{i Y i I j }, j = 1,..., k. 3. ˆθ1,sim,..., ˆθ m,sim : estimaciones de los parámetros a partir de los valores Y i generados. 4. p j (sim), probabilidades si la distribución tiene parámetros ˆθ 1,sim,..., ˆθ m,sim. 5. Calcular T : T = k (N j n p j ) 2 j=1 n p j

Valor p con parámetros estimados Luego de r pasos se han obtenido r valores para T : Ejemplo Parámetro estimado: ˆλ = 2.9. T 1, T 2,..., T r. valor p #{j T j t} r Valor del estadístico según la muestra: t = 19.887 Simulación: 1. Generar 30 v.a. Poisson con media 2.9. 2. ˆλsim : estimación de λ según esta muestra. 3. pi : Probabilidad de tomar el valor i según una Poisson de parámetro ˆλ sim. 4. Calcular T. 5. valor p: proporción de valores de T mayores a 19.887.

Test de Kolmogorov-Smirnov si hay parámetros no especificados Caso continuo H 0 ): Las v. a. Y 1,..., Y n provienen de una distribución F con parámetros desconocidos θ 1,..., θ m. Tomar una muestra Y 1,..., Y n. Estimar los parámetros a partir de la muestra: ˆΘ = (ˆθ 1,..., ˆθ m ). Calcular el estadístico a partir de la distribución con parámetros estimados: D = sup Fe (x) F ˆΘ(x). x d valor de D observado. valor p P F ˆΘ (D d) = P U(D d). Este valor sobreestima el valor de p.

Simulación del valor p Si p < α, se rechaza la hipótesis nula. Si está próximo o es mayor que α, se optimiza la estimación del valor p. Optimización: Luego de calcular d, a partir de la muestra: 1. Generar Y 1,..., Y n según la distribución F ˆΘ. 2. ˆΘ sim = (ˆθ 1,sim,..., ˆθ m,sim ): estimación de los parámetros según los datos simulados. 3. F e,sim : distribución empírica de los datos simulados. 4. Calcular el estadístico D :. D = sup x F e,sim (x) F ˆΘ sim (x) Repetir el procedimiento r veces, para obtener D 1,..., D r : valor p #{j D d r