Test de suma de rangos

Documentos relacionados
Técnicas de validación estadística Bondad de ajuste

Técnicas de validación estadística Bondad de ajuste

Test de Kolmogorov-Smirnov

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

Pruebas para evaluar diferencias

Conceptos del contraste de hipótesis

Teorema Central del Límite (1)

no paramétrica comparar más de dos grupos de rangos (medianas)

INDICE. Prólogo a la Segunda Edición

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Generación de variables aleatorias continuas Método de rechazo

Generación de variables aleatorias continuas Método de la transformada inversa

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

Tema 8: Contraste de hipótesis

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Cómo se hace la Prueba t a mano?

Estadísticos Aplicados en el SPSS 2008

Contraste de hipótesis paramétricas

Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste

Tabla de Test de Hipótesis ( Caso: Una muestra ) A. Test para µ con σ 2 conocida: Suponga que X 1, X 2,, X n, es una m.a.(n) desde N( µ, σ 2 )

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

Tablas de contingencia y contrastes χ 2

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

Distribución Chi (o Ji) cuadrada (χ( 2 )

Tablas de estadística

Contrastes de Hipótesis paramétricos y no-paramétricos.

Tema 5. Muestreo y distribuciones muestrales

Matemáticas 2.º Bachillerato. Intervalos de confianza. Contraste de hipótesis

Proyecto Tema 8: Tests de hipótesis. Resumen teórico

BÚSQUEDA INTELIGENTE BASADA EN METAHEURÍSTICAS

Tema 9: Contraste de hipótesis.

Práctica 5 MÉTODOS DESCRIPTIVOS PARA DETERMINAR LA NORMALIDAD

LECTURA 07: MEDIDAS DE TENDENCIA CENTRAL (PARTE II) LA MEDIANA TEMA 17: LA MEDIANA

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

Pruebas de Hipótesis Multiples

EJERCICIOS RESUELTOS DE ESTADÍSTICA II

Teoría del muestreo. Tipos de muestras

en Enfermería del Trabajo

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis. Facultad de Ciencias Sociales, UdelaR

INFERENCIA ESTADISTICA

Tema 13: Distribuciones de probabilidad. Estadística

PATRONES DE DISTRIBUCIÓN ESPACIAL

Método de cuadrados mínimos

ALGEBRA I, ALGEBRA Y TRIGONOMETRIA , Segundo Semestre CAPITULO 6: POLINOMIOS.

Teoría de la decisión

PRUEBAS DE BONDAD DE AJUSTE y DE INDEPENDENCIA

Unidad IV: Distribuciones muestrales

b) dado que es en valor absoluto será el área entre -1,071 y 1,071 luego el resultado será F(1,071)-(1-F(1,071)=0,85-(1-0,85)=0,7

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

III Verano de Probabilidad y Estadística Curso de Procesos de Poisson (Víctor Pérez Abreu) Lista de Ejercicios

Análisis de Datos y Probabilidad Grado 9-12

INDICE 1. Introducción 2. Recopilación de Datos Caso de estudia A 3. Descripción y Resumen de Datos 4. Presentación de Datos

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

UNIDAD 6. Estadística

Modelos de probabilidad. Modelos de probabilidad. Modelos de probabilidad. Proceso de Bernoulli. Objetivos del tema:

DISTRIBUCIONES BIDIMENSIONALES

Pruebas de bondad de ajuste

Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución.

Contraste de hipótesis Tema Pasos del contraste de hipótesis. 1.1 Hipótesis estadísticas: nula y alternativa. 1.3 Estadístico de contraste

Medidas de dispersión

Ejercicio 1(10 puntos)

Aplicación del modelo de frontera estocástica de producción para analizar la eficiencia técnica de la industria eléctrica en México

INFERENCIA ESTADÍSTICA Notas de clase. Profesores: A. Leonardo Bañuelos S. Nayelli Manzanarez Gómez

Determinación del tamaño de muestra (para una sola muestra)

PRUEBA DE KOLMOGOROV SMIRNOV (Contraste sobre la forma de la distribución) F(X) es la función de distribución que hipotetizamos.

Práctica 5 ANÁLISIS DE UNA MUESTRA INTERVALOS DE CONFIANZA CONTRASTE DE HIPÓTESIS

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

Probabilidad y Estadística, EIC 311

Curso de Probabilidad y Estadística

MEDIDAS DE TENDENCIA CENTRAL

Algunas Distribuciones Continuas de Probabilidad. UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Prueba de hipótesis para la diferencia de medias

Problemas resueltos. Tema 12. 2º La hipótesis alternativa será que la distribución no es uniforme.

ESTADÍSTICA. Tema 4 Regresión lineal simple

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA

Capítulo 8. Análisis Discriminante

INFERENCIA DE LA PROPORCIÓN

ANÁLISIS DE FRECUENCIA (CURVAS INTENSIDAD DURACIÓN - FRECUENCIA) Y RIESGO HIDROLÓGICO

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

Indicaciones para el lector... xv Prólogo... xvii

EXPERIMENTO ALEATORIO

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

Pruebas de Bondad de Ajuste

TEMA IV PERCENTIL Y ESTADIGRAFOS DE POSICION

Discretas. Continuas

Electrónica 1. Práctico 1 Amplificadores Operacionales 1

Conceptos Básicos de Inferencia

Objetivos. Aprender a construir gráficos p y/o np. Aprender a construir gráficos c y u. Cuando usarlos. Epígrafes

Tema 8. Muestreo. Indice

Procesos estocásticos. Definición

Medidas de posición relativa

La desviación típica y otras medidas de dispersión

Problemas Prueba de significación de la hipótesis nula Vicente Manzano-Arrondo, 2013

CM0244. Suficientable

Probabilidad y Estadística

EJERCICIOS RESUELTOS DE ESTADÍSTICA II

ICM Fundamentos de Computación

Transcripción:

Test de suma de rangos Georgina Flesia FaMAF 4 de junio, 2013

Bondad de ajuste Se tiene una muestra de datos y se quiere contrastar la hipótesis H 0 ) Los datos provienen de la distribución F. Test chi-cuadrado y test de Kolmogorov Smirnov. Se tienen dos muestras de datos: H 0 ) los datos de las dos muestras provienen de una misma distribución. Test de suma de rangos (Mann-Whitney o de Wilcoxon). Se tienen k muestras, k 2, H 0 ) Los datos de todas las muestras provienen de una misma distribución. Test de Kruskal-Wallis.

El problema de las dos muestras Se han observado m datos: Y 1,..., Y m. Por ejemplo, tiempos de permanencia de clientes en un sistema a lo largo de un día. Se establece un modelo matemático para estos datos, asumiendo que las Y i son independientes e igualmente distribuidas. Se realiza una simulación de datos X 1,..., X n de acuerdo a este modelo matemático. Se puede asegurar que Y 1,..., Y m, X 1,..., X n son independientes e igualmente distribuidas? H 0 ) Las n + m variables aleatorias Y 1,..., Y m, X 1,..., X n son independientes e igualmente distribuidas.

Test de suma de rangos Método: Muestra 1: X 1,..., X n Muestra 2: Y 1,..., Y m Nota: Cualquiera de las dos muestras puede elegirse como primera. Se ordenan los n + m valores, que asumimos todos distintos. R(x i ): rango de x i, i-ésimo elemento de la muestra 1, entre los n + m valores. R: Suma de los rangos de la muestra 1. R = n R(x i ). i=1 Ejemplo: Muestra 1: 1, 7, 5, 4. Ordenamiento: 1, 2, 3, 4, 5, 7, 9. Muestra 2: 3, 2, 9.. R = 1 + 4 + 5 + 6 = 16

Test de suma de rangos R = suma de los rangos de la primera muestra. Estadístico Un valor grande de R indica que los datos de la primera muestra son en general mayores que los de la segunda. Un valor chico de R indica que los datos de la primera muestra son en general menores que los de la segunda. Si el valor observado es R = r, se rechaza H 0 si son pequeñas alguna de las probabilidades P H0 (R r) o P H0 (R r).

Ejemplo Se observaron durante 5 días los siguientes valores: 342, 448, 504, 361, 453, y la simulación del modelo matemático propuesto para el sistema arrojó los siguientes valores: 186, 220, 225, 456, 276, 199, 371, 426, 242, 311. Test de suma de rangos: 186, 199, 220, 225, 242, 276, 311, 342, 361, 371, 426, 448, 453, 456, 504 R = 8 + 12 + 15 + 9 + 13 = 57

Cálculo de P H0 (R r) Si n y m son valores pequeños, puede utilizarse una fórmula recursiva para el cálculo de P H0 (R r). Si n y m son valores grandes ( 8), conviene utilizar distribución de R, o simulación. Muestras chicas P n,m (r): probabilidad que de dos conjuntos de datos igualmente distribuidos, de tamaños n y m respectivamente, la suma de los rangos de los datos del primer conjunto sea menor o igual a r. Notación: P n,m (r) = P H0 (R r)

Cálculo de P n,m (r) R = r: suma de rangos de la primera muestra (de tamaño n). Si el mayor valor es de la primera muestra: r = r (m + n) + (m + n) r (m + n): suma de los rangos de los n 1 restantes. m + n: rango del mayor. P(R r el mayor está en la 1ra. muestra) = P n 1,m (r m n) Si el mayor valor corresponde a la segunda muestra, se tiene P(R r el mayor está en la 2da. muestra) = P n,m 1 (r)

Cálculo de P n,m (r) Las probabilidades que un elemento de la primera (segunda, respectivamente) muestra sea el mayor son: n m + n Definición recursiva de P n,m (r): y m m + n P n,m (r) = Condiciones iniciales: { 0 k 0 P 1,0 (k) = 1 k > 0. n n + m P n 1,m(r n m) + m m + n P n,m 1(r). P 0,1 (k) = { 0 k < 0 1 k 0.

Cálculo recursivo del valor p El valor p está dado por 2 min{p H0 (R r), P H0 (R r)} P H0 (R r) = 1 P H0 (R r 1). Cálculo del valor p por recursión: valor p = 2 min{p n,m (r), 1 P n,m (r 1)}. Desventajas del método recursivo Para n = m = 20, 1 + 2 + + 40 = 820, por lo que el rango de la muestra de menor rango podría alcanzar el valor 410. En tal caso, será necesario calcular valores de P n,m (r). 20 20 410 = 164000

Distribución del estadístico R H 0 : Las dos muestras están igualmente distribuidas. Bajo la hipótesis H 0, todos los ordenamientos de los n + m valores son igualmente probables. Notación: N = n + m. x1,..., x n: elementos de la primera muestra. R(xi ): rango del elemento x i, i = 1... n. R = R(x 1 ) + + R(x n ) tiene una distribución aproximadamente normal: R E[R] Var(R) N(0, 1).

Parámetros de la distribución de R. E[R(x i )] = E[R] = N 1 j N = N + 1. 2 j=1 n i=1 E[R(x i )] = n N + 1. 2 (N 1)(N + 1) Var(R(x i )) = 12 cov(r(x i ), R(x j )) = N + 1 2 Var(R) = n m N + 1 12

Distribución de R Bajo la hipótesis H 0 y para n y m grandes: W = R n N + 1 2 n m N + 1 12 N(0, 1) Si r E[W ], entonces P(W r) P(W r). Si r E[W ], entonces P(W r) P(W r). 2P(Z < r valor p ) si r n N + 1 2 2P(Z > r ) caso contrario. n (N + 1) r r = 2 n m (N + 1) 12

Ejemplo Los siguientes valores corresponden a observaciones de un sistema durante 5 días: 132, 104, 162, 171, 129 La simulación según el modelo matemático propuesto para el sistema arroja los siguientes valores: 107, 94, 136, 99, 114, 122, 108, 130, 106, 88. El rango de la primera muestra resulta 12 + 4 + 14 + 15 + 10 = 55. Valor p usando recursión? Ross: 0.0752579. Ejercicio.

Ejemplo Valor p por aproximación normal: E[R] = 5 5 + 10 + 1 = 40, 55 > 40. 2 valor p = 2 P 55 40 Z 50 16 = 2 P(Z 1.8371) = 0.066. 12 Respuesta exacta: 0.0752579.

Aproximación mediante simulación H 0 : si los n + m datos son distintos, todos los ordenamientos son igualmente probables. Simulación: Generar un subconjunto de tamaño n del conjunto 1, 2,..., n + m. Determinar R: suma de los elementos generados. Comparar R con el valor observado r. R r R r. Repetir los pasos anteriores k veces. Se habrán obtenido valores R 1,..., R k. Estimar: P(R r) = #{i R i r} k, P(R r) = #{i R i r}. k

Caso de datos repetidos Si las muestras tienen datos repetidos, se utiliza como rango el promedio de los rangos de dichos valores. Ejemplo: Ordenamiento: Muestra 1: 2, 3, 4. 2, 3, 3, 4, 5, 7 Muestra 2: 3, 5, 7. R = 1 + 2.5 + 4 = 7.5. En este caso, utilizar la aproximación normal.

Problema de múltiples muestras Se tienen m muestras de tamaños n 1, n 2,..., n m. R i : rango de la i-ésima muestra. n = n 1 + + n m : número total de datos u observaciones. H 0 : todas las muestras están igualmente distribuidas todos los ordenamientos de los n datos son igualmente probables. E[R i ] = n i n + 1 2. Estadístico: R = 12 n(n + 1) m i=1 (R i n i (n + 1)/2) 2 n i. Valores chicos de R no indicarían que haya que rechazar H 0.

Problema de múltiples muestras Si se observa R = y, entonces valor p = P H0 (R y). Si los tamaños de las muestras son grandes, R puede aproximarse por una distribución chi-cuadrado con m 1 grados de libertad: valor p P(χ 2 m 1 y). Puede usarse simulación. La aproximación chi-cuadrado también puede utilizarse si hay datos repetidos.