Estadistica No Parametrica CLASE Pruebas de Rachas y Aleatoriedad JAIME MOSQUERA RESTREPO El Test de Rachas (Run Test) Para Llegar a una conclusión fundamentadose en lo observado en una muestra, es absolutamente necesario que esta sea totalmente aleatoria Este test es una prueba de aleatoriedad que se fundamenta en la distribución de las rachas 1
Racha: Definición Sucesión de símbolos idénticos que pueden estar o no separados por otros símbolos intermedios Ejemplo: Se lanza una moneda que se supone legal 14 veces al aire y se obtienen los siguientes resultados. +++ - - + - - - - + + - + r = 7 rachas en los resultados Cree usted que la moneda es legal? Algunas Preguntas Que se puede pensar si hay pocas rachas? H H H H H H H H H H T T T T T T T T T T Que se puede pensar si hay muchas rachas? H T H T H T H T H T H T H T H T H T H T Existe Aleatoriedad?
En una muestra aleatoria. El numero de rachas no puede ser tan grande, pero tan poco muy corto. Debe existir un intervalo tolerable Pregunta: Como determinar el intervalo? R/ Teoría Combinatoria Ejemplo: a) Suponga la existencia de una variable dicotoma, la cual usted ha observado durante 4 días, obteniendo 1 resultado negativo y 3 positivos. Cual es la distribución del numero de rachas a obtener? b) Que sucede si el numero positivos y negativos se iguala. Manteniendo el numero de observaciones? Cual serie el numero maximo de rachas? c) Que sucede si se incrementa el numero de observaciones en una unidad obteniendo 1 negativo mas? De esta manera, si se conoce la distribución del numero de rachas R, para un situación especifica, seria posible obtener un intervalo de tolerancia para la prueba de aleatoriedad. Intervalo de tolerancia (r i ; r s ) P( R r ) = α / i P( R r ) = α / s Garantizar un nivel de significancia exacto es sumamente complicado, ya que la distribución es discreta. 3
Distribución del Numero de Rachas (Frieda, Swed, Eisenhart, 1943) m: numero de observaciones de una de las categorías (la de menor frecuencia) n: numero de observaciones de la otra categoría (n m) s: Numero máximo de rachas que se pudieran formar dado (m) f (r=i): numero posible de formas como en una muestra con (m, n) elementos se puede dar un numero de rachas igual a i P( R r) = s f ( R = i) i= S= m si m=n S= m +1 si m < n m + n m The Annals of Mathematical Statistics, Vol 14 No. 1 Distribución del Numero de Rachas (Frieda, Swed, Eisenhart, 1943) m 1 n 1 * Cuando i es par i i 1 1 f ( R = i) = m 1 n 1 m 1 n 1 i 1 i 1 + i 1 i 1 1 1 Cuando i es impar 4
Distribución del Numero de Rachas (Frieda, Swed, Eisenhart, 1943) Ejercicio: Suponga la existencia de una variable dicotoma, la cual usted ha observado durante 5 días, obteniendo resultado negativos y 3 positivos. Cual es la distribución del numero de rachas a obtener, utilizando la expresión de Frieda, Swed y Eisenhart? Si por alguna razón usted obtuvo dos rachas, creería que la muestra es aleatoria?, que sucede si obtuvo 5? Manejo de la Tabla a) Se lanza una moneda legal al aire durante 30 ocasiones obteniendo los siguientes resultados C S CCCC S CCC SS CC S CC SSS C SS CCC SSS C Verifique si el procedimiento es aleatorio. b) Ahora la moneda se lanza 10 veces mas. C S CCCC S CCC SS CC S CC SSS C SS CCC SSS CCCC SSS CC SS Verifique si el procedimiento es aleatorio. 5
Distribución Asintótica Para Muestra Grandes (Gibbons & Chakriborti, 199) Estos autores, estudiaron el comportamiento de la variable R, encontrando que para muestra grandes (m+n > 0) es posible modelarse mediante la distribución normal con los siguientes parámetros: mn mn( mn N) µ R = 1 + ; σ R = N N ( N 1) Recuerde: esta aproximación debe ajustarse por continuidad Adicionar 0.5 si R < E(R) o restar 0.5 si R > E(R) Ejercicio 1 Se lleva una estadística de control de calidad de las características suceptibles de medición de artículos tomados de un punto fijo de una banda transportadora en una línea de producción: Las mediciones obtenidas en un turno de producción, en orden cronológico, son las siguientes 68. 71.6 69.3 71.6 70.4 65.0 63.3 64.7 65.3 64. 67.6 68.6 66.8 68.9 66.8 70.1 a) Clasifique las mediciones de esta serie de tiempo como superiores o inferiores al promedio muestral y determine (con la prueba de rachas) si observaciones consecutivas sugieren una falta de estabilidad en el proceso de producción. b) Divida el periodo en dos partes iguales y aplique una prueba T- student, sugieren los datos un desplazamiento del nivel medio de las características de calidad? 6
Test sobre dos Poblaciones Independientes Se tienen muestras aleatorias de dos poblaciones independientes x, x 1 y, y 1, x,..., x 3 m, y,..., y 3 n El objetivo es probar la hipótesis: H 0 : E[ X ] = E[ Y ] Prueba de Rachas de Wald Wolfowitz (1940) Es posible probar la hipótesis de que las dos muestras provienen de la misma población, conformando una sola muestra combinada ordenada. z 1, z, z3,..., z m + n 1, zm+ n, Dicotomizando la muestra según el siguiente criterio η i 1 si 0 si zi X ] z Y i 7
Prueba de Rachas de Wald Wolfowitz (1940) Esto generaría sucesiones de 0 y 1, cuyos casos mas extremos serian: 0000000000.111111111111 E[X] > E[Y] 111111111111. 0000000000 E[Y] > E[X] Según esto, es posible probar la hipótesis planteada a través del análisis de las rachas generadas en el procedimiento Observación: la prueba es unidireccional, y tan solo evidencia diferencias, mas no su dirección. Recordando la Prueba de Rachas Max (r) = n+1 si m > n n si m = n m 1 n 1 * i i 1 1 f ( R = i) = m 1 n 1 m 1 n 1 i 1 i 1 + i 1 i 1 1 1 Cuando i es par Cuando i es impar mn mn( mn N) µ R = 1 + ; σ R = N N ( N 1) 8
Ejercicio Grupo Observaciones A 10 1 13 14 B 8 11 11 Pruebe la hipótesis de que ambos grupos tienen el mismo centramiento Ejercicio Se cuenta con dos maquinas para la elaboración de cierto tipo de papel, cuya característica típica de calidad es su brillantes (radiactividad luminosa). Durante los últimos días se han recibido quejas acerca de la inestabilidad de esta característica por parte de los clientes y se sospecha que puede deberse al tipo de maquina empleada. Se han tomado mediciones de ambas maquinas, obteniendo los siguientes resultados: A B Sugieren los datos evidencia suficiente para corroborar la hipótesis de la empresa?, utilice la prueba de wald wolfowitz 6.1 9.1 9. 8. 8.7 8.6 8.9 6.9 7.6 7.5 7.1 7.9 9.5 8.3 8.3 7.8 9.0 8.9 9
Suponga que se esta interesado en medir el efecto que presenta sobre un probeta de concreto la incorporación de cierto aditivo de caolín, para ello es medida la resistencia a la compresión de cada una de las probetas con y sin aditivo. El diseño experimental debe ser cuidadoso, puesto que para que sean comparables la probeta con caolín y sin caolín que se piensa comparar deben ser creadas bajo el mismo lote de producción, de manera que el único efecto no aleatorio posible sea el aditivo. Procedimiento de aleatorización: Se disponen de 4 lotes de producción, en cada uno se producen dos probetas, una de las cuales mediante asignación aleatoria es sometida al aditivo. Y se obtienen los siguientes resultados LOTE 1 3 4 Con aditivo 8 65 74 8 Sin aditivo 63 68 66 65 a) Estas diferencias se deben al azar, o son consecuencia del aditivo? b) Que opciones parametricas existen? 10
Test de Hipótesis: H 0 : Ambos tratamientos son equivalentes (la muestra es totalmente aleatoria) H a : Existe un Patrón que favorece a una de las dos categorías Situaciones a considerar: 1) Las observaciones por lote se encuentran correlacionadas. ) Si el aditivo no tienen ningún efecto, las 10 observaciones pueden considerarse como una sola muestra aleatoria. 3) Si el aditivo no tiene ningún efecto, las diferencias observadas seguirían existiendo sin importar la presencia ausencia de aditivo. 11
Estrategias de Solución: Bajo 1) para eliminar la asociación entre categorías es necesario trabajar con las diferencias observadas LOTE 1 3 4 suma (di) Diferencias (di) 19-3 8 17 41 Bajo 3) Si las diferencias se deben al azar, es igualmente probable obtener una diferencia de (3) o una diferencia de (-3). En resumen el espacio muestral estaría conformado por 4 = 3 posibles resultados. Espacio muestral de la suma de diferencias bajo Ho: LOTE 1 3 4 suma (di) E1 19-3 8 17 41 E 19-3 8-17 7 E3 19-3 -8 17 5 E4 19-3 -8-17 -9 E5 19 3 8 17 47 E6 19 3 8-17 13 E7 19 3-8 17 31 E8 19 3-8 -17-3 E9-19 -3 8 17 3 E10-19 -3 8-17 -31 E11-19 -3-8 17-13 E1-19 -3-8 -17-47 E13-19 3 8 17 9 E14-19 3 8-17 -5 E15-19 3-8 17-7 E16-19 3-8 -17-41 Genera distribución de referencia ( P ; P ) α / 1 α / Zona Aceptación Ho 1
Decisión: LOTE 1 3 4 suma (di) E1-19 -3-8 -17-47 E16-19 3-8 -17-41 E10-19 -3 8-17 -31 E14-19 3 8-17 -5 E11-19 -3-8 17-13 E4 19-3 -8-17 -9 E15-19 3-8 17-7 E8 19 3-8 -17-3 E9-19 -3 8 17 3 E 19-3 8-17 7 E13-19 3 8 17 9 E6 19 3 8-17 13 E3 19-3 -8 17 5 E7 19 3-8 17 31 E1 19-3 8 17 41 E5 19 3 8 17 47 Zona de Aceptacion (87.5%) La muestra es aleatoria, no existe un efecto del aditivo sobre la resistencia mecánica de la probeta Recordando los supuestos 1. Los datos corresponden a muestras apareadas.. La asignación de un individuo a una de los dos tratamientos se realiza de manera aleatoria. 3. La escala de medición es al menos de intervalo. 4. El tamaño de muestra es pequeño* Si N > 5, es posible utilizar el teorema del limite central, d d 5 di ~ N(0, d ) Z = N i max i d d i i * Para muestras grandes es computacionalmente costoso, es preferible utilizar Rangos o Wilcoxon 13
El Test de Aleatoriedad de dos Muestras Independientes Si se dispone de dos muestra aleatorias independientes con n 1 y n (pequeños) como tamaño de muestras, mediciones en escala al menos de intervalo y se desea probar la hipótesis: H : µ = µ vs H : µ µ 0 1 1 0 Según Ho, la razón por la cual se presentan n 1 observaciones en el grupo 1 y n observaciones en el grupo corresponde a factores de azar, con una probabilidad de: n1 + n n1 1 El Test de Aleatoriedad de dos Muestras Independientes Ejemplo: Grupo Observaciones A 19 0 B 0 11 Según Ho esta es una de las 10 posibles ordenamientos que se hubieran podido obtener al realizar la clasificación desde elementos provenientes de la misma población 14