Bloque 3 Tema 13 PRUEBAS ESTADÍSTICAS PARA EL CONTRASTE DE HIPÓTESIS: PRUEBAS NO PARAMÉTRICAS

Documentos relacionados
INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

Tema 4: Probabilidad y Teoría de Muestras

Teorema Central del Límite (1)

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

DISTRIBUCIONES BIDIMENSIONALES

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

478 Índice alfabético

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Fase 2. Estudio de mercado: ESTADÍSTICA

Contraste de hipótesis Tema Pasos del contraste de hipótesis. 1.1 Hipótesis estadísticas: nula y alternativa. 1.3 Estadístico de contraste

ÍNDICE INTRODUCCIÓN... 21

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo

Tabla de Test de Hipótesis ( Caso: Una muestra ) A. Test para µ con σ 2 conocida: Suponga que X 1, X 2,, X n, es una m.a.(n) desde N( µ, σ 2 )

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

Pruebas de Hipótesis-ANOVA. Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016

Tema 5. Contraste de hipótesis (I)

Distribución Chi (o Ji) cuadrada (χ( 2 )

PRUEBAS PARA DOS MUESTRAS RELACIONADAS

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

INFERENCIA ESTADISTICA

ESTADÍSTICA DESCRIPTIVA

Contrastes de hipótesis paramétricos

Diseño de Bloques al azar. Diseño de experimentos p. 1/25

Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste

Esquema (1) Análisis de la Varianza y de la Covarianza. ANOVA y ANCOVA. ANOVA y ANCOVA 1. Análisis de la Varianza de 1 Factor

Pruebas de Hipótesis Multiples

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

UNIDAD 6. Estadística

Estadística Inferencial. Estadística Descriptiva

PRUEBAS DE ACCESO A LA UNIVERSIDAD L.O.G.S.E

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

MICROSOFT EXCEL PARA DIRECCIÓN FINANCIERA I. 1. Resolución de problemas de simulación de Montecarlo mediante el uso de la hoja de cálculo.

Medidas de centralización

CAPÍTULO 10 ESTIMACIÓN POR PUNTO Y POR INTERVALO 1.- ESTIMACIÓN PUNTUAL DE LA MEDIA Y DE LA VARIANZA 2.- INTERVALO DE CONFIANZA PARA LA MEDIA

PRUEBAS DE BONDAD DE AJUSTE y DE INDEPENDENCIA

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

EJERCICIOS RESUELTOS TEMA 7

CAPÍTULO IV TRABAJO DE CAMPO Y PROCESO DE CONTRASTE DE LAS HIPÓTESIS

MEDIDAS DE TENDENCIA CENTRAL

ECUACIONES.

Conceptos Básicos de Inferencia

Máster en comunicaciones. Clase 2. Modelos predictores.

Tema 2. Descripción Conjunta de Varias Variables

Problemas resueltos. Tema 12. 2º La hipótesis alternativa será que la distribución no es uniforme.

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

Objetivos. Epígrafes 3-1. Francisco José García Álvarez

13. Utilizar la fórmula del término general y de la suma de n términos consecutivos

Estadística. Análisis de datos.

Tema 3: Sistemas de ecuaciones lineales

Test de Kolmogorov-Smirnov

MEDIDAS DE TENDENCIA CENTRAL

Tema 1: MATRICES. OPERACIONES CON MATRICES

Curva de Lorenz e Indice de Gini Curva de Lorenz

Pruebas de bondad de ajuste

ESTADÍSTICA CON EXCEL

AJUSTE O ESTANDARIZACION DE TASAS Y CÁLCULO DE LOS AÑOS POTENCIALES DE VIDA PERDIDOS (APVP) 1.- CONDICIONES y TECNICAS PARA EL AJUSTE DE TASAS

2.- Tablas de frecuencias

Variable Aleatoria Continua. Principales Distribuciones

Tema 5. Medidas de posición Ejercicios resueltos 1

CONTENIDO. Prólogo a la 3. a edición en español ampliada... Prólogo...

INTERVALO DE CONFIANZA PARA LA PROPORCIÓN

Tema 7: Geometría Analítica. Rectas.

TEMA 1. MATRICES, DETERMINANTES Y APLICACIÓN DE LOS DETERMINANTES. CONCEPTO DE MATRIZ. LA MATRIZ COMO EXPRESIÓN DE TABLAS Y GRAFOS.

Algebra lineal y conjuntos convexos

RESOLUCIÓN DE SISTEMAS MEDIANTE DETERMINANTES

c). Conceptos. Son los grupos o conceptos que se enlistan en las filas de la izquierda de la tabla

Variables aleatorias

Sistemas de ecuaciones lineales

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Facultad de Ciencias Sociales - Universidad de la República

El Análisis de Correspondencias tiene dos objetivos básicos:

Sistem as de ecuaciones lineales

Medidas de dispersión

Indicaciones para el lector... xv Prólogo... xvii

1.- Test de hipótesis de normalidad. 2.- Test de hipótesis para una proporción 6-1

TALLER ESTADISTICAS EN EXCEL MSP 21 VERANO 2014

ANEXO I. ANÁLISIS DE LA VARIANZA.

Tema 14: Sistemas Secuenciales

SISTEMAS DE ECUACIONES LINEALES. Método de reducción o de Gauss. 1º DE BACHILLERATO DPTO DE MATEMÁTICAS COLEGIO MARAVILLAS AUTORA: Teresa González.

Selección de fuentes de datos y calidad de datos

PRUEBA DE KOLMOGOROV SMIRNOV (Contraste sobre la forma de la distribución) F(X) es la función de distribución que hipotetizamos.

Curso de Estadística Aplicada a las Ciencias Sociales. Tema 12. Contraste de hipótesis. Introducción. Introducción

UNIVERSIDAD INTERAMERICANA DE PUERTO RICO RECINTO DE ARECIBO CENTRO DE SERVICIOS DE APOYO AL ESTUDIANTE

Multicolinealidad. Universidad de Granada. RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17

E j e r c i c i o n º 12 Notas de Alumnos

Fabio Prieto Ingreso 2003

Propuesta A B = M = (

Pruebas de Bondad de Ajuste

Temas de Estadística Práctica

Práctica 2: Análisis de sensibilidad e Interpretación Gráfica

para una muestra Ref: Apuntes de Estadística, Mtra Leticia de la Torre Instituto Tecnológico de Chiuhuahua

b) dado que es en valor absoluto será el área entre -1,071 y 1,071 luego el resultado será F(1,071)-(1-F(1,071)=0,85-(1-0,85)=0,7

OPCIÓN A. La empresa A (x) tiene 30 trabajadores, la B (y) 20 trabajadores y la C (z) 13 trabajadores.

4. NÚMEROS PSEUDOALEATORIOS.

no paramétrica comparar más de dos grupos de rangos (medianas)

Transcripción:

Bloque 3 Tema 13 PRUEBAS ESTADÍSTICAS PARA EL CONTRASTE DE HIPÓTESIS: PRUEBAS NO PARAMÉTRICAS Todos los estadísticos y las fórmulas de contraste de z, la t de Student, y la F de Fisher, parten de unos supuestos que denominábamos paramétricos. En la práctica, aparecen situaciones en las que tales requisitos no se cumplen, como en el caso de distribuciones claramente asimétricas o muestras muy pequeñas. En estas ocasiones, existen métodos denominados no paramétricos, que no suponen nada sobre la distribución poblacional. Estos métodos aportan ventajas: capacidad para trabajar con datos que sean mediciones cuantitativas ordinales o incluso nominales no necesitan que se cumplan supuestos previos para su aplicación son sencillos de aplicar quedan como única posibilidad cuando el tamaño de la muestra es pequeño. Pero también tienen unos inconvenientes: para la misma potencia de la prueba, los test paramétricos necesitan menor tamaño muestral que los test no paramétricos. cuando el tamaño de la muestra es elevado obtenemos los mismos resultados con las pruebas paramétricas que con las no paramétricas. Las podemos clasificar atendiendo a la organización de los datos y al nivel de medida de los mismos. Ver tabla 13.1, pág. 74. PRUEBAS DE UNA SOLA MUESTRA En el caso de una sola muestra, podemos utilizar las pruebas no paramétricas en los siguientes casos: comprobar el supuesto de que la muestra proviene de una distribución conocida (bondad de ajuste) ver si la muestra es aleatoria para saber si los resultados se pueden extender a toda la población, o a un único conjunto de datos, o bien no se pueden extender. comprobar la simetría de la muestra. A DE BONDAD DE AJUSTE A.1.- Kolmogorov-Smirnov Este método se basa en la comparación entre las frecuencias acumuladas de la distribución empírica de la muestra y de la distribución hipotética teórica, fijándose en el punto en que las dos distribuciones presentan mayor divergencia. Solo se puede aplicar para mediciones ordinales o de intervalo. Se calcula mediante la fórmula: siendo: D n = máxima desviación F o x F e x F o x frecuencia relativa acumulada observada en la muestra F e x frecuencia relativa acumulada esperada en la distribución teórica a la cual queremos ajustar Ho: F(x) = N(, ) no hay discrepancia entre la distribución teórica y la observada H 1 : F(x) N(, ) la distribución teórica no se ajusta a la observada Procedimiento de cálculo Solo tenemos contraste bilateral. Se completa la siguiente tabla: Xi X 1 X (Ordenados por rangos de menor a mayor) X n Fo (1/n); (/n); ----> (n/n) Fe por ejemplo: Se aplica a cada valor la fórmula de z y se busca en tablas el valor de esa puntuación típica z = X i = -,34 en tablas se busca en la columna C para los valores negativos y en la columna B para los positivos Fe = 0,0096

Efectuada la tabla, se halla la diferencia de la fórmula y tomamos la mayor de ellas en módulo. Seguidamente, buscamos en las tablas de la prueba (pág. 369) el valor teórico correspondiente a los valores de n y. El criterio de decisión será: Si D n > D tablas rechazo Ho Si D n D tablas acepto Ho Ver ejemplo 13.1 pág. 75 (parámetros desconocidos y medida ordinal) La prueba de Kolmogorov-Smirnov tiene la ventaja sobre la prueba χ que no se ve afectada por los agrupamientos de intervalos y se puede aplicar en muestras muy pequeñas (n 10). Cuando tengamos que estimar, por desconocerlos, los parámetros y, utilizaremos el contraste de la prueba de Lilliefors, que se realiza igual que el de Kolmogorov-Smirnov salvo que los parámetros mencionados se estiman mediante sus valores muestrales. μ = σ = s Ver ejemplo 13. pág. 75 (parámetros desconocidos y medida de intervalo, por lo que podemos estimar la y la s. A..- Contraste de χ Como en el contraste anterior, tiene la misión de observar si una variable tiene una distribución de probabilidad dada. En general: Ho: F(X) = N(, ) χ H 1 : F(X) N(, ) f o f e n = Solo hay pues contraste bilateral. Se nos pueden presentar dos casos: a) Conocida la forma de la distribución y sus parámetros χ k 1 = = X i N f o f e f e 5% 5% 5% 5% s = X i N 1 f e fo frecuencias empíricas obtenidas en la muestra fe frecuencias teóricas esperadas que se obtendrían en función de la Ho que se esté probando (N/nº intervalos) K nº de intervalos gl K-1 K = 4 z 0,5 = 0,68 0% 0% 0% 0% 0% K = 5 z 0,0 = 0,85 z 0,40 = 0,6 * se ordena la muestra de menor a mayor * se divide la muestra en trozos de la curva normal y se buscan las z de cada una de las partes * se hallan los límites de los intervalos con z = X i y se despeja el valor de Xi * se aplica el estadístico de contraste * criterio de decisión: el valor obtenido tiene que ser menor o igual que el de las tablas para que se ajuste u aceptemos Ho χ k 1 χ tablas acepto Ho b) Parámetros desconocidos Cuando tenemos que estimar los parámetros y, utilizaremos la prueba de Lilliefors. El contraste se define de la misma manera que K-S, pero ahora no se suponen los valores de y de, sino que se estiman mediante sus valores muestrales.

χ n = f o f e f e La diferencia es que hay que buscar el valor de tablas de χ con los siguientes grados de libertad: gl = k-1-nº de parámetros estimados Ver ejemplo 13.3 pág. 79 Cuadro general de las pruebas de bondad de ajuste * muestra grande - conozco los parámetros : K-S ó bien χ - desconozco : χ * muestras pequeñas -conozco los parámetros: K-S - desconozco: Lilliefors B DE ALEATORIEDAD Prueba de rachas Esta prueba tiene por objeto comprobar el carácter aleatorio de una muestra atendiendo a la obtención original de las observaciones realizadas. Para ello, analizaremos el número de rachas (sucesiones de símbolos idénticos) que se producen en la obtención de esos datos. Los datos se presentarán de forma dicotómica o dicotomizada (p y q) y contaremos las ocurrencias del hecho p (que lo llamaremos n 1 ) y las ocurrencias del hecho q (que lo llamaremos n ). Luego contaremos las rachas (r), que son el número de ocurrencias de cambio de p a q en la serie objeto de estudio. La toma de decisión se hace con el siguiente criterio: si n 1 y n 0 o se determinan los valores mínimo (r 1 ) y máximo (r ) de rachas en tablas para un nivel de significación dado. Si se cumple que r 1 < r < r aceptamos Ho y la hipótesis de aleatoriedad se cumple. si n 1 ó n > 0 o se hace una transformación de r en z mediante la fórmula: Si z ob < z α acepto Ho r n 1n n 1+n +1 z ob = n 1n n 1n n 1 n n 1+n n 1+n 1 Si z ob > z α rechazo Ho de aleatoriedad Con pruebas bilaterales: z ob > z α ; o bien z ob < - z α Con datos numéricos, se procede de la siguiente forma: según los datos, damos un + cuando el valor sea mayor que el anterior y un cuando sea menor. Obtendremos una secuencia (por ejemplo) 5 15 17 13 18 0 19 17 N ------- -------------- -------- + + - + + + - - obtendremos (n-1) signos 1 3 4 las rachas son los grupos de signos que van cambiando y las llamaremos (r). Llamaremos n 1 al nº de signos + que tenemos en la secuencia y llamaremos n al nº de signos que tenemos en la secuencia. En el ejemplo anterior, n 1 = 5 ; n = 3 ; r = 4 acudimos a las tablas (págs.. 363 y 364) y hallamos los valores de r mín y r máx, con un dado. Si el valor de r hallado en la muestra cumple con r mín < r < r máx acepto Ho (hipótesis de aleatoriedad ó independencia de los datos) si r < r mín ; o bien r > r máx tendríamos que rechazar la Ho Ver ejem. 13.4 y 13.5 en págs.. 80 y 81

PRUEBAS DE DOS MUESTRAS (Muestras relacionadas) Se usan cuando el investigador desea saber la diferencia entre dos tratamientos, por ejemplo comparar dos métodos de enseñanza, haciendo que cada sujeto sea su propio control. En estas comparaciones de dos grupos, algunas veces se observan diferencias significativas que no son resultado del tratamiento. Por ejemplo, para comparar dos métodos de enseñanza, un investigador elige un grupo al azar para aplicarle un método de enseñanza, y otro grupo diferente para el otro método. El resultado puede no ser fiable porque en un grupo existan alumnos más capacitados que en el otro. Una manera de resolver este problema es usar dos muestras relacionadas, y esto se puede lograr a si a cada individuo se le aplican los dos tratamientos o si se forman parejas lo más semejantes posibles con respecto a cualquier variable externa que pueda influir en el resultado de la investigación. La prueba paramétrica usual para analizar datos provenientes de dos muestras relacionadas o de parejas de datos igualados, es aplicar una prueba t a las puntuaciones de las diferencias, pero la prueba t exige que estas diferencias estén distribuidas normalmente y las medidas han de ser, al menos, una escala de intervalo. Con estos condicionantes, muchas veces no se puede aplicar la prueba t. En estos casos, el investigador puede escoger una de las pruebas estadísticas no paramétricas para dos muestras relacionadas. Estas pruebas tienen la ventaja que no requieren que las parejas provengan de una misma población. La prueba de McNemar para la significación de los cambios Es llamada prueba de antes y después. Los mismos sujetos constituyen el grupo experimental y el grupo de control de la prueba. Se utiliza para detectar cambios de actitudes. En la prueba se presentan los datos de forma dicotomizada en dos categorías, según el esquema: Las filas representan las distintas respuestas antes de utilizar ningún método y las columnas las respuestas después de emplear el método que queremos estudiar. En la tabla designamos por + y los dos tipos de respuestas que se pueden dar, y por tanto, los cambios producidos aparecerán en las casillas A y D. En la A se verán los cambios de + a -; y en la D ase verán los cambios de a +. Si no existen cambios, todos los casos estarán en las casillas B ó C. Antes Después menos más más A B menos C D Ho: no existen diferencias entre las situaciones de antes y después del tratamiento. Estadístico de contraste: con 1 gl. χ ob = A D A + D Si aplicamos la corrección por continuidad, χ ob = también con 1 gl. La decisión que adoptaremos es: Si χ ob < χ tablas acepto Ho Si χ ob > χ tablas rechazo Ho. El cambio es significativo Ver ejem. 13.6 pág. 84. A D 1 A+D Prueba de pares igualados de Wilcoxon Esta prueba se utiliza para datos cuantitativos continuos ó discretos. Emplea la información que proporciona el tamaño de las diferencias, y como mínimo se exige que las variables estén dadas en escala ordinal. La Ho se plantea en el sentido de que no existen diferencias significativas entre los grupos de individuos (igualdad de frecuencias relativas poblacionales) Ho: Tratamiento 1 = Tratamiento H 1 : T1 T (bilateral) T1 > T (uni, dcho.) T1 < T (uni. izdo.) con las diferencias entre los valores de cada par de sujetos, se establece una ordenación de esas diferencias desde la más pequeña a la mayor, independientemente del sentido o signo de la diferencia.

si el valor absoluto de esa diferencia coincide para dos o más datos, se asignan a todos ellos la media de los lugares que les corresponderían. si una diferencia es cero (0) no se toma en consideración la suma de los rangos obtenidos para las diferencias positivas y negativas nos aportan los valores Tp y Tn, tales que se cumple: T p + T n = N N+1 si no hubiera diferencia significativa entre las dos muestras, Tp y Tn tendrían que ser iguales con un valor cercano al promedio de los N rasgos: (media de Ti) T = N N+1 tomamos como T ob de Wilcoxon el menor de los valores entre Tp y Tn Criterio de decisión: a) si n 5 (siendo n el nº de pares de sujetos cuya diferencia es 0), se observa en la tabla de Wilcoxon (pág. 359) el valor crítico de T: si To > T ta blas acepto Ho. No hay diferencias significativas. si To T tablas rechazo Ho (prueba de una sola cola) n n +1 T 4 b) si n > 5, hacemos normalización del valor de T mediante la fórmula: z ob = si z z α rechazamos Ho (prueba de dos colas) Ver ejem. 13.7 pág. 86 4 n n +1 n +1 4 PRUEBAS DE DOS MUESTRAS (Muestras independientes) Cuando el uso de dos muestras relacionadas no es práctico ni adecuado, han de usarse muestras independientes. Las muestras pueden obtenerse con la ayuda de dos métodos: a) tomándolas al azar de dos poblaciones b) asignando al azar ambos tratamientos a los sujetos de una muestra arbitraria. En cualquier caso, no es necesario que las dos muestras tengan el mismo tamaño, y es importante que los datos de ambas muestras a contrastar sean independientes. Las técnicas paramétricas usuales para analizar datos de dos muestras independientes consisten en aplicar una prueba t a las medias de ambos grupos. La prueba t supone que las puntuaciones son observaciones independientes de poblaciones distribuidas normalmente con varianzas iguales. Debido a que usa medias y otros estadísticos obtenidos por operaciones matemáticas, requiere que las observaciones se midan por lo menos en una escala de intervalo. Las pruebas que vamos a examinar en este apartado, se emplean para ver si las dos muestras proceden de la misma población. Sirven para examinar la significación de la diferencia entre dos muestras independientes. * cuando se desea saber si las dos muestras representan poblaciones que difieren en su media U de Mann-Whitney * cuando los datos aparezcan clasificados por grupos χ Contraste de χ Queremos determinar la significación de las diferencias entre dos grupos independientes. Los datos han de estar dados en categorías discretas, y básicamente, el método utilizado es contar los casos de cada grupo en cada categoría y comparar la proporción de casos en las distintas categorías de un grupo con las del otro. La Ho se plantea así: los dos conjuntos de características son independientes. El estadístico de contraste: d = f 1 k 1 f o f e que sigue la distribución χ con (f-1)(k-1) gl.; siendo f el nº de filas o categorías y k el nº de columnas o grupos. Las frecuencias esperadas f e se calculan mediante la fórmula: f i k j fe ij = f T i suma de las frecuencias observadas en la fila i k j idem en la columna j f e T suma total T = 1 f i = 1 k j f k

Construiremos la siguiente tabla (a modo de ejemplo para la mejor comprensión del problema) Catg. 1 Catg. Catg. 3 Grupo A fo1a fe1a foa fea fo3a fe3a Grupo B fo1b fe1b fob feb fo3b fe3b f1 f f3 K1 K T Las fo son datos del problema, las fe las calculamos: fe 1B = d = f 1 k T ; fe 3A = fo 1A fe 1A fe 1A + + f 3 k 1 T ; etc., fo 1B fe 1B + fe 1B fo 3B fe 3B fe 3B Condiciones de la prueba: TABLA x 1.- cuando N < 0, se usa en todos los casos la prueba de la probabilidad exacta de Fisher (que no vemos en este curso).- cuando 0 < N < 40, puede usarse χ siempre que las f e > 5. Si alguna f e resultara < 5, debemos utilizar de nuevo la prueba de la probabilidad exacta de Fisher. 3.- cuando N > 40, se usa la χ con la corrección por falta de continuidad: TABLA F x K 1.- puede usarse χ cuando ninguna celda tenga una f e < 1.- cuando varias celdas (el 0% de ellas o superior) tengan una f e < 5, conviene combinar categorías para que todas las f e > 5 El criterio de decisión será : si d χ con (f -1)(k-1) gl y rechazo Ho si d < χ con (f -1)(k-1) gl y acepto Ho Debido a la complejidad de las fórmulas utilizadas en este contraste, veremos la resolución del ejemplo 13.8 pág. 91, para facilitar la asimilación de las mismas. χ = N AB BC N A + B C + D B + D A + C Líder Adepto Inclasif. Bajo Alto 1 3 44 19,91 4,08 14 36 16,9 19,70 9 6 15 6.78 8,1 43 5 95 fe 1A = 44.43 = 19,91; fe 95 B = 36.5 = 19,70; y así con todos los 95 demás hasta construir la tabla. d = 1 19,91 19,91 + 3 4,08 4,08 + + 6 8,1 = 8,1 = 3,14 +,604 + + 0,594 = 10,716 En tablas, pág. 346, para (f-1)(k-1)= (3-1)(-1) = gl. y = 0,05 encontramos que χ = 5,991 Como d > χ tablas rechazo Ho Prueba U de Mann-Whitney Esta prueba es muy útil cuando las medidas de la variable se han tomado de forma ordinal. Incluso cuando los datos se han tomado de forma cuantitativa pero por alguna causa se sospecha que las condiciones de normalidad e igualdad de varianzas entre las poblaciones de las que provienen las muestras no se cumplen. Ho: Md(X1) = Md(X) No hay diferencias significativas entre las muestras H 1 : Md(X1) Md(X)

La H 1 solo establece que las distribuciones son diferentes para las dos muestras, pero solo implica un desplazamiento en la tendencia central de una distribución respecto de la otra; no sugiere la diferencia en la forma o en la dispersión. La pruebe U de Mann-Whitney es un cálculo del desorden de clasificaciones entre las dos muestras, es decir, cuántas veces los datos de un grupo están precedidos por los datos de otra muestra. Calcularemos previamente R a y R b : R a suma de los rangos del grupo A R a + R b = n 1 +n n 1 +n +1 R b suma de los rangos del grupo B Si las muestras provienen de poblaciones que tienen la misma distribución, se espera que los rangos en cada muestra se encuentren lo suficientemente dispersos. Por el contrario, si las poblaciones tienen distinta distribución, entonces se espera que los rangos estén agrupados. Calculamos los valores de U a y U b : U a + U b = n 1 n siendo: n 1 tamaño del grupo 1 n tamaño del grupo Para determinar si las dos muestras provienen de la misma población, se elige el mínimo ( U a ó U b ) y lo comparamos con la U de las tablas (págs.. 354 a 358). El criterio de decisión será: Si mín ( U a ó U b ) < U tablas rechazo Ho, y afirmamos que existen diferencias significativas entre las dos muestras. Cuando n 1 ó n > 0 la distribución muestral de U sigue la normal con: Ver ejem. 13.9 pág. 94 U a = n 1 n + n 1 n 1 + 1 U b = n 1 n + n n + 1 R a R b μ = n 1n σ = n 1 n n 1 +n +1 PRUEBAS PARA K MUESTRAS (Relacionadas) Cuando tres ó más muestras o condiciones van a ser comparadas en un experimento, es necesario usar una prueba estadística que indique si hay una diferencia total entre las K muestras ó condiciones antes de escoger un par de ellas para probar la significación de las diferencias entre ellas. Solamente cuando una prueba de K muestras (k 3) nos permite rechazar la hipótesis de nulidad, se justifica el uso subsiguiente de un procedimiento para probar las diferencias significativas entre cualquier par de las K muestras. La técnica paramétrica para probar si varias muestras proceden de poblaciones idénticas es el análisis de varianza ó prueba F. Los supuestos de este modelo son estrictos: que las puntuaciones u observaciones sean sacadas independientemente de poblaciones distribuidas normalmente que las poblaciones tengan todas la misma varianza que las medidas en las poblaciones sean combinaciones lineales de los efectos debidos a filas y columnas, es decir, que los efectos sean aditivos que las medidas sean por lo menos de intervalo en las variables involucradas Cuando todas estas condiciones no se pueden cumplir, deberemos utilizar las pruebas no paramétricas. Prueba Q de Cochran Esta prueba se considera una extensión de la prueba de McNemar. La prueba Q pretende analizar la posible diferencia significativa de los cambios producidos en tres o más situaciones distintas. Las variables tienen que ser nominales dicotómicas o dicotomizadas. Pierde potencia la prueba si se utiliza con variables continuas dicotomizadas. Los sujetos pueden estar ya relacionados o bien se relacionan en el momento de la prueba. La Ho: no existen diferencias significativas entre las características que tienen los sujetos en las K muestras 1

Se confecciona una tabla con los datos, con tantas filas como sujetos y tantas columnas como grupos o muestras existan. Q = k 1 k Co Co k Fi Fi que se distribuye según χ con (k-1) gl. siendo: k nº de grupos, columnas o categorías Co nº de respuestas afirmativas (ó de 1) en cada columna Fi nº de respuestas afirmativas (ó de 1) en cada fila. El criterio de decisión será: si Q < χ tablas se acepta Ho si Q χ tablas se rechaza Ho y por tanto no hay diferencias significativas Ver ejem. 13.10 pág. 98 Análisis de la varianza de Friedman Consiste en comparar k muestras relacionadas para ver si provienen de la misma población. Se emplea con variables medidas en escala ordinal, al menos. Funciona de forma similar a como lo hace el análisis de varianza (prueba F de Snedecor) con datos de intervalo y continuos. Los tamaños de los grupos son iguales o se pueden igualar. La Ho: no existen diferencias significativas entre las k muestras relacionadas. Para el cálculo, se hace una tabla con n filas de sujetos y k columnas de muestras ó grupos. Se ordena cada fila (es decir, cada sujeto o grupo de sujetos) en rangos, asignando el primero al valor más pequeño y el último al valor mayor. En caso de empate se reparte el puesto o rango medio entre los valores que forman el empate. Se calcula la suma de rasgos de cada columna o grupo (Rj) Estadístico de contraste: 1 χ r = nk k+1 donde: n nº de filas k nº de columnas Rj suma de rangos de cada columna R j 3n k + 1 Si la Ho resultase verdadera, -que todas las muestras (columnas) proceden de la misma población-, la distribución de rangos de cada columna será obra del azar y los rangos de los diferentes grupos (1.. k) deberán aparecer en todas las columnas con frecuencia casi igual. Criterio de decisión: * si k = 3 y 1 < n <10 ó también k = 4 y 1 < n < 5 las tablas de Friedman (pág. 370) nos proporcionan un valor p para un dado. si p rechazo Ho, hay diferencias significativas entre los grupos si p > acepto Ho * si no se cumplen las condiciones anteriores, se calcula χ tablas con los valores de y (k-1) gl. si χ r < χtablas se acepta Ho si χ r χtablas se rechaza Ho y por tanto no hay diferencias significativas Ver ejem. 13.11 pág. 301 PRUEBAS PARA K MUESTRAS (Independientes) Estudiaremos la significación de diferencias entre tres ó más grupos o muestras independientes. Se trata de técnicas para probar la hipótesis de nulidad de que k muestras independientes se recogieron de la misma población ó de k poblaciones idénticas. La técnica paramétrica usual para aprobar si varias muestras independientes proceden de la misma población es el análisis de la varianza, o prueba F. Los supuestos asociados con el modelo piden: observaciones independientes tomadas de poblaciones distribuidas normalmente iguales varianzas en todas las poblaciones la medida de la variable estudiada ha de ser, al menos, de intervalo. Cuando estos supuestos no se cumplan o necesitemos una generalización de los resultados, acudiremos a las pruebas no paramétricas.

Análisis de la varianza de Kruskal-Wallis La prueba pretende ver si existen diferencias entre varias muestras que provienen de la misma población. Se exige, al menos, una medida ordinal de la variable. La prueba supone que la variable en estudio tiene como base una distribución continua. La Ho: no existen diferencias significativas entre k muestras independientes, es decir, que todas las muestras provienen de la misma población. Se ordenan todos los valores de los k grupos en una misma serie, del 1º hasta el N independientemente del grupo al que pertenezcan esos valores, asignando el rango 1 al valor más pequeño y respetando, aunque se ordena en conjunto, la pertenencia de cada valor a su grupo correspondiente. Los empates se resuelven asignando un rango medio a todos los valores empatados. Se calcula previamente Rj, que es la suma de rangos de cada uno de los k grupos. Estadístico de contraste: 1 R j H = 3 N + 1 N N + 1 n j donde: N nº total de sujetos nj nº de sujetos de cada grupo Si obtenemos más del 5% de N con empates, conviene introducir una corrección: H c = N 3 N siendo T = t 3 - t ; y t es el nº de sujetos empatados en cada grupo de puntuaciones repetidas. Tendremos tantos T como distintas puntuaciones empatadas haya. Criterio de decisión: * si k = 3 y n 1, n y n 3 5 se consulta la tabla de Kruskal-Wallis (pág. 360) y se toma el valor p asociado al valor H calculado si p rechazo Ho, hay diferencias significativas entre los grupos si p > acepto Ho * en cualquier otro caso, se busca χ tablas para y (k-1) gl. si H χ tablas se rechaza Ho Si no existen diferencias significativas entre las muestras, el rango promedio en ellas tendería a coincidir, o al menos, sus diferencias serían explicables por azar. Si los rangos promedio, por contra, se diferencian bastante, quiere decir que las muestras son significativamente diferentes o que provienen por elección al azar de una misma población. La prueba U de Mann-Whitney es la apropiada para comprobar posteriormente si tal diferencia es producida por los resultados de un solo grupo ó de varios. 1 H T