Análisis de dos muestras

Documentos relacionados
Cómo se hace la Prueba t a mano?

CAPÍTULO 10 ESTIMACIÓN POR PUNTO Y POR INTERVALO 1.- ESTIMACIÓN PUNTUAL DE LA MEDIA Y DE LA VARIANZA 2.- INTERVALO DE CONFIANZA PARA LA MEDIA

INFERENCIAS CON STATISTIX

Estadística Convocatoria de Junio Facultad de Ciencias del Mar. Curso 2009/10 28/06/10

Análisis de la varianza ANOVA

Contraste de hipótesis Tema Pasos del contraste de hipótesis. 1.1 Hipótesis estadísticas: nula y alternativa. 1.3 Estadístico de contraste

Diseño de Bloques al azar. Diseño de experimentos p. 1/25

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

IIC Sistemas Recomendadores

1. Estadística Descriptiva 9

Teorema Central del Límite (1)

Intervalos de confianza y contrastes de hipótesis. Intervalo de confianza de la media.

Estructura de este tema. Tema 3 Contrastes de hipótesis. Ejemplo

Contrastes de hipótesis paramétricos

Tema 5. Contraste de hipótesis (I)

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

EJERCICIOS. Curso: Estadística. Profesores: Mauro Gutierrez Martinez Christiam Miguel Gonzales Chávez. Cecilia Milagros Rosas Meneses

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

7.6 Comparación entre dos medias Poblacionales usando muestras independientes

para una muestra Ref: Apuntes de Estadística, Mtra Leticia de la Torre Instituto Tecnológico de Chiuhuahua

11. PRUEBAS NO PARAMÉTRICAS

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

EJERCICIOS DE SELECTIVIDAD

Se asignaron al azar ratas en condiciones similares a cuatro dietas (A D). Dos semanas después se midió el tiempo de coagulación.

CAPÍTULO 7 INFERENCIA ESTADÍSTICA

Métodos Estadísticos Multivariados

Análisis de Componentes de la Varianza

LAB 13 - Análisis de Covarianza - CLAVE

Pruebas de Hipótesis Multiples

= P (Z ) - P (Z ) = P (Z 1 25) P (Z -1 25)= P (Z 1 25) [P (Z 1 25)] = P (Z 1 25) [1- P (Z 1 25)] =

TAMAÑO DE MUESTRA EN LA ESTIMACIÓN DE LA MEDIA DE UNA POBLACIÓN

INDICE. Prólogo a la Segunda Edición

Tabla de Test de Hipótesis ( Caso: Una muestra ) A. Test para µ con σ 2 conocida: Suponga que X 1, X 2,, X n, es una m.a.(n) desde N( µ, σ 2 )

Determinación del tamaño de muestra (para una sola muestra)

PRÁCTICA 4. Ingeniería Técnica Industrial (2º) - Mecánica.

ANEXO I. ANÁLISIS DE LA VARIANZA.

Tests de hipótesis estadísticas

Pruebas de Hipótesis H0 : μ = 6 H1 : μ 6 α = 0.05 zα/2 = 1.96 (6-1,96 0,4 ; 6+1,96 0,4) = (5,22 ; 6,78) 5,6 Aceptamos la hipótesis nula H 0 2.

ESTADISTICA GENERAL. INFERENCIA ESTADISTICA Profesor: Celso Celso Gonzales

GRAFICOS DE CONTROL DATOS TIPO VARIABLES

Matemáticas 2.º Bachillerato. Intervalos de confianza. Contraste de hipótesis

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

PRUEBAS DE ACCESO A LA UNIVERSIDAD L.O.G.S.E

478 Índice alfabético

Ejercicio 1(10 puntos)

Objetivos. Epígrafes 3-1. Francisco José García Álvarez

CAPÍTULO IV TRABAJO DE CAMPO Y PROCESO DE CONTRASTE DE LAS HIPÓTESIS

Muestreo e inferencia

Tipo de punta (factor) (bloques)

Inferencia Estadística

ESTADÍSTICA. Tema 4 Regresión lineal simple

Métodos Estadísticos de la Ingeniería Tema 10: Inferencia Estadística, Intervalos de Confianza Grupo B

El análisis de la varianza de un factor es una extensión del test de t para dos muestras independientes, para comparar K muestras.

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

Bloque II (Columnas) B= Y212 C= Y322 D= Y432 C= Y313 D= Y423 E= Y533. A= Y1k2. B= Y2k3

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

Pruebas t para muestras pareadas


ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

2. Análisis de varianza

Pruebas de Hipótesis-ANOVA. Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

Este procedimiento prueba hipótesis acerca de cualquiera de los siguientes parámetros:

Estadística Industrial. Universidad Carlos III de Madrid Series temporales Práctica 5

Práctica 5. Contrastes paramétricos en una población

EJERCICIOS RESUELTOS DE ESTADÍSTICA II

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

1.- Test de hipótesis de normalidad. 2.- Test de hipótesis para una proporción 6-1

JUNIO Encuentra, si existen, matrices cuadradas A, de orden 2, distintas de la matriz identidad, tales que: A

Conceptos Básicos de Inferencia

VARIANTES EN EL DISEÑO DE LOS ENSAYOS CLÍNICOS CON ASIGNACIÓN ALEATORIA. Sandra Flores Moreno. AETSA 21 de Diciembre de 2006

INFERENCIA ESTADISTICA

ANOVA (Análisis de varianza)

Solución ESTADÍSTICA. Prueba de evaluación contínua 2 - PEC2

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

ESTADÍSTICA DESCRIPTIVA

1 Introducción. 2 Modelo. Hipótesis del modelo. MODELO DE REGRESIÓN MÚLTIPLE Julián de la Horra Departamento de Matemáticas U.A.M.

Economía Aplicada. ¾Es importante el tamaño de la clase? Un experimento controlado

10. DISEÑOS EXPERIMENTALES

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

ÍNDICE INTRODUCCIÓN... 21

Técnicas Cuantitativas para el Management y los Negocios I

Técnicas de validación estadística Bondad de ajuste

CONTENIDO. Prólogo a la 3. a edición en español ampliada... Prólogo...

PRÁCTICA 3: Ejercicios del capítulo 5

Unidad de Consultoría Estadística

INFERENCIA ESTADISTICA: Lic. Laura Marangunich

ACTIVIDAD 2: La distribución Normal

Transformaciones de variables

PRUEBAS PARA DOS MUESTRAS RELACIONADAS

Puntuaciones Estándarizadas, Distribución Normal y Aplicaciones. Dra. Noemí L. Ruiz Limardo 2008 Derechos de Autor Reservados, Revisado 2010

INDICE Introducción Capitulo 1. Control de calidad y herramientas informáticos básicas Capitulo 2. Introducción al concepto de control de calidad y

Tema 7 Intervalos de confianza Hugo S. Salinas

IIC Sistemas Recomendadores

Técnicas de validación estadística Bondad de ajuste

Intervalos para la diferencia de medias de dos poblaciones

Técnicas Cuantitativas para el Management y los Negocios I

Marco de referencia. a) Es útil saber si la estrategia de tratamiento sin un. biológico (menos costosa), tiene mejor o igual eficacia

a. N(19 5, 1 2) P(19 X 21) = P( Z ) = = P = P P = = P P = P = = = El 55 72% no son adecuados.

Transcripción:

Análisis de dos muestras Supongamos el siguiente ejemplo. La resistencia a la rotura de un componente eléctrico constituye una característica importante de un cierto proceso. Un fabricante utiliza un material nuevo de fabricación frente al material clásico. Se recoge una muestra de 0 elementos usando el primer componente y otra de 0 elementos usando el segundo componente. Se pueden considerar a los dos procesos como dos tratamientos o dos niveles diferentes de un factor dado. Componente Nuevo Componente Antiguo 6.85 7.50 6.40 7.63 3.2 8.25 6.35 8.00 6.52 7.86 7.04 7.75 6.96 8.22 7.5 7.90 6.59 7.96 6.57 8.5 Se tiene que la media muestral del componente nuevo es ȳ =6,76 y la del componente antiguo es ȳ 2 =7,92. Se pretende averiguar si existen diferencias significativas entre ambos tratamientos a nivel de resistencia. En este caso, se considera que los datos proceden de una m.a.s de una distribución normal, y que el diseño es completamente aleatorizado.

El contraste de hipótesis que se tiene que realizar es bilateral: H 0 µ = µ 2 H µ 6= µ 2 Fijamos α = P {error tipo I} = P {Rechazar H 0 H 0 siendo cierta} Suponiendo normalidad y suponiendo que σ 2 = σ 2 2, se utiliza el estadístico siguiente: t 0 = ȳ ȳ q 2 s p n + n 2 donde ȳ e ȳ 2 son las medias muestrales, n y n 2 son el tamaño de cada muestra y s p = (n ) s 2 +(n 2 ) s 2 2 n + n 2 2 Se compara el valor de este estadístico con el valor de una distribución t de Student t α 2 ;n +n 2 2. Si t 0 >tα 2 ;n +n 2 2 entonces se rechaza H 0. Así, si H 0 es verdadera, t 0 se distribuye como una t de Student y es de esperar que. Una muestra un 00( α)% de los valores de t 0 estén entre t α 2 ;n +n 2 2; t α 2 ;n +n 2 2 concreta que produzca un valor fuera de este intervalo es rara si H 0 fuese cierta, lo que lleva a rechazar la hipótesis H 0. En el ejemplo: Componente nuevo Componente antiguo ȳ =6,76 ȳ 2 =7,92 s 2 =0,0 s =0,36 s 2 2 =0,06 s 2 =0,247 n =0 n 2 =0 y s p =0,204. s 2 p = (n ) s 2 +(n 2 ) s 2 2 = n + n 2 2 9 0,0 + 9 0,06 = =0,08 0 + 0 2 2

Así, t 0 = = ȳ ȳ q 2 = s p n + n 2 6,76 7,92 q = 9,3 0,284 0 + 0 Por otro lado, t α 2 ;n +n 2 2 = t 0,025;8 =2,0, ycomo t 0 =9,3 >t 0,025;8 =2,0, entonces no se acepta H 0, esto es, existen diferencias significativasentrelasdosmediasal nivel de confianza del 95 %. También se podría haber considerado un intervalo de confianza, dado que el contraste es bilateral: (ȳ ȳ 2 ) ± t α2 ;n+n2 2s p r n + n2 y ver si el valor 0 se encuentra en su interior. En el caso en que las varianzas de las poblaciones de las que proceden las dos muestras son diferentes (σ 2 6= σ 2 2) se introduce una modificación en los grados de libertad de la distribución t de Student (corrección de Welch). Así, se considera el estadístico t 0 = ȳ ȳ q 2 s 2 n + s2 2 n 2 que se compara con una distribución t de Student, t α 2,v donde v son los grados de libertad aproximados: v = ³ s 2 n + s2 2 n 2 2 (s 2 /n ) 2 n + (s2 2 /n 2) 2 n 2 Diseño de comparación por pares (apareado) En el apartado anterior, se consideraba que los valores de ambas muestras no estaban correlacionados. Sin embargo, existen situaciones en las que un mismo objeto recibe dos 3

tratamientos distintos (e.g. pruebas con dos tipos de medicamentos), de manera que no se pueden considerar observaciones independientes. En otros casos se puede mejorar el diseño experimental eliminando fuentes de error. Ejemplo. Supongamos un instrumento de medida de la dureza de un cierto material (se mide la profundidad de la huella producida por la presión de una punta sobre una probeta). Supongamos que se dispone de dos tipos de puntas distintas y se quiere comprobar si existen o no diferencias entre ellas. Un posible diseño experimental, sería tomar 20 probetas al azar y probar la mitad de ellas con una punta y la otra mitad con la otra. Se tendría, así, un diseño completamente aleatorizado y se utilizaría una prueba t de Student como en el apartado anterior. Supongamos que existen diferencias entre las probetas, debidas a la distinta homogeneidad del material o a las diferentes condiciones de fabricación. Esto aumentaría el error de medida, que no sería controlable, y la diferencia entre las puntas podría resultar enmascarada. Una posible forma de evitarlo sería el siguiente diseño. Se divide en dos partes a la probeta y se asigna aleatoriamente una punta u otra a cada parte. El modelo estadístico que se considera es el siguiente: y ij = µ i + β j + ε ij para i =, 2 y j =, 2,...,0. Donde y ij Resultado de la punta i sobre la probeta j µ i Dureza media (poblacional) de la punta i. β j Efecto sobre la dureza medida de la probeta j. ε ij Error experimental (con media 0 y varianza σ 2 i ). Si se quiere eliminar el efecto no controlable de las diferentes probetas, se pueden considerar las diferencias entre las medidas: 4

d j = y j y 2j para j =, 2,...,0. El valor esperado de la diferencia E (d j )=E (y j ) E (y 2j )= µ + β j µ2 + β j = µ µ 2 luego, si se denomina µ d = µ µ 2, entonces la hipótesis H 0 µ = µ 2 equivale a H 0 µ d =0. El contraste que se realiza es H 0 µ d =0 H µ d 6=0 yseemplea donde d = n s 2 d = La hipótesis µ d =0se rechaza cuando t 0 = d s d / n nx j= n d j nx dj d 2 j= En el ejemplo: t 0 >tα 2,(n ) Punta Punta 2 d j 7 6 3 3 0 3 5 2 4 3 8 8 0 3 2 2 4 2 9 9 0 5 4 4 5 5

d = 0,0 s d =,20 t 0 = d s d / n = 0,26 t α 2,(n ) = t 0,025,9 =2,262 Con lo cual se acepta H 0 ya que t 0 < 2,262. Observaciones. Si se utiliza un diseño apareado, en realidad se está utilizando un diseño de tipo aleatorizado por bloques. Un bloque es una unidad experimental relativamente homogénea (en el ejemplo anterior eran las probetas). La variabilidad dentro de los bloques es menor que entre los bloques. Si se consideran bloques se elimina error experimental, pero se reduce el número de grados de libertad (la sensibilidad de una prueba aumenta cuando aumenta el número de grados de libertad), con lo cual, si la variabilidad dentro de los bloques es igual a la variabilidad entre los mismos no se debería considerar el diseño apareado (bloques). Comparaciones entre varios grupos. Supongamos que se tienen más de dos posibles grupos a comparar. La primera idea sería realizar contrastes de la t de Student por pares de grupos. Por ejemplo, si se tienen µ 5 5 grupos: 4 tratamientos y un control, podrían plantearse un total de =0posibles 2 pares de comparaciones. Haciendo esto produce el siguiente problema: Si la probabilidad de aceptar H 0 correctamente es ( α), e.g. 0.95, entonces la probabilidad de aceptar correctamente H 0 en las 0 pruebas es 0,95 0 =0,60 si éstas son independientes. Es decir, aumenta mucho el error de tipo I. Entonces hay que utilizar una metodología diferente: ANOVA. 6

Se puede usar la librería Rcmdr de R: > library(rcmdr) > Commander() Aplicación con R Desde allí se pueden importar los datos que han de estar colocados en dos columnas: la primera con los valores y la segunda con un factor (definido como objeto factor) que tome valores y 2 correspondientes a cada grupo. Después, se va a los menús siguientes: Statistics -> Means -> Single-Sample t-test Alternativamente, se puede hacer lo mismo con R pero mediante sentencias: > CNuevo <- c(6.85, 6.40, 3.2, 6.35, 6.52, 7.04, 6.96, 7.5, 6.59, 6.57) > CAntiguo <- c(7.50, 7.63, 8.25, 8.00, 7.86, 7.75, 8.22, 7.90, 7.96, 8.5) Se comprueba la igualdad entre las varianzas de ambas muestras: > var.test(cnuevo, CAntiguo) F test to compare two variances data: CNuevo and CAntiguo F = 2.23, num df = 9, denom df = 9, p-value = 0.00003 alternative hypothesis: true ratio of variances is not equal to 95 percent confidence interval: 5.268586 85.396550 sample estimates: ratio of variances 2.230 Al ser distintas para cada grupo se toma la opción correspondiente del comando siguiente: > t.test(cnuevo, CAntiguo, paired=f, var.equal=f) Welch Two Sample t-test data: CNuevo and CAntiguo t = -4.267, df = 9.847, p-value = 0.00843 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.3829934-0.7330066 sample estimates: mean of x mean of y 6.364 7.922 7

Se puede hacer un procedimiento Bootstrap para las estimas. > # Fijas el numero de iteraciones > iter <- 2000 > n <- length(cnuevo) > n2 <- length(cantiguo) > d <- NULL > for(i in :iter) { + xtemp <- sample(cnuevo,n,replace=t) + ytemp <- sample(cantiguo,n2,replace=t) + d[i] <- mean(xtemp) - mean(ytemp) + } > dbar <- mean(d) > se <- sqrt(var(d)) > # Construyes el estadistico > z <- dbar/se > pvalor <- 2*(-pnorm(abs(z))) > cbind(dbar,se,z,pvalor) dbar se z pvalor [,] -.567326 0.3546939-4.4885 9.92437e-06 > quantile(d,c(0.025, 0.975)) 2.5% 97.5% -2.3552 -.0480 Observaciones apareadas > Punta <- c(7,3,3,4,8,3,2,9,5,4) > Punta2 <- c(6,3,5,3,8,2,4,9,4,5) > t.test(punta, Punta2, paired=t) Paired t-test data: Punta and Punta2 t = -0.264, df = 9, p-value = 0.7976 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.9564389 0.7564389 sample estimates: mean of the differences -0. 8

Aplicación con SAS options ls=75 nodate nonumber; title 'Comparación entre dos grupos independientes'; data dgrup; input medida grupo $; /* En el caso de que los datos estén en un fichero externo (e.g. datos.txt) se usa la orden infile: infile 'c:\...\datos.txt'; */ cards; 6.85 6.40 3.2 6.35 6.52 7.04 6.96 7.5 6.59 6.57 7.50 2 7.63 2 8.25 2 8.00 2 7.86 2 7.75 2 8.22 2 7.90 2 7.96 2 8.5 2 proc ttest; class grupo; var medida; run; Comparación de dos grupos independientes The TTEST Procedure Statistics Lower CL Upper CL Lower CL Variable grupo N Mean Mean Mean Std Dev Std Dev medida 0 5.547 6.364 7.8 0.7854.48 medida 2 0 7.745 7.922 8.099 0.705 0.2479 medida Diff (-2) -2.334 -.558-0.782 0.6243 0.8262 9

Statistics Upper CL Variable grupo Std Dev Std Err Minimum Maximum medida 2.0845 0.36 3.2 7.5 medida 2 0.4526 0.0784 7.5 8.25 medida Diff (-2).228 0.3695 T-Tests Variable Method Variances DF t Value Pr > t medida Pooled Equal 8-4.22 0.0005 medida Satterthwaite Unequal 9.85-4.22 0.008 Equality of Variances Variable Method Num DF Den DF F Value Pr > F medida Folded F 9 9 2.2 <.000 0

options ls=75 nodate nonumber; title 'Comparación de diferencias entre dos grupos '; data df2g; input Punta Punta2; dife = Punta-Punta2; cards; 7 6 3 3 3 5 4 3 8 8 3 2 2 4 9 9 5 4 4 5 proc means n mean stderr t prt; var dife; run; Comparación de diferencias entre dos grupos The MEANS Procedure Analysis Variable : dife N Mean Std Error t Value Pr > t ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 0-0.000000 0.3785939-0.26 0.7976 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ