Comparación de dos Muestras - SnapStat Resumen La Comparación de Dos Muestras usando SnapStat crea un resumen de una página que compara dos muestras independientes de datos de variables. Calcula estadísticos de resumen para cada muestra, compara las medias y varianzas y grafica un histograma dual, una gráfica múltiple de caja y bigotes, graficas de cuantiles y gráficas de probabilidad normal. Los cálculos son un subconjunto de aquellos realizados en el procedimiento de Comparación de Dos Muestras. Sin embargo, la salida es preformateada para ajustarla en una simple página. StatFolio de Muestra: twosamsnapstat.sgp Datos de la Muestra: El archivo bloodpressure.sf6 contiene datos que describen la media de la presión arterial de 27 pacientes hipertensos donde n = 5 de los cuales fueron tratados con un placebo y n 2 = 2 de fueron tratados con una medicina experimental. Los datos han sido introducidos en 2 columnas como se muestra abajo: Placebo Test Agent 3 2 6 06 47 00 4 00 00 32 96 25 97 09 98 07 04 4 93 6 96 98 98 23 26 23 Alternativamente, todas las 27 lecturas de la presión arterial podrían haber sido introducidas dentro de una sola columna de datos y se pudo haber creado una segunda columna que identificara a que grupo pertenece cada paciente: 2005 por StatPoint, Inc. Two Sample Comparison SnapStat -
Patient Pressure Group 3 Placebo 2 6 Placebo 3 47 Placebo 4 4 Placebo 5 Placebo 6 32 Placebo 7 25 Placebo 8 09 Placebo 9 07 Placebo 0 4 Placebo 6 Placebo 2 98 Placebo 3 23 Placebo 4 26 Placebo 5 23 Placebo 6 2 Agente de Prueba 7 06 Agente de Prueba 8 00 Agente de Prueba 9 00 Agente de Prueba 20 00 Agente de Prueba 2 96 Agente de Prueba 22 97 Agente de Prueba 23 98 Agente de Prueba 24 04 Agente de Prueba 25 93 Agente de Prueba 26 96 Agente de Prueba 27 98 Agente de Prueba 28 2 Agente de Prueba 2005 por StatPoint, Inc. Two Sample Comparison SnapStat - 2
Captura de Datos Los datos que se van a analizar se especifican en el cuadro de diálogo mostrado abajo. Para casos donde las dos muestras han sido colocadas en columnas separadas, hay que especificar los nombres de las dos columnas. Muestra : columna numérica que contiene las observaciones en la primera muestra. Muestra 2: columna numérica que contiene las observaciones en la segunda muestra. Selección: selección del subconjunto. Entrada: Especificar Dos Columnas de Datos para indicar que cada muestra ha sido colocada en una columna separada. Si los datos de ambas muestras han sido introducidos dentro de una sola columna, entonces introduzca el nombre de esa columna y la columna que contiene los identificadores de grupo: 2005 por StatPoint, Inc. Two Sample Comparison SnapStat - 3
Datos: columna numérica que contienen las observaciones de ambas muestras. Código de Muestra: columna numérica o no numérica que contiene un identificador para la muestra correspondiente a cada observación. Selección: selección del subconjunto. Entrada: Especificar Datos y Código de Columnas para indicar que los datos para ambas muestras han sido colocados dentro de una sola columna. 2005 por StatPoint, Inc. Two Sample Comparison SnapStat - 4
Salida El resultado del SnapStat consiste en una sola página de gráficas y estadísticos numéricos. SnapStat: Comparación de Dos Muestras Placebo Test Agent Recuento 5 2 Promedio 8.267 00 Desviación Estándar.6953 5.6984 Coeficiente de Variación9.88896% 5.6984% Mínimo 98 93 Máximo 47 2 Rango 49 9 Rango Intercuartílico 4 5.5 Sesgo Estandarizado.3063.668 Curtosis Estandarizada.29358.09645 frecuencia 8 4 0 4 Placebo 8 90 00 0 20 30 40 50 Test Agent Gráfico Caja y Bigotes Placebo Test Agent 90 00 0 20 30 40 50 Intervalos de confianza del 95% Dif. de medias: 8.2667 +/- -7.023 [25.2898,.2436] Razón de varianzas: [.52365, 5.837] Comparación de Medias Hipótesis Nula: diferencia = 0 estadístico t = 5.42298 Valor-P Bilateral = 0.0000 Comparación de Sigmas Hipótesis Nula: razón = Estadístico F = 5.765 Valor-P Bilateral = 0.0099 Diagnósticos Valores-P Shapiro-Wilks = 0.4550 y 0.756 Autocorrelación en Retraso = -0.052 +/- 0.506, 0.306 +/- proporción 0.8 0.6 0.4 0.2 Gráfico Cuantil 0 90 00 0 20 30 40 50 porcentaje Gráfico Normal de Probabilidad 99.9 99 95 80 50 20 5 0. 90 00 0 20 30 40 50 Variables Placebo Test Age 2005 por StatPoint, Inc. Two Sample Comparison SnapStat - 5
Estadísticos de Resumen (parte superior izquierda) La sección superior izquierda de los resultados muestra estadísticos de resumen para cada muestra. La mayoría de los 28 estadísticos disponibles caen dentro de alguna de las tres categorías:. medidas de tendencia central estadísticos que caracterizan el centro de los datos. 2. medidas de dispersión estadísticos que miden la variación de los datos. 3. medidas de forma estadísticos que valoran la forma de los datos en relación con la distribución normal. Los estadísticos incluidos en la tabla se determinan en las especificaciones del cuadro Stats del cuadro de diálogo Preferencias. Para los datos de la presión sanguínea, las medias muestrales son: x = 8.3 y x 2 = 00.0 Las desviaciones estándares muestrales son: s =.70 y s 2 = 5.7 2005 por StatPoint, Inc. Two Sample Comparison SnapStat - 6
El sesgo estandarizado y la curtosis estandarizada se encuentran todas entre -2 y +2, lo que indica que los datos pueden haber adecuadamente provenido de distribuciones normales. Histograma de Frecuencias Dual (parte superior derecha) El histograma muestra un cuadro de barras para cada muestra, mostrando que el número de observaciones contenidas en intervalos adyacentes no traslapados. El cuadro para la primera muestra se muestra arriba de la línea, mientras que el cuadro para la segunda muestra se muestra debajo de la línea. El número de intervalos dentro de los cuales los datos son agrupados se determina por la regla especificada en la tabulación EDA del cuadro de diálogo Preferencias en el menú Edición. Gráfica de Caja y Bigotes (centro izquierda) La sección central izquierda del resultado muestra una gráfica de caja y bigotes para cada muestra. La gráfica es construida de la siguiente manera: Una caja es dibujada extendiéndose del cuantil inferior de la muestra al cuantil superior. Este es el intervalo cubierto por el 50% de los valores de los datos cuando se ordenan del más pequeño al más grande. Una línea vertical se dibuja en la mediana (el valor medio). 2005 por StatPoint, Inc. Two Sample Comparison SnapStat - 7
Si se requiere, un signo de suma se coloca en el lugar de la media muestral. Los bigotes son dibujados de las orillas de la caja hasta los valores de los datos más pequeños y grandes, a menos que haya valores inusualmente lejos de la caja (los cuales Tukey llama valores extremos). Los valores extremos, que son puntos localizados más allá de.5 veces el rango intercuartílico (amplitud de la caja) arriba o debajo de la caja, son indicados por símbolos de puntos con un signo + colocado encima de ellos. Si los valores extremos están presentes, los bigotes se dibujan hasta los valores de datos más pequeños y más grandes que no sean puntos extremos. Los datos para la presión sanguínea muestran una gran diferencia entre las dos muestras, así como una mayor dispersión para la muestra dado el placebo. Existe también un solo valor extremo para cada muestra. Intervalos de Confianza y Diagnósticos (Centro Derecha) La tabla en la sección central derecha muestra algunos estadísticos importantes:. Intervalos de Confianza para la diferencia entre las medias muestrales Δ = μ () μ 2 Y el radio de la varianzas muestrales σ ϖ = (2) σ 2 2 2 Intervalos de Confianza indican el margen de error asociado con la estimación de una cantidad dado el tamaño y variabilidad de los datos muestrales. 2. Un Prueba t de hipótesis: Hipótesis Nula: Δ = 0 Hipótesis Alternativa: Δ 0 Un pequeño P-Value para la prueba (menor que 0.05 si se opera con un nivel de significancia de 5%) indica que existe una diferencia estadística significativa entre las medias de las poblaciones de las cuales las muestras fueron tomadas. Dependiendo del resultado de la Prueba F de abajo, una prueba de t exacta puede realizarse asumiendo que las muestras provienen de poblaciones con varianzas iguales o una prueba aproximada puede ser realizada sin hacer tal suposición. 3. Una Prueba F de las hipótesis: Hipótesis Nula: ω = 2005 por StatPoint, Inc. Two Sample Comparison SnapStat - 8
Hipótesis Alternativa: ω Un P-Value pequeño para la prueba (menos que 0.05 si se opera con un nivel de significancia de 5%) indica que existe una diferencia estadística significativa entre las desviaciones estándar de las poblaciones de las cuales provienen las muestras. 4. P-Values para la prueba de normalidad Shapiro-Wilks. Valores pequeños de P-Values indican que las muestras no provienen de distribuciones normales. La prueba Shapiro-Wilks muestra que no hay razón para rechazar la idea de que ambas muestras de presión sanguínea provienen de distribuciones normales. Desde que el P-Value para la Prueba F es bajo, existe una diferencia estadística significativa entre las desviaciones estándar de los dos grupos. Dado que el P-Value para la prueba t es bajo, las medias también son significativamente diferentes. Gráficas de Cuantiles (parte inferior izquierda) La gráfica en la esquina inferior izquierda muestra los cuantiles de cada muestra. Las curvas corresponden a las distribuciones empíricas acumuladas y estima la proporción de cada población en o abajo de X como una función de X. La diferencia de la curva para el grupo del efecto placebo corresponde a su media más grande. Gráficas de Probabilidad Normal (parte inferior derecha) La esquina inferior derecha contiene una gráfica de probabilidad normal para cada muestra. Está gráfica se construye de manera tal que, si los datos provienen de una distribución normal, los puntos yacerán aproximadamente a lo largo de líneas rectas. Para ayudar a determinar qué tanto los puntos se ajustan a la línea recta, una línea de referencia puede ser sobrepuesta en la gráfica. De acuerdo con las especificaciones de la tabulación EDA del cuadro de diálogo Preferencias en el menú Edición, la línea puede ser ajustada:. Usando cuantiles la mediana y los cuantiles son usados para determinar la media y la desviación estándar y por tanto, la localización de la línea. 2. Usando mínimos cuadrados la línea es ajustada por una regresión de mínimos cuadrados. El primer método es menos sensible a valores atípicos que el segundo. Ambas muestras de los datos de presión sanguínea son razonablemente normales, con la excepción de un posible valor atípico en cada muestra. 2005 por StatPoint, Inc. Two Sample Comparison SnapStat - 9