SnapStat: Análisis de Una Muestra Resumen La SnapStat Análisis de Una Muestra crea un resumen en una hoja de una sola columna de datos numéricos. Calcula estadísticas de resumen e intervalos de confianza, prueba normalidad en los datos, y calcula la autocorrelación entre observaciones sucesivas. Las gráficas incluyen un histograma, un gráfico de caja y bigotes, un gráfico de secuencia en el tiempo, y un gráfico de probabilidad normal. Los cálculos son un subconjunto de los que realiza el procedimiento Análisis de una Variable. Sin embargo, la salida tiene un formato previo para que se ajuste a una sola hoja. StatFolio de Ejemplo: onesamsnapstat.sgp Datos de Ejemplo: El archivo bodytemp.sf3 contiene datos que describen la temperatura corporal y el ritmo cardiaco de una muestra de n = 130 personas. Se obtuvo del Journal of Statistical Education Data Archive (www.amstat.org/publications/jse/jse_data_archive.html) y originalmente apareció en el Journal of the American Medical Association. A continuación se muestran las primeras 20 hileras del archivo. Temperature (temperatura) Gender (género) (ritmo cardiaco) 98.4 Male 84 98.4 Male 82 98.2 Female 65 97.8 Female 71 98 Male 78 97.9 Male 72 99 Female 79 98.5 Male 68 98.8 Female 64 98 Male 67 97.4 Male 78 98.8 Male 78 99.5 Male 75 98 Female 73 100.8 Female 77 97.1 Male 75 98 Male 71 98.7 Female 72 98.9 Male 80 99 Male 75 2005 por StatPoint, Inc. SnapStat: Análisis de Una Muestra - 1
Ingreso de Datos Los datos a analizar consisten de una sola columna numérica con n = 2 o más observaciones. Datos : columna numérica que contiene los datos a resumir. Selección: selección de un subgrupo de datos. 2005 por StatPoint, Inc. SnapStat: Análisis de Una Muestra - 2
Salida La salida de SnapStat es una sola página de gráficos y estadística numéricas. STATGRAPHICS Rev. 4/25/2007 SnapStat: Análisis de Una Muestra Datos/Variable: Recuento = 130 Promedio = 73.7615 Desviación Estándar = 7.06208 Coeficiente de variación = 9.5742% Mínimo = 57.0 Máximo = 89.0 Rango = 32.0 Rango intercuartílico = 10.0 Sesgo Estándar = -0.830188 Curtosis Estándar = -1.07762 frecuencia 18 15 12 9 6 3 Histograma 0 55 65 75 85 95 Gráfico de Caja y Bigotes Intervalos de confianza del 95% Media: 73.7615 +/- 1.22547 [72.5361, 74.987] Sigma: [6.29539, 8.0432] Diagnósticos Valor-P de Shapiro-Wilks = 0.1382 Autocorrelación en Retraso 1 = -0.0987189 +/- 0.171901 55 65 75 85 95 95 85 75 65 55 Gráfico Secuencias Cronológicas 0 30 60 90 120 150 Fila porcentaje 99.9 99 95 80 50 20 5 1 Gráfico de Probabilidad Normal 0.1 55 65 75 85 95 2005 por StatPoint, Inc. SnapStat: Análisis de Una Muestra - 3
Resumen Estadístico (arriba a la izquierda) La sección de arriba a la izquierda de la salida muestra un resumen estadístico para las n observaciones. La mayoría de las 28 estadísticas disponibles caen en una de tres categorías: 1. Medidas de tendencia central estadísticas que caracterizan el centro de los datos. 2. Medidas de dispersión estadísticas que miden la dispersión de los datos. 3. Medidas de forma estadísticas que miden la forma de los datos con respecto a una distribución normal. Las estadísticas incluidas en la tabla se controlan por las definiciones de configuración en la ventana Estadísticas de la caja de diálogo Preferencias. Para los datos de ritmo cardiaco, la media muestral x = 73.76 y la desviación estándar s = 7.06. El cociente de la desviación estándar entre la media es el coeficiente de variación CV = 9.57%. Los datos varían entre 57 y 89 con un rango R = 32. La distancia cubierta por la mitad central de los datos (el rango intercuartílico) RIC = 10. El sesgo y la curtosis estandarizados están ambos entre -2 y +2, indicando que los datos bien pueden provenir de una distribución normal. 2005 por StatPoint, Inc. SnapStat: Análisis de Una Muestra - 4
Histograma de Frecuencias (arriba a la derecha) La sección Histograma de Frecuencias presenta un diagrama de barras que muestran el número de observaciones contenidas en intervalos adyacentes, no traslapados. El número de intervalos en los que los datos se agrupan por omisión se establece con la regla especificada en la pestaña AED de la caja de diálogo de Preferencia en el menú Editar. El histograma en el gráfico anterior usa la regla 10log10(n), que da un número relativamente grande de barras comparado con la regla de Sturges. Gráfico de Caja y Bigotes (centroizquierda) La sección central izquierda de la salida muestra un gráfico de caja y bigotes. Este gráfico se construye de la siguiente forma: Se dibuja una caja que se extienda desde el cuartil inferior de la muestra hasta el cuartil superior. Este es el intervalo cubierto por el 50% central de los valores de los datos cuando se ordenan de menor a mayor. Se dibuja una línea vertical en la mediana (el valor de en medio). Si se solicita, un signo de más se coloca en el lugar de la media muestral. 2005 por StatPoint, Inc. SnapStat: Análisis de Una Muestra - 5
Los bigotes se dibujan desde los extremos de la caja hasta los valores mínimo y máximo de los datos, a menos que haya valores inusualmente muy alejados de la caja (a los cuales Tukey llama puntos extremos). Los puntos atípicos, que son puntos a más de 1.5 veces el rango intercuartílico (ancho de la caja) por arriba o por debajo de la caja, se indican por símbolos de señalamiento. Cualesquiera puntos a más de 3 veces el rango intercuartílico por arriba o por debajo de la caja se les llama puntos extremos lejanos, y se indican por símbolos de señalamiento con signos de más superpuestos por arriba de ellos. Si hay presentes puntos aberrantes (extremos o extremos lejanos), los bigotes se dibujan a los valores máximo y mínimo que no sean puntos aberrantes. El gráfico anterior para los datos de ritmo cardiaco es muy simétrico. El signo de más para la media se encuentra muy cerca de la línea para la mediana, mientras que los bigotes son aproximadamente de igual longitud. No hay puntos aberrantes. Intervalos de Confianza y Diagnósticos (centroderecha) La tabla en la sección central derecha muestra intervalos de confianza para la media y la desviación estándar de la población de la que los datos fueron muestreados. Los intervalos de confianza al 95% se construyen de tal manera que, en repetidos muestreos, 95% de tales intervalos contendrán el verdadero valor del parámetro que se estima. También puede ver un intervalo de confianza como especificando el margen de error de la misma forma como se enuncia cuando se hace una encuesta de opinión. En el ejemplo anterior, aunque el ritmo cardiaco promedio en la muestra fue de 73.76 la media en la población de la cual los datos fueron muestreados bien puede diferir de esa estimación por 1.23 en cualquier dirección. Los diagnósticos prueban dos importantes supuestos sobre los datos: 1. Normalidad La prueba de Shapiro-Wilks prueba la hipótesis nula de que los datos provienen de una distribución normal. Valores de P menores que 0.05 conducen al rechazo de esa hipótesis al nivel de significancia del 5%. Para los datos del ritmo cardiaco, no hay razón para rechazar la idea de que los datos provengan de una distribución normal, ya que P está muy por arriba de 0.05. 2. Independencia La prueba de autocorrelación de retraso 1 prueba el supuesto de que los datos son independientes buscando correlación entre observaciones consecutivas en el archivo de datos. La estadística de autocorrelación va de 1 a 1 y debe ser cercana a 0 si los datos son independientes. En la salida se incluye un intervalo de confianza para la autocorrelación. Si el intervalo de confianza contiene al 0, como sucede para los datos del ritmo cardiaco, no hay razón alguna para rechazar la hipótesis de independencia. Gráfico de Secuencias Cronológicas (abajo a la izquierda) El gráfico en la esquina inferior izquierda muestra los datos versus el número de fila. Si los datos se colectaron en el tiempo, puede usar este gráfico para buscar tendencias u otras características interesantes. 2005 por StatPoint, Inc. SnapStat: Análisis de Una Muestra - 6
Gráfico de Probabilidad Normal (abajo a la derecha) La esquina inferior derecha contiene un gráfico de probabilidad normal. Este gráfico se construye de tal manera que, si los datos provienen de una distribución normal, los puntos caerán aproximadamente a lo largo de una línea recta. Para ayudar a determinar que tan cerca los puntos corresponden a una línea recta, se puede superponer una línea de referencia en el gráfico. Con base en las definiciones de configuración en la pestaña AED de la caja de diálogo Preferencias del menú Editar, la línea puede ajustarse: 1. Usando cuartiles se usan la mediana y los cuartiles para determinar la media y la desviación estándar y con ello la localización de la línea. 2. Usando mínimos cuadrados la línea se ajusta por regresión de mínimos cuadrados. El primer método es menos sensible a puntos aberrantes que el segundo. Los datos de ritmo cardiaco corresponden muy cercanamente con la línea ajustada, lo que implican que no hay un alejamiento significativo de una distribución normal. Cálculos Las fórmulas usadas en este procedimiento, junto con descripciones más detalladas para cada técnica, se encuentran en los siguientes documentos: 1. Prueba de Shapiro-Wilks Ajuste de Distribuciones (Datos No Censurados) 2. Autocorrelación de Retraso 1 Métodos Descriptivos (Análisis de Series de Tiempo) 3. Todas las demás estadísticas y gráficos Análisis de Una Variable 2005 por StatPoint, Inc. SnapStat: Análisis de Una Muestra - 7