Práctica 2. Estadística Descriptiva Ejercicio 1 Mucha gente manifiesta reacciones de alergia sistémica a las picaduras de insectos. Estas reacciones varían de paciente a paciente, no sólo en cuanto a gravedad, sino también en el tiempo transcurrido hasta que se inicia la reacción. Los datos siguientes representan este tiempo hasta el inicio de la reacción en 40 pacientes que experimentaron una reacción sistémica a la picadura de abeja: 10.5 11.2 9.9 15.0 11.4 12.7 16.5 10.1 12.7 11.4 11.6 6.2 7.9 8.3 10.9 8.1 3.8 10.5 11.7 8.4 12.5 11.2 9.1 10.4 9.1 13.4 12.3 5.9 11.4 8.8 7.4 8.6 13.6 14.7 11.5 11.5 10.9 9.8 12.9 9.9 a) Introducir los datos. b) Determinar: i. Número de datos ii. Valores máximo y mínimo iii. Tabla de frecuencias iv. Representaciones gráficas v. Interpretación El cálculo de la tabla de frecuencias se hace a partir del menú Analizar Estadísticos Descriptivos
La generación de la tabla de frecuencias se obtiene marcando la casilla de verificación Mostrar tablas de frecuencias. Esta opción permite también la determinación de algunos estadísticos, para ello basta con pulsar en el botón Estadísticos, así como una serie de gráficos, pulsando en el botón Gráficos Como podemos observar con esta opción, SPSS nos proporciona todos los estadísticos descriptivos elementales. Los gráficos que permite son:
Seleccionados los estadísticos pedidos en la práctica, así como el cálculo de la tabla de frecuencias y el gráfico de barras, los resultados obtenidos son los siguientes: Frecuencias Estadísticos TIEMPO N Válidos 40 Perdidos 0 Mínimo 3.8 Máximo 16.5 Se han analizado 40 datos en los que no hay información faltante TIEMPO Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos 3.8 1 2.5 2.5 2.5 5.9 1 2.5 2.5 5.0 6.2 1 2.5 2.5 7.5 7.4 1 2.5 2.5 10.0 7.9 1 2.5 2.5 12.5 8.1 1 2.5 2.5 15.0 8.3 1 2.5 2.5 17.5 8.4 1 2.5 2.5 20.0 8.6 1 2.5 2.5 22.5 8.8 1 2.5 2.5 25.0 9.1 2 5.0 5.0 30.0 9.8 1 2.5 2.5 32.5 9.9 2 5.0 5.0 37.5 10.1 1 2.5 2.5 40.0 10.4 1 2.5 2.5 42.5 10.5 2 5.0 5.0 47.5 10.9 2 5.0 5.0 52.5 11.2 2 5.0 5.0 57.5 11.4 3 7.5 7.5 65.0 11.5 2 5.0 5.0 70.0 11.6 1 2.5 2.5 72.5 11.7 1 2.5 2.5 75.0 12.3 1 2.5 2.5 77.5 12.5 1 2.5 2.5 80.0 12.7 2 5.0 5.0 85.0 12.9 1 2.5 2.5 87.5 13.4 1 2.5 2.5 90.0 13.6 1 2.5 2.5 92.5 14.7 1 2.5 2.5 95.0 15.0 1 2.5 2.5 97.5 16.5 1 2.5 2.5 100.0 Total 40 100.0 100.0 En la tabla de frecuencias nos aparece la frecuencia de repetición de cada dato así como los porcentajes acumulados (equivalentes a las frecuencias relativas).
Histograma: TIEMPO 10 8 6 4 Frecuencia 2 0 Desv. típ. = 2.53 Media = 10.6 N = 40.00 4.0 6.0 8.0 10.0 12.0 14.0 16.0 5.0 7.0 9.0 11.0 13.0 15.0 17.0 TIEMPO También es posible obtener este gráfico a partir del menú principal Gráficos Histograma; los resultados son los mismos. Sin embargo, tanto en uno como en otro caso, con esta opción SPSS construye el histograma directamente, sin que podamos modificar ni la amplitud ni el número de intervalos. Este inconveniente se puede solventar con la utilización de lo que SPSS denomina Gráficos Interactivos.
Ejercicio 2: Una variable de interés en el estudio del cangrejo Xanthidae (pequeño cangrejo que habita en las proximidades de Gloucester Point, Virginia) es el número de huevos puestos por individuo. La siguiente tabla muestra las observaciones obtenidas para 37 cangrejos: 1959 4534 7020 6725 6964 7428 9359 9166 2802 2462 3378 7343 4189 8973 4327 2412 7624 1548 4801 737 5321 849 5749 6837 8639 7417 6082 10241 962 3894 1801 5099 8372 8255 6142 12130 4000 a) Introducir los datos. b) Determinar: i. Número de datos ii. Valores máximo y mínimo iii. Tabla de frecuencias iv. Representaciones gráficas v. Interpretación N Estadísticos NHUEVOS Válidos 37 Perdidos 0 Mínimo 737 Máximo 12130
NHUEVOS Válidos Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado 737 1 2.7 2.7 2.7 849 1 2.7 2.7 5.4 962 1 2.7 2.7 8.1 1548 1 2.7 2.7 10.8 1801 1 2.7 2.7 13.5 1959 1 2.7 2.7 16.2 2412 1 2.7 2.7 18.9 2462 1 2.7 2.7 21.6 2802 1 2.7 2.7 24.3 3378 1 2.7 2.7 27.0 3894 1 2.7 2.7 29.7 4000 1 2.7 2.7 32.4 4189 1 2.7 2.7 35.1 4327 1 2.7 2.7 37.8 4534 1 2.7 2.7 40.5 4801 1 2.7 2.7 43.2 5099 1 2.7 2.7 45.9 5321 1 2.7 2.7 48.6 5749 1 2.7 2.7 51.4 6082 1 2.7 2.7 54.1 6142 1 2.7 2.7 56.8 6725 1 2.7 2.7 59.5 6837 1 2.7 2.7 62.2 6964 1 2.7 2.7 64.9 7020 1 2.7 2.7 67.6 7343 1 2.7 2.7 70.3 7417 1 2.7 2.7 73.0 7428 1 2.7 2.7 75.7 7624 1 2.7 2.7 78.4 8255 1 2.7 2.7 81.1 8372 1 2.7 2.7 83.8 8639 1 2.7 2.7 86.5 8973 1 2.7 2.7 89.2 9166 1 2.7 2.7 91.9 9359 1 2.7 2.7 94.6 10241 1 2.7 2.7 97.3 12130 1 2.7 2.7 100.0 Total 37 100.0 100.0
2500 5000 7500 10000 nhue vos 2 4 6 8 Recuento
Ejercicio 3: Actualmente se realizan esfuerzos para elaborar fibras textiles de fibra de turba. Esto creará una fuente de materiales económicos para las industrias textil y papelera. Una variable estudiada es X, el porcentaje del contenido en ceniza de una determinada turbera. Supongamos que una muestra aleatoria de 50 turberas produce esas observaciones:.5 1.8 4.0 1.0 2.0 1.1 1.6 2.3 3.5 2.2 2.0 3.8 3.0 2.3 1.8 3.6 2.4.8 3.4 1.4 1.9 2.3 1.2 1.9 2.3 2.6 3.1 2.5 1.7 5.0 1.3 3.0 2.7 1.2 1.5 3.2 2.4 2.7 4.5 2.1 2.4 2.8 2.7 4.5 2.1 1.5.7 3.7 1.8 1.7 a) Calcular: i. Media aritmética ii. Mediana iii. Moda iv. Percentiles v. Varianza vi. Desviación típica vii. Valores máximo y mínimo b) Interpretar los valores anteriores
Los resultados obtenidos son los siguientes: Estadísticos CENIZA N Válidos 50 Perdidos 0 Media 2.350 Mediana 2.300 Moda 2.3 Desv. típ. 1.0187 Varianza 1.0377 Mínimo.5 Máximo 5.0 Percentiles 10 1.110 25 1.675 75 3.000 90 3.790 Se observa que los valores oscilan desde el 0.5 hasta el máximo, 5, con una dispersión de 1.0187. Los valores de la media, la mediana y la moda difieren en 5 centésimas, 2.350 y 2.3. Histograma: 14 CENIZA 12 10 8 6 4 Frecuencia 2 0.50 Desv. típ. = 1.02 Media = 2.35 N = 50.00 1.00 1.50 2.00 2.50 3.00 3.50 4.00 4.50 5.00 CENIZA
Ejercicio 4: Se midieron los niveles de ozono alrededor de Los Ángeles y ascendieron a 220 partes por billón (ppb). Las concentraciones de esta magnitud pueden ocasionar quemaduras en los ojos y son peligrosas tanto para las plantas como para la vida animal. También se obtuvieron datos del nivel de ozono en una zona boscosa cerca de Seatle, Washington, que fueron los siguientes: 160 164 176 160 180 178 161 167 161 169 167 173 165 163 162 172 162 163 162 163 168 185 179 170 196 c) Calcular: i. Media aritmética ii. Mediana iii. Moda iv. Percentiles v. Varianza vi. Desviación típica vii. Valores máximo y mínimo d) Interpretar los valores anteriores Estadísticos N OZONO Válidos 25 Perdidos 0 Media 169.04 Mediana 167.00 Moda 162(a) Desv. típ. 9.030 Varianza 81.540 Mínimo 160 Máximo 196 Percentiles 10 160.60 25 162.00 75 174.50 90 182.00 a Existen varias modas. Se mostrará el menor de los valores.
Ejercicio 5: Se realiza un estudio para investigar la relación entre el nivel de humedad del suelo y la tasa de mortalidad en lombrices de tierra. La tasa de mortalidad, y, es la proporción de lombrices de tierra que mueren tras un periodo de dos semanas. El nivel de humedad, x, viene medido en milímetros de agua por centímetro cuadrado de suelo. Se obtuvieron los siguientes datos: x y 0.000 0.5 0.000 0.4 0.000 0.5 0.316 0.2 0.316 0.3 0.316 0.3 0.632 0.0 0.632 0.1 0.632 0.0 0.947 0.1 0.947 0.2 0.947 0.1 1.260 0.6 1.260 0.5 1.260 0.4 Se pide: a) Nube de puntos b) Rectas de regresión c) Coeficiente de correlación d) Grado de ajuste e) Interpretación
Este tipo de gráficos presenta las siguientes alternativas: Para seleccionar una u otra opción habrá que pulsar en el icono correspondiente y a continuación pulsar Definir. En nuestro caso trabajaremos con el diagrama de dispersión simple.
El gráfico que obtenemos es el siguiente: Diagrama de dispersión.7 Nivel de humedad - Tasa de mortalidad.6.5.4.3.2.1 0.0 Y -.1 -.2 0.0.2.4.6.8 1.0 1.2 1.4 X A partir del cual se observa claramente que no existe relación lineal entre las variables, sino que ésta es más bien de tipo parabólica.
Una vez introducidas las variables, la ventana de regresión lineal nos permite abrir otras cajas de diálogo y así poder calcular una serie de gráficos y estadísticos. Si pulsamos en el botón Estadísticos, aparece una ventana a partir de la cual podemos seleccionar varios resultados: Correlación de Pearson Sig. (unilateral) X Correlaciones X Y 1.000 -.051 Y -.051 1.000 X..428 Y.428. N X 15 15 Y 15 15 Resumen del modelo R R cuadrado R cuadrado corregida Error típ. de la estimación.051(a).003 -.074.2043 En nuestro caso, obtenemos un coeficiente de correlación de Pearson de -0.051 o lo que es equivalente un coeficiente de determinación de 0.003, lo cual reafirma la observación anterior de que no existe relación lineal entre ambas variables. Cambio en R cuadrado Estadísticos de cambio Cambio en F gl1 gl2 Sig. del cambio en F.003.034 1 13.856 a Variables predictoras: (Constante), X
ANOVA(b) Modelo 1 Suma de cuadrados gl Media cuadrática F Sig. Regresión.001 1.001.034.856(a) Residual.543 13.042 Total.544 14 a Variables predictoras: (Constante), X b Variable dependiente: Y En cualquier caso, el modelo se ha estimado y la recta de regresión de y respecto x sería: y = - 0.22 + 0.294 x Coeficientes(a) Modelo Coeficientes no estandarizados Coeficientes estandarizado s t Sig. B Error típ. Beta 1 (Constante).294.091 3.214.007 X -.022.118 -.051 -.185.856 a Variable dependiente: Y
Ejercicio 6: Se realiza un estudio de fotoperiodismo en aves acuáticas. Se pretende establecer una ecuación mediante la cual pueda predecirse la duración de la estación de cría, Y, a partir del conocimiento del fotoperíodo (nº de horas de luz por día) bajo el que se inició la reproducción, X. Se obtuvieron los siguientes datos observando el comportamiento de once Aythya (patos buceadores): x y 12.8 110 13.9 54 14.1 98 14.7 50 15.0 67 15.1 58 16.0 52 16.5 50 16.6 43 17.2 15 17.9 28 Se pide: a) Nube de puntos b) Rectas de regresión c) Coeficiente de correlación d) Grado de ajuste e) Interpretación
Gráfico de dispersión 120 Duración estación cría - Fotoperíodo 100 80 60 40 20 Y 0 12 13 14 15 16 17 18 X Estadísticos descriptivos Media Desviación típ. N Y 56.82 27.429 11 X 15.436 1.5468 11 Correlaciones Y X Correlación de Y 1.000 -.852 Pearson X -.852 1.000 Sig. (unilateral) Y..000 X.000. N Y 11 11 X 11 11 Resumen del modelo R cuadrado Error típ. de la Modelo R R cuadrado corregida estimación 1.852(a).726.696 15.132 Estadísticos de cambio Cambio en R cuadrado Cambio en F gl1 gl2 Sig. del cambio en F.726 23.858 1 9.001 a Variables predictoras: (Constante), X
ANOVA(b) Modelo 1 Suma de cuadrados gl Media cuadrática F Sig. Regresión 5462.883 1 5462.883 23.858.001(a) Residual 2060.753 9 228.973 Total 7523.636 10 a Variables predictoras: (Constante), X b Variable dependiente: Y