ESTADÍSTICA (Q) Resolución del Trabajo Práctico N 1 Para los datos IRIDIO realizar los cálculos a mano y donde sea posible verificar usando el Statistix. Para los datos RODIO pueden realizar los cálculos como les resulte más conveniente. Deben entregar los desarrollos y cálculos justificando adecuadamente cada respuesta. Datos: IRIDIO 136.6 145.2 151.5 162.7 159.1 159.8 160.8 173.9 160.1 160.4 161.1 160.6 160.2 159.5 160.3 159.2 159.3 159.6 160.0 160.2 160.1 160.0 159.7 159.5 159.5 159.6 159.5 RODIO 126.4 135.7 132.9 131.5 131.1 131.1 131.9 132.7 133.3 132.5 133.0 133.0 132.4 131.6 132.6 132.2 131.3 131.2 132.1 131.1 131.4 131.2 131.1 131.1 En un experimento se midió la temperatura de sublimación del iridio y del rodio. a) Compare los dos conjuntos de datos mediante esquemas tallo-hoja, histogramas de frecuencias relativas superponiendo la curva normal y box plots. Grafique los dos boxplots en el mismo gráfico. Explique las diferencias que observa en cada caso. STEM AND LEAF PLOT OF IRIDIO LEAF DIGIT UNIT = 1 MINIMUM 136.60 13 6 REPRESENTS 136. MEDIAN 159.80 MAXIMUM 173.90 STEM LEAVES 1 13 6 1 14 2 14 5 3 15 1 (11) 15 99999999999 13 16 000000000012 1 16 1 17 3 27 CASES INCLUDED 0 MISSING CASES (en gris la Mediana) STEM AND LEAF PLOT OF RODIO LEAF DIGIT UNIT = 0.1 MINIMUM 126.40 126 4 REPRESENTS 126.4 MEDIAN 131.75 MAXIMUM 135.70 STEM LEAVES 1 126 4 1 127 1 128 1 129 1 130 (12) 131 111112234569 11 132 1245679 4 133 003 1 134 1 135 7 24 CASES INCLUDED 3 MISSING CASES 1
1/2*13/27= 0,240 1/2*9/27= 0,1666 1/2*1/27= 0,0185 Elegimos intervalos I k de longitud 2, luego la altura de cada torre está dada por donde: I k h k = 2 frecuencia en I 1 k 27 frecuencia [136,138] 1 (144,146] 1 (150,152] 1 (158,160] 13 (160,162] 9 (162,164] 1 (172,174] 1 Superposición de la curva normal: Descriptive Statistics Variable N Mean SD IRIDIO 27 158.81 6.2246 Máximo en x = 158,81 con altura 1 2π DS 2 = 0,064. Puntos de inflexión en: µ σ = 158,81-6,2246=152,5854 y en µ + σ =158,81+6,2246=165,0346. Los datos Iridio no parecen provenir de una distribución normal. 2
1/0.5*10/24= 0.83 1/0.5*5/24=0,416 1/0.5*4/24=0,333 1/0.5*2/24=0,166 1/0.5*1/24=0,083 Elegimos intervalos I k de longitud 0.5, luego la altura de cada torre está dada por Superposición de la curva normal: Descriptive Statistics 1 frecuencia en I k h k = 0.5 24 Variable N Mean SD RODIO 24 131.85 1.5731 Máximo en x = 131,85 con altura 1 2π DS 2 = 0,2536. Puntos de inflexión en: µ σ = 131,85-1,5731=130,2769 y en µ + σ =131,85+1,5731=133,4231. Los datos Rodio no parecen provenir de una distribución normal. 3
GRAFICO I Debido a la presencia de outliers severos y a la diferencia de la posición del centro de los datos de ambos grupos, resulta dificultoso estudiar las características de las distribuciones las temperaturas de sublimación de iridio y de rodio. Por esa razón se excluyen algunos outliers de iridio y se construyen gráficos de caja en escalas diferentes que permiten visualizar la distribución por separado de la mayoría restante de los datos de iridio y a los datos de rodio con mayor detalle. GRAFICO II GRAFICO III 4
IRIDIO: El gráfico de caja y el de tallo y hojas muestran la presencia de varios outliers severos en ambas direcciones. Cuando consideramos los outliers hay cierta asimetría en el sentido que los inferiores están más alejados. De los gráficos podemos concluir que la distribución es aproximadamente simétrica (con una leve asimetría a derecha en la caja y una cierta asimetría izquierda en los outliers). Nota: Este es un caso es que es muy difícil llegar a una conclusión acerca de la forma de la distribución y cada observador puede llegar a conclusiones diferentes!! RODIO: Presenta un outlier moderado (*) y otro severo (o). La distribución presenta una asimetría a derecha (los datos por debajo de la mediana se encuentran más concentrados, ver mitad inferior de la caja y longitud del bigote, comparados con la mitad superior de la caja y bigote superior en Gráfico I y III). COMPARACION: La temperatura de sublimación del iridio es superior a la del rodio. Las distribuciones no se superponen. El mínimo valor obtenido para el iridio supera a la máxima temperatura registrada para el rodio. b) Halle las medias, las medianas y las medias podadas al 10% y 20%. Compare. Medias α podadas: Poda del 10%: 27*0.1=2.7, podamos 2 datos en cada extremo 24*0.1=2.4, podamos 2 datos en cada extremo Poda del 20% 27*0.2=5.4, podamos 5 datos en cada extremo 24*0.2=4.8, podamos 4 datos en cada extremo DESCRIPTIVE STATISTICS VARIABLE N MEAN MEDIAN IRIDIO 27 158.81 159.80 IRIDIO 23 159.55 podada al 10% IRIDIO 17 159.84 podada al 20% VARIABLE N MEAN MEDIAN RODIO 24 131.85 131.75 RODIO 20 131.90 podada al 10% RODIO 16 131.86 podada al 20% IRIDIO: La media es menor que la mediana debido a la presencia de tres outliers severos inferiores versus los dos superiores. Cuando se calcula la media alpha-podada al 20% (se excluyen todos los outliers), ésta resulta ser similar a la mediana. RODIO: La media y la mediana no difieren porque la leve asimetría derecha que describimos en el ítem (a) se compensa con el outlier severo (a valores bajos). 5
c) Halle el desvío estándar muestral, la distancia intercuartil y la MAD como medidas de dispersión. Hacer las correcciones a la distancia intercuantil y a la MAD para que sean comparables con el desvío estándar muestral. DESCRIPTIVE STATISTICS VARIABLE N SD 1ST QUARTI 3RD QUARTI MAD IRIDIO 27 6.2246 159.50 160.30 0.4000 RODIO 24 1.5731 131.13 132.67 0.6500 VARIABLE N DQ DQ/1.35 MAD/0.675 IRIDIO 27 0.8 0.5925 0.5925 RODIO 24 1.54 1.1407 0.9629 La distancia intercuartil y la mad corregidas son similares entre sí pero muy diferentes a los desvíos estándar. Esto es especialmente notorio en las temperaturas de sublimación de iridio que presentan la mayor cantidad de valores atípicos. d) Halle los percentiles del 90%, 75%, 50%, 25% y 10%. Por ejemplo el percentil del 90% para los datos Iridio tiene posición (n+1)*0.9=28*0.9=25.2=25+0.2. Luego dicho percentil se encuentra haciendo interpolación lineal de la siguiente forma: PERCENTILES X (25) * (1-0.2)+ X (26) * 0.2= 161.1 * (1-0.2)+ 162.7 * 0.2 = 161.42 VARIABLE CASES 90.0 75.0 50.0 25.0 10.0 --------- ------- ------- ------- ------- ------- ------- IRIDIO 27 161.42 160.30 159.80 159.50 150.24 RODIO 24 133.15 132.67 131.75 131.13 131.10 e) Se cuenta con la siguiente información adicional sobre este conjunto de datos: se listaron en el orden en que fueron tomadas (en el archivo xls y por filas en la tabla de datos). Grafique las observaciones en el orden en que fueron tomadas (en el Statistix hacer: Statistics => Time Series => Time Series Plot). Es razonable suponer que los errores tienen la misma variabilidad? A partir de cuál observación considera que el proceso se ha estabilizado? 6
El gráfico de las temperaturas, siguiendo el orden en que fueron realizadas las observaciones, muestra que la temperatura de sublimación tarda un cierto tiempo en estabilizarse tanto para el iridio como para el rodio. IRIDIO: Las primeras mediciones resultaron en valores de temperatura de sublimación notablemente bajos, a medida que transcurre el tiempo los valores tienden a estabilizarse alrededor de un cierto valor y con una dispersión aproximadamente constante. Alrededor de la observación 10 las determinaciones se estabilizan. RODIO: la variabilidad de las primeras observaciones del rodio se visualiza menor que la del iridio, cuando se grafican ambas temperaturas en el mismo gráfico y que a partir del dato 4 se estabilizan las observaciones. Al realizar dos gráficos con diferente escala se observa una mayor variabilidad en los datos del rodio. A partir de la observación 5 las observaciones mantienen un nivel promedio estable pero son bastante variables hasta la observación 20. Este ejemplo pone en evidencia que el concepto de variabilidad, no es una medida absoluta, depende de la escala. f) Sobre el conjunto de datos correspondiente al proceso estabilizado, resuelva nuevamente el ítem a) (diagrama de tallo y hoja y boxplot). 7
a) STEM AND LEAF PLOT OF IRIDIO(obs: 11 a 27) LEAF DIGIT UNIT = 0.1 MINIMUM 159.20 159 2 REPRESENTS 159.2 MEDIAN 159.70 MAXIMUM 161.10 STEM LEAVES 2 159 23 6 159 5555 (3) 159 667 8 159 8 160 001 5 160 223 2 160 2 160 6 1 160 1 161 1 17 CASES INCLUDED 0 MISSING CASES STEM AND LEAF PLOT OF RODIO(obs: 5 a 24) LEAF DIGIT UNIT = 0.1 MINIMUM 131.10 131 1 REPRESENTS 131.1 MEDIAN 131.75 MAXIMUM 133.30 STEM LEAVES 5 131 11111 8 131 223 9 131 4 10 131 6 10 131 9 9 132 1 8 132 2 7 132 45 5 132 67 3 132 3 133 00 1 133 3 20 CASES INCLUDED 3 MISSING CASES 8
Las temperaturas de sublimación para ambos materiales presentan ahora asimetría a derecha (es decir la cola se extiende hacia la derecha, valores grandes, ver diagramas tallo-hojas) y desaparecen los outliers. La temperatura de sublimación del iridio es notablemente superior a la del rodio (todos los valores de temperatura de sublimación del iridio son mayores que los del rodio). 9