Medidas de Tendencia Central, Medidas de Dispersión & Otros Estadísticos (Cap. ) Math. 98 Prof. Gaspar Torres Rivera
Un hombre promedio Roberto tiene 31 años de edad, una estatura de 68.8 pulgadas, pesa 171.96 libras, usa un traje talla 40, usa zapatos número 8 y tiene un tamaño de cintura de 33.7 pulgadas. Cada año ingiere 1.30 libras de pasta italiana, 6.01 libras de guineos, 3.97 lbs de papas fritas, 18.08 lbs de helado y 79.15 lbs de carne de res. Además, cada año Roberto ve 567 horas de TV y recibe 585 cartas (correspondencia) de correo. Termina el día con 7.7 horas de sueño. Al día siguiente lo inicia con viaje de 1 min a su trabajo en el que laborará durante 6.1 horas.
Medidas de Tendencia Central Son valores numéricos que localizan el centro de una colección de datos. Algunas medidas de tendencia central son: 1. Promedio o media aritmética: X Xi x1 + x + x 3 + x 4 + + f n x n Media de la muestra Media de la población: µ X N
. Promedio para la distribuciones de f. (agrupados y no agrupados) X f x f x f x f x f x X + + + + + 1 1 3 3 4 4 f n n f n ( ) M O 3. Moda es el dato con mayor frecuencia x ~ 4. Mediana ó Md es el valor central o medio de la colección i n +1 de datos. Los datos deben estar ordenados. La posición de la mediana es f i 5. Mediana para las distribuciones de f para datos agrupados: Midrange ~ x n ( 0. 5 ) f i m+ M cf ( W 6. Amplitud promedio o recorrido promedio Las tres medidas de tendencia central principales son: media, mediana y la moda. ) + L.I.
Media geométrica (para medias de tasas, porciento y crecimiento) GM n X 1X X 3 X n Media armónica (para problemas de velocidad promedio) HM Media cuadrática (para sistemas de distribuciones de energía eléctrica) n 1 X X i X QM n
Medidas de tendencia central Propiedades de la media: ( es afectada por las variaciones de los datos ) Usa todos los datos La media es utilizada para calcular otros estadísticos, como la desviación estándar. La media es única, y no es necesariamente un valor que pertenece a la lista de datos. La media no se puede calcular para distribuciones de frecuencias semi-abiertas. Es adecuada para distribuciones que se aproximan a lo normal o que sean simétricas.
Medidas de tendencia central Propiedades de la mediana: ( no es afectada tanto por las variaciones de los datos ) Es utilizada para hallar el centro de los datos. Divide a la distribución en mitades: una superior y otra inferior. La mediana es usada para calcular el promedio de distribuciones de frecuencias semi-abiertas. Es adecuada para distribuciones que se alejan de lo normal y de la simetría, es decir asimétricas. Ver figuras (histogramas con sesgo o bias ) dadas en clase. Nota: La mediana es única para una lista de datos.
Propiedades de la moda (Mo) Es utilizada para datos cualitativos. La moda (Mo) es aplicada para datos nominales, ver escala nominal. La moda no es única. Una lista de datos puede tener más de una moda. Es afectada por las variaciones de los datos.
Propiedades del Recorrido promedo o amplitud promedio ( Midrange ) Calcula un punto medio a base de los valores m y M. mmin Mmax Es afectada por las variaciones de los datos, es decir por los valores extremos. Nota: La mediana es única para una lista de datos.
Promedio (Triola, 1997) Qué tan común? Existencia Toma en cuenta todos los datos? Media Más común siempre sí sí La afectan los datos extremos? Md (opción para datos extremos) Mo (usa nivel nominal) R.P. (muy sensible a los datos extremos) Uso común siempre no no Se usa a veces Podría no existir, podría haber más de una no Pocas veces siempre no sí no
Ejemplo #1: A continuación se enumeran los tiempos (años) que los primeros diez pacientes de un hospital sobrevivieron después de entrar en un tratamiento experimental. 10, 9, 6, 8, 15, 3, 17, 5, 0, 0 X X f x 1 + x + x 3 + x n 4 + + x n 10 193 10 + 9 19 + 6.3 + 8 años + 15 + 10 3 + 17 + 5 + 0 + 0
Ejemplo #1: Obtenga la mediana: 0, 10, 15, 17, 0, 3, 5, 6, 8, 9 Ordenar los datos n + 1 10 + 1 i 5.5 posición ~ 0 + 3 43 x Md 1.5 años
Notas importantes: Si el número de datos (n) es impar, entonces la mediana es el número que está situado exactamente a la mitad de la lista de datos. Si el número de datos (n) es par, entonces la Si el número de datos (n) es par, entonces la mediana se obtiene calculando la media de los dos números que están a la mitad.
Ejemplo #1: Obtenga la moda y el recorrido promedio: 0, 10, 15, 17, 0, 3, 5, 6, 8, 9 Moda (Mo ) m + M R.P. todos son 0 + 9 modas 14.5 años
Ejemplo # : A continuación se enumeran las concentraciones de alcohol en la sangre de 15 conductores implicados en accidentes mortales y luego condenados a prisión (basados en datos del Departamento de Justicia) 0.7, 0.17, 0.17, 0.16, 0.13, 0.4, 0.9, 0.4, 0.14, 0.16, 0.1, 0.16, 0.1, 0.17, 0.18. Calcular o determinar: media, mediana, moda, amplitud promedio.
Comparación de Medidas de Tendencia Central Posición Salario 1. Asistente administrativo- $16,000. Ventas/Agente de promoción- $19,500 3. Entrada de datos- $15, 750 4. Estadístico- $4,000 5. Producción de informes- $,500 6. Especialista gráfico- $19,500 7. Vicepresidente consultoría- $35,000 8. Presidente- $100,000 9. Suma de salarios- $5,50.00 10. Salario promedio- $31,531.5 11. Salario mediana- $1,000.00 1. Moda- $19,500.00
Ejemplo # : El conteo de BUN (Urea nitrogenada en la sangre) de 0 pacientes seleccionados aleatoriamente es dado en mg/dl. 11, 11, 1, 13, 14, 15, 16, 16, 16, 1, 17, 17, 17, 17, 18, 11, 17, 17, 17 y 17. Calcular o determinar: media, mediana, moda, amplitud promedio. Cuántos conteos son mayores que el promedio de la muestra? menor? igual?
Ejemplo # : El conteo de BUN (Urea nitrogenada en la sangre) de 0 pacientes seleccionados aleatoriamente es dado en mg/dl. 11, 11, 1, 13, 14, 15, 16, 16, 16, 1, 17, 17, 17, 17, 18, 11, 17, 17, 17 y 17. Si se suma un valor constante de k a cada uno, cómo afecta esto a los resultados originales? Si se multiplica por un valor constante de k a cada uno, cómo afecta esto a los resultados originales? Si se divide por un valor constante de k a cada uno, cómo afecta esto a los resultados originales?
Ejemplo # : 0.7, 0.17, 0.17, 0.16, 0.13, 0.4, 0.9, 0.4, 0.14, 0.16, 0.1, 0.16, 0.1, 0.17, 0.18. Calcular o determinar: media, mediana, moda, amplitud promedio. Cuántos conductores implicados tienen una concentración de alcohol mayor que el promedio de la muestra? menor? igual?
Ejemplo 3 En un estudio de crecimiento, la variable x representa la circunferencia (en cm) de las cabezas de los bebés al momento de su nacimiento en el hospital municipal de un pueblo cercano. Calcular o determinar: media, mediana, moda, amplitud promedio. Los datos son los siguientes:
3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 3.0,, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 34.0, 34.0, 34.0, 34.0, 34.0, 34.0, 34.0, 34.0, 34.0, 35.0, 35.0, 35.0, 35.0, 35.0, 35.0, 37.0, 37.0, 37.0, 37.0, 37.0, 37.0, 37.0, 37.0, 37.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 33.0, 37.0, 37.0, 37.0, 37.0, 37.0, 37.0 cm.
Ejemplo 4 Construye una lista de 7 datos que cumpla con las siguientes: Media 9 Mediana4 Mo5 Ejemplo 5 Construye una lista de 10 datos que cumpla con: X Md Mo
Definición Medidas de dispersión (variación) Las medidas de dispersión son valores numéricos que describen la variación de los datos. Los datos que están agrupados en el centro poseen un grado de dispersión relativamente menor, y los datos que están alejados o dispersos de ese centro de la distribución poseen un grado de dispersión relativamente mayor. El agrupamiento más estrecho ocurre cuando los datos tienen el mismo valor, para los cuales la medida de dispersión es cero.
Algunas medidas de dispersión Recorrido (Amplitud) R Desviación estándar muestral Desviación estándar muestral M m s ( X ) ( X ) n s n ( n 1) ( X X) n 1 Desviación estándar poblacional σ σ X ( X ) N ( X µ ) N Varianza es el cuadrado de la desviación estándar Varianza de la población µ X s ( X ) ( X ) n n n 1 ( ) Índice de sesgo de Pearson I 3 ( X Md) Desviación promedio Ver ejemplo de la página 59 (libro de texto) s Desviaciónpromedio xi n x
Otras medidas de dispersión Coeficiente de variación SE s CV.. V X Coeficiente de asimetría ( skewness ) I Error estándar ( ) ( ) n f X f X n s n ( n 1) σ µ ( 100% ) ó C.. ( 100% ) Desviación estándar muestral para las distribuciones de frecuencias s Nota impor tante : ( X X) 0
Ejemplo # 1 Los siguientes datos muestran los tiempos de vida de cinco vertederos del área sur: 6, 3, 8, 5, 3 años. Calcular las medidas: Recorrido, desviación estándar y varianza. RM-m8-35 años; Desviación estándar: x x 6 36 3 9 8 64 5 5 3 9 5 143 x x
Los datos siguientes muestran los tiempos de vida de cinco vertederos del área sur: 6, 3, 8, 5, 3 años. Calcular las medidas: Recorrido, desviación estándar y varianza. Varianza: s ( X ) ( X) ( ) ( ) n n n 1 90 0 Varianza ( ) 4.5 s.1años 4.5 años 5( 143) ( 5) 5 5 1 ( ) 715 65 0
Los siguientes datos muestran los tiempos de vida de cinco vertederos del área sur: 6, 3, 8, 5, 3 años. Calcular las medidas: Recorrido, desviación estándar y varianza. RM-m8-35 años; Desviación estándar: s ( X ) ( X) n n ( n 1) 5 ( 143 ) ( 5 ) 5( 5 1) 715 65 0 90 0 4.5.1 años
Statistics Valid tiempo de vida de 5 vertederos Cumulative Frequency Percent Valid Percent Percent 3.00 40.0 40.0 40.0 5.00 1 0.0 0.0 60.0 6.00 1 0.0 0.0 80.0 8.00 1 0.0 0.0 100.0 Total 5 100.0 100.0 tiempo de vida de 5 vertederos N Valid Missing Mean Std. Error of Mean Median Mode Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Range Minimum Maximum Sum Percentiles 5 50 75 5 0 5.0000.9487 5.0000 3.00.113 4.5000.54.913 -.963.000 5.00 3.00 8.00 5.00 3.0000 5.0000 7.0000
Ejemplo # Los siguientes datos muestran los tiempos de vida de cinco vertederos del área sur: 5, 5, 5, 5, 5 años. Calcular las medidas: Recorrido, desviación estándar y varianza. RM - m s ( X ) ( X) n n ( n 1) 5 ( ) ( ) 5( 5 1) 0 años
Ejemplo # 3: A continuación se enumeran los tiempos (años) que los primeros diez presidentes de Estados Unidos sobrevivieron después de entrar en funciones. 10, 9, 6, 8, 15, 3, 17, 5, 0, 0 Calcular las medidas: Recorrido, desviación estándar y varianza.
Ejemplo # 4: Un técnico de "quality-control" seleccionó una muestra de 48 osos silvestres anestesiados, luego anotó sus edades, en meses. Las mediciones encontradas fueron las siguientes: Edad (meses) Frecuencia 7.00 0 36.00 3 65.00 6 94.00 15 13.00 15 15.00 6 181.00 3 f 48
Ejemplo # 4: Calcular las medidas: Media, Moda, Mediana, Amplitud promedio, Recorrido, desviación estándar y varianza. Edad (meses) Frecuencia 7.00 0 36.00 3 65.00 6 94.00 15 13.00 15 15.00 6 181.00 3 f 48
Statistics Valid edad en meses de 48 osos anestesiados edad en meses de 48 osos anestesiados N Valid 48 Missing 0 Cumulative Mean 108.5000 Frequency Percent Valid Percent Percent Std. Error of Mean 5.1808 36.00 3 6.3 6.3 6.3 Median 108.5000 65.00 6 1.5 1.5 18.8 Mode 94.00 a 94.00 15 31.3 31.3 50.0 Std. Deviation 35.8935 13.00 15 31.3 31.3 81.3 Variance 188.3404 15.00 6 1.5 1.5 93.8 Skewness.000 181.00 3 6.3 6.3 100.0 Std. Error of Skewness.343 Total 48 100.0 100.0 Kurtosis -.14 Std. Error of Kurtosis.674 Range 145.00 Minimum 36.00 Maximum 181.00 Sum 508.00 Percentiles 5 94.0000 50 108.5000 75 13.0000 a. Multiple modes exist. The smallest value is shown
Medidas de localización Definición: Describen la localización o la posición de un valor con respecto al resto de los datos. Localizan la posición relativa de un valor con respecto al al resto de los datos. Algunas medidas son: Cuartiles (Q k) Percentiles (P k) Decile (D k) Interquartile range IQRQ3-Q1 Outliers o valores a 1.5xIQR
Definición: Describen la localización o la posición de un valor con respecto al resto de los datos. Localizan la posición relativa de un valor con respecto al al resto de los datos. Algunas medidas son: EDA o Exploratory Data Analysis de John Tukey, 1977 Box plot (utiliza m, LH, Md, UH, M)