Tema 2: MEDIDAS DESCRIPTIVAS DE LOS DATOS 1. MEDIDAS DE CETRALIZACIÓ: Meda Medana Moda Cuantles Otras 2. MEDIDAS DE DISPERSIÓ: Desvacón típca Varanza Rango Otras 3. MEDIDAS DE FORMA: Asmetría Apuntamento 4. REPRESETACIÓ GRÁFICA: Dagrama de caja MEDIDAS DESCRIPTIVAS Para qué nos srven? Se pueden calcular todas con todo tpo de varables? Cuáles son las más adecuadas en cada caso? De qué forma podemos sacar partdo a nuestra calculadora?
MEDIDAS DE CETRALIZACIÓ(1) Qué SO? LA MODA: (Cuando los datos no están agrupados en ntervalos) Es el valor que aparece con una frecuenca mayor. Puede haber más de una: unmodal-bmodal-trmodal-plurmodal 7 7 7 5 3 5 11 7 11 2 11 7 4 8 8 7 10 2 5 Qué valor toma la moda? LA MODA: (Cuando los datos están agrupados en ntervalos) Clases n Marca de clase [0,5) 11 [5,10) 13 [10,15) 6 [15,20) 2 [20,25) 1 [25,30) 3 Podemos encontrar: La CLASE MODAL En la representacón gráfca? Pero, y s queremos calcular exactamente el valor de la MODA? Mo = L 1 + d d 1 + 1 + d + 1 l Podemos calcularla para DATOS CUALITATIVOS?
EJERCICIO 3: LA MODA Intervalo Frecuenca absoluta [0,5) 6 [5,10) 14 [10,15) 20 [15,20) 10 Calcular el valor exacto de la moda. EJERCICIO 4: LA MODA Clases n Marca de clase [0,0.30) 15 [0.30,0.60) 21 [0.60,1.20) 36 [1.20,3.00) 18 [3.00,6.00) 6 [6.00,9.00) 3 Calcular el valor exacto de la moda.
MEDIDAS DE CETRALIZACIÓ(2) LA MEDIAA: (Cuando los datos no están agrupados en ntervalos) Es la observacón que ocupa el lugar central 7 7 7 5 3 5 11 7 11 2 11 7 4 8 8 7 10 2 5 Qué valor toma la medana? 1. Ordenamos los datos de menor a mayor. 2. Tenemos en cuenta tambén los que se repten. 3. La medana, es el CETRO FÍSICO Cómo camba el cálculo s es par o mpar? LA MEDIAA: (Cuando los datos están agrupados en ntervalos) Clases n Marca de clase [0,5) 13 [5,10) 11 [10,15) 6 [15,20) 2 [20,25) 1 [25,30) 3 Podemos encontrar: El ITERVALO MEDIAO Pero, y s queremos calcular exactamente el valor de la MEDIAA? Me = L 1 Podemos calcularla para DATOS CUALITATIVOS? + 2 n 1 l
MEDIDAS DE CETRALIZACIÓ(3) LA MEDIA ARITMÉTICA: (Cuando los datos no están agrupados en ntervalos) Es el PROMEDIO de los valores de la muestra 7 7 7 5 3 5 11 7 11 2 11 7 4 8 8 7 10 2 5 Qué valor toma la meda? 1. Sumamos los datos. 2. Los dvdmos por el número total de datos (). X = x = 1 x 1+ x 2 +... + x = LA MEDIA ARITMÉTICA: (Cuando los datos están agrupados en ntervalos) Clases n Marca de clase [0,5) 13 [5,10) 11 [10,15) 6 [15,20) 2 [20,25) 1 [25,30) 3 El valor de la meda con los datos agrupados en ntervalos utlza la marca de clase. Podemos calcularla para DATOS CUALITATIVOS?
La MEDIA ARITMÉTICA para datos agrupados en ntervalos es entonces: X = K = 1 x n,sendo "k" el nº MEDIDAS DE CETRALIZACIÓ(4) de ntervalos LA MEDIA PODERADA: (Cuando los datos no están agrupados en ntervalos) Es el PROMEDIO de los valores de la muestra, dando mayor mportanca a unos datos frente a otros Para la calfcacón fnal de una asgnatura, se tendrán en cuenta: 1. ota del examen fnal: 70% 2. Trabajos y ejerccos: 20% 3. Asstenca: 10% Un alumno que tuvo un 6 en el examen fnal; un 7 en trabajos; y, asstó todos los días a clase, por lo tanto un 10, cuál será su nota fnal en la asgnatura? MEDIDAS DE CETRALIZACIÓ(5) LOS CUATILES: (Cuando los datos no están agrupados en ntervalos) os dvde en conjunto de datos en k partes. S por EJEMPLO tenemos dez datos (=10), y queremos hacer cuatro partes (k=4), necestamos tres marcas (c 1, c 2 y c 3 ) Cuando k=4, se llaman CUARTILES; cuando k=10, DECILES; y cuando k=100, CETILES.
CÁLCULO DE CUARTILES Tenemos el sguente conjunto de datos: 47 52 52 57 63 64 69 71 72 72 78 81 81 86 91 1. Ordenamos los datos de menor a mayor. 2. Calculamos c 2, que ocupa la poscón correspondente a la mtad, con qué parámetro vsto ya concde este segundo cuartl? 3. Ahora calculamos, la mtad de la prmera parte: c 1. 4. Y la mtad de la segunda parte: c 3 Poscón de c 1 = (+1)/4 Poscón de c 2 = 2(+1)/4 = (+1)/2 Poscón de c 3 = 3(+1)/4 REPRESETACIÓ GRÁFICA UTILIZADO LOS CUARTILES El dagrama de caja Utlzando el anteror conjunto de datos: 1. Los cálculos: Prmer cuartl: 57 Segundo cuartl: 71 Tercer cuartl: 81 Meda artmétca: 69,0667 2. Hay datos que pueden provenr de observacones mal tomadas : datos atípcos. Para detectarlas, calculamos: LI=c 1-1,5(c 3 -c 1 ) LS=c 3 +1,5(c 3 -c 1 ) Box-and-Whsker Plot 47 57 67 77 87 97
EJERCICIO 5: DIAGRAMA DE CAJA 56 59 59 61 67 69 73 76 76 80 83 83 84 90 94 Construr el dagrama de caja para el anteror conjunto de datos. EJERCICIO 6: DIAGRAMA DE CAJA 35 45 45 55 57 62 64 64 64 65 73 74 74 76 78 80 82 84 86 92 92 92 93 94 97 112 116 116 123 123 124 128 140 143 173 214 255 277 Construr el dagrama de caja para el anteror conjunto de datos.
PRIMER COJUTO DE DATOS (Salaros anuales en de la empresa A) 30700 32500 32900 33800 34100 34500 36000 SEGUDO COJUTO DE DATOS (Salaros anuales en de la empresa B) 27500 31600 31700 33800 35300 34000 40600 MEDIDAS DE DISPERSIÓ (1) LA VARIAZA Vamos a calcular: MEDIA y MEDIAA de ambos conjuntos de datos: Observa ahora las representacones gráfcas. Señala meda y medana. Tenemos sufcente nformacón? Parece que la dferenca son las DISTACIAS A LA MEDIA, vamos a calcularlas. Empresa A x X - Empresa B x - X 30700-2800 27500-6000 32500-1000 31600-1900 32900-600 31700-1800 33800 300 33800 300 34100 600 34000 500 34500 1000 35300 1800 36000 2500 40600 7100 Cuánto suman nuestras dos nuevas columnas? UEVA PROPIEDAD: x X = 0 ( ) = 1 Por qué sucede esto? Podemos soluconarlo de alguna manera?
Modfcamos nuestro cálculo: Empresa A Empresa B 30700 7840000 27500 36000000 32500 1000000 31600 3610000 32900 360000 31700 3240000 33800 90000 33800 90000 34100 360000 34000 3240000 34500 1000000 35300 250000 36000 6250000 40600 50410000 16900000 96840000 Qué hacemos para poder compararlas? UEVA DEFIICIÓ: = 1 ( x X ) 2 2 = σ Qué ndca este nuevo parámetro? Qué undades tene este nuevo parámetro? Podemos cambarlas? MEDIDAS DE DISPERSIÓ (2) EL COEFICIETE DE VARIACIÓ Cuando la meda sea dstnta de 0, podemos calcular: os permte comparar, porque no tene undades. Para qué nos srve con una únca base de datos? CV = σ X EJERCICIO 7: Analzamos el volumen de consultas durante el perodo de exámenes en 10 bblotecas unverstaras, y se comparan con las anotadas el año anteror. El % de ncremento de consultas fue: 10.2 2.9 3.1 6.8 5.9 7.3 7.0 8.2 3.7 4.3 Son los datos homogéneos?
MEDIDAS DE DISPERSIÓ (3) EL RAGO O RECORRIDO Lo calculamos como la dferenca entre el mayor y el menor de los datos. MEDIDAS DE DISPERSIÓ (4) EL RAGO ITERCUARTÍLICO Lo calculamos como la dferenca entre el tercero y el prmero de los cuartles. EJERCICIO 8: Calcula estas dos meddas para el EJERCICIO 6. MEDIDAS DE POSICIÓ (1) Podemos verlo gráfcamente: ASIMETRÍA La dstrbucón es smétrca, la meda deja por delante el msmo nº de observacones que por detrás. Asmétrca dcha.: los valores bajos son los más frecuentes. Asmétrca zq.: los valores mayores son los más frecuentes.
MEDIDAS DE POSICIÓ (2) COEFICIETES DE ASIMETRÍA Hacendo cálculos: 1. COEFICIETE DE ASIMETRÍA DE PEARSO: CA=0 CA>0 CA<0 Smétrca Asmétrca dcha. Asmétrca zq. X Mo CA = σ 2. COEFICIETE DE ASIMETRÍA DE FISHER (cuando exste más de una moda): CA = ( x x ) = 1 3 σ 3 m3 = 3 σ MEDIDAS DE POSICIÓ (3) APUTAMIETO Podemos verlo gráfcamente, comparándola con la curva normal: Un apuntamento mayor sgnfca una menor dspersón. COEFICIETE DE CURTOSIS DE FISHER: CA = P ( x x ) = 1 σ 4 4 3 CA P = 0 (mesocúrtca) CA P > 0 (leptocúrtca) CA P < 0 (platcúrtca)
EJERCICIO 9: Resumen de todo lo expuesto en los temas anterores Trabaja con la sguente base de datos (calfcacones de un grupo de alumn@s): 100 112 88 105 100 102 98 113 102 87 93 93 117 100 98 92 100 117 97 100 83 67 76 100 106 117 89 83 100 109 109 93 105 108 104 63 81 109 100 98