MEDIDAS RESUMEN: Numéricas y Gráficas. Ejemplo. Admítelo ua salchicha o es ua zaahoria. Así decía la revista El Cosumidor e u cometario sobre la baja calidad utricioal de las salchichas. Hay tres tipos de salchichas: i. care vacua, ii. mezcla (care porcia, vacua y de pollo) iii. pollo. Eiste algua diferecia sistemática etre estos tres tipos de salchichas, e estas dos variables? Calorías y sodio e salchichas por tipo Vacuo Mezcla Pollo Calorías Sodio Calorías Sodio Calorías Sodio 86 495 73 458 9 430 8 477 9 506 3 375 76 45 8 473 0 396 49 3 90 545 06 383 84 48 7 496 94 387 90 587 47 360 0 54 58 370 46 387 87 359 39 3 39 386 99 357 75 479 75 507 70 58 48 375 36 393 3 53 5 330 79 405 35 46 300 53 37 4 53 4 386 07 344 86 358 53 40 95 5 43 58 90 645 35 405 5 588 57 440 40 48 46 5 3 37 38 339 44 545 49 39 35 96 3 53 Nos iteresa resumir las características más importates del cojuto de datos e ua pequeña catidad de úmeros que sea fácilmete iterpretables. La distribució de la catidad de sodio e las salchichas de pollo muestra dos grupos distitivos. Este tipo de distribucioes o estará bie represetada por las medidas resume. 8
9 Los resúmees puede ser muy útiles pero o so los detalles. Geeralmete los detalles agrega poco, pero es importate estar preparados para las ocasioes e que sí agrega mucho. Medidas Resume. Las medidas resume clásicas, para resumir u cojuto de datos de observacioes,,,...,,utiliza solamete operacioes aritméticas simples (+, *, raíz cuadrada). La media muestral, como medida de la posició del cetro de los datos, + + =,
0 la variaza muestral, s = i= ( i ) ó el desvió estádar s =DS = i= ( ) i como medida de variabilidad o dispersió. Observació: el desvío estádar (DS) tiee las mismas uidades que las observacioes. Desviació de la media i desviació i-ésima respecto de la media. Desvío egativo: i < Desvío positivo: i > Si todas las diferecias so pequeñas e valor absoluto: las observacioes i está cerca de los datos preseta poca variabilidad, algú i es grade e valor absoluto se tiee mayor variabilidad. Es fácil ver que ( i ) = 0. La variaza muestral mide la desviació cuadrática de los datos respecto de su media, es la medida clásica de variabilidad. Esto se debe a que es más fácil realizar cálculos co desvós cuadráticos, ( ), i
que co desvíos absolutos, i. Versioes poblacioales, para poblacioes fiitas Si datos so poblacioales tedremos: como medida de posició, la media poblacioal µ que se calcula como N i µ = = N como medida de dispersió, la variaza poblacioal σ N σ = ( µ N i ) i= ó la raíz cuadrada de σ, σ, que llamaremos desvío estádar.. Població ocupada, República Argetia, Octubre de 994. Sítesis 3, INDEC, 995 Aglomerado Urbao Pobl. Ocup. Aglomerado Urbao Pobl. Ocup. Gra Bueos Aires 4300500 Gra Tucumá y Tafí Viejo 97809 Gra Córdoba 440558 Neuqué 66506 Gra Medoza 94768 Paraá 66604 Gra Rosario 4003 Sata Rosa - Toay 386 La catidad media de ocupados por aglomerado urbao (=8) es 7509 y su desvío estádar es 359044. Si ecluimos Gra Bueos Aires (=7) tedremos media = 448 y desvío estádar = 5569. Ua sola observació ha modificado fuertemete los resultados. Las medidas resume debería ser resistetes (varíe poco e presecia de u cambio arbitrario de ua pequeña parte del lote). U úico dato aberrate puede producir u importate efecto adverso tato e la media muestral como la variaza muestral i
Medidas resistetes a datos etremos o aberrates. Ordeamos los datos,,,...,, e orde ascedete y obteemos la muestra ordeada: () ()... () ; Podemos cotar desde el más pequeño hacia el más grade, rago ascedete, ó desde el más grade hacia el más pequeño, rago descedete. Defiició: La profudidad de u dato e la muestra es el meor de los ragos ascedete y descedete. Defiició: La mediaa, M es el valor que deja la misma catidad de los datos ordeados de cada lado. La mediaa es ua medida resistete de posició del cetro de los datos. + La profudidad de la mediaa es p M =. La mediaa se calcula como el valor cetral si es impar y promedio de los dos valores cetrales si es par Ejemplo (cotiuació): La mediaa es el dato co profudidad + = 30. M = 63.53. 59 PROF. # hojas TALLO HOJAS 68 : 5 0 69 : 4 3 630 : 358 7 3 63 : 033 9 63 : 77 8 9 633 : 00446669 3 5 634 : 0335 La media, 63.589, es cercaa a la mediaa. Este hecho es coherete co la simetría que preseta los datos alrededor de
3 0 635 : 00003668 6 7 636 : 003689 9 637 : 88 7 6 638 : 334668 5 639 : 3 6 0 640 : 6 64 : 5 3 64 : 47 0 643 : 644 : 0 la mediaa. Ua profudidad idetifica dos valores de los datos, uo por debajo y otro por ecima de la mediaa. Comparació de media y mediaa para distitos tipos de distribucioes mediate histogramas suavizados. Asimétrica a izquierda Simétrica Asimétrica a derecha Media podada. Ordee los datos, descarte las 00α% de las observacioes meores y el 00α% de las observacioes mayores; calcule el promedio de los datos restates. Se recomieda tomar α etre 0. y 0.: α = [ α ] + + + [ α ] [ α ], Otras medidas de posició. A la mediaa y los etremos les agregamos otro par de valores resume, los cuartiles, que deja u cuarto y tres cuartos de las observacioes a cada lado.
4 profudidad del cuartil = + 4 E el ejemplo, la profudidad del cuartil es 59 + = 5 4 Por lo tato: Cuartil iferior=63.36 Cuartil superior=63.84 Otras medidas de dispersió de los datos. distacia itercuartil (d Q ), o rago itercuartil, d Q = Cuartil superior - Cuartil iferior rago, la diferecia etre los valores etremos, tambié refleja la dispersió pero valores sueltos afecta tato el rago que su resistecia es despreciable. MAD: Desvio absoluto respecto de la Mediaa: Es ua versió resistete del desvío estádar basada e la mediaa. MAD = mediaa i ( M ) Cómo calculamos la MAD? Ordeamos los datos de meor a mayor. Calculamos la mediaa, valor e la posició (+)/. Calculamos los desvíos absolutos de cada dato repecto de la mediaa (la distacia de cada dato a la mediaa, si sigo). Ordeamos los desvios absolutos de meor a mayor. Calculamos la mediaa de los desvios. Observació: Si deseamos comparar la distacia itercuartil y la MAD co el desvío stadard es coveiete dividirlas por costates adecuadas. E ese caso se compara el DS co
5 MAD 0.675 d Q.35 Siguiedo co el ejemplo de los putos de fusió de ceras aturales, obteemos las siguietes medidas resume: DESCRIPTIVE STATISTICS FUSION MEAN 63.589 SD 0.347 MINIMUM 6.850 ST QUARTI 63.360 MEDIAN 63.530 3RD QUARTI 63.840 MAXIMUM 64.40 MAD 0.300 d Q = Cuartil superior - Cuartil iferior = 63.84-63.36 = 0.48 MAD 0.675 = 0.3 / 0.675 = 0. 34 d Q.35 = 0.48 /.35 = 0.356 SD = 0.347 Veremos más adelate qué características debe presetar los datos para que las tres medidas de dispersió sea similares, como ocurre e el ejemplo.
Más medidas de posició: Percetiles. La mediaa de u cojuto de datos ordeados es el valor que los divide e dos partes iguales, tiee profudidad (+)*0.5. Es el percetil del 50% (00*0.5%). El cuartil iferior, que deja a su izquierda al 5% de los datos y se ecuetra e la posició (+)*0.5, es el percetil del 5% (00*0.5%). El cuartil superior, tiee la posició (+)*0.75. Así, el valor que deja u 95% de los datos por debajo y u 5% por ecima es el percetil del 95%. 6 Gráfico de u percetil e u histograma suavizado. El percetil del 00*α%, P α, de u cojuto de datos ordeados, es el valor que deja u 00*α% de los datos por debajo y u 00*(-α)% por ecima se ecuetra e la posició (+)* α. Cuado este valor o es etero se iterpola. Percetiles de la altura (cm) de mujeres y varoes de 8 años (Crecimieto y Desarrollo. Sociedad Arg. de Pediatría. 986) Percetil 3% 0% 5% 50% 75% 90% 97% Varó.60.64.68.7.77.8.85 Mujer.49.53.56.60.64.68.7 E distribucioes perfectamete simétricas los percetiles del 00*α% y del 00*(-α)% equidista de la mediaa.