Universidad Diego Portales Facultad de Economía y Negocios Martes 30 de Marzo, 2010 Slide 1
Capítulo 3 Estadística Descriptiva: Métodos Numéricos n Medidas de Localización n Medidas de Variabilidad n Medidas de localización Relativa y Detección de Outliers n Análisis de Datos Exploratorio n Medidas de Asociación entre dos Variables n La Media Ponderada y Datos Agrupados x Slide 2
Medidas de Localización n Media n Mediana n Moda n Percentiles n Cuartiles Slide 3
Ejemplo: Renta de Apartamentos Se presenta una muestra de valores de arriendo mensual ($) para departamentos de un ambiente. La muestra es de tamaño 70 en una ciudad particular. Los datos son presentados en orden ascendiente. 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 4
Media n La media de un conjunto de datos es el promedio de todos los valores de los datos. n Si los datos son muestrales, denotamos a la media mediante x xi x n n Si los datos provienen de la población, denotamos a la media por m (mu). xi N Slide 5
Ejemplo: Renta de Apartamentos n Media x x i 34, 356 n 70 490. 80 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 6
Mediana n La mediana es la medida de localización más frecuentemente usada para ingresos anuales y todo tipo de datos de valores de propiedad. n Si existen algunos datos extremadamente grandes de ingreso o valores de propiedad, esto puede inflar a la mediana. Slide 7
Mediana n La mediana de un conjunto de datos es el valor que se encuentra justo en el medio cuando los datos se ordenan en orden ascendente. n Para un número impar de observaciones, la mediana es también el valor de en medio. n Para un número par de observaciones, la mediana es el promedio de los dos valores centrales. Slide 8
Ejemplo: Renta de apartamentos n Mediana, Dónde se encontrará? En i! Mediana = 50th percentil i = (p/100)n = (50/100)70 = 35.5 Promediando el valor 35vo y 36vo tenemos (n par) : Mediana = (475 + 475)/2 = 475 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 9
Moda n La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia. n La mayor frecuencia puede ocurrir en dos o más valores diferentes n Si el conjunto de datos tiene exactamente dos modas, los datos se denominan bimodales. n Si el conjunto de datos tiene más de dos modas, los datos se denominan multimodales. Slide 10
Ejemplo: Renta de apartamentos n Moda 450 es el valor que más se repite (7 veces) Moda = 450 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 11
Percentiles n Un percentil provee información acerca de cómo se encuentran esparcidos los datos sobre un intervalo, desde el valor más pequeño hasta el más grande. n Los puntajes de admisión a los colegios y universidades, por ejemplo, son comúnmente expresados en términos de percentiles. Slide 12
Percentiles n El pth percentil de un conjunto de datos es un valor tal que al menos un porcentaje p de los elementos toman dicho valor o menos, y al menos un porcentaje (100 - p) de los datos toman dicho valor o más. Primero hay que ordenar los datos de manera ascendente. Después computar el índice i, la posición del p-ésimo percentil. i = (p/100)n Si i no es entero, redondear. El percentil p-ésimo es el valor que se encuentra en la i-ésimo posición. Si i es un entero, el percentil p-ésimo es el promedio de los valores en las posiciones i-ésima y (i+1) -ésima. Slide 13
Ejemplo: Renta de apartamentos n Encontremos el percentil 90vo i = (p/100)n = (90/100)70 = 63 Promediando los valores 63vo y 64vo: 90vo Percentil = (580 + 590)/2 = 585 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 14
Cuartiles n Los Cuartiles son únicamente percentiles con valores específicos n Primer Cuartil = 25th Percentil n Segundo Cuartil = 50th Percentil = Mediana n Tercer Cuartil = 75th Percentil Slide 15
Ejemplo: Renta de apartamentos n Tercer Cuartil Tercer Cuartil = 75th percentil i = (p/100)n = (75/100)70 = 52.5 = 53 Tercer Cuartil = 525 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 16
Medidas de Variabilidad n Muchas veces es deseable considerar medidas de variabilidad o de dispersión, así como medidas de localización. n Por ejemplo, al escoger un proveedor A o un proveedor B, podríamos querer considerar no solo el promedio de tiempos de entrega de insumos que tiene cada uno, sino cuanto varían, en promedio, sus entregas de insumos. Slide 17
Medidas de Variabilidad n Rango n Rango Intercuartil n Varianza n Desviación Estándar n Coeficiente de Variación Slide 18
Rango n El rango de un conjunto de datos es la diferencia entre el valor más grande y el valor más chico. n Es la medida más simple de variabilidad. n Es muy sensible en relación a los valores muy grandes, o muy pequeños, de los datos. Slide 19
Ejemplo: Renta de apartamentos n Rango Rango = Mayor Valor Menor Valor Rango = 615-425 = 190 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 20
Rango Intercuartil n El Rango Intercuartil de un conjunto de datos es la diferencia entre el tercer y el primer cuartil. n Es el rango para el 50% de los datos centrales. n Ventaja: supera la sensibilidad en relación a valores extremos. Slide 21
Ejemplo: Renta de Apartamentos n Rango Intercuartil 3er Cuartil (Q3) = 525 1er Cuartil (Q1) = 445 Rango Intercuartil = Q3 - Q1 = 525-445 = 80 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 22
Varianza n La varianza es una medida de variación que utiliza toda la información proveniente de los datos. n Se encuentra basada en la diferencia entre el valor de cada observación (x i ) y media (x en una muestra, para la población). Slide 23
Varianza n La varianza es el promedio de las diferencias cuadradas entre cada valor de los datos y su media. n Si los datos son muestrales, denotamos a la varianza mediante s 2. s 2 ( x i x ) n 1 2 n Si los datos son poblacionales, denotamos a la varianza mediante 2. 2 ( xi ) N 2 Slide 24
Desviación Estándar n La desviación estándar de un conjunto de datos es la raíz cuadrada positiva de la varianza. n Se mide en las mismas unidades que los datos, lo que la hace más intuitiva y fácil de interpretar, que la varianza. n Si los datos son muestrales, la desviación estándar se denota mediante s. s n Si los datos son poblacionales, la desviación estándar se denota mediante (sigma). s 2 2 Slide 25
Coeficiente de Variación n El coeficiente de variación indica que tan grande es la desviación estándar con relación a la media. n Si los datos son muestrales, el coeficiente de variación se computa de la siguiente forma: s x ( 100) n Si los datos son poblacionales, el coeficiente de variación se computa de la siguiente forma : ( 100) Slide 26
Ejemplo: Renta de apartamentos n Varianza 2 s xi x 2 ( ) 2, 996. 16 n 1 n Desviación Estándar s 2 s 2996. 47 54. 74 n Coeficiente de Variación s x 100 54. 74 490 80 100 1115.. Slide 27
Medidas de Localización Relativa y Detección de Outliers n Valores z n Teorema de Chebyshev n Regla Empírica n Detección de Outliers Slide 28
Valores z n Los Valores z son llamados a veces valores estandarizados. n Es un número que denotan a cuántas desviaciones estándar se encuentra un valor x i de la media. n Si el valor del dato es Menor que la media muestral, tendrá un Valor z Mayor a cero (Positivo). n Si el valor del dato es Mayor que la media muestral, tendrá un Valor z Menor a cero (Negativo). n Un valor igual a la media tendrá un Valor z de cero. z i x i s x Slide 29
Ejemplo: Renta de apartamentos n Valores z para el valor más pequeño (425) z x i x 425 490. 80 1. 20 s 54. 74 Valores z para todos los datos de nuestro ejemplo: -1.20-1.11-1.11-1.02-1.02-1.02-1.02-1.02-0.93-0.93-0.93-0.93-0.93-0.84-0.84-0.84-0.84-0.84-0.75-0.75-0.75-0.75-0.75-0.75-0.75-0.56-0.56-0.56-0.47-0.47-0.47-0.38-0.38-0.34-0.29-0.29-0.29-0.20-0.20-0.20-0.20-0.11-0.01-0.01-0.01 0.17 0.17 0.17 0.17 0.35 0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27 Slide 30
Teorema de Chebyshev Dice que por lo menos (1-1/k 2 ) de los elementos en cualquier conjunto de datos se encontrará a k desviaciones estándar de la media. Aquí, k es cualquier valor mayor a 1. Por lo menos el 75% de los elementos se encontrarán alrededor de k = 2 desviaciones estándar de la media. Por lo menos el 89% de los elementos se encontrarán alrededor de k = 3 desviaciones estándar de la media. Por lo menos el 94% de los elementos se encontrarán alrededor de k = 4 desviaciones estándar de la media. Slide 31
Ejemplo: Renta de Apartamentos n Teorema de Chebyshev Sea k = 1.5 con = 490.80 y s = 54.74 Por lo menos (1-1/(1.5) 2 ) = 1-0.44 = 0.56 o 56% de los valores de arriendo deben estar alrededor de x x x - k(s) = 490.80-1.5(54.74) = 409 y + k(s) = 490.80 + 1.5(54.74) = 573 Slide 32
Ejemplo: Renta de Apartamentos n Teorema de Chebyshev (continúa ) En realidad, el 86% de los valores de arriendo están entre 409 y 573. 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 33
Regla Empírica Para datos con distribuciones en forma de campana: Aproximadamente el 68% de los datos están alrededor de una desviación estándar de la media. Slide 34
Regla Empírica Para datos con distribuciones en forma de campana : Aproximadamente el 95% de los datos están alrededor de dos desviaciones estándar de la media. Slide 35
Regla Empírica Para datos con distribuciones en forma de campana: Casi todos (99.7%) de los datos están alrededor de tres desviaciones estándar de la media. Slide 36
Ejemplo: Renta de apartamentos n Regla Empírica Intervalo % en Intervalo Alrededor +/- 1s 436.06 a 545.54 48/70 = 69% Alrededor +/- 2s381.32 a 600.28 68/70 = 97% Alrededor +/- 3s326.58 a 655.02 70/70 = 100% 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 37
Detectando Outliers n Un outlier es un valor inusualmente pequeño o grande en un grupo de datos. n Un dato con un valor z menor a -3 o mayor que +3 puede ser considerado un outlier. n Puede tratarse de un dato que ha sido incorrectamente capturado, escrito o digitalizado. n Puede ser un dato perteneciente a otro grupo de datos, y erróneamente incluido en el conjunto de datos en el que estamos trabajando. n O puede ser un dato correcto que sí, efectivamente, corresponde a nuestro conjunto de datos de interés! Slide 38
Ejemplo: Renta de Apartamentos n Detectando Outliers Los valores z más extremos son -1.20 y 2.27. Usando la regla de z > 3 como criterio para la detección de outliers, no tenemos outliers en nuestro conjunto de datos -1.20-1.11-1.11-1.02-1.02-1.02-1.02-1.02-0.93-0.93-0.93-0.93-0.93-0.84-0.84-0.84-0.84-0.84-0.75-0.75-0.75-0.75-0.75-0.75-0.75-0.56-0.56-0.56-0.47-0.47-0.47-0.38-0.38-0.34-0.29-0.29-0.29-0.20-0.20-0.20-0.20-0.11-0.01-0.01-0.01 0.17 0.17 0.17 0.17 0.35 0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27 Slide 39
Análisis de Datos Exploratorio n Resumen de 5-números n Box Plot Slide 40
Resumen de 5-números n Valor menor n Primer Cuartil n Mediana n Tercer Cuartil n Valor Mayor Slide 41
Ejemplo: Renta de Apartamentos n Resumen de 5-números Valor Menor = 425 Primer Cuartil = 450 Mediana = 475 Tercer Cuartil = 525 Valor Mayor = 615 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 42
Box Plot n Se dibuja una caja cuyas puntas terminan en el primer y tercer cuartil n Se dibuja una línea vertical en la caja en la localización de la mediana. n Los límites se encuentran (no se dibujan) usando el Rango Intercuartil (IQR). El límite inferior se localiza 1.5(IQR) debajo de Q1. El límite superior se localiza 1.5(IQR) arriba de Q3. Todos los datos que se encuentran fuera de dichos límites son considerados outliers. continúa Slide 43
Box Plot (Continúa ) n Se dibujan líneas puntuadas desde las esquinas de la caja y hasta el valor más pequeño y más grande que existan dentro de los límites. n La localización de cada outlier se muestra con el símbolo *. Slide 44
Ejemplo: Renta de Apartamentos n Box Plot Límite Inferior: Q1-1.5(IQR) = 450-1.5(75) = 337.5 Límite Superior: Q3 + 1.5(IQR) = 525 + 1.5(75) = 637.5 No existen Outliers 37 5 40 0 42 5 45 0 47 5 50 0 52 5 550 575 600 625 Slide 45
Medidas de asociación entre dos Variables n Covarianza n Coeficiente de Correlación Slide 46
Covarianza n La covarianza es una medida de la asociación lineal entre dos variables. n Valores positivos de la covarianza indican una relación positiva entre las variables. n Valores negativos de la covarianza indican una relación negativa entre las variables. Slide 47
Covarianza n Si los datos son muestrales, denotamos covarianza mediante s xy. ( x x y y s i )( i ) xy n 1 n Si los datos son poblacionales, denotamos covarianza mediante. xy xy ( x )( y ) i x i y N Slide 48
Coeficiente de Correlación n El coeficiente puede tomar valores entre -1 y +1. n Valores cerca de -1 indican una fuerte asociación lineal negativa. n Valores cerca de +1 indican una fuerte asociación lineal positiva. n Si los datos son muestrales, denotamos al coeficiente mediante r xy. r xy s xy s s x y xy xy x y n Si los datos son muestrales, denotamos al coeficiente mediante xy. Slide 49
La media ponderada y cómo trabajar con datos agrupados n Media Ponderada n Media para datos agrupados n Varianza para datos agrupados n Desviación Estándar para datos agrupados Slide 50
Media Ponderada n Una Media Ponderada es cuando la media es calculada asignando a cada dato un peso específico que refleja su importancia dentro del grupo. n El cálculo de una promedio de grados (GPA en USA), es un ejemplo del cálculo de una media ponderado. En ese caso, los pesos asignados son los números de horas-crédito ganados para cada nota. n Cuando los datos varían en importancia, el analista debe escoger el peso que mejor refleje la importancia de cada valor. Slide 51
Media Ponderada x = w i x i w i Donde: x i = Valor de la observación i w i = Peso para la observación i Slide 52
Datos Agrupados n El cálculo de Media Ponderada puede ser usado para obtener aproximaciones para la media, la varianza y la desviación estándar de datos agrupados. n Para calcular la media ponderada, tratamos al punto medio de cada clase como si fuera la media de todos los elementos de dicha clase. n Calculamos una media ponderada de los puntos medios de clase usando las frecuencias de clase como pesos. n Similarmente, al calcular la varianza y la desviación estándar, las frecuencias de clase son usadas como pesos. Slide 53
n Datos Muestrales n Datos Poblacionales Donde: Media para Datos Agrupados x f f i i N M f f i = Frecuencia de la clase i M i = Punto medio de la clase i i M i i Slide 54
Ejemplo: Renta de Apartamentos Abajo se muestran los mismos datos de rentas mensuales pero se presentan como datos agrupados en la forma de una distribución de frecuencias. Renta ($) Frecuencia 420-439 8 440-459 17 460-479 12 480-499 8 500-519 7 520-539 4 540-559 2 560-579 4 580-599 2 600-619 6 Slide 55
Ejemplo: Renta de Apartamentos n Media para Datos Agrupados Renta ($) f i M i f i M i 420-439 8 429.5 3436.0 440-459 17 449.5 7641.5 460-479 12 469.5 5634.0 480-499 8 489.5 3916.0 500-519 7 509.5 3566.5 520-539 4 529.5 2118.0 540-559 2 549.5 1099.0 560-579 4 569.5 2278.0 580-599 2 589.5 1179.0 600-619 6 609.5 3657.0 Total 70 34525.0 34, 525 x 493. 21 70 Esta aproximación difiere $2.41 de la Media Real de $490.80 Slide 56
Varianza para Datos Agrupados n Datos Muestrales n Datos Poblacionales s 2 2 f fi ( Mi x ) n 1 i 2 ( Mi ) N 2 Slide 57
Ejemplo: Renta de Apartamentos n Varianza para Datos Agrupados s 2 3, 017. 89 n Desviación Estándar para Datos Agrupados s 3, 017. 89 54. 94 Esta aproximación difiere solo $0.20 de la desviación estándar efectiva de $54.74 que encontramos anteriormente Slide 58