Universidad Diego Portales Facultad de Economía y Negocios. Martes 30 de Marzo, 2010 Slide 1

Documentos relacionados
Asimetría Coeficiente de Asimetría de Fisher

ESTADÍSTICA DESCRIPTIVA TEMA 2: MEDIDAS NUMÉRICAS

DESCRIPCIÓN DE DATOS. Medidas Numéricas

Técnicas Cuantitativas para el Management y los Negocios

OARI CLASE 19/05/2015. DESCRIPCIÓN CUANTITATIVA DE LOS DATOS. MEDIDAS RESUMEN

3.1 Medidas de localización Media

Slide 1. Slide 2. Slide 3. Universidad Diego Portales Facultad de Economía y Negocios. Capítulo 3 Estadística Descriptiva: Métodos Numéricos

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO

ÁREAS DE LA ESTADÍSTICA

Estadística Aplicada

1. Estadística. 2. Seleccionar el número de clases k, para agrupar los datos. Como sugerencia para elegir el k

Análisis Exploratorio de Datos Resumen gráfico y numérico

Medidas de variabilidad (dispersión)

UNIDAD I. ESTADISTICA

Instrumentos y matriz de datos

Curso de Estadística Básica

Estadística I Tema 2: Análisis de datos univariantes Descripción numérica de datos

INTRODUCCIÓN AL USO DE PAQUETES COMPUTACIONALES

Estadística I Tema 2: Análisis de datos univariantes

Parámetros Estadísticos básicos, Resumen y Presentación de datos. Jhon Jairo Padilla, PhD.

Estadística Descriptiva 2da parte

Estadística Inga Patricia Juárez, 2017 MEDIDAS DE TENDENCIA CENTRAL

Estadística descriptiva VARIABLES CUANTITATIVAS

Estadística Descriptiva en SPSS

Curso de Estadística Básica

La estadística es una ciencia que demuestra que si mi vecino tiene

Tema 3: Estadística Descriptiva

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Comparación de dos Muestras - SnapStat

Estadística para el análisis de los Mercados S2_A1.1_LECV1

Tema 2 Estadística Descriptiva

Estadística Descriptiva en R: Parámetros y estadísticos. José Enrique Martín García Universidad Politécnica de Gimialcón (Copyright 2016)

Fundamentos de Estadística y Simulación Básica

1.2 Medidas de variación: Rango, desviación estándar y coeficiente de variación

Resumenes numéricas de una muestra de datos. M. Wiper Análisis Estadístico del Delito 1 / 41

Medidas de dispersión. Rango o recorrido. Desviación media. Medidas de dispersión

Se quiere medir la dispersión de una muestra a través de su localización. En primer lugar, definimos una medida relacionada con la media.

MEDIDAS NUMÉRICAS Tendencia central

Tema 1: Análisis de datos univariantes

x i = n = 35 5 =7 MEDIDAS DE CENTRALIZACIÓN Media aritmética: variables cuantitativas , x 2 Datos no agrupados: x 1 ,...,x n x= x 1 +x

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

OBJETIVOS. Parámetros vs Estadísticos. Descripción de datos: Medidas numéricas. Capítulo 3

Medidas Descriptivas Numéricas

Medidas de Tendencia central Medidas de Dispersión Medidas de Asimetría

Estadística Básica 1er Cuatrimestre 2012

MEDIDAS DE TENDENCIA CENTRAL

Profesora: Beatriz Ponce Nely TADA- 03

Guía de actividad Independiente No 5. Estadística Descriptiva. Nombre del estudiante: Fecha:

Medidas de Tendencia Central.

Ejercicios y Talleres. puedes enviarlos a

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS FACULTAD DE INGENIERÍA PROYECTO CURRICULAR DE INGENIERÍA DE SISTEMAS

Medidas Descriptivas Numéricas

Universidad de Sonora Departamento de Matemáticas Área Económico Administrativa

TEMA 14 ESTADÍSTICA. Cuantitativa: si puede medirse y expresarse con números (es una variable), por ejemplo la talla de calzado.

UNIDAD 7 Medidas de dispersión

PROBABILIDAD. Unidad I Ordenamiento de la Información

Estadística. Sesión 4: Medidas de dispersión.

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1

Medidas de posición para variables cuantitativas

LECCIÓN PÚBLICA. Tema 2 Medidas de Tendencia Central, Posición y Variabilidad. Profa. María Fátima Dos Santos

Estadística Descriptiva y Probabilidad FORMULARIO

Medidas de tendencia central y dispersión

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012

Para tomar decisiones se requiere INFORMACIÓN disponible, esperanzadamente confiable y útil.

MÓDULO III. MEDIDAS DE TENDENCIA CENTRAL, DISPERSIÓN Y ASIMETRÍA

Probabilidad y Estadística, EIC 311

MEDIDAS DE VARIABILIDAD

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

Nota de los autores... vi

Estadística I. Finanzas y contabilidad

Tema 1. Estadística Unidimensional

TEMA 14: ESTADÍSTICA 1. CONCEPTOS ESTADÍSTICOS

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental

Estadísticas Elemental Tema 3: Describir, Explorar, y Comparar Data

Estadísticas Elemental Medidas de dispersión 3.1-1

3 ANALISIS DESCRIPTIVO DE LOS DATOS

Estadísticas aplicadas a la. Javier Toro, Ph.D. Psicólogo Clínico

CLASIFICACIÓN DE LA ESTADÍSTICA

UNIVERSIDAD DE SONORA

Estadística Descriptiva 2da parte

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

2.2: Resumen numérico

GEOESTADÍSTICA APLICADA

Estadística. Población. Muestra. Probabilidad. rohen

RENTABILIDAD Y RIESGO

CM0244. Suficientable

MEDIDAS DE RESUMEN. Jorge Galbiati Riesco

Matemática. Desafío. GUÍA DE EJERCITACIÓN AVANZADA Cálculo de medidas de dispersión y muestreo GUICEN041MT22-A16V1

Medidas de Variabilidad

ESTADÍSTICA DESCRIPTIVA

ESTADÍSTICA 1.- NOCIONES GENERALES

ESTADISTICA DESCRIPTIVA. Mediante la presentación ordenada de los datos observados en tablas y gráficos estadísticos.

II. ORGANIZACIÓN N Y PRESENTACIÓN N DE DATOS

Cátedra: Estadística Técnica Facultad de Ingeniería UNCuyo. Índice D. Fernández & M. Guitart TABLA DE CONTENIDOS

ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL. 30/09/2004 Proyecto MaMaEuSch 1

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011

Transcripción:

Universidad Diego Portales Facultad de Economía y Negocios Martes 30 de Marzo, 2010 Slide 1

Capítulo 3 Estadística Descriptiva: Métodos Numéricos n Medidas de Localización n Medidas de Variabilidad n Medidas de localización Relativa y Detección de Outliers n Análisis de Datos Exploratorio n Medidas de Asociación entre dos Variables n La Media Ponderada y Datos Agrupados x Slide 2

Medidas de Localización n Media n Mediana n Moda n Percentiles n Cuartiles Slide 3

Ejemplo: Renta de Apartamentos Se presenta una muestra de valores de arriendo mensual ($) para departamentos de un ambiente. La muestra es de tamaño 70 en una ciudad particular. Los datos son presentados en orden ascendiente. 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 4

Media n La media de un conjunto de datos es el promedio de todos los valores de los datos. n Si los datos son muestrales, denotamos a la media mediante x xi x n n Si los datos provienen de la población, denotamos a la media por m (mu). xi N Slide 5

Ejemplo: Renta de Apartamentos n Media x x i 34, 356 n 70 490. 80 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 6

Mediana n La mediana es la medida de localización más frecuentemente usada para ingresos anuales y todo tipo de datos de valores de propiedad. n Si existen algunos datos extremadamente grandes de ingreso o valores de propiedad, esto puede inflar a la mediana. Slide 7

Mediana n La mediana de un conjunto de datos es el valor que se encuentra justo en el medio cuando los datos se ordenan en orden ascendente. n Para un número impar de observaciones, la mediana es también el valor de en medio. n Para un número par de observaciones, la mediana es el promedio de los dos valores centrales. Slide 8

Ejemplo: Renta de apartamentos n Mediana, Dónde se encontrará? En i! Mediana = 50th percentil i = (p/100)n = (50/100)70 = 35.5 Promediando el valor 35vo y 36vo tenemos (n par) : Mediana = (475 + 475)/2 = 475 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 9

Moda n La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia. n La mayor frecuencia puede ocurrir en dos o más valores diferentes n Si el conjunto de datos tiene exactamente dos modas, los datos se denominan bimodales. n Si el conjunto de datos tiene más de dos modas, los datos se denominan multimodales. Slide 10

Ejemplo: Renta de apartamentos n Moda 450 es el valor que más se repite (7 veces) Moda = 450 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 11

Percentiles n Un percentil provee información acerca de cómo se encuentran esparcidos los datos sobre un intervalo, desde el valor más pequeño hasta el más grande. n Los puntajes de admisión a los colegios y universidades, por ejemplo, son comúnmente expresados en términos de percentiles. Slide 12

Percentiles n El pth percentil de un conjunto de datos es un valor tal que al menos un porcentaje p de los elementos toman dicho valor o menos, y al menos un porcentaje (100 - p) de los datos toman dicho valor o más. Primero hay que ordenar los datos de manera ascendente. Después computar el índice i, la posición del p-ésimo percentil. i = (p/100)n Si i no es entero, redondear. El percentil p-ésimo es el valor que se encuentra en la i-ésimo posición. Si i es un entero, el percentil p-ésimo es el promedio de los valores en las posiciones i-ésima y (i+1) -ésima. Slide 13

Ejemplo: Renta de apartamentos n Encontremos el percentil 90vo i = (p/100)n = (90/100)70 = 63 Promediando los valores 63vo y 64vo: 90vo Percentil = (580 + 590)/2 = 585 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 14

Cuartiles n Los Cuartiles son únicamente percentiles con valores específicos n Primer Cuartil = 25th Percentil n Segundo Cuartil = 50th Percentil = Mediana n Tercer Cuartil = 75th Percentil Slide 15

Ejemplo: Renta de apartamentos n Tercer Cuartil Tercer Cuartil = 75th percentil i = (p/100)n = (75/100)70 = 52.5 = 53 Tercer Cuartil = 525 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 16

Medidas de Variabilidad n Muchas veces es deseable considerar medidas de variabilidad o de dispersión, así como medidas de localización. n Por ejemplo, al escoger un proveedor A o un proveedor B, podríamos querer considerar no solo el promedio de tiempos de entrega de insumos que tiene cada uno, sino cuanto varían, en promedio, sus entregas de insumos. Slide 17

Medidas de Variabilidad n Rango n Rango Intercuartil n Varianza n Desviación Estándar n Coeficiente de Variación Slide 18

Rango n El rango de un conjunto de datos es la diferencia entre el valor más grande y el valor más chico. n Es la medida más simple de variabilidad. n Es muy sensible en relación a los valores muy grandes, o muy pequeños, de los datos. Slide 19

Ejemplo: Renta de apartamentos n Rango Rango = Mayor Valor Menor Valor Rango = 615-425 = 190 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 20

Rango Intercuartil n El Rango Intercuartil de un conjunto de datos es la diferencia entre el tercer y el primer cuartil. n Es el rango para el 50% de los datos centrales. n Ventaja: supera la sensibilidad en relación a valores extremos. Slide 21

Ejemplo: Renta de Apartamentos n Rango Intercuartil 3er Cuartil (Q3) = 525 1er Cuartil (Q1) = 445 Rango Intercuartil = Q3 - Q1 = 525-445 = 80 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 22

Varianza n La varianza es una medida de variación que utiliza toda la información proveniente de los datos. n Se encuentra basada en la diferencia entre el valor de cada observación (x i ) y media (x en una muestra, para la población). Slide 23

Varianza n La varianza es el promedio de las diferencias cuadradas entre cada valor de los datos y su media. n Si los datos son muestrales, denotamos a la varianza mediante s 2. s 2 ( x i x ) n 1 2 n Si los datos son poblacionales, denotamos a la varianza mediante 2. 2 ( xi ) N 2 Slide 24

Desviación Estándar n La desviación estándar de un conjunto de datos es la raíz cuadrada positiva de la varianza. n Se mide en las mismas unidades que los datos, lo que la hace más intuitiva y fácil de interpretar, que la varianza. n Si los datos son muestrales, la desviación estándar se denota mediante s. s n Si los datos son poblacionales, la desviación estándar se denota mediante (sigma). s 2 2 Slide 25

Coeficiente de Variación n El coeficiente de variación indica que tan grande es la desviación estándar con relación a la media. n Si los datos son muestrales, el coeficiente de variación se computa de la siguiente forma: s x ( 100) n Si los datos son poblacionales, el coeficiente de variación se computa de la siguiente forma : ( 100) Slide 26

Ejemplo: Renta de apartamentos n Varianza 2 s xi x 2 ( ) 2, 996. 16 n 1 n Desviación Estándar s 2 s 2996. 47 54. 74 n Coeficiente de Variación s x 100 54. 74 490 80 100 1115.. Slide 27

Medidas de Localización Relativa y Detección de Outliers n Valores z n Teorema de Chebyshev n Regla Empírica n Detección de Outliers Slide 28

Valores z n Los Valores z son llamados a veces valores estandarizados. n Es un número que denotan a cuántas desviaciones estándar se encuentra un valor x i de la media. n Si el valor del dato es Menor que la media muestral, tendrá un Valor z Mayor a cero (Positivo). n Si el valor del dato es Mayor que la media muestral, tendrá un Valor z Menor a cero (Negativo). n Un valor igual a la media tendrá un Valor z de cero. z i x i s x Slide 29

Ejemplo: Renta de apartamentos n Valores z para el valor más pequeño (425) z x i x 425 490. 80 1. 20 s 54. 74 Valores z para todos los datos de nuestro ejemplo: -1.20-1.11-1.11-1.02-1.02-1.02-1.02-1.02-0.93-0.93-0.93-0.93-0.93-0.84-0.84-0.84-0.84-0.84-0.75-0.75-0.75-0.75-0.75-0.75-0.75-0.56-0.56-0.56-0.47-0.47-0.47-0.38-0.38-0.34-0.29-0.29-0.29-0.20-0.20-0.20-0.20-0.11-0.01-0.01-0.01 0.17 0.17 0.17 0.17 0.35 0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27 Slide 30

Teorema de Chebyshev Dice que por lo menos (1-1/k 2 ) de los elementos en cualquier conjunto de datos se encontrará a k desviaciones estándar de la media. Aquí, k es cualquier valor mayor a 1. Por lo menos el 75% de los elementos se encontrarán alrededor de k = 2 desviaciones estándar de la media. Por lo menos el 89% de los elementos se encontrarán alrededor de k = 3 desviaciones estándar de la media. Por lo menos el 94% de los elementos se encontrarán alrededor de k = 4 desviaciones estándar de la media. Slide 31

Ejemplo: Renta de Apartamentos n Teorema de Chebyshev Sea k = 1.5 con = 490.80 y s = 54.74 Por lo menos (1-1/(1.5) 2 ) = 1-0.44 = 0.56 o 56% de los valores de arriendo deben estar alrededor de x x x - k(s) = 490.80-1.5(54.74) = 409 y + k(s) = 490.80 + 1.5(54.74) = 573 Slide 32

Ejemplo: Renta de Apartamentos n Teorema de Chebyshev (continúa ) En realidad, el 86% de los valores de arriendo están entre 409 y 573. 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 33

Regla Empírica Para datos con distribuciones en forma de campana: Aproximadamente el 68% de los datos están alrededor de una desviación estándar de la media. Slide 34

Regla Empírica Para datos con distribuciones en forma de campana : Aproximadamente el 95% de los datos están alrededor de dos desviaciones estándar de la media. Slide 35

Regla Empírica Para datos con distribuciones en forma de campana: Casi todos (99.7%) de los datos están alrededor de tres desviaciones estándar de la media. Slide 36

Ejemplo: Renta de apartamentos n Regla Empírica Intervalo % en Intervalo Alrededor +/- 1s 436.06 a 545.54 48/70 = 69% Alrededor +/- 2s381.32 a 600.28 68/70 = 97% Alrededor +/- 3s326.58 a 655.02 70/70 = 100% 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 37

Detectando Outliers n Un outlier es un valor inusualmente pequeño o grande en un grupo de datos. n Un dato con un valor z menor a -3 o mayor que +3 puede ser considerado un outlier. n Puede tratarse de un dato que ha sido incorrectamente capturado, escrito o digitalizado. n Puede ser un dato perteneciente a otro grupo de datos, y erróneamente incluido en el conjunto de datos en el que estamos trabajando. n O puede ser un dato correcto que sí, efectivamente, corresponde a nuestro conjunto de datos de interés! Slide 38

Ejemplo: Renta de Apartamentos n Detectando Outliers Los valores z más extremos son -1.20 y 2.27. Usando la regla de z > 3 como criterio para la detección de outliers, no tenemos outliers en nuestro conjunto de datos -1.20-1.11-1.11-1.02-1.02-1.02-1.02-1.02-0.93-0.93-0.93-0.93-0.93-0.84-0.84-0.84-0.84-0.84-0.75-0.75-0.75-0.75-0.75-0.75-0.75-0.56-0.56-0.56-0.47-0.47-0.47-0.38-0.38-0.34-0.29-0.29-0.29-0.20-0.20-0.20-0.20-0.11-0.01-0.01-0.01 0.17 0.17 0.17 0.17 0.35 0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27 Slide 39

Análisis de Datos Exploratorio n Resumen de 5-números n Box Plot Slide 40

Resumen de 5-números n Valor menor n Primer Cuartil n Mediana n Tercer Cuartil n Valor Mayor Slide 41

Ejemplo: Renta de Apartamentos n Resumen de 5-números Valor Menor = 425 Primer Cuartil = 450 Mediana = 475 Tercer Cuartil = 525 Valor Mayor = 615 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 Slide 42

Box Plot n Se dibuja una caja cuyas puntas terminan en el primer y tercer cuartil n Se dibuja una línea vertical en la caja en la localización de la mediana. n Los límites se encuentran (no se dibujan) usando el Rango Intercuartil (IQR). El límite inferior se localiza 1.5(IQR) debajo de Q1. El límite superior se localiza 1.5(IQR) arriba de Q3. Todos los datos que se encuentran fuera de dichos límites son considerados outliers. continúa Slide 43

Box Plot (Continúa ) n Se dibujan líneas puntuadas desde las esquinas de la caja y hasta el valor más pequeño y más grande que existan dentro de los límites. n La localización de cada outlier se muestra con el símbolo *. Slide 44

Ejemplo: Renta de Apartamentos n Box Plot Límite Inferior: Q1-1.5(IQR) = 450-1.5(75) = 337.5 Límite Superior: Q3 + 1.5(IQR) = 525 + 1.5(75) = 637.5 No existen Outliers 37 5 40 0 42 5 45 0 47 5 50 0 52 5 550 575 600 625 Slide 45

Medidas de asociación entre dos Variables n Covarianza n Coeficiente de Correlación Slide 46

Covarianza n La covarianza es una medida de la asociación lineal entre dos variables. n Valores positivos de la covarianza indican una relación positiva entre las variables. n Valores negativos de la covarianza indican una relación negativa entre las variables. Slide 47

Covarianza n Si los datos son muestrales, denotamos covarianza mediante s xy. ( x x y y s i )( i ) xy n 1 n Si los datos son poblacionales, denotamos covarianza mediante. xy xy ( x )( y ) i x i y N Slide 48

Coeficiente de Correlación n El coeficiente puede tomar valores entre -1 y +1. n Valores cerca de -1 indican una fuerte asociación lineal negativa. n Valores cerca de +1 indican una fuerte asociación lineal positiva. n Si los datos son muestrales, denotamos al coeficiente mediante r xy. r xy s xy s s x y xy xy x y n Si los datos son muestrales, denotamos al coeficiente mediante xy. Slide 49

La media ponderada y cómo trabajar con datos agrupados n Media Ponderada n Media para datos agrupados n Varianza para datos agrupados n Desviación Estándar para datos agrupados Slide 50

Media Ponderada n Una Media Ponderada es cuando la media es calculada asignando a cada dato un peso específico que refleja su importancia dentro del grupo. n El cálculo de una promedio de grados (GPA en USA), es un ejemplo del cálculo de una media ponderado. En ese caso, los pesos asignados son los números de horas-crédito ganados para cada nota. n Cuando los datos varían en importancia, el analista debe escoger el peso que mejor refleje la importancia de cada valor. Slide 51

Media Ponderada x = w i x i w i Donde: x i = Valor de la observación i w i = Peso para la observación i Slide 52

Datos Agrupados n El cálculo de Media Ponderada puede ser usado para obtener aproximaciones para la media, la varianza y la desviación estándar de datos agrupados. n Para calcular la media ponderada, tratamos al punto medio de cada clase como si fuera la media de todos los elementos de dicha clase. n Calculamos una media ponderada de los puntos medios de clase usando las frecuencias de clase como pesos. n Similarmente, al calcular la varianza y la desviación estándar, las frecuencias de clase son usadas como pesos. Slide 53

n Datos Muestrales n Datos Poblacionales Donde: Media para Datos Agrupados x f f i i N M f f i = Frecuencia de la clase i M i = Punto medio de la clase i i M i i Slide 54

Ejemplo: Renta de Apartamentos Abajo se muestran los mismos datos de rentas mensuales pero se presentan como datos agrupados en la forma de una distribución de frecuencias. Renta ($) Frecuencia 420-439 8 440-459 17 460-479 12 480-499 8 500-519 7 520-539 4 540-559 2 560-579 4 580-599 2 600-619 6 Slide 55

Ejemplo: Renta de Apartamentos n Media para Datos Agrupados Renta ($) f i M i f i M i 420-439 8 429.5 3436.0 440-459 17 449.5 7641.5 460-479 12 469.5 5634.0 480-499 8 489.5 3916.0 500-519 7 509.5 3566.5 520-539 4 529.5 2118.0 540-559 2 549.5 1099.0 560-579 4 569.5 2278.0 580-599 2 589.5 1179.0 600-619 6 609.5 3657.0 Total 70 34525.0 34, 525 x 493. 21 70 Esta aproximación difiere $2.41 de la Media Real de $490.80 Slide 56

Varianza para Datos Agrupados n Datos Muestrales n Datos Poblacionales s 2 2 f fi ( Mi x ) n 1 i 2 ( Mi ) N 2 Slide 57

Ejemplo: Renta de Apartamentos n Varianza para Datos Agrupados s 2 3, 017. 89 n Desviación Estándar para Datos Agrupados s 3, 017. 89 54. 94 Esta aproximación difiere solo $0.20 de la desviación estándar efectiva de $54.74 que encontramos anteriormente Slide 58