Se quiere medir la dispersión de una muestra a través de su localización. En primer lugar, definimos una medida relacionada con la media.

Documentos relacionados
Curso de Estadística Aplicada a las Ciencias Sociales

Grado en Ingeniería. Asignatura: Estadística. Tema 1: Estadística Descriptiva.

Módulo de Estadística

Intervalos de confianza con STATGRAPHICS

ÁREAS DE LA ESTADÍSTICA

Tema 2: Estadísticos. Bioestadística. U. Málaga. Tema 2: Estadísticos 1

Solución a los ejercicios de autocomprobación - Tema La información que nos dan es la siguiente:

Tema 1: Análisis de datos univariantes

ESTADÍSTICA DESCRIPTIVA

Estadística Descriptiva en SPSS

Estadística Descriptiva 2da parte

CLASE 2 INTRODUCCION A LA ESTADISTICA

COLEGIO CALASANCIO. MADRID. ESTADÍSTICA UNIDIMENSIONAL. 4º E.S.O.

1. Estadística. 2. Seleccionar el número de clases k, para agrupar los datos. Como sugerencia para elegir el k

x i = n = 35 5 =7 MEDIDAS DE CENTRALIZACIÓN Media aritmética: variables cuantitativas , x 2 Datos no agrupados: x 1 ,...,x n x= x 1 +x

Tema 3: Estadística Descriptiva

DESCRIPCIÓN DE DATOS. Medidas Numéricas

IMADIL /10/2014

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

Asimetría Coeficiente de Asimetría de Fisher

Medidas de Tendencia central Medidas de Dispersión Medidas de Asimetría

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

Estadística Aplicada

ESTADÍSTICA DESCRIPTIVA

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va

Probabilidad y Estadística, EIC 311

Tema 2 Estadística Descriptiva

Análisis descriptivo y exploratorio de datos

OARI CLASE 19/05/2015. DESCRIPCIÓN CUANTITATIVA DE LOS DATOS. MEDIDAS RESUMEN

Exploración de datos

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1

4. Medidas de dispersión

Perfiles Isométricos Infostat Ejemplo. Universidad Nacional de Colombia. 5 de junio de 2014

Apuntes de Estadística

EJERCICIOS TEMA 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas:

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

TEMA 14 ESTADÍSTICA. Cuantitativa: si puede medirse y expresarse con números (es una variable), por ejemplo la talla de calzado.

CUARTIL Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales.

3. CORRELACIÓN Y REGRE-

Examen Extraordinario de Estadística I, 22 de Junio de Grados en ADE, DER-ADE, ADE-INF, FICO, ECO, ECO-DER.

PRÁCTICAS DE ESTADÍSTICA CON R

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Un modelo para representar una relación aproximadamente

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

UNIDAD 7 Medidas de dispersión

Y accedemos al cuadro de diálogo Descriptivos

ESTADÍSTICA DESCRIPTIVA

Medidas de posición para variables cuantitativas

Julio Deride Silva. 18 de agosto de 2010

Estadística Descriptiva

Introducción al Tema 3. Tema 3. Correlación y regresión Covarianza y correlación. Propiedades y relación con el diagrama de dispersión. Regresión.

Procedimiento "Explorar..."

Medidas de Tendencia Central, Medidas de Dispersión & Otros Estadísticos (Cap. 2) Math. 298 Prof. Gaspar Torres Rivera

Información de contacto. Tema 1 Análisis exploratorio de datos. Ejemplo de introducción: contaminación por mercurio en el pescado.

Estadística Inga Patricia Juárez, 2017 MEDIDAS DE TENDENCIA CENTRAL

RELACIÒN ENTRE LOS PROMEDIOS

Una vez que tenga la información de la muestra ordenada, se pueden emitir conclusiones finales.

LABORATORIO DE REFUERZO PRIMER PARCIAL (2015) GANARE MI PRIMER PARCIAL (UNIREFORZANDO)

1, 2, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 2, 1, 1, 4, 1

Estadística Aplicada a la Educación

3 ANALISIS DESCRIPTIVO DE LOS DATOS

Seminari 1. Estadística CP

Análisis de datos y gestión n veterinaria. Tema 1 Estadística descriptiva. Prof. Dr. José Manuel Perea Muñoz

Una serie estadística es el conjunto de todos los resultados de un fenómeno aleatorio.

Medidas de dispersión

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO

1.2 Medidas de variación: Rango, desviación estándar y coeficiente de variación

Fundamentos de Estadística y Simulación Básica

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

2. DESCRIPCIÓN ESTADÍSTICA DE UNA VARIABLE. EJEMPLOS Y EJERCICIOS *.

UNIVERSIDAD MILITAR NUEVA GRANADA

Preguntas más Frecuentes: Tema 3

1. Estadística descriptiva

Medidas de variabilidad (dispersión)

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2011

Estadística ESTADÍSTICA

PROBABILIDAD. Unidad I Ordenamiento de la Información

UNIVERSIDAD MILITAR NUEVA GRANADA

Estadística Descriptiva

+ f 2. + f 3. p i. =h i 100. F i. = f i. H i. = h i. P i. = p i

MEDIDAS DE VARIABILIDAD

Universidad de Sonora Departamento de Matemáticas Área Económico Administrativa

Tema 6 - Introducción. Tema 5. Probabilidad Conceptos básicos. Interpretación y propiedades básicas Probabilidad condicional y reglas de cálculo.

Curso de Estadística Básica

Estadística para el análisis de los Mercados S2_A1.1_LECV1

Dr. Abner A. Fonseca Livias

Métodos de Investigación en Psicología (10) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

Experimento de lanzar 3 monedas al aire. Denominando por (C) a Cara y (X) a Cruz, el espacio muestral será: Ω={CCC,CCX,CXC,XCC,CXX,XCX,XXC,XXX}

Los estadísticos descriptivos clásicos (Robustez)

A qué nos referimos con medidas de dispersión?

MEDIDAS DE RESUMEN. Medidas de Tendencia Central Medidas de Dispersión. Rafael Díaz Sarmiento, M.D., E.S.O., E.C. Las Palmas de Gran Canario, España

Estadística. 2 o examen parcial

TEMA 1: ESTADISTICA DESCRIPTIVA

Resumiendo datos continuos: el histograma. Ejemplo 22 Los datos son el número de espectadores en 32 partidos del equipo nacional (en miles).

Universidad Nacional Autónoma de Nicaragua UNAN-Managua. Curso de Estadística. UNIDAD I Estadística Descriptiva

Medidas de centralización

1 POBLACIÓN Y MUESTRA

Tabla de frecuencias agrupando los datos Cuando hay muchos valores distintos, los agruparemos en intervalos (llamados clases) de la misma amplitud.

Transcripción:

Medidas de dispersión Se quiere medir la dispersión de una muestra a través de su localización. En primer lugar, definimos una medida relacionada con la media. Ya habiendo calculado la media, x de una muestra x 1,...,x n, una posibilidad es calcular las desviaciones x 1 x,...,x n x. Una medida de dispersión natural puede ser la media de las desviaciones pero: 1 n n (x i x) = 1 n n x i 1 n n x = x 1 n n x = 0 Claro, algunas desviaciones son positivas y otras negativas. 74

La varianza y la desviación típica Una medida alternativa es la varianza. Definición 10 Para una muestra x 1,...,x n con media x, la varianza de la muestra es s 2 def = 1 n n (x i x) 2 La varianza está midiendo la media distancia cuadrada de los datos en torno de la media x. Observamos que si, por ejemplo las unidades de los datos son metros, entonces las unidades de la varianza son metros cuadrados. Es más natural tener una medida con las mismas unidades que la media. Definición 11 La desviación típica es s def = s 2. 75

Ejemplo 40 Retomamos el Ejemplo 32 sobre los ratoncitos. Calculamos anteriomente que la media es 5,33 3. Ahora calculamos las desviaciones. 3 5,33 3 6 5,33 3 5 5,33 3... 4 5,33 3 Entonces, la suma de las desviaciones cuadradas es (3 5,33 3) 2 +...+(4 5,33 3) 2 =18 ylavarianzaess 2 =18/18 = 1. La desviación típica es también igual a 1. Calcular la varianza así es bastante lento. Hay una manera más rápida de hacer el cálculo? 76

Teorema 1 Para una muestra x 1,...,x n con media x, se puede expresar la varianza como s 2 = 1 n n x 2 i n x2. Demostración s 2 = 1 n (x i x) 2 n ( n = 1 [ x 2 i 2x i x + x 2]) n ( n ) = 1 n n x 2 i 2 x x i + x 2 n ( n ) = 1 n x 2 i n 2n x1 x i + n x 2 n ( n ) = 1 x 2 i 2n x 2 + n x 2 n ( n ) = 1 x 2 i n n x2 77

Ejemplo 41 Volvemos a los datos del Ejemplo 32. En este caso, la suma de los cuadrados es 3 2 +6 2 +5 2 +...+4 2 = 530 y entonces, usando el teorema, tenemos que la varianza es s 2 = 1 18 ( 530 18 5,33 3 2) =1 igual que el resultado sacado anteriormente en el Ejemplo 40. Ejemplo 42 En el Ejemplo 33 calculamos anteriormente que la media ayuda por estado es de $113,063 millones. La suma de los datos cuadrados es 114,95 2 +...+ 160,41 2 = 212180,009 Entonces, la varianza es s 2 = 1 15 ( 212180,009 15 113,063 2 ) = 1362,092 $ millones cuadrados. La desviación típica es s = 36,91 millones de dolares. 78

Cálculo de la varianza a través de la tabla de frecuencias Igual que con la media, es posible calcular la varianza usando la tabla de frecuencias. El resultado es exacta si los datos son discretas y aproximado si los datos son continuos. Ejemplo 43 Retomamos los Ejemplos 32 y 35. x i n i f i x i f i x 2 i f i 3 1 1 18 4 2 2 18 5 7 7 18 6 6 6 18 3 18 8 18 35 18 36 18 14 18 9 18 32 18 175 18 216 18 98 18 7 2 18 2 Total 18 1 96 18 =5,33 3 530 18 =29,44 4 La varianza es 29,44 4 5,33 3 2 =1,comocalculamos antes en el Ejemplo 40. 79

Fórmula general Observamos k valores distíntos x i con frecuencias absolutas n i para i =1,...,k. x i n i f i x i f i x 2 i f i x 1 n 1 f 1 = n 1 n x 1 f 1 x 2 1 f 1 x 2 n 2 f 2 = n 2 n x 2 f 2 x 2 2 f 2..... x k n k f k = n k n x k f k x 2 k f k Total n 1 x k f i x 2 i La varianza es k f i x 2 i x2 = k f i (x i x) 2. Porqué? k f i x 2 i x2 = = 1 n k k n i n x2 i x2 n i x 2 i n x2 80

Ejemplo 44 Volvemos a los Ejemplos 22 y 36. Clase Centro x i n i f i x i f i x 2 i f i [10, 20) 15 6,1875 2,8125 42,1875 [20, 30) 25 7,21875 5,46875 136,71875 [30, 40) 35 8,25 8,75 306,25 [40, 50) 45 6,1875 8,4375 379,6875 [50, 60) 55 4,125 6,875 378,125 [60, 70) 65 1,03125 2,01325 132,03125 Total 32 1 34,357 1375 Estimamos la varianza y desviación típica con s 2 1375 34,357 2 = 194,597 y s 13,950. La varianza y desviación típica exacta son 201,25 y 14,19 respectivamente. 81

La regla de Chebyshev Es una regla que pone un ĺımite sobre la dispersión de la mayoría de los datos en torno de la media. Teorema 2 Para cualquier conjunto de datos, la proporción de datos que distan menos de m desviaciones típicas de la media es como mínimo 1 1 m 2 Demostración Creeme, soy el profesor. Dice, por ejemplo, que por lo menos 75 % de las observaciones están a menos de dos desviaciones típicas de la media y por lo menos, 88,8 8 % de las observaciones están a menos de 3 desviaciones típicas de la media. 82

Es una regla muy conservador. Ejemplo 45 Volvemos al Ejemplo 32 sobre los ratoncitos. En el Ejemplo 35 calculamos, la media como 5,33 3 y en el Ejemplo 40, demostramos que la desviación típica es 1. Luego, la regla de Chebyshev dice que por los menos un 75 % de los datos están contenidos en el intervalo [3,33 3, 7,33 3] y que el intervalo 5,33 3 ± 3 1=[2,33 3, 8,33 3] contiene por lo menos un 88,88 8%de los datos. Pero, ordenando los datos (o mirando la tabla de frecuencias que construimos en el Ejemplo 35) vemos que sólo hay un dato con valor de 3 y que todos los demás datos son menores o iguales a 7. Entonces el primer intervalo contiene 17 18 100 % 94,4% de los datos y el segundo intervalo contiene todos los datos en la muestra. 83

Una regla empírica Una regla empírica dice que si la distribución de los datos es más o menos simétrica y unimodal, (es decir con una distribución normal) entonces aproximadamente un 68 % de los datos caerán dentro de ±1 desviaciones típicas de la media, 95 % dentro de ±2 desviaciones y 99,7 % dentro de ±3 desviaciones típicas de la media. 84

El coeficiente de variación Es otra medida de variabilidad que tiene la ventaja de ser sin unidades. Definición 12 Para una muestra de datos con media x y desviación típica s, se define el coeficiente de variación como CV = s x. Si cambiamos la escala de medir la variable, el coeficiente de variación no cambia. No obstante, si la media es igual a cero, el coeficiente de variación no existe. 85

La cuasi varianza y la cuasi desviación típica De vez en cuando se define la varianza (y desviacion típica) con un divisor de n 1enlugarde n, es decir s 2 c = 1 n 1 n (x i x) 2. En este caso, el resultado se llama la cuasi varianza (y cuasi desviación típica). La razón técnica es que así, la cuasi varianza es un estimador insesgado de la varianza poblacional. (Ver Estadística 1). Es importante observar que automaticamente en Statgraphics, se calcula la cuasi varianza. 86

Los cuartiles y el rango intercuartílico Igual que con la media, la varianza y desviación típica son muy sensibles a datos atípicos. Una medida más robusta de la dispersión de los datos es el rango intercuartílico. Definimos algunos conceptos básicos: Definición 13 Si tenemos una muestra ordenada x 1 x 2... x n, entonces el rango de los datos es la distancia R = x n x 1 entre el datos más grande y el dato más pequeño. Obviamente, el rango es muy sensible a datos atípicos. Recordamos ahora que la mediana (o segundo cuartil) separa la muestra en dos partes. De manera semejante, definimos las cuartiles. 87

Definición 14 El primer cuartil, Q 1,eslamediana de la primera mitad de la muestra. El tercer cuartil, Q 3, es la mediana de la segunda mitad de la muestra. Los cuartiles dividen la muestra en 4 partes. Definición 15 El rango intercuartílico es la diferencia RI = Q 3 Q 1. Obviamente el cálculo de los cuartiles depende de si el tamaño de la muestra es un número par o impar. 88

Supongamos que tenemos un número impar de datos. Ejemplo 46 Calculamos la mediana de los pagos de ayuda social (Ejemplo 33) en varios estados de EE.UU. en el Ejemplo 38. Los 15 datos ordenados eran 39,62 56,79 65,96 91,95 92,43 95,43 112,28 113,66 114,95 115,15 121,99 160,41 164,20 171,75 179,37 y la mediana es 113,66. Hay 7 datos menores que la mediana y su mediana es el cuarto dato Q 1 = 91,95. Hay 7 datos mayores que la mediana y su mediana es Q 3 = 160,41 Entonces, el rango intercuartílico es Q 3 Q 1 = 68,46 millones de dolares. 89

Ahora vemos un ejemplo con un número par de datos. Ejemplo 47 Volvemos al Ejemplo 39. Tenemos 18 datos. 3 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 7 7 Calculamos anteriormente que la mediana es Q 2 =5. Dividiendo la muestra por la mitad, tenemos dos partes de 9 datos. La mediana de la primera mitad es el quinto dato Q 1 =5y la mediana de la segunda mitad es el dato 14, Q 3 =6. El rango intercuartílico es Q 3 Q 1 =1. 90

Ejemplo 48 Supongamos que tenemos una muestra de 9 datos. 6047101215202548 La mediana es Q 2 =12. Hay cuatro datos menores y cuatro mayores que la mediana. La mediana de los primeros cuatro datos es Q 1 = 4+7 2 =5,5 ylamediana de los últimos cuatro datos es Q 3 =22,5. El rango intercuartílico es Q 3 Q 1 =17. 91

Cálculo de la mediana y los cuartiles mediante el diagrama de tallo y hojas Si construimos un diagrama de tallo y hojas, ya ordenamos los datos, lo que facilita el cálculo rápido de la mediana y los cuartiles. Ejemplo 49 Volvemos al Ejemplo 29 sobre emisiones de óxido. Añadimos una columna de frecuencias acumuladas en el tallo. 4 0 2 2 3 4 11 0 5 6 6 6 7 7 9 18 1 0 0 2 2 3 4 4 29 1 5 5 5 5 5 7 7 7 8 8 9 34 2 0 1 1 2 3 39 2 5 7 7 9 9 40 3 4 44 3 5 6 7 8 46 4 1 2 47 4 5 Tallo Unidades Hoja Decimales 1 1 = 1,1 92

Tenemos 47 datos y entonces, la mediana es x 24 =1,7. El primer quartil es la mediana de los primeros 23 datos, Q 1 = x 12 =1,0. El tercer quartil es la mediana de los últimos 23 datos, es decir Q 3 = x 36 =2,7 El rango intercuartílico es 2,7 1,0 =1,7. 93

El diagrama de caja Es una manera visual de ver la mediana, cuartiles, rango y posibles datos atípicos. Ejemplo 50 Vemos un diagrama de caja para los datos sobre emisiones del Ejemplo 49. Q 1 Q 2 Q 3 0 1 2 3 4 emisiones La distribución es un poco asimétrica a la derecha pero no parecen datos atípicos. 94

Ejemplo 51 Volvemos al Ejemplo 48. Aquí se ve un dato atípico y un dato atípico extremo. Box-and-Whisker Plot -60-40 -20 0 20 40 60 x 95

Fórmula general La caja central es la región entre el primer y tercer cuartil. Se añade una recta vertical para la mediana. Se extiende la recta horizontal a la izquierda hasta el punto más pequeño menos de 1,5 rangos intercuartílicos del primer cuartil. Se marca el final con una linea vertical. Se extiende la linea a la derecha hasta el punto más grande menos de 1,5 rangos intercuartílicos del tercer cuartil. Se marca el final Datos entre 1,5 y 3 rangos intercuartílicos más bajos (altos) de Q 1 (Q 3 ) son datos atípicos, indicados en Statgraphics con un cuadro. Datos más de 3 rangos intercuartílicos más bajos (altos) de Q 1 (Q 3 )sonatípicos extremos marcados con un cuadro y una cruz. 96

Medidas de asimetría y curtosis Son otros medidas relacionadas con la media yvarianza. Definición 16 Para una muestra x 1,...,x n, el coeficiente de asimetría es n (x i x) 3 CA = ns 3 El coeficiente de asimetría vale (aproximadamente) 0 si la distribución es simétrica, es positiva si la distribución es asimétrica a la derecha y es negativa si la distribución es asimétrica a la izquierda. Definición 17 El coeficiente de apuntamiento es n (x i x) 4 CAp = ns 4 Mide la cantidad de curtosis o apuntamiento de la distribución relativa a la distribución normal. 97

Ejemplo 52 Retomamos los datos sobre emisiones y hacemos los cálculos en Statgraphics. Summary Statistics for emisiones Count = 47 Average = 1,8617 Median = 1,7 Variance = 1,33154 Standard deviation = 1,15393 Range = 4,3 Lower quartile = 1,0 Upper quartile=2,7 Interquartile range = 1,7 Skewness = 0,617837 Kurtosis = -0,446736 Coeff. of variation = 61,9823% 98