4. Medidas de dispersión

Documentos relacionados
Medidas de centralización

1. Estadística. 2. Seleccionar el número de clases k, para agrupar los datos. Como sugerencia para elegir el k

Tema 2 Estadística Descriptiva

3 ANALISIS DESCRIPTIVO DE LOS DATOS

DESCRIPCIÓN DE DATOS. Medidas Numéricas

Cuartiles, deciles y percentiles

MEDIDAS DE TENDENCIA CENTRAL

1.2 Medidas de variación: Rango, desviación estándar y coeficiente de variación

Curso de Estadística Aplicada a las Ciencias Sociales

Universidad de Sonora Departamento de Matemáticas Área Económico Administrativa

ESTADÍSTICA DESCRIPTIVA

Tema 2: Estadísticos. Bioestadística. U. Málaga. Tema 2: Estadísticos 1

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

MEDIDAS DE VARIABILIDAD

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental

Probabilidad y Estadística, EIC 311

II. ORGANIZACIÓN N Y PRESENTACIÓN N DE DATOS

Estadística Aplicada

REPASO DE ESTADÍSTICA DESCRIPTIVA

Medidas de dispersión

Medidas de tendencia central

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

Y accedemos al cuadro de diálogo Descriptivos

Fundamentos de Estadística y Simulación Básica

Medidas de Tendencia Central

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO

Estadística ESTADÍSTICA

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

ÁREAS DE LA ESTADÍSTICA

Estadísticas Elemental Tema 3: Describir, Explorar, y Comparar Data

M edidas de dispersión P rof. S. V élez

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1

Estadística Descriptiva 2da parte

Estadística Descriptiva

Tema 3: Estadística Descriptiva

UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO ESCUELA PREPARATORIA TEXCOCO

UNIDAD 4: MEDIDAS DESCRIPTIVAS: Medidas de dispersión

Estadística Inferencial. Estadística Descriptiva

Ejercicios de estadística.

Medidas de Tendencia Central.

Tema 1: Análisis de datos univariantes

Apuntes de Estadística

Estadística Inga Patricia Juárez, 2017 MEDIDAS DE TENDENCIA CENTRAL

Medidas de variabilidad (dispersión)

Dr. Abner A. Fonseca Livias

OARI CLASE 19/05/2015. DESCRIPCIÓN CUANTITATIVA DE LOS DATOS. MEDIDAS RESUMEN

RELACIÒN ENTRE LOS PROMEDIOS

Procedimiento "Explorar..."

La desviación típica y otras medidas de dispersión

ESTADÍSTICA DESCRIPTIVA

MEDIDAS DE TENDENCIA CENTRAL

Información de contacto. Tema 1 Análisis exploratorio de datos. Ejemplo de introducción: contaminación por mercurio en el pescado.

Programa de Maestría en Investigación y Evaluación Educativa (INEVA) Departamento de Estudios Graduados Facultad de Educación

Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución.

COLEGIO CALASANCIO. MADRID. ESTADÍSTICA UNIDIMENSIONAL. 4º E.S.O.

Curso de Estadística Básica

Tabla de frecuencias agrupando los datos Cuando hay muchos valores distintos, los agruparemos en intervalos (llamados clases) de la misma amplitud.

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

M i. Los datos vendrán en intervalos en el siguiente histograma de frecuencias acumuladas se ilustra la mediana.

+ f 2. + f 3. p i. =h i 100. F i. = f i. H i. = h i. P i. = p i

Exploración de datos

Solución a los ejercicios de autocomprobación - Tema La información que nos dan es la siguiente:

Medidas de Tendencia central Medidas de Dispersión Medidas de Asimetría

Conceptos de Estadística

Medidas de Posición Preparado por: Dra. Noemí L. Ruiz Limardo 2007 Derechos de Autor Reservados Revisado 2010

Módulo de Estadística

Estadística Descriptiva Métodos descriptivos visuales y medidas resumen

UNIDAD 6 Medidas de tendencia central

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

TEMA 14 ESTADÍSTICA. Cuantitativa: si puede medirse y expresarse con números (es una variable), por ejemplo la talla de calzado.

PRÁCTICAS DE ESTADÍSTICA CON R

Z i

1 Resolución de algunos ejemplos y ejercicios del tema 1.

MEDIDAS DE RESUMEN. Medidas de Tendencia Central Medidas de Dispersión. Rafael Díaz Sarmiento, M.D., E.S.O., E.C. Las Palmas de Gran Canario, España

TEMA 8: ESTADÍSTICA DESCRIPTIVA.

Estadística Descriptiva

2.4. Medidas de variabilidad o dispersión

Medidas de tendencia central y dispersión

Recopilación: Camerina Laura Ramírez G. ESTADÍSTICA. Recopilación: Camerina Laura Ramírez G.

Guía de actividad Independiente No 5. Estadística Descriptiva. Nombre del estudiante: Fecha:

ESTADISTICA DESCRIPTIVA. Mediante la presentación ordenada de los datos observados en tablas y gráficos estadísticos.

Julio Deride Silva. 18 de agosto de 2010

4. Medidas de Dispersión ESTADÍSTICA DESCRIPTIVA DR. FRANCISCO RABADÁN PÉREZ

INSTITUCIÓN EDUCATIVA NUESTRA SEÑORA DEL PALMAR SEDE LICEO FEMENINO GUÍA DE ESTADÍSTICA GRADO DÉCIMO

CAPÍTULO IV MEDIDAS DE TENDENCIA CENTRAL Y DE POSICION

ANÁLISIS DE DATOS. L.A. y M.C.E. Emma Linda Diez Knoth

Medidas descriptivas I. Medidas de tendencia central A. La moda

TEMA 3 MEDIDAS DE DISPERSIÓN Y VARIABILIDAD

ESTADÍSTICA CON EXCEL

Una vez que tenga la información de la muestra ordenada, se pueden emitir conclusiones finales.

1, 2, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 2, 1, 1, 4, 1

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va

Análisis de datos y gestión n veterinaria. Tema 1 Estadística descriptiva. Prof. Dr. José Manuel Perea Muñoz

UNIDAD I. ESTADISTICA

LOS ESTADÍGRAFOS BÁSICOS Y SU INTERPRETACIÓN, M TENDENCIA CENTRAL

Transcripción:

FUOC XP00/71004/00017 27 Medidas de dispersión 4. Medidas de dispersión Los cuartiles y la desviación estándar En el capítulo 3 hemos aprendido varias maneras de medir el centro de una distribución. Pero, para describir una distribución de forma adecuada no es suficiente con conocer el centro. También queremos resumir de una manera concisa hasta qué punto las observaciones se extienden alrededor del centro. En este capítulo se nos presentarán diferentes maneras de resumir la dispersión de una distribución. Una manera simple es identificar la menor y la mayor de las observaciones. Después podemos identificar los cuartiles de la distribución, que son el punto medio de la mitad superior e inferior del conjunto de datos. Finalmente, definimos una medida muy conocida de dispersión de una distribución llamada la desviación estándar. En este capítulo sobre medidas de dispersión aprenderéis: Cómo se resume la dispersión de una distribución mediante cinco cantidades: el mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo. Cómo se representa el resumen de estas cinco cantidades en un diagrama de caja. Cómo se calcula la desviación estándar de un conjunto de valores. Instrucción Mirad el vídeo de la unidad 5. Resumen del vídeo El recuento de calorías de los frankfurts varía con el tipo de bocadillo, así como de una marca a otra. Vemos a un analizador que examina frankfurts y nos damos cuenta de que el centro por sí solo no es una descripción numérica adecuada de una distribución, además necesitamos una medida de dispersión o variabilidad. En el vídeo se muestra el diagrama de tallos y hojas del contenido en calorías de 20 marcas de frankfurts de ternera, y tenemos como resultado que la mediana describe el centro. Después vemos los cuartiles de la misma manera que la mediana es el punto medio, los cuartiles son el punto del cuarto y los tres cuartos

FUOC XP00/71004/00017 28 Medidas de dispersión en las observaciones ordenadas. Los cuartiles son los puntos centrales respecto de la primera mitad de los datos, bajo la mediana, y la segunda mitad de los datos, sobre ésta. Los cuartiles ofrecen una idea de hasta qué punto se extienden los datos, ya que la mitad de las observaciones caen entre los mismos. Ahora se pueden usar cinco cantidades para describir una distribución: el valor mínimo, el cuartil inferior, la mediana, el cuartil superior y el valor máximo. Estos elementos se denominan los cinco números resumen de los datos. El diagrama de caja es un gráfico de los cinco números resumen. Se dibuja un cuadro entre los cuartiles y dentro del mismo se marca la media. Se dibujan unos brazos que se extienden hasta los valores máximo y mínimo. Los diagramas de caja no muestran una distribución de manera tan detallada como los diagramas de tallos y hojas, pero, a pesar de todo resultan útiles para comparar varias distribuciones. Medir la extensión En el capítulo 2 hemos considerado varias maneras de dibujar la distribución de una variable. En el capítulo 3 hemos definido diferentes modos de calcular los números que miden el centro de una distribución, sabiendo que el centro no es suficiente para describir una distribución adecuadamente. También necesitamos medir hasta qué punto a lado y lado del centro se extienden las observaciones. Existen diferentes maneras de medir la dispersión, las cuales también dependen de si la distribución es simétrica o no y de si se da la presencia de datos insólitos. Los valores mínimo y máximo La manera más simple de medir la dispersión es identificar los valores mayor y menor de un conjunto de datos. La diferencia entre los valores mínimo y máximo se denomina el rango (o recorrido) de las observaciones. En términos de la notación definida en el capítulo 4, en que x (1), x (2),..., x (n) son el orden estadístico de una distribución: valor mínimo = x (1) valor máximo = x (n) rango = x (n) x (1) Los cuartiles Mientras que la mediana divide la distribución en mitades, los cuartiles de una distribución son una variación de la idea de una mediana. Los cuartiles Nota El primer cuartil divide de manera similar la mitad inferior de los datos en dos partes iguales es decir, es la mediana de la mitad inferior de éstos, mientras que el tercer cuartil es la mediana de la mitad superior. Está claro entonces que los cuartiles primero y tercero suman la mitad de los datos.

FUOC XP00/71004/00017 29 Medidas de dispersión son los valores que dividen la distribución en cuartos. El primer cuartil presenta un cuarto de las observaciones por debajo del mismo, y tres cuartos por encima. El segundo cuartil tiene dos cuartos por debajo y dos por encima por tanto, el segundo cuartil es idéntico a la mediana. Y el tercer cuartil tiene tres cuartos de las observaciones por debajo y un cuarto por encima. Otra manera de pensar en esto es que la mediana, o segundo cuartil, divide los datos en dos grupos del mismo tamaño, que denominaremos la mitad inferior de los datos y la mitad superior. A menudo se denominan el primer y el tercer cuartil cuartil inferior y superior, respectivamente. Calcular los cuartiles Calculamos los cuartiles exactamente de la misma manera que calculamos la mediana, excepto por el hecho de que aplicamos el cálculo a las mitades inferior y superior de los datos de forma separada. El vídeo muestra un ejemplo que considera el contenido en calorías de los frankfurts, y nosotros mostramos otro ejemplo aquí. Observad los datos de la figura 3.1: para las 27 observaciones habíamos visto que la mediana era el valor decimocuarto en la lista ordenada, es decir, 7. La mitad inferior de los datos es, por lo tanto, el conjunto de observaciones desde la primera a la decimotercera, y la mitad superior es el conjunto desde la decimoquinta a la vigesimoséptima. Fijaos en que el valor decimocuarto es el tercer 7 en la lista ordenada, y que hay cuatro 7 en los datos (consultad el diagrama de tallos y hojas en la figura 3.2), de manera que la mitad inferior de los datos incluye dos 7: 2 3 3 4 4 4 4 5 5 6 6 7 7 y la mitad superior incluye un 7: 7 8 8 8 8 9 9 11 11 12 12 13 17 Para hallar los cuartiles, encontramos las medianas de estas mitades de los datos por separado. Cada mitad consta de 13 valores, por lo tanto, la mediana es el valor con el número de secuencia (13 + 1)/2 = 7 en cada lista. El séptimo valor en la mitad inferior es 4, y el séptimo en la mitad superior es 9. El rango intercuartílico La diferencia entre los cuartiles primero y tercero se denomina el rango intercuartílico. En nuestro ejemplo anterior, el rango intercuartílico es igual a 9 4 = 5 minutos.

FUOC XP00/71004/00017 30 Medidas de dispersión Los cinco números resumen de los datos Los cinco números resumen de una distribución forman el siguiente conjunto: el mínimo el primer cuartil la mediana (el segundo cuartil) el tercer cuartil el máximo En nuestro ejemplo de tiempo de espera, los cinco números resumen son 2, 4, 7, 9 y 17. En otras palabras, la mediana del tiempo de espera es 7 minutos, la mitad de las esperas quedan entre 4 y 9 minutos (con un rango intercuartílico de 5 minutos), el tiempo mínimo de espera era 2 minutos y el máximo, 17 minutos (con un rango de 15 minutos). Estos datos conforman un resumen global de la distribución. Diagramas de caja El diagrama de caja es un gráfico simple de los cinco números resumen de los datos. Se dibuja una escala vertical u horizontal que se corresponde con la escala de la variable. Después se dibuja un cuadro con los niveles inferior y superior en los cuartiles primero y tercero respectivamente. Se traza una línea en el cuadro que corresponde a la mediana. Después se dibujan dos brazos arriba y abajo del cuadro hasta los valores máximo y mínimo respectivamente. Los ejemplos que se muestran en el vídeo ilustran perfectamente cómo se hace. Lo que tenemos ahora es una descripción gráfica compacta de toda la distribución de la variable. Se pueden dibujar los diagramas de caja correspondientes a los diferentes conjuntos de observaciones sobre la misma variable, uno al lado de otro, y después compararlos visualmente. Instrucción Ahora revisad el vídeo y volved a visionar la unidad 5. Centraos en la manera como se calculan los cuartiles y cómo se obtienen los cinco números resumen. Tomad nota de la manera como estos cinco números se transfieren a una forma gráfica como un diagrama de caja, y cómo estos diagramas permiten unas comparaciones muy sencillas de los diferentes conjuntos de observaciones de una misma variable.

FUOC XP00/71004/00017 31 Medidas de dispersión Actividad 4.1. Los índices de desempleo, medidos como un porcentaje de la población activa, para 27 países del primer mundo son los siguientes: 7,0 13,5 10,7 17,9 12,3 8,2 4,7 14,4 11,8 2,6 7,2 5,3 6,8 23,5 8,2 4,6 8,4 5,4 2,9 12,7 3,1 11,4 15,8 11,1 14,5 14,3 2,2 Calculad los cinco números resumen de estos datos. Ahora veremos una definición numérica, alternativa, de dispersión, llamada desviación estándar. Se trata de un número único que se puede usar para cuantificar la dispersión de un conjunto de datos, más que diferentes números, como en el caso de los cinco números resumen. Instrucción Mirad el vídeo de la unidad 6. Resumen del vídeo Observamos que los investigadores e investigadoras estudian los análisis de sangre automatizados y tratan de identificar lecturas anormales en los mismos. Para saber cuándo una observación es anormal, necesitamos saber hasta dónde se extienden las lecturas normales. Vemos los resultados de un análisis específico realizado a diez personas. Un diagrama de tallos y hojas muestra que la distribución es aproximadamente simétrica, sin datos insólitos. Por tanto, podemos usar la media aritmética para describir el centro. Para medir la dispersión en torno a la media aritmética, primero calculamos las desviaciones entre las observaciones y la media aritmética. Algunas son positivas y otras negativas. Por este motivo, tomamos el cuadrado de estas desviaciones, las sumamos, y las dividimos por n 1 (una menos que el número de observaciones), en este caso, 9. Esta operación nos da la varianza, indicada por s 2. La desviación estándar, indicada por s, es la raíz cuadrada positiva de la varianza. La desviación estándar se usa para resumir la desviación de las observaciones respecto de la media aritmética, y se usa como base para decidir si un análisis de sangre es anormal o no. Se presentan algunas propiedades básicas de las desviaciones estándar: s siempre es positivo o cero; s = 0 sólo cuando no se produce dispersión, es decir, cuando todas las observaciones tienen el mismo valor; a medida que la dispersión aumenta, s se vuelve mayor; al igual que la media aritmética, las observaciones extremas influyen en gran medida sobre s. Reflexionad Qué valor obtenemos si sumamos todas las diferencias de los valores de una distribución respecto de la media? Un aspecto divertido de este vídeo es el uso que los investigadores e investigadoras dan a la música para volver a oír los datos en la forma de una melodía muy conocida, incluyendo una nota estridente cada vez que encontramos una observación anormal.

FUOC XP00/71004/00017 32 Medidas de dispersión Calcular las desviaciones de la media aritmética Recordad que ahora estamos interesados en encontrar un único número que resuma la dispersión de datos, y nos interesa muy particularmente la dispersión en torno a la media aritmética. El primer paso a la hora de llevar a cabo esta operación es calcular todas las diferencias entre cada observación y la media aritmética del conjunto. Está claro que cuanto mayores sean las diferencias, mayor es la dispersión de los datos, pero necesitamos combinar todas estas desviaciones en una figura global. Calcular la varianza Calcular la varianza es el siguiente paso. Realizamos el cuadrado de cada una de las desviaciones, los sumamos y después dividimos la suma resultante entre n 1 (el número de las observaciones menos 1). Más adelante explicaremos en otro capítulo por qué dividimos por n 1 y no por n, a pesar de que pueda parecer más intuitivo dividir por n para obtener la media del cuadrado de las desviaciones. El resultado de estos cálculos es la varianza. Ahora proporcionamos la fórmula para el cálculo de la varianza de n valores de los datos x 1, x 2,..., x n : Cálculo de la desviación estándar x = variable x 1, x 2, x 3,..., x n = valores de la variable n = número de observaciones o valores Cálculo de la media x Cálculo de las desviaciones x i x Cálculo de las desviaciones cuadráticas (x i x ) 2 Cálculo de la varianza s 2 ( x i x ) 2 = ------------------------ n 1 Cálculo de la desviación estándar s = raíz cuadrada positiva de la varianza varianza = s 2 = ------------ 1 x i x 2 n 1 ( )2 Aquí tenemos otro ejemplo sencillo. Imaginad que tenemos los precios de un cierto producto comprado en seis comercios diferentes: 260, 240, 250, 210, 230 y 250 u.m. La suma de estos valores es 1.440, de manera que el valor medio es 1.440/6 = 240. Las desviacions del valor 240 son 20, 0, 10, 30, 10 y 10 (fijaos en que las desviaciones respecto de la media aritmética siempre suman 0). Los cuadrados de estas desviaciones son: 400, 0, 100, 900, 100 y 100, y suman 1600. Finalmente, dividimos por n 1 = 5 para obtener la varianza 1.600/5 = 320. Calcular la desviación estándar La desviación estándar es simplemente la raíz cuadrada positiva de la varianza. Observad que la varianza se calcula en unidades que son los cuadrados de las unidades de los datos originales. Por tanto, tomando la raíz cuadrada de la varianza para obtener la desviación estándar, la medida de extensión vuelve a las unidades originales. En nuestro sencillo ejemplo, la desviación estándar de los precios es la raíz cuadrada de 320, 17,9; es decir, unas 18 u.m.. La interpretación de la desviación estándar Daremos una interpretación más exacta de la desviación estándar en el capítulo siguiente. De momento, simplemente fijaos en el hecho de que muchas de las Significado de la desviación estándar Una vez calculada la desviación estándar de una distribución, hay que observar el porcentaje de las observaciones o datos que quedan en los intervalos: ( x s, x + s) ( x 2s, x + 2s).

FUOC XP00/71004/00017 33 Medidas de dispersión desviaciones respecto de la media aritmética caen en una desviación estándar. Por ejemplo, de las seis desviaciones 20, 0, 10, 30, 10 y 10 calculadas anteriormente, cuatro presentan valores absolutos menores de 18. El vídeo nos muestra cómo se compara la extensión de diferentes distribuciones simplemente comparando sus respectivas desviaciones estándar. Cuándo debemos usar desviaciones estándar y los cinco números resumen Tanto los cinco números resumen (y su versión gráfica, el diagrama de caja), como la desviación estándar tratan de medir la dispersión, pero de maneras diferentes. La desviación estándar presenta la ventaja de ser un número único, pero realmente sólo se tendría que usar cuando las distribuciones son más o menos simétricas. Cuando las distribuciones son asimétricas, la dispersión bajo el centro y la dispersión sobre éste no son las mismas, y las indicarán los cinco números resumen, no la media aritmética. También, al igual que la media aritmética, la desviación estándar es altamente sensible a las observaciones alejadas. No obstante, la desviación estándar es, de lejos, el dato estadístico de uso más común para medir la dispersión, y nosotros la usaremos a menudo a lo largo de este curso. Con frecuencia, cuando los datos son asimétricos, se realiza un esfuerzo para transformarlos, de manera que estos valores transformados sean más simétricos. En este caso, también resulta posible utilizar la desviación estándar para resumir la dispersión de las observaciones transformadas. Hablaremos de estas transformaciones en un capítulo posterior. Instrucción Ahora revisad el vídeo y ved de nuevo la unidad 6. Centrad vuestra atención en la manera como se calculan la varianza y la desviación estándar. Actividad 4.2. Un grupo de consumidores comprueba la aseveración de los fabricantes de unas nuevas pilas de larga duración. Someten 20 pilas a una carga estándar hasta que están completamente vacías. La duración de las pilas son las siguientes (en minutos): 65,1 58,4 64,9 76,0 67,8 75,1 76,7 64,2 74,9 77,6 58,0 68,0 73,3 75,4 76,0 59,4 65,4 74,7 76,6 81,3 Calculad la media aritmética y la desviación estándar de estos datos. Un comentario sobre los cálculos No siempre se esperará de vosotros que efectuéis todos los cálculos para determinar la media aritmética y las desviaciones estándar. Más tarde os iniciaremos en los programas informáticos que os facilitarán los cálculos. A pesar de que normalmente usaréis un ordenador como ayuda, deberíais estar familiarizados con la manera de realizarlos.

FUOC XP00/71004/00017 34 Medidas de dispersión Glosario desviación estándar Raíz cuadrada positiva de la varianza, una medida de extensión útil para distribuciones aproximadamente simétricas. diagrama de caja Versión gráfica de los cinco números resumen, que muestra los cuartiles en un cuadro, y dos brazos que se extienden hacia arriba y hacia abajo de los valores mínimo y máximo. los cinco números resumen de una distribución Mínimo, cuartil inferior, mediana, cuartil superior y máximo de un conjunto de datos. primer cuartil Valor del dato que tiene un cuarto de las observaciones por debajo y tres cuartos por encima. Sin.: Cuartil inferior rango intercuartílico Diferencia entre los cuartiles inferior y superior. tercer cuartil (o cuartil superior) Valor del dato que tiene tres cuartos de las observaciones por debajo y un cuarto por encima. varianza Tipo de valor medio de las desviaciones al cuadrado de las observaciones respecto de su media aritmética.