Parte I. Estadística Descriptiva

Documentos relacionados
Estadística Descriptiva Unidimensional

Julio Deride Silva. 18 de agosto de 2010

Tema 3: Estadística Descriptiva

INTRODUCCIÓN. Fenómeno Real. Aprendizaje sobre el fenómeno. Análisis Estadístico. Datos Observados

Estadística I Tema 2: Análisis de datos univariantes

Estadística ESTADÍSTICA

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

Estadística I Tema 2: Análisis de datos univariantes Descripción numérica de datos

Part I. Descripción estadística de una variable. Estadística I. Mario Francisco. Conceptos generales. Distribuciones de frecuencias.

UNIDAD 8. ESTADÍSTICA

Tema 1: Análisis de datos univariantes

Estadística Descriptiva 2da parte

Módulo de Estadística

Conceptos de Estadística

Estadística Inferencial. Estadística Descriptiva

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va

PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

68 Bioestadística: Métodos y Aplicaciones. curtosis<0 curtosis=0 curtosis>0. Figura 2.10: Apuntamiento de distribuciones de frecuencias

ESTADÍSTICA DESCRIPTIVA

Tema 9: Estadística descriptiva

Técnicas Cuantitativas para el Management y los Negocios

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.

Estadística Descriptiva

ESTADÍSTICA UNIDIMENSIONAL

Estadística. Análisis de datos.

Apuntes de Estadística

Estadística aplicada al Periodismo

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

Análisis Exploratorio de Datos Resumen gráfico y numérico

Estadística unidimensional

ESTADÍSTICA. Rincón del Maestro:

CLASIFICACIÓN DE LA ESTADÍSTICA

Tabla de frecuencias agrupando los datos Cuando hay muchos valores distintos, los agruparemos en intervalos (llamados clases) de la misma amplitud.

Medidas Descriptivas Numéricas

TEMA 5 Estadística descriptiva. Análisis de datos

ESTADÍSTICA DESCRIPTIVA EN POCAS PALABRAS (por jmd matetam.com)

En todo proceso de investigación se generan datos y es la Estadística la disciplina encargada de :

Estadística aplicada a la comunicación

Estadística Descriptiva en R: Parámetros y estadísticos. José Enrique Martín García Universidad Politécnica de Gimialcón (Copyright 2016)

1. Estadística. 2. Seleccionar el número de clases k, para agrupar los datos. Como sugerencia para elegir el k

TEMA 11. ESTADÍSTICA

Tema 1. Estadística Unidimensional

Bioestadística: Estadística Descriptiva

10/02/2015. Ángel Serrano Sánchez de León

TEMA 7. ESTADÍSTICA. INDIVÍDUO: Es cada uno de los elementos que forman la población o la muestra.

Las técnicas para resumir la información ió contenida en un conjunto de datos x 1, x 2,,x n son: Tablas de frecuencias: por columnas, disponemos los

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 5) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía

Tema 2: Estadísticos. Bioestadística. U. Málaga. Tema 2: Estadísticos 1

Resumenes numéricas de una muestra de datos. M. Wiper Análisis Estadístico del Delito 1 / 41

Tablas de contingencia Las tablas de frecuencia pueden organizar datos de sólo una variable a la vez.

Estadística para el análisis de los Mercados S2_A1.1_LECV1

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 5) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía

IMADIL /10/2014

Instrumentos y matriz de datos

Fase 2. Estudio de mercado: ESTADÍSTICA

3 ANALISIS DESCRIPTIVO DE LOS DATOS

Estadística Descriptiva

Estadís-ca. María Dolores Frías Domínguez Jesús Fernández Fernández Carmen María Sordo. Tema 1. Estadís-ca descrip-va

ESTADÍSTICA. A su vez, las variables pueden ser :

ESTADÍSTICA. 1. Introducción. 2. Frecuencias

Se quiere medir la dispersión de una muestra a través de su localización. En primer lugar, definimos una medida relacionada con la media.

Nombre: Curso: Fecha:

Estadística Descriptiva en SPSS

OARI CLASE 19/05/2015. DESCRIPCIÓN CUANTITATIVA DE LOS DATOS. MEDIDAS RESUMEN

Estadística. 1. Conceptos de Estadística. 2. Variable estadística. 3. Tablas de estadística. 4. Diagrama de barras y polígonos de frecuencias.

Medidas Descriptivas Numéricas

Fundamentos de Estadística y Simulación Básica

2.2: Resumen numérico

TEMA 14 ESTADÍSTICA. Cuantitativa: si puede medirse y expresarse con números (es una variable), por ejemplo la talla de calzado.

TEMA 14: ESTADÍSTICA 1. CONCEPTOS ESTADÍSTICOS

Or O g r a g n a i n zac a ión ó y re r p e r p e r s e en e t n a t c a ión ó de d e los o da d t a o t s o TEMA 3.2

Una vez que tenga la información de la muestra ordenada, se pueden emitir conclusiones finales.

Recopilación: Camerina Laura Ramírez G. ESTADÍSTICA. Recopilación: Camerina Laura Ramírez G.

Tema 1: ESTADÍSTICA DESCRIPTIVA

ESTADÍSTICA 1.- NOCIONES GENERALES

COLEGIO CALASANCIO. MADRID. ESTADÍSTICA UNIDIMENSIONAL. 4º E.S.O.

El Método Científico. Metodología de Investigación. Te sifón Parrón

Medidas de Tendencia central Medidas de Dispersión Medidas de Asimetría

Estadística Descriptiva. Tema 1: Estadísticos 1

Estadística Básica 1er Cuatrimestre 2012

Exploración de datos

1 de 12 15/07/ :49

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1

1 POBLACIÓN Y MUESTRA

Análisis de datos y gestión n veterinaria. Tema 1 Estadística descriptiva. Prof. Dr. José Manuel Perea Muñoz

Y accedemos al cuadro de diálogo Descriptivos

ESTADÍSTICA Camerina Laura Ramírez Gallegos

Estadística descriptiva y métodos diagnósticos

MEDIDAS DE DISPERSIÓN Y ASIMETRÍA DE UNA DISTRIBUCIÓN DE FRECUENCIAS

Estadística I. Finanzas y contabilidad

Medidas de variabilidad (dispersión)

Estadística Inga Patricia Juárez, 2017 MEDIDAS DE TENDENCIA CENTRAL

ANÁLISIS DE DATOS UNIDIMENSIONALES

Tema 2 Estadística Descriptiva

ÁREAS DE LA ESTADÍSTICA

+ f 2. + f 3. p i. =h i 100. F i. = f i. H i. = h i. P i. = p i

Índice IMADIL /10/2014. TEMA 3: Características estadísticas fundamentales (Primera parte) 1. INTRODUCCIÓN

Transcripción:

Parte I Estadística Descriptiva 1

Capítulo 1 Estadística Descriptiva Unidimensional El objetivo básico de la Estadística es extraer la información contenida en un conjunto de observaciones. Resumir los datos es un procedimiento útil para conseguirlo y puede hacerse mediante tablas, gráficos o valores numéricos. A lo largo de este tema veremos las principales técnicas numéricas y gráficas que nos permiten describir una característica de interés observada en una población, poniendo en relieve sus rasgos más importantes. 1.1. Conceptos básicos. Población y variable. El universo de objetos al cual se refiere el estudio que se pretende realizar recibe el nombre de población. Por ejemplo, todos los individuos que padecen una determinada enfermedad, las personas que pertenecen a una determinada zona de trabajo social, los alumnos de una determinada titulación, los nacidos en un día determinado, etc. Las poblaciones pueden ser finitas e infinitas. En general, estudiar todos los individuos de una población (aún siendo finita) es difícil, fundamentalmente por cuestiones de tiempo y costo. Se suele entonces analizar únicamente una parte representativa de ella a la que llamamos muestra. A las características objeto de estudio en la población se les llama variables, ya que pueden variar de un individuo a otro. Por ejemplo, el peso de un bebé al nacer, la altura, el grupo sanguíneo, el nivel de gravedad de una enfermedad, la intensidad del dolor, etc. A los distintos valores que toma la variable se les llama modalidades. Por ejemplo, las modalidades de la variable sexo son hombre y mujer. Según los valores que puedan tomar las variables, se clasifican en: Cualitativas (categóricas): No toman valores numéricos. Estas a su vez pueden ser Nominales, si sus valores no se pueden ordenar, u Ordinales si sus valores se pueden ordenar. Por ejemplo, el sexo es una variable Nominal, y la intensidad del dolor es una variable Ordinal.

Cuantitativas (numéricas): Toman valores numéricos. Por ejemplo, altura, peso, número de ingresos diarios en un hospital, etc. Estas a su vez se clasifican en: Discretas: Toman un número finitooinfinito numerable de valores (toman valores enteros). Por ejemplo, número de miembros un hogar, número de mujeres maltratadas en una localidad anualmente, etc. Continuas: Pueden tomar cualquier valor dentro de uno o varios intervalos de la recta real (toman valores con decimales). Por ejemplo, altura, peso, temperatura, etc. 1.. Organización de los datos. Tablas de frecuencias. Un primer resumen de la informaciónn contenida en un conjunto de datos observado se obtiene al organizarlos en lo que se llama una tabla de frecuencias. En esta se recogen los distintos valores (números o categorías) que toma la variable junto con sus correspondientes frecuencias de aparición. Supongamos que hemos medido una variable X (numérica) sobre un conjunto de N individuos. Llamamos x i al valor que presenta el individuo i en la variable X, coni =1,..., N. Si observamos entre ellos k valores distintos, diremos que X toma valores x 1,x,..., x k y determinaremos la frecuencia asociada a cada uno de ellos. Para un valor x i, i =1,..., k, definimos las siguientes frecuencias: Frecuencia absoluta, n i : Número de individuos que presentan el valor x i. kx n i = n 1 +... + n k = N Frecuencia relativa, f i : Proporción de individuos que presentan el valor x i. f i = n i N, kx f i = 1 Frecuencia absoluta acumulada, N i : Número de individuos que presentan un valor inferior o igual a x i. ix N i = n j = n 1 +... + n i, j=1 N k = N

Frecuencia relativa acumulada, F i : Proporción de individuos que presentan un valor inferior o igual a x i. F i = F k = 1 ix j=1 f j = f 1 +... + f i = N i N, Observad que el cálculo de las frecuencias acumuladas sólo tienen sentido en variables numéricas. Sobre tres ejemplos vemos cómo construir la tabla de frecuencias. Ejemplo 1.1: 0 jóvenes ingresados en un Centro de desentoxicación han entrado a las siguientes edades: Tabla 1.1: Edades 18 18 1 19 0 18 19 18 18 19 1 0 19 19 19 18 19 19 0 Lo primero que observamos es que la variable X = Edad toma valores 18,19,0,1,. Se trata de una variable cuantitativa discreta, y la tabla de frecuencias resulta: Tabla 1.: Tabla de frecuencias de Edad x i n i f i N i F i 18 6 0.3 6 0.3 19 8 0.4 14 0.7 0 3 0.15 17 0.85 1 0.1 19 0.95 1 0.05 0 1 N =0 1 En la tabla se observa, por ejemplo, que la mayoría de los jóvenes ingresan a los 18 o 19 años, concretamente éstos representan un 70 % de la población. Ejemplo 1.: Consideremos ahora las alturas de dichos jóvenes: Tabla 1.3: Alturas 1.6 1.83 1.8 1.8 1.76 1.71 1.67 1.8 1.7 1.75 1.6 1.7 1.7 1.63 1.69 1.8 1.9 1.6 1.7 1.74

En este caso, la variable X =Altura es cuantitativa continua. Las variables continuas, al contener decimales, suelen presentar muchos valores distintos (rara vez tendremos valores con frecuencia mayor que uno o dos), por lo que se suelen agrupar por intervalos. Lo mismo podría ocurrir en determinadas variables discretas. Cúantos intervalos hacemos y de qué amplitudes?. El número de intervalos o clases depende del número de datos y de la dispersión de los mismos (si son parecidos o no entre sí), pero en realidad no hay ninguna regla establecida. En la práctica se suelen tomar un número de intervalos aproximadamente igual a la raíz cuadrada del número de observaciones. N o de intervalos ' N En cuanto a la amplitud, se suele tomar la misma en todos los intervalos. Una forma de obtenerla es: valor máximo de la variable-valor mínimo de la variable Amplitud= número de intervalos Entonces, el valor máximo sería el extremo superior del último intervalo, y el valor mínimo el extremo inferior del primer intervalo. Como normalmente los extremos inferiores se abren y los superiores se cierran, en lugar de tomar exactamente el mínimo de la variable, se toma un valor próximo inferior, ya que en otro caso el valor mínimo no podría incluirse en el primer intervalo. Nota: Hacer intervalos con la misma amplitud puede no ser una elección sensata si el conjunto de datos contiene puntos extremos (raros en relación al resto). En tal caso se podrían tomar intervalos más estrechos en la zona de más concentración y más amplios en la de menos concentración. En este caso tenemos 0 observaciones, por lo que podemos tomar 4 intervalos. Si quiero que el primer intervalo empiece en 1.55 y que el último termine en 1.95, tendrán una amplitud de 0.1. Tabla 1.4. Tabla de frecuencias de Altura X : Altura n i f i N i F i (1.55-1.65] 4 0. 4 0. (1.65-1.75] 9 0.45 13 0.65 (1.75-1.85] 6 0.3 19 0.95 (1.85-1.95] 1 0.05 0 1 N=0 Al punto central de un intervalo se le llama marca de clase. La del primer 1,55 + 1,65 intervalo es 1.60=. Ejemplo 1.3: Se pregunta a los jóvenes ingresados si la iniciativa fue principalmente propia o no. Los resultados son: Tabla 1.5. Iniciativa propia sí sí no sí no no no sí no no no sí sí sí sí sí no sí no sí

Claramente en este caso la variable en estudio es cualitativa, con modalidades o categorías sí y no. Tabla 1.6. Tabla de frecuencias correspondiente n i f i sí 11 0.55 no 9 0.45 Un 55 % ingresan principalmente por iniciativa propia frente a un 45 % que no lo hacen. 1.3. Representaciones gráficas Veremos las representaciones gráficas más comunes para cada tipo de variable. Cualitativas Diagrama de barras o rectángulos Diagrama de Pareto Diagrama de sectores Cuantitativas Histograma: Polígono de frecuencias Diagrama de puntos 1.3.1. Diagrama de barras o rectángulos Se construye dibujando sobre la categoría correspondiente un rectángulo con altura igual a la frecuencia (absoluta o relativa). También es válido para variables cuantitativas discretas, considerando en el eje de abcisas los valores de la variable en orden creciente en lugar de las categorías.

Diagrama de barras 1 10 frecuencia 8 6 4 0 n s Iniciativa propia 1.3.. Diagrama de Pareto Se ordenan las categorías de mayor a menor frecuencia y se dibujan los rectángulos correspondientes. Es muy utilizado en controles de la calidad, donde cada clase representa un tipo de disconformidad o problema de producción. 1.3.3. Diagrama de sectores Se dibujan en un círculo sectores con áreas proporcionales a las frecuencias de cada una de las categorías. 55,00% Diagrama de sectores Hábito botellón n s 45,00% Iniciativa propia

1.3.4. Histograma Es igual que el diagrama de rectángulos, considerando ahora en el eje de abcisas los intervalos y en el ordenadas las frecuencias (absolutas o relativas). Si los intervalos tienen la misma amplitud, las frecuencias son proporcionales a las alturas de los rectángulos del histograma, ya que el área se obtiene multiplicando labaseporlaaltura.porlotanto,cadaalturadaideadeladensidadoconcentración de datos en esa zona: donde hay más altura, aparecen frecuentemente valores de la variable, donde hay menos, los datos son escasos. Sin embargo, esto no ocurre si las amplitudes no son iguales, por lo que, en tal caso, se representa la frecuencia dividida por la amplitud. La forma del histograma -como el diagrama de barras- refleja propiedades importantes de la variable en cuestión. Cuando el histograma presenta un único máximo, la distribución se dice unimodal, bimodal si presenta dos, y plurimodal si presenta más de dos. Si el histograma es simétrico respecto de un valor central, la distribución se dice simétrica, en cuyo caso todos los puntos equidistantes a tal valor central presentan la misma frecuencia. Si la cola de la derecha se extiende más que la de la izquierda se dice asimétrica a la derecha o positiva, lo cual indica que la variable toma más valores bajos que altos. Si la cola de la izquierda se extiende más que la de la derecha, asimétricaalaizquierdao negativa, predominando los valores altos. 0 16 1 8 4 0-1 1 3 5 7 9 11 Asimétrico a la derecha 8 6 4 0 1,5,5 3,5 4,5 5,5 Asimétrico a la izquierda 4 3 1 0 0,8 1,0 1, 1,4 1,6 1,8 Simétrico El histograma de la variable Altura es:

Histograma para ALTURA 10 frecuencia 8 6 4 0 1,5 1,6 1,7 1,8 1,9 ALTURA 1.3.5. Polígono de frecuencias El polígono de frecuencias resulta esencialmente equivalente al histograma o al diagrama de barras, y se obtiene uniendo mediante segmentos los centros de las bases superiores de sus rectángulos. Polígono de frecuencias para ALTURA 10 frecuencia 8 6 4 0 1,5 1,6 1,7 1,8 1,9 ALTURA 1.3.6. Diagrama de puntos El diagrama de puntos resulta de utilidad cuando el conjunto de datos es razonablemente pequeño o hay relativamente pocos datos distintos. Cada dato se representa con un punto encima de la correspondiente localización en una escala horizontal de medida. Cuando un valor se repite, hay un punto por cada ocurrencia y se colocan verticalmente. Permite por ejemplo analizar la dispersión y detectar datos atípicos.

Diagrama de puntos para EDAD 18 19 0 1 EDAD 1.4. Descripción numérica de una variable Las técnicas estudiadas anteriormente permiten una descripción visual de la distribución de una variable mediante tablas y gráficos. En muchos casos, el resumen puede hacerse eficazmente de una forma más sencilla y precisa: utilizandovaloresnuméricosquedenideadelaubicaciónodelcentrodelosdatos -medidas de posición- usando cantidades que informende la concentración de las observaciones alrededor de dicho centro -medidas de dispersión- y mediante números que reflejen la forma (asimetría y apuntamiento) de la distribución -medidas de forma. La conjunción de técnicas numéricas y gráficas permite una buena descripción de la variable. 1.4.1. Medidas de posición Entre ellas estudiamos: La media La mediana La moda La media Cuantiles: deciles, cuartiles y percentiles Supongamos que hemos medido la variable X sobre N individuos y tenemos los valores x 1,x,..., x N. La media aritmética, o simplemente media, se calcula como:

- Si se dispone de los datos sin tabular: x = P N x i N = x 1 +... + x N N - Si los datos están tabulados: x = P k n ix i N kx = f i x i La media se mide en las mismas unidades que la variable, y tiene el inconveniente de verse muy afectada por la presencia de datos que sean extremadamente grandes o pequeños (datos atípicos). Ejemplo 1.4: Cálculo de la media de los datos del ejemplo 1.1 (Edades). 18 + 18 +... +19+0 x = 0 A partir de la tabla de frecuencias, x i n i n i x i 18 6 108 19 8 15 0 3 60 1 4 1 N =0 384 =19, P k x = n ix i = 384 N 0 =19, Ejemplo 1.5: Cálculo de la media de los datos del ejemplo 1. Si trabajamos con los datos sin tabular, 1,6+1,83 +... +1,7+1,74 x = =1,78 0 Si trabajamos con los datos tabulados, hemos de calcular las marcas de clase. X : Altura x i n i n i x i (1.55-1.65] 1.60 4 6.4 (1.65-1.75] 1.70 9 15.3 (1.75-1.85] 1.80 6 10.8 (1.85-1.95] 1.90 1 1.9 N =0 34.4 x = 34,4 0 =1,70

Nótese que 1,70 no es la media real, es un valor aproximado, ya que al trabajar con las marcas de clase se está suponiendo que los datos son: 1,60, 1,60, 1,60, 1,60, 1,70, 1,70, 1,70, 1,70, 1,70, 1,70, 1,70 1,70, 1,70, 1,80, 1,80, 1,80, 1,80, 1,80, 1,80, 1,90 En adelante, si es posible, siempre calcularemos las medidas a partir de los datos sin agrupar en intervalos, para no perder precisión innecesariamente. La mediana Es el valor que divide al conjunto de observaciones ordenado de menor a mayor en dos partes iguales, ocupa el lugar central. Deja por tanto al 50 % de las observaciones por debajo y al 50 % por encima. Mín 50 % Mediana 50 % Máx Se calcula de las siguientes formas: - Si los datos están sin tabular: una vez ordenados de menor a mayor se toma el valor central si el número de observaciones N es par; si es impar se toma la media de los dos valores centrales. - Si los datos están tabulados: si existe un valor con frecuencia relativa acumulada igual a 0.5, se toma como mediana la media de tal valor y el siguiente. En caso contrario, se toma aquel valor que supere por primera vez en frecuencia relativa acumulada 0.5. A diferencia de la media, la mediana no se ve afectada por la presencia de datos extremos. Por lo tanto, en un conjunto de datos con valores extremos, la mediana será una medida de centralización más representativa que la media. Ejemplo 1.6: Cálculo de la mediana de los datos del ejemplo 1.1 (Edades). Los datos ordenados de menor a mayor son: 18, 18, 18, 18, 18, 18, 19, 19, 19, 19, 19, 19, 19, 19, 0, 0, 0, 1, 1, 19 + 19 Mediana = =19 Interpretación: el 50 % de los jóvenes ingresados lo hacen a una edad inferior o igual a 19 años. Por otro lado, nótese en la tabla de frecuencias de la variable Edad que en el valor 19 se obtiene una frecuencia relativa acumulada de 0.7, que supera por primera vez 0.5.

X : Edad F i 18 0.3 19 0.7 0 0.85 1 0.95 1 La moda Es el valor más frecuente de la variable (mayor n i o f i ). Es el valor que presenta mayor altura en el diagrama de barras (caso discreto) o el intervalo con mayor altura en el histograma (caso continuo). La moda puede no ser única onoexistir. Ejemplo 1.7: Cálculo de la moda de los datos del ejemplo 1.1 El valor con máxima frecuencia (8) es el 19. Moda =19 Interpretación: la edad más frecuente de ingreso entre los jóvenes es de 19 años. Ejemplo 1.8: Cálculo de la moda de los datos del ejemplo 1. En este caso señalamos el intervalo modal: (1.65-1.75] Interpretación: La altura más frecuente está entre 1.65 y 1.75 m. Cuantiles: deciles, cuartiles y percentiles Son medidas basadas en la ordenación de los datos. Dividen al conjunto de datos ordenado en partes iguales. Según el número de partes, hablamos de: Deciles: dividen al conjunto de datos en 10 partes iguales, cada una de las cuales engloba un 10 % de datos. Hay por tanto 9 deciles, D 1,..., D 9. Cuartiles: dividen al conjunto de datos en 4 partes iguales, cada una de las cuales engloba un 5 % de datos. Hay por tanto 3 cuartiles, Q 1,Q,Q 3. Percentiles: dividen al conjunto de datos en 100 partes iguales, cada una de las cuales engloba un 1 % de datos. Hay por tanto 99 percentiles, P 1,..., P 99. La mediana, al dejar por debajo a un 50 % de los datos, coincide con el D 5, Q y P 50. La forma de cálculo es similar a la de la mediana. Unafranjadeinteréses[P 5 - P 75 ], que contiene al 50 % de los datos centrales. Por debajo del P 5 quedan el 5 % de los datos más pequeños, y por encima del P 75 quedan el 5 % de los datos más grandes. Ejemplo 1.9: Cálculo de los percentiles 5 y 75 de los datos del ejemplo 1.1 (Edades).

P 5 = 18 (F i =0,3 > 0,5) P 75 = 0 (F i =0,85 > 0,75) Otra forma de calcularlos: el P 5 es aquel valor que deja por debajo al 5 % de los datos, que en este caso son 5 (5 % de 0). Análogamente, el P 75 es el valor que deja 15 datos (75 %) por debajo y 5 datos (5 %) por arriba. 18, 18, 18, 18, 18 18, 19, 19, 19, 19, 19, 19, 19, 19, 0 0, 0, 1, 1, P 5 = 18 + 18 =18, P 75 = 0 + 0 =0 Interpretación: El 5 % de los jóvenes que ingresan a más temprana edad lo hacen como mucho a los 18 años, y el 5 % de los que ingresan a mayor edad lo hacen a partir de los 0 años. El 50 % de las edades centrales están entre 18 y 0 años. 1.4.. Medidas de dispersión Las medidas de posición o centralización no siempre proporcionan información suficiente para describir un conjunto de datos de manera adecuada. Por ejemplo, veamos los tres conjuntos de datos siguientes: Ejemplo 1.10: Conjunto 1: 10,0,30,40,50 Conjunto : 10,30,30,30,50 Conjunto 3: 30,30,30,30,30 Las medidas de centralización de cada uno de los conjuntos son: Media Mediana Moda Conjunto 1 30 30 No existe Conjunto 30 30 30 Conjunto 3 30 30 30 A la vista de estas medidas podríamos llegar a la conclusión equivocada de que los tres conjuntos de datos son muy similares. Sin embargo, hay una clara diferencia entre los tres conjuntos: en el primero, hay gran dispersión en los datos (datos poco parecidos), en el tercero la concentración de los datos es total, y en el segundo se da una situación intermedia. Es por esto por lo que es

necesario recurrir a otras medidas, las medidas de dispersión, que sean capaces de diferenciar estas situaciones. Claramente, el tercer conjunto de datos es el mejor; en él las medidas de centralización serán plenamente representativas. Entre las medidas de dispersión estudiamos: Rango. Rango Intercuartílico Varianza. Desviación típica Coeficiente de variación Rango. Rango Intercuartílico Una medida de variabilidad basada en la ordenación de las observaciones es el rango, R, definido como la difencia entre el valor máximo y el mínimo, R = Max Min El rango de un conjunto de datos es muy fácil de calcular, pero ignora toda la información contenida entre las observaciones más grande y más pequeña. Por ejemplo, las muestras 1,3,5,8,9 y 1,5,5,5,9 tienen el mismo rango igual a 8. Sin embargo, en la segunda muestra sólo existe variabilidad en los valores extremos, mientras que en la primera los tres valores intermedios cambian de manera considerable. Algunas veces, cuando el tamaño de la muestra es pequeño, la pérdida de información no es muy seria. En general, lo que se desea es tener una medida de variabilidad que dependa de todas las observaciones, más que de unas cuantas. Una medida menos sensible a los valores extremos es el rango intercuartílico, RI, definido como la diferencia entre el tercer y primer cuartil, RI = Q 3 Q 1 Esta medida informa acerca de la representatividad de la mediana (Q ):si el RI es pequeño, el 50 % de las observaciones centrales están muy concentradas entorno a la mediana. Varianza. Desviación típica La varianza y desviación típica miden la dispersión de los datos entorno a la media, y hacen uso de todas las observaciones. Una forma intuitiva de medir la concentración de los datos entorno a la media es calcular lo que distan los mismos de la media, x 1 x,..., x N x Si todas estas diferencias son pequeñas entonces las observaciones x i estarán próximas a x y diremos que hay poca variabilidad. Una forma sencilla de combinar todas las desviaciones en una única medida es promediarlas, pero al

sumarlas, desviaciones positivas y grandes en magnitud pueden ser compensadas con desviaciones negativas grandes en magnitud. NX (x i x) NX x i N x = =0 N N Una alternativa es promediar tales diferencias en valor absoluto o al cuadrado. Al promedio de las desviaciones al cuadrado se le conoce como varianza, σ, σ = NX (x i x) Si los datos están tabulados, N = NX x i N x σ = kx f i (x i x) = kx n i (x i x) N = kx n i x i x N Se expresa en el cuadrado de las unidades de la variable. Observad que σ 0 yqueσ =0sí y sólo sí todas las observaciones son idénticas y por lo tanto coinciden con la media (mejor de los casos). Alaraízcuadradadelavarianzaseleconocecomodesviación típica, σ = σ En general podríamos pensar que a mayor valor en la varianza o desviación típica, mayor dispersión y menor concentración de los datos entorno a la media. En relación a esta idea, se presenta el problema de que ambas medidas dependen de las unidades de medida (o dimensión) de los datos. Por ejemplo, una misma muestra de alturas en centímetros y en metros da lugar a varianzas distintas, mayor en el primer caso. Por lo tanto la varianza y desviación típica no nos permiten cuantificar la variabilidad ni comparar la dispersión de variables medidas en unidades distintas. Nota: si en lugar de dividir en tales medidas por N dividimos por N 1, se obtienen la cuasivarianza y cuasidesviación típica, que denotamos respectivamente por S y S, S = NX (x i x) S = S N 1 = NX x i N x N 1, Ejemplo 1.11: Cálculo de la varianza y desviación típica en datos de ejemplo 1.1 (Edades).

A partir de los datos sin tabular: NX x i σ = N x = 18 +18 +... +19 +0 19, =1,6 0 A partir de los datos tabulados: x i n i n i x i n i x i 18 6 108 1944 19 8 15 888 0 3 60 100 1 4 88 1 484 N =0 384 7398 P k x = n ix i N NX x i = 384 0 =19,, σ = N x = 7398 0 19, =1,6 σ = 1,6 = 1,1 Coeficiente de variación Como solución al problema de dependencia de las unidades de medida de las variables que presentan la varianza y desviación típica, se crea una nueva medida adimensional (no depende de las unidades de medida) conocida como coeficiente de variación, definido como el cociente entre la desviación típica y la media (en valor absoluto), CV = σ x Mide la concentración relativa de los datos entorno a la media. Cuanto más próximoaceroesté(vale0cuandoσ =0), menor dispersión habrá, y por lo tanto más representativa será la media. Ejemplo 1.1: Comparamos la variabilidad existente en los tres conjuntos de datos anteriormente dados: Conjunto 1: 10,0,30,40,50 Conjunto : 10,30,30,30,50 Conjunto 3: 30,30,30,30,30 Calculamos para ello los coeficientes de variación: Media Desv. típica C.V. Conjunto 1 30 14.14 0.471 Conjunto 30 1.649 0.4 Conjunto 3 30 0 0 Según ya comentábamos, el tercer conjunto no presenta ninguna variabilidad, y el segundo conjunto presenta menor variabilidad que el primero.

Ejemplo 1.13: En la siguiente tabla se presentan datos referentes al gasto en ocio mensual (GOCIO) y gasto total mensual (GTOTA) en euros de 10 alumnos. GTOTA: 40 30 5 0 96 00 5 500 5 150 50 40 300 300 300 300 0 50 80 40 GOCIO: 30 0 15 0 30 40 15 35 18 80 50 0 0 48 50 80 0 36 60 80 Comparamos la dispersión entorno a la media de ambas variables: Media Desv. típica C.V. GTOTA 159.550 135.714 0.851 GOCIO 38.350 1.66 0.565 Como ambas variables presentan las mismas unidades de medida, euros, para comparar la variabilidad entorno a la media de las mismas podemos comparar sus varianzas, desviaciones típicas o coeficientes de variación. Observamos que la variable GOCIO presenta menor variabilidad que la variable GTOTA, es decir, el gasto en ocio de los alumnos es más homogéneo que el gasto total. La media de GOCIO es por tanto más representativa que la de GTOTA. 1.4.3. Medidas de forma Ya vimos cómo a partir de una representación gráfica se pueden estudiar algunos rasgos importantes de la variable; comentamos cómo hacernos una idea de la simetría o asimetría de una variable según la forma del histograma. La simetría o asimetría también puede estudiarse con una medida numérica, el coeficiente de asimetría. Exiten varios coeficientes, el que a continuación vemos se debe a Fisher y presenta la siguiente expresión: P N γ 1 = (x i x) 3 Nσ 3, y P k γ 1 = f i(x i x) 3 P k σ 3 = n i(x i x) 3 Nσ 3 si los datos están tabulados. Si un coeficiente de asimetría vale 0, la distribución es simétrica, si es mayor que0,asimétricaaladerechaopositiva,ysiesmenorquecero,asimétricaala izquierda o negativa. También podemos hacernos una idea acerca de la simetría o asimetría de una variable comparando su media y mediana. Claramente, en variables simétricas la media, la mediana y la moda (si es única) coinciden. Si la distribución es marcadamente asimétrica a la derecha, su media será bastante mayor que la mediana, ya que aún sean pocos los valores altos que tome (cola de la derecha),

tirarán de la media hacia arriba, mientras que a la mediana según comentamos no le afectan los valores extremos. Si la distribución es marcadamente asimétrica a la izquierda, la media será bastante menor que la mediana. Ejemplo 1.14: Estudiamos la simetría de la variable GOCIO. Lo hacemos en base al histograma y a la comparación de media y mediana: Histograma para GOCIO 8 frecuencia 6 4 0 0 0 40 60 80 GOCIO La media de GOCIO es 38.350 y la mediana 3.5. La variable GOCIO es asimétrica a la derecha o positiva, ya que en el histograma observamos una mayor concentración en los valores bajos de la variable y la media es mayor que la mediana. En relación a la forma aparece también el término curtosis, que hace referencia al apuntamiento de la distribución. Por ejemplo, si una variable presenta un histograma muy apuntado (alta frecuencia ) y estrecho, sus datos estarán muy concentrados. 1.4.4. Observaciones sobre las medidas numéricas descriptivas 1. Cambios de variable lineales: Supongamos que a, b, son dos números reales. Hacemos una transformación en los datos de la forma y i = ax i + b, i = 1,..,N, es decir, Y = ax + b. Entonces, y = ax + b, σ y = a σ x, σ y = a σ x,. Variable tipificada: Tipificar una variable consiste en hacer una transformación lineal tal que la nueva variable tenga media 0 y varianza 1. La transformación es Z = X x σ x

3. Variable clasificada en grupos o estratos: Supongamos que tenemos N observaciones clasificadas en L grupos. El grupo i presenta un tamaño n i, una media x i, una varianza σ i, y su peso en el total de la población es w i = n i. Entonces, la media total y la varianza total (de las N observaciones) N vienen dadas por: 1.5. Ejercicios X L x = w ixi, σ x = LX w i σ i + LX w i ( x i x) 1. En el siguiente conjunto de datos, se proporcionan pesos (en kg) de bebés nacidos durante un intervalo de tiempo en un hospital:.65 3.5 3.80 4.10.9 3.55 5.0 4.1 3.46 3.90 3.70.85 3.6 3.0 4.0 3.6 a) Construir una tabla de frecuencias para estos pesos. b) Obtener una representación gráfica. c) Calcular la media, mediana y moda. d) Cuántohanpesadocomomínimoel5%delosbebésquemáshan pesado al nacer?. e) Calcular la varianza y la desviación típica. f) Estudia la asimetría de la distribución.. Describe las características de los cuatro histogramas siguientes, y razona cuál es la medida de centralización y dispersión más adecuada para la distribución correspondiente.

8 6 4 0 0 1 3 4 5 6 40 30 0 10 0-1 1 3 5 7 9 11 40 30 0 10 0 -,5-1,5-0,5 0,5 1,5,5 3,5 3. La tabla siguiente muestra la composición por edad, sexo y trabajo de un grupo de personas con tuberculosis pulmonar: Edad Trabajadores No trabajadores Varón Mujer Total Varón Mujer Total 14-19 1 3 5 40 65 19-4 10 4 14 0 36 56 4-9 3 10 4 15 50 65 9-34 47 1 59 13 34 47 34-39 38 8 46 10 5 35 39-44 4 6 7 18 5 a) Represetar gráficamente la distribución de frecuencias de aquellas personas trabajadoras que padecen tuberculosis. b) Represetar gráficamente la distribución de frecuencias de los varones no trabajadores con tuberculosis. c) Represetar gráficamente la distribución de frecuencias del número total de mujeres que padecen tuberculosis. d) Cuál es la edad en la que se observa con mayor frecuencia que no trabajan los varones?. Y las mujeres?. Determinar asímismo la edad más frecuente (sin distinción de sexos ni ocupación). e) Por debajo de qué edad se encuentra el 50 % de los varones?. Y el 50 % de las mujeres?. f) Obtener la media, mediana, moda y desviación típica de las edades de la muestra total. g) Estudiar la asimetría de las dos distribuciones, trabajadores y no trabajadores.

4. En una empresa se clasifican los accidentes laborales según causen o no la baja en el trabajador. Los datos medidos mensualmente durante un año son: N o Accidentes No causan baja 498 Causan baja 15 650 a) Calcula los porcentajes correspondientes a cada tipo de accidente. b) Obtén una representación gráfica.