ANÁLISIS E INTERPRETACIÓN DE DATOS

Índice Capítulo I: Conceptos básicos... 1 1.1. Estadística descriptiva e inferencial... 1 1.2. Universo, población (lote)... 1 1.3. Muestra (representativa)... 2 1.4. Variables y tipos de variables.... 3 1.5. Rango... 3 Capítulo II: Tabulación de datos... 4 2.1. Datos agrupados/ no agrupados... 4 2.2. Intervalo / Tablas de Frecuencias... 6 2.3. Gráficas variable discreta/ continuas... 9 Capítulo III: Medidas de Síntesis de Variables Cuantitativas... 13 3.1. Medidas de tendencia central... 13 3.2. Medidas de dispersión o concentración... 17 3.2.1. Rango o recorrido... 17 3.2.2. Varianza / Desviación estándar... 17 3.3. Coeficiente de variación... 24

Capítulo I: Conceptos básicos 1.1. Estadística descriptiva e inferencial Existen muchas definiciones de Estadística, pero en síntesis la podemos definir como la ciencia rama de la Matemática que se ocupa de recolectar, organizar, presentar, analizar e interpretar información cuantitativa para obtener conclusiones válidas, solucionar problemas, predecir fenómenos y ayudar a una toma de decisiones más efectivas. Estadística Descriptiva o Deductiva Es un proceso mediante el cual se recopila, organiza, presenta, analiza e interpreta datos de manera tal que describa fácil y rápidamente las características esenciales de dichos datos mediante el empleo de métodos gráficos, tabulares o numéricos, así por ejemplo: Supóngase que un docente de Matemática calcula la calificación promedio de uno de sus cursos a su cargo. Como solo se está describiendo el desempeño del curso pero no hace ninguna generalización acerca de los diferentes cursos, en este caso el maestro está haciendo uso de la Estadística Descriptiva. Estadística Inferencial o Inductiva Llamada también inferencia estadística, la cual consiste en llegar a obtener conclusiones o generalizaciones que sobrepasan los límites de los conocimientos aportados por un conjunto de datos. Busca obtener información sobre la población basándose en el estudio de los datos de una muestra tomada a partir de ella, así por ejemplo: Supóngase ahora que el docente de Matemática utiliza el promedio de calificaciones obtenidas por uno de sus cursos para estimar la calificación promedio de los 5 cursos a su cargo. Como se está realizando una generalización acerca los diferentes cursos, en este caso el maestro usa la Estadística Inferencial. 1.2. Universo, población (lote) Llamado también universo o colectivo es el conjunto de todos los elementos que tienen una característica común. Una población puede ser finita o infinita. Es población finita cuando está delimitada y conocemos el número que la integran, así por ejemplo: CANTIDAD DE ALUMNOS EN UNA ESCUELA. Es población infinita cuando a pesar de estar delimitada en el espacio, no se conoce el número de elementos que la integran, así por ejemplo: LAS ESTRELLAS EN LA VIA LACTEA 1

1.3. Muestra (representativa) Es un subconjunto de la población. Ejemplo: Estudiantes de 2do Semestre de la Universidad de Iquique. Sus principales características son: Representativa.- Se refiere a que todos y cada uno de los elementos de la población tengan la misma oportunidad de ser tomados en cuenta para formar dicha muestra. Adecuada y válida.- Se refiere a que la muestra debe ser obtenida de tal manera que permita establecer un mínimo de error posible respecto de la población. Para que una muestra sea fiable, es necesario que su tamaño sea obtenido mediante procesos matemáticos que eliminen la incidencia del error. Para calcular el tamaño de la muestra suele utilizarse la siguiente fórmula: Donde: n = el tamaño de la muestra. N = tamaño de la población. Desviación estándar de la población que, generalmente cuando no se tiene su valor, suele utilizarse un valor constante de 0,5. Z = Valor obtenido mediante niveles de confianza. Es un valor constante que, si no se tiene su valor, se lo toma en relación al 95% de confianza equivale a 1,96 (como más usual) o en relación al 99% de confianza equivale 2,58, valor que queda a criterio del encuestador. e = Límite aceptable de error muestral que, generalmente cuando no se tiene su valor, suele utilizarse un valor que varía entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del encuestador. Ejemplo ilustrativo: Calcular el tamaño de la muestra de una población de 1000 elementos. Solución: Se tiene N=1000, y como no se tiene los demás valores se tomará o=0,5, Z = 1,96 y e = 0,05. Reemplazando valores en la fórmula se obtiene: 2

1.4. Variables y tipos de variables. Una variable es una característica que se asocia a los elementos(cosas o personas) de una muestra o población. Tiene la propiedad de ser medida u observada. Su expresión numérica es el dato. Las variables se pueden clasificar en dos tipos : Variables cuantitativas: se expresan por medio de números; por ejemplo, la edad, el peso, la altura,etc. Las variables cuantitativas se dividen en: Variable discreta: Es una característica cuantitativa representada por números enteros o exactos, que generalmente resultan del proceso de conteo, como por ejemplo: número de estudiantes de la promoción del año anterior, numero de hermanos, páginas de un manual. Variable continua: Es una característica cuantitativa que puede tomar cualquier valor representado por un número racional, que generalmente resultan del proceso de medición, como por ejemplo, tiempo destinado a estudiar Estadística, la altura de una persona. 1.5. Rango Dado un ejemplo de datos definimos el rango como la diferencia entre el mayor de los datos y el menor de todos los datos ejemplo: 6, 8, 7, 6,5 Rango= 8-5= 3 3

Capítulo II: Tabulación de datos 2.1. Datos agrupados/ no agrupados 2.1.1. Datos agrupados 1. Su fin es resumir la información. 2. Generalmente, los elementos son de mayor tamaño, por lo cual requieren ser agrupados, esto implica: ordenar, clasificar y expresar los en una tabla de frecuencias. 3. Se agrupa a los datos, si se cuenta con 20 o más elementos. Aunque contemos con más de 20 elementos, debe de verificarse que los datos n sean significativos, Esto es: que la información sea repetitiva, también debemos de verificar que los datos puedan clasificarse. Y que dicha clasificación tiene coherencia y lógica (de acuerdo a lo que se nos esta pidiendo). Una vez que ya hemos ordenado y clasificado, presentaremos la información obtenida mediante una tabla de frecuencias 4. La agrupación de los datos puede ser simple o mediante intervalos de clase. Datos no agrupados 1. Los datos son brutos( es decir, no se presentan clasificados) 2. No es necesario clasificar ni generar una tabla de frecuentas, ya que no tiene mucho sentido. 3. Elementos que menor tamaño (generalmente menor a 20 elementos).esto no sucede así siempre. Aunque contemos con menos de 20 elementos, debe de verificarse que los datos no sean significativos, Esto es: que la información no sea repetitiva, de esta forma, sabremos que no se podrá clasificar y por lo tanto ser resumida en una tabla de frecuencias. En caso de que una vez que hayamos ordenado los elementos, se cuente con datos significativos. Procedemos a clasificarlos (si es posible, ya que también debemos de buscar la lógica al clasificar los elementos) para convertirlos en datos agrupados. 4.- los datos no agrupados, también pueden ser ordenamos y de la misma forma, también se pueden obtener gráficas, determinar media, desviación estándar, etc. 4

El hecho de que los datos no agrupados pueden ordenarse, no significa que se conviertan en datos agrupados. Ejemplos: Vas a investigar la edad a un grupo de 20 Niños en datos no agrupados (es decir, vienen los 20 niños y asi como te dan la edad asi la anotas 2,2,1,3,3,3,4,4,5,6,1,2,2,3,3,3,4,4,3,6 (Total 20 niños) Estos son datos no agrupados por qué no los has clasificado y contado 1,1,2,2,2,2,3,3,3,3,3,3,3,4,4,4,4,5,5,6 (Total 20 niños) Los datos no agrupados también los puedes ordenar, por ejemplo de la edad menor a la edad mayor, no están contabilizados ni clasificados solamente están ordenados Para que sean datos agrupados tienes que contarlos y clasificarlos, por ejemplo cuántos niños había de cada año. (y siguen siendo 20 niños) Edad...Frecuencia 1...2 2...4 3...7 4...4 5...2 6...1 Total...20 o también los puedes agrupar (Serie agrupada) en clases, rangos, grupos o intervalos por ejemplo de 2 años para este caso (y siguen siendo 20) Edad...Frecuencia 1-2...6 3-4...11 5-6...3 Total...20 5

2.2. Intervalo / Tablas de Frecuencias Es una ordenación en filas y columnas que usualmente contiene la siguiente información de una variable Frecuencias: se llama frecuencia absoluta (f) de un valor al número de veces que se repite éste. Se denomina frecuencia absoluta acumulada(f) de un valor a la suma de todas las frecuencias absolutas de los valores menores o iguales al considerado. Acumular frecuencias carece de sentido cuando las variables son cualitativas. Se designa con el término de frecuencia relativa (fr) de un valor a la suma de todas las frecuencias relativas de los valores menores o iguales al considerado. Se llama frecuencia relativa acumulada(fr) de un valor a la suma de todas las frecuencias relativas de los valores menores o iguales al considerado. Si cada frecuencia relativa se multiplica por 100 se obtiene el tanto por ciento correspondiente a cada valor. Para construir tablas de frecuencias con DATOS AGRUPADOS EN INTERVALOS se debe calcular: Cuando hay muchos datos distintos en una distribución de frecuencias, conviene agruparlos en intervalos de clase; para realizar esto debes calcular: a) Rango: diferencia entre el mayor y el menor valor de la variable. b) Intervalos de clase: Se llama intervalo de clase a cada uno de los intervalos en que pueden agruparse los datos de una variable estadística. Se definen para obtener una idea más concreta de la realidad. Si los valores de una variable se clasifican por intervalos, tal variable pasa a ser considerada continua. c) Marca de clase es el punto medio entre los extremos de cada intervalo. Si es posible se elegirán los intervalos de forma que las marcas de clase sean números enteros o con el menor números de cifras decimales posible. Siempre que se agrupe una variable por intervalos se produce una pérdida de información, pues lo que se tiene en cuanta es la pertenencia o no de cada dato al intervalo y no su valor exacto. d) Longitud del intervalo. Es conveniente que tengan la misma longitud. 6

e) Número total de intervalos. Dependerá de las características de la variable. f) Elección de los extremos. Lo ideal es que no coincidan con ningún valor de la variable. Ejemplo1: Tabla de frecuencia para datos agrupados. En base al peso de las 30 personas, completar la siguiente tabla: Variable Peso Kg. 36 36 38 38 43 43 43 45 45 48 48 48 54 54 54 60 60 60 62 62 64 64 64 70 70 70 72 72 72 72 f. absoluta f f. acumulada F f. relativa fr 36 2 2 0,067 6,7 % 38 2 4 0,067 6,7% 43 3 7 0,1 10% 45 2 9 0,067 6,7% 48 3 12 0,1 10% 54 3 15 0,1 10% 60 3 18 0,1 10% 62 2 20 0,067 6,7% 64 3 23 0,1 10% 70 3 26 0,1 10% 72 4 30 0,133 13,3% n = 30 La suma de las frecuencias relativas es: 1,001 La suma de las frecuencias porcentuales es: 100,1% F. relativa porcentual Fr% 7

Ejemplo2: Para datos agrupados en intervalos Después de medir las alturas de 40 alumnos de un curso, se obtienen los siguientes resultados de la variable: 150 150 152 154 155 155 155 156 157 158 158 159 160 160 160 161 161 162 162 162 162 163 163 163 164 164 165 165 166 166 167 167 168 170 172 175 175 176 178 182 Para hacer la agrupación de datos en intervalos se debe considerar: a) El recorrido o campo de variación de la variable (Rango), que es la diferencia entre el mayor y menor valor que ella toma, denotándose por R. En nuestro ejemplo R = 182-150 = 32 b) Decidir el número de intervalos y tamaño de estos, lo que depende de la cantidad de datos de la muestra y de su recorrido. Para este ejemplo se eligieron intervalos de amplitud 4 cm. de estatura, al dividir el rango o recorrido por la amplitud resultan: 32 : 4 = 8 intervalos. c) Determinar los límites de cada intervalo, el límite inferior y el superior; así el primer intervalo será 150 154 el límite inferior es 150 y el superior 154; donde: 150 154 = { x / 150 x 154 } Notar que el límite superior no pertenece al intervalo, el que se incluye en el siguiente intervalo, excepto el límite superior del último intervalo. Marca de clase de un intervalo xi: Es el valor central del intervalo y corresponde a la semisuma de ambos límites. Marca de clase xi = limite inf erior 2 limite superior 8

Intervalo Estatura (cm) f. absoluta f f. acumulada F f. relativa fr f. porcentual Fr% Marca de clase xi 150 154 3 3 0,075 7,5% 152 154 158 6 9 0,15 15% 156 158 162 8 17 0,20 20% 160 162 166 11 28 0,275 27,5% 164 166 170 5 33 0,125 12,5% 168 170 174 2 35 0,05 5% 172 174 178 3 38 0,075 7,5% 176 178-182 2 40 0,05 5% 180 N= 40 2.3. Gráficas variable discreta/ continuas Variables discretas a) Gráfico de barras: representación gráfica en forma de barras, verticales u horizontales. b) Gráfico de barras múltiples o agrupadas: es una representación que permite comparar distintas categorías de variables discretas. Ejemplo: en la tabla se muestra el número de artículos, de un mismo tipo, vendidos en el primer semestre por dos empresas. enero febrero marzo abril mayo junio empresa1 455 499 567 600 620 625 empresa 2 785 700 653 634 648 631 9

En el grafico se pueden comparar mensualmente las ventas de ambas empresas. También se observa que la empresa 1 incrementa el número de artículos vendidos, mientras que la empresa 2 ocurre lo contrario. Variables continuas a) Histograma: Gráfico de barras verticales, quedando su ancho determinado por la amplitud de cada intervalo y su altura por la frecuencia absoluta del intervalo. b) 10

c) Polígono de frecuencias: gráfico de líneas determinadas por puntos de coordenadas marcas de clase y frecuencias absolutas. 11

Observación Grafico circular, se puede utilizar para variables discretas y continuas y se representa en proporciones o porcentajes. Ejemplo: Al representar por medio de un gráfico circular el número de artículos vendidos por 4 vendedores de una industria, se tiene que: 12

Capítulo III: Medidas de Síntesis de Variables Cuantitativas 3.1. Medidas de tendencia central Al describir grupos de diferentes observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición. 1 En este caso se incluyen también los cuantiles entre estas medidas. Entre las medidas de tendencia central tenemos: Media aritmética Media geométrica Mediana Moda 3.1.1. Media Aritmética / Geométrica 3.1.1.1. Media aritmética La media aritmética es el valor obtenido por la suma de todos sus valores dividida entre el número de sumadores. Por ejemplo, las notas de 5 alumnos en una prueba: niño nota 1 6,0 2 5,4 3 3,1 4 7,0 5 6,1 Primero, se suman las notas: 6,0+5,4+3,1+7,0+6,1 = 27,6 Luego el total se divide entre la cantidad de alumnos: 27,6/5=5,52 13

La media aritmética en este ejemplo es 5,52 La media aritmética es, probablemente, uno de los parámetros estadísticos más extendidos. 2 Se le llama también promedio o, simplemente, media. Definición formal Dado un conjunto numérico de datos, x1, x2,..., xn, se define su media aritmética como Esta definición varía, aunque no sustancialmente, cuando se trata de variables continuas, esto es, también puede calcularse para variables agrupadas en intervalos. 3.1.1.2. Media geométrica En matemáticas y estadística, la media geométrica de una cantidad arbitraria de números (por decir n números) es la raíz n-ésima del producto de todos los números, es recomendada para datos de progresión geométrica, para promediar razones, interés compuesto y números índices. Por ejemplo, la media geométrica de 2 y 18 es Otro ejemplo, la media de 1, 3 y 9 sería 3.1.2. Mediana / Moda 3.1.2.1. Mediana La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor. 7 Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2: 14

En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los siguientes: Se toma como mediana Existen métodos de cálculo más rápidos para datos más numerosos. Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación. Cálculo de la mediana para datos agrupados Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla del margen derecho). Así, aplicando la fórmula asociada a la mediana para n impar, obtenemos X(39+1)/2 = X20 y basándonos en la fórmula que hace referencia a las frecuencias absolutas: Ni-1< n/2 < i = N19 < 19.5 < N20 Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar. En nuestro ejemplo, 21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5 puntos (es aconsejable no olvidar las unidades; en este caso como estamos hablando de calificaciones, serán puntos) La mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o más. Ejemplo (N par) Las calificaciones en la asignatura de Matemáticas de 38 alumnos de una clase viene dada por la siguiente tabla (debajo): Calificaciones 1 2 3 4 5 6 7 8 9 Número de alumnos 2 2 4 5 6 9 4 4 2 15

Cálculo de la Mediana: Primero hallamos las frecuencias absolutas acumuladas Fi (ver tabla margen derecho). Si volvemos a utilizar la fórmula asociada a la mediana para n par, obtenemos X(38/2) = X19 y basándonos en la fórmula que hace referencia a las frecuencias absolutas --> Ni-1< n/2 < Ni = N18 < 19 < N19 Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el decimonoveno y el vigésimo lugar. En nuestro ejemplo, el lugar decimonoveno lo ocupa el 5 y el vigésimo el 6, (desde el vigésimo hasta el vigésimo octavo) con lo que Me = (5+6)/2 = 5,5 puntos. x i f i F i 1 2 2 2 2 4 3 4 8 4 5 13 5 6 19 = 19 6 9 28 7 4 32 8 4 36 9 2 38 3.1.2.2. Moda La moda es el dato más repetido de la encuesta, el valor de la variable con mayor frecuencia absoluta. En cierto sentido la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva. Su cálculo es extremadamente sencillo, pues solo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación. Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5. Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma frecuencia diremos que no hay moda. Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta. La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que: 16

Siendo la frecuencia absoluta del intervalo modal y y las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, al intervalo modal. Las calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase viene dada por la siguiente tabla (debajo): Calificaciones 1 2 3 4 5 6 7 8 9 Número de alumnos 2 2 4 5 8 9 3 4 2 3.2. Medidas de dispersión o concentración Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución. Las medidas de dispersión son: Rango o recorrido Varianza Desviación estándar 3.2.1. Rango o recorrido El rango es la diferencia entre el mayor y el menor de los datos de una distribución estadística. 3.2.2. Varianza / Desviación estándar 3.2.2.1. Varianza La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística. La varianza se representa por. 17

Varianza para datos agrupados Para simplificar el cálculo de la varianza vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores. Varianza para datos agrupados Ejercicios de varianza Calcular la varianza de la distribución: 9, 3, 8, 8, 9, 8, 9, 18 18

Calcular la varianza de la distribución de la tabla: x i fi xi fi xi 2 fi [10, 20) 15 1 15 225 [20, 30) 25 8 200 5.000 [30,40) 35 10 350 12.250 [40, 50) 45 9 405 18.225 [50, 60) 55 8 440 24.200 [60,70) 65 4 260 16.900 [70, 80) 75 2 150 11.250 42 1820 88050 1. La varianza será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales. 2. Si a todos los valores de la variable se les suma un número la varianza no varía. 3. Si todos los valores de la variable se multiplican por un número la varianza queda multiplicada por el cuadrado de dicho número. 4. Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza total. Si todas las muestras tienen el mismo tamaño: Si las muestras tienen distinto tamaño: 19

Observaciones sobre la varianza 1. La varianza, al igual que la media, es un índice muy sensible a las puntuaciones extremas. 2. En los casos que no se pueda hallar la media tampoco será posible hallar la varianza. 3. La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones están elevadas al cuadrado. 3.2.2.2. Desviación típica La desviación típica es la raíz cuadrada de la varianza. Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación. La desviación típica se representa por σ. Desviación típica para datos agrupados Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores. Desviación típica para datos agrupados 20

Ejercicios de desviación típica Calcular la desviación típica de la distribución: 9, 3, 8, 8, 9, 8, 9, 18 Calcular la desviación típica de la distribución de la tabla: x i f i xi fi xi 2 fi [10, 20) 15 1 15 225 [20, 30) 25 8 200 5.000 [30,40) 35 10 350 12.250 [40, 50) 45 9 405 18.225 [50, 60) 55 8 440 24.200 [60,70) 65 4 260 16.900 [70, 80) 75 2 150 11.250 42 1.820 88.050 Propiedades de la desviación típica 1. La desviación típica será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales. 2. Si a todos los valores de la variable se les suma un número la desviación típica no varía. 3. Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número. 4. Si tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones típicas se puede calcular la desviación típica total. 21

Si todas las muestras tienen el mismo tamaño: Si las muestras tienen distinto tamaño: Observaciones sobre la desviación típica 1. La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas. 2. En los casos que no se pueda hallar la media tampoco será posible hallar la desviación típica. 3. Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media. Desviación media La desviación respecto a la media es la diferencia entre cada valor de la variable estadística y la media aritmética. Di = x x La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media. La desviación media se representa por 22

Ejemplo Calcular la desviación media de la distribución: 9, 3, 8, 8, 9, 8, 9, 18 Desviación media para datos agrupados Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es: Ejemplo Calcular la desviación media de la distribución: x i f i xi fi xi 2 fi [10, 20) 15 1 15 225 [20, 30) 25 8 200 5.000 [30,40) 35 10 350 12.250 [40, 50) 45 9 405 18.225 [50, 60) 55 8 440 24.200 [60,70) 65 4 260 16.900 [70, 80) 75 2 150 11.250 42 1.820 88.050 23

3.3. Coeficiente de variación Relación entre el tamaño de la media y la variabilidad de la variable, Su fórmula expresa la desviación estándar como porcentaje de la media aritmética, mostrando una mejor interpretación porcentual del grado de variabilidad que la desviación típica o estándar. Por otro lado presenta problemas ya que a diferencia de la desviación típica este coeficiente es variable ante cambios de origen. Por ello es importante que todos los valores sean positivos y su media dé, por tanto, un valor positivo. A mayor valor del coeficiente de variación mayor heterogeneidad de los valores de la variable; y a menor C.V., mayor homogeneidad en los valores de la variable. Suele representarse por medio de las siglas C.V. Se calcula: Donde es la desviación típica, y es la Media. Se puede dar en porcentaje calculando: Características del coeficiente de variación El coeficiente de variación no posee unidades. El coeficiente de variación es típicamente menor que uno. Sin embargo, en ciertas distribuciones de probabilidad puede ser 1 o mayor que 1. Para su mejor interpretación se expresa como porcentaje. Depende de la desviación típica, también llamada "desviación estándar", y en mayor medida de la media aritmética, dado que cuando ésta es 0 o muy próxima a este valor el C.V. pierde significado, ya que puede dar valores muy grandes, que no necesariamente implican dispersión de datos. El coeficiente de variación es común en varios campos de la probabilidad aplicada, como teoría de renovación y teoría de colas. En estos campos la distribución exponenciales a menudo más importante que la distribución normal. La desviación típica de una distribución exponencial es igual a su media, por lo que su coeficiente de variación es 1. Las distribuciones con un C.V. menor que uno, como la distribución de Erlang se consideran de "baja varianza", mientras que aquellas con un C.V. mayor que uno, como la distribución hiperexponencial se consideran de "alta varianza". Algunas fórmulas en estos campos se expresan usando el cuadrado del coeficiente de variación, abreviado como S.C.V. (por su siglas en inglés) 24