Organización y representación TEMA 3.2
Distribución de frecuencias ( tablas de frecuencias ) Representación gráfica
Tablas de frecuencias Las series estadísticas deben presentarse ordenadas y clasificadas (criterios previos). Resumen una variable de manera sencilla agrupar mucha información en pocos datos) Ordenación en clases o intervalos consignando la frecuencia de cada dato Distinguir entre variables cualitativas/cuantivativas (discretas y continuas)
Tablas de frecuencias Variables cualitativas y cuantitativas discretas Ordenar los datos en dos columnas: Valores de la variable x i Frecuencias absolutas n i x i n i x 1 n 1 x 2 n 2 x 3 n 3.... x K n k
L i-1 -L i n i x i L 0 -L 1 n 1 x 1 L 1 -L 2 n 2 x 2 L 2 -L 3 n 3 x 3 Organización y representación Tablas de frecuencias Variables continuas (datos agrupados) El campo de variación de la variable se agrupa en intervalos de clase no un único valor sino un intervalo de valores (igual o diferente amplitud de clase (a i )...... L K-1 -L K n k x k Límites de la clase L i-1 -L i valores superior e inferior de una clase Cada clase es representada por un único valor marca de clase x i
Tabla de frecuencias: Construcción de tabla de frecuencias (variables continuas) Número de clases Número de clases Rango Amplitud de cada clase Marca de cada clase Límites inferior y superior de cada clase
Tabla de frecuencias: Número de clases k (sugerencia: 10-15 redondear al entero más cercano) N Criterio de Norcliffe Criterio de Sturgess = 1 + 3.322(log N) N Criterio de Huntsberger =1+ 3,3 log Criterio de Brooks and Carruthers Otros = =1+ log 2 N =< 5 log N
Tablas de frecuencias Rango K*a R Amplitud de cada clase Número entero igual (opción A) o un poco mayor (opción B) que el resultado. La amplitud puede tener decimales Redondeo? (no necesariamente)
Tablas de frecuencias Amplitud de cada clase dos posibles opciones OPCIÓN 1: Si no redondeamos, es decir, si a = r k k * a = r Límites inferior y superior L = X i 1 min L = L + i i 1 a
Tablas de frecuencias Amplitud de cada clase dos posibles opciones OPCIÓN 2: redondeamos por exceso "sobrante" a > r * k Sobrante = k * a Este "sobrante" se reparte a partes iguales entre el primer y el último intervalo r L i 1 = X min sobrante 2 L = L + i i 1 a
Tablas de frecuencias Marca de clase m L + = i L i 1 2
Tabla de frecuencias Datos agrupados 168,180,171,156,170,179,164,165,185,170, 175,165,180,162,160,172,178,167,187,155
Tabla de frecuencias Datos agrupados R = X max X min = 187 155 = 32 k luego = n = 20 = 4,47. k = 4 a = k R = 32 = 4 8
Tabla de frecuencias Datos agrupados (sin redondeo a = 8) L i = X 155 L = L + a = 155 + 8 163 i 1 min = i i 1 = L i-1 -L i x i n i N i f i F i [155, 163) [163, 171) [171, 179) [179, 183)
Tabla de frecuencias Datos agrupados (con redondeo a= 10) Sobrante = k * a r = 4*10 32 = 8 L i sobrante 8 1 = X min = 155 = 155 4 = 2 2 151 L i = Li 1 + a = 151+ 10 = 161
Tabla de frecuencias Datos agrupados (con redondeo a=10) L i-1 -L i x i n i N i f i F i [151, 161) [161, 171) [171, 181) [181, 191)
Tabla de frecuencias Notación intervalos de clase con datos agrupados Paréntesis excluye Corchetes incluye (3,8) no incluye ni 3 ni 8 (pero si 4, 5, 6, 7). [3,8] incluye 3 y 8, además de los intermedios. (3,8] incluye 8, pero 3 (está abierto por el 3 y cerrado por el 8) [3,8) incluye al 3, pero no al 8 (está cerrado por el 3 y abierto por el 8)
Tabla de frecuencias Frecuencia absoluta: Número de veces que aparece un determinado valor n i. La suma de las frecuencias absolutas es igual al número total de datos (N). Para indicar resumidamente estas sumas se utiliza la letra griega Σ (suma o sumatorio) N = n + n + n +... + 1 2 3 n n N = n i= 1 n i
Tabla de frecuencias Frecuencia relativa (f i ) Cociente entre la frecuencia absoluta y el número total de datos f i = n i N La suma de las frecuencias relativas es igual a 1 Se puede expresar en %
Tabla de frecuencias Frecuencia (absoluta) acumulada (N i ) Suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. Frecuencia relativa acumulada (F i ) Cociente entre la frecuencia acumulada de un determinado valor y el número total de datos.
Tabla de frecuencias Variable discreta 32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29
Distribución de frecuencias Variable discreta Primera: variable ordenada de menor a mayor Segunda columna: recuento Tercera: frecuencia absoluta Cuarta: frecuencia acumulada Quinta: frecuencia relativa absoluta Sexta: frecuencia relativa acumulada x i n i N i f i F i 27 1 1 0.032 0.032 28 2 3 0.065 0.097 29 6 9 0.194 0.290 30 7 16 0.226 0.0516 31 8 24 0.258 0.774 32 3 27 0.097 0.871 33 3 30 0.097 0.968 34 1 31 0.032 1 31 1
Tabla de frecuencias Variable continua 3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
Tabla de frecuencias Variable continua Rango : sustracción del valor más alto y más bajo (R = 48-3 = 45) Número de clases k = 5/6 (ver criterios) Amplitud a = 45/6 = 7,5; a = 45/5 = 9 ó 10 Intervalos?
Tabla de frecuencias Variable continua L i-1 -L i x i n i N i f i F i [0, 10) 7.5 2 2 0.05 0.05 [10, 20) 17.5 6 8 0.015 0.200 [20, 30) 27.5 9 17 0.225 0.425 [30, 40) 37.5 17 34 0.425 0.85 [40, 50) 47.5 6 40 0.15 1 40 1
La representación gráfica Otra forma de resumir información Diferentes tipos según Variables cualitativas o cuantitativas Variables discretas o continuas
La representación gráfica Diagrama de barras Variables cualitativas o cuantitativas discretas Cada valor de la variable: una barra Altura barra: proporcional a la frecuencia del valor Ejes de coordenadas, Abscisa: valores de la variable Ordenada: frecuencias absolutas, relativas o acumuladas
La representación gráfica Diagrama de barras Ordenada: orden de los valores : De izquierda a derecha Variables cualitativas nominales: indiferente Variables cualitativas ordinales/cuantitativas orden natural
La representación gráfica Diagrama de barras Grupo sanguíneo de alumnos (variable ) frecuencias absolutas Grupo sanguíneo n i A 6 B 4 AB 1 0 9 20
La representación gráfica Diagrama de barras Barras de frecuencias relativa acumuladas
La representación gráfica Diagrama de Pareto Combinación de frecuencias relativas (barras) y acumuladas (línea) Orden de los valores: de más frecuente a menos frecuente Línea que representa las frecuencias acumuladas
La representación gráfica Histograma Similar a diagrama de barras, excepto: Rótulos corresponden a límites entre clases Aplicable a Variables cuantitativas continuas Variables cuantitativas discretas con un gran número de datos (agrupadas en clases)
La representación gráfica Histogramas con intervalos de amplitud diferente Calcular las alturas de los rectángulos del histograma h = i n a i i h i es la altura del intervalo n i es la frecuencia del intervalo a i es la amplitud del intervalo
La representación gráfica Intervalos de amplitud diferente Ejemplo: calificaciones (suspenso, aprobado, notable y sobresaliente) obtenidas por un grupo de alumnos. L i-1, L i n i h i [0, 5) 15 3 [5, 7) 20 10 [7, 9) 12 6 [9, 10) 3 3 50
La representación gráfica Histograma Como en diagrama de barras, su forma no cambia por usar frecuencias absolutas o relativas La forma del histograma SÍ cambia según el número de las clases Ejemplo: 4 histogramas con 5, 10, 18 y 34 clases
La representación gráfica Histograma Por tanto: a la hora de hacer un histograma es MUY IMPORTANTE la elección de las clases Regla empírica: empezar con pocas y a partir de resultados ir aumentando Para una población grande: el número de clases podrían ser muchas, y muy estrechas Tendencia: el histograma como una curva
La representación gráfica Polígono de frecuencias Marca de clase que coincide con el punto medio de cada rectángulo L i-1, L i x i n i N i [50, 60) 55 8 8 [60, 70) 65 10 18 [70, 80) 75 16 34 [80, 90) 85 14 48 [90, 100) 95 10 58 [100, 110) 110 5 63 [110, 120) 115 2 65 65
La representación gráfica Diagrama de sectores (tartas) Para todo tipo de variables (cualitativas, cuantitativas discretas), pero de pequeño tamaño El ángulo de cada sector es proporcional a la frecuencia absoluta correspondiente = 360º α N n i Se construye con la ayuda de un transportador de ángulos.
La representación gráfica Diagrama de sectores Alumnos Ángulo Baloncesto 12 124 Natación 3 36 Fútbol 9 108 Sin deporte 6 72 Total 30 360
La representación gráfica Interpretación de los gráficos Informan sobre la distribución de una variable Dispersión/concentración de los valores Cuál es el más frecuente (la moda) Si hay valores muy alejados del valor más frecuente Simetría de la distribución: igual número de casos con valores mayores y menores que el valor más frecuente...
La representación gráfica Interpretación de los gráficos Tipos de distribución Histograma unimodal simétrico Simetría: un valor más común (moda) aproximadamente en el centro. Ejemplos: notas, altura, peso...
La representación gráfica Interpretación de los gráficos Tipos de distribución Histograma simétrico bimodal Dos valores con más casos (modas) Simétrico en torno a valor con pocos casos Extraño: 2 poblaciones?
La representación gráfica Interpretación de los gráficos Tipos de distribución Histograma unimodal asimétrico a la izquierda Un valor con más casos (moda) Cola hacia la izquierda Ejemplo: esperanza de vida
La representación gráfica Interpretación de los gráficos Tipos de distribución Histograma unimodal asimétrico a la derecha Un valor con más casos (moda) Cola hacia la derecha Ejemplos: ingresos o gastos