Tema 2 Distribución de datos y representación gráfica IMADIL 2014-2015 Ignacio Martín y José Luis Padilla ÍNDICE 1.Conceptos previos 2.Tablas de frecuencias 3.Representaciones gráficas (RG) 4.Gráfico de tallo y hojas 5.Normas para las RG 1. Conceptos previos 3 Una variable (símbolos: X o Y) es una característica observable que varía entre los diferentes individuos de una población. Los posibles valores de una variable suelen denominarse modalidades (X i o Y j ) Cuando la variable sólo se manifiesta en una modalidad, será considerada como constante. 1
1. Conceptos previos 4 Tipos de variables: Cualitativas Variables Cuantitativas Discreta Continua 1. Conceptos previos 5 Las modalidades pueden agruparse en clases (intervalos) Edades: Menos de 20 años, de 20 a 50 años, más de 50 años Hijos: Menos de 3 hijos, De 3 a 5, o más hijos Las modalidades/clases deben formar un sistema exhaustivo y excluyente Exhaustivo: No podemos olvidar ningún posible valor de la variable Mal: Cuál es su color del pelo: (Rubio, Moreno)? Bien: Cuál es su grupo sanguíneo? Excluyente: Nadie puede presentar dos valores simultáneos de la variable Estudio sobre el ocio Mal: De los siguientes, qué le gusta: (deporte, cine) Bien: Le gusta el deporte: (Sí, No) 1. Conceptos previos Presentación ordenada de datos Tabla de frecuencia Género Hombre 4 Mujer Gráfica Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra. 2
ÍNDICE 1.Conceptos previos 2.Tablas de frecuencias 3.Representaciones gráficas 4.Gráfico de tallo y hojas 5.Normas para las RG 2. Distribuciones de frecuencias Ejemplo: Tipo de color asociado a la palabra paz pidiendo que se ajustaran a cuatro colores (Warren, 1974). Se preguntó a 100 personas. A, R, R, A, R, V, R, A, R, V, R, A, V, V, A, V, A, V, A, V, V, A, V, A, V, V, A, V, V, A, V, A, V, V, V, V, A, V, A, V, A, A, A, A, A, A, A, A, A, A, A, A, A, A, R, A, A, A, A, V, A, A, A, R, A, A, V, A, A, A, A, A, A, A, A, A, A, A, A, R, A, A, A, A, A, A, A, V, A, A, A, A, A, A, A, A, A, A, A, A, R, A, A, A, A, V, A, V, A, A, V, A, A, R, A, A, V, A, 8 2. Distribuciones de frecuencias 9 R, R, R, R, R, R, V, V, V, V, V, V, V, V, V, V, V, V, V, V, V, V, V, A, A, A, A, A, A, A, DISTRIBUCIÓN DE FRECUENCIAS Clase o modalidad Frecuencia X i absoluta Frecuencia n i relativa porcentaje f i % Rojo Verde Azul X i n i f i Amarillo 17 58 19 +17+58+19 100 /100 0,0 0,17 0,58 0,19 1,00 % 17 58 19 100 3
2. Tablas de frecuencias Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o poca). Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad Frecuencias relativas (porcentajes): Idem, pero dividido por el total 1 0 Frecuencias y porcentajes acumulados: Sólo tienen sentido para variables ordinales y numéricas 10 2. Tablas de frecuencias EJEMPLO 1: Tabla de frecuencias obtenida con un programa de análisis estadístico. Responda a las siguientes preguntas observando la tabla: 1) Qué porcentaje de individuos tiene menos de 3 hijos? 2) Cuántos individuos tienen entre 4 y hijos? 1 1 11 ÍNDICE 1.Conceptos previos 2.Distribuciones de frecuencias 3.Representaciones gráficas 4.Gráfico de tallo y hojas 5.Normas para las RG 4
3. Representaciones gráficas: Variables cualitativas Diagramas de sectores No usarlo con variables ordinales. El área de cada sector es proporcional a su frecuencia (absolutas o relativas) 13 14 3. Representaciones gráficas: Variables cualitativas Diagramas de rectángulos Tienen la misma base y su alturas son proporcionales a las frecuencias (proporciones y porcentajes) correspondientes Las modalidades pueden ser colocadas en cualquier orden (sólo nominales), pues representan distintos aspectos, no ordenados de una característica o variable 15 3. Representaciones gráficas: Variables cualitativas Pictogramas Fáciles de entender. El área de cada modalidad debe ser proporcional a la frecuencia. 5
3. Representaciones gráficas : Variables cuantitativas Histogramas para v. continuas El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo. 1 1 3. Representaciones gráficas: V. cuantitativas Son diferentes en función de que las variables sean discretas o continuas. Con frecuencias absolutas o relativas. Diagramas barras para v. discretas Se deja un hueco entre barras para indicar los valores que no son posibles 17 17 3. Representaciones gráficas Diagramas acumulados 18 50 45 40 35 30 25 20 15 10 5 0 Número de hijos 1 2 3 4 5 18
ÍNDICE 1.Conceptos previos 2.Distribuciones de frecuencias 3.Representaciones gráficas 4.Gráfico de tallo y hojas 5.Normas para las RG DIAGRAMAS DE TALLO Y HOJAS Los datos se organizan en un diagrama de tallo y hojas (Freixa, Salafranca, Guàrdia, Ferrer y Turbany, 1992), del modo siguiente: Se elige el intervalo de unidades para representar el tronco, teniendo en cuenta que hay que cubrir todos los datos. Se ha de indicar en algún lugar en el diagrama, la unidad que se utiliza en el tronco para su fácil comprensión. Las hojas del diagrama se escriben separadas del tronco por una línea vertical y corresponden a las unidades de cada uno de los datos que se han obtenido. Si las hojas se han escrito a la derecha del tronco, a la izquierda, y separadas por una línea vertical, se escriben las frecuencias absolutas, es decir, el número de veces que se repite cada dato. Supongamos, por ejemplo, los datos, 12, 12, 14, 15, 1, 20, 21, 23, 24, 24, 27, 34, 34, 34, 44, 45, 4, 48, 48. El tallo o tronco de la organización son los valores que representan las decenas de los datos, y a la derecha aparece cada hoja, o valor de las unidades de los mismos: 1 2 2 4 5 2 0 1 3 4 4 7 3 4 4 4 4 4 5 8 8 7
ÍNDICE 1. Conceptos previos 2. Distribuciones de frecuencias 3. Representaciones gráficas 4. Gráfico de tallo y hojas 5. Normas para las RG Normas prácticas para las representaciones gráficas 1. El eje de abscisas (horizontal) representará las puntuaciones de las variable de que se trate y en el eje de ordenadas (vertical) representará las frecuencias, proporciones o porcentajes 2. En el eje de abscisas pondremos las puntuaciones menores a las izquierda y las mayores a la derecha. En el eje de ordenadas pondremos las frecuencias menores abajo y las mayores arriba Normas prácticas para las representaciones gráficas 3. La intersección de los dos ejes será tomada como origen de puntuaciones en el eje de abscisas y como origen de frecuencias, proporciones o porcentajes en el eje de ordenadas 4. Si la puntuación mínima de que se trate es alta y la frecuencia mínima también alta, en ambos ejes se suele hacer dos corte según la figura 5. Conviene indicar explícitamente qué representa el gráfico en general y que representan cada uno de sus ejes 8
Anexo: Agrupación por intervalos de v. cuantitativas continúas Ejemplo: Cincuenta estudiantes han obtenido en una prueba de inteligencia las siguientes puntuaciones 8, 11, 11, 8, 9, 10, 1, 5, 12, 19, 13, 14, 9, 13, 15, 9, 12, 1, 8, 7, 14, 11, 15,, 14, 14, 17, 11,, 9, 10, 19, 12, 11, 12,, 15, 1, 1, 12, 13, 12, 12, 8, 17, 13, 7, 12, 14,12 Para crear la tabla de frecuencias por intervalos, primero ordena las puntuaciones: Anexo: Agrupación por intervalos de v. cuantitativas continúas Elegimos cinco intervalos. La amplitud total sería 19-5=14. Si dividimos 14/5=2.8. La amplitud mínima de cada intervalo será 3. Así la distribución sería la siguiente 5-7 8-10 11-13 14-1 17-19 n i 10 18 12 4 50 f i 0,12 0,20 0,3 0,24 0,08 1,00 % 12 20 3 24 8 100 N i 1 34 4 50 F i 0,12 0,32 0,8 0,92 1,00 % 12 32 8 92 100 Anexo: Agrupación por intervalos de v. cuantitativas continúas LÍMITES APARENTES LÍMITES EXACTOS PUNTO MEDIO 5-7 8-10 11-13 14-1 17-19 4,5-7,5 7,5-10,5 10,5-13,5 13,5-1,5 1,5-19,5 x i 9 12 15 18 n i 10 18 12 4 50 f i 0,12 0,20 0,3 0,24 0,08 1,00 9
Anexo: Agrupación por intervalos de v. cuantitativas continúas Amplitud, punto medio de los intervalos y amplitud total La amplitud de un intervalo es la diferencia entre su límite exacto superior y su límite exacto inferior. En el ejemplo anterior la amplitud de sus cuatro intervalo es 3 (7,5-4,5= 3). Definimos como punto medio del intervalo a la media aritmética de los sus dos límites exactos. Así en el ejemplo anterior del primer intervalo por ejemplo sería (4.5+7.5)/2= y del resto 9, 12, 15, 18. Llamaremos amplitud total o rango de una serie de valores numéricos a la diferencia entre el límite exacto superior de intervalo máximo y el límite exacto inferior del intervalo mínimo. En nuestro caso 19,5-4,5=15 NORMAS para la construcción de intervalos 1. Se recomienda que con 100 o mas observaciones, que el número de intervalos sea entre12 y 18. 2. Comenzamos fijando el número de intervalos en función del número total de observaciones. La amplitud de los intervalos dependerá de la amplitud total 3. Se establece una partición del recorrido de la variable, es decir de las unidades entre las cuales se encuentran contenidos los datos, en intervalos de valores. NORMAS para la construcción de intervalos 4. El número de intervalos no ha de ser excesivamente grande. Algunos autores recomiendan elegir amplitudes iguales a alguno de estos valores 1, 3, 5, 10 ó 20. Estos número y sus múltiples son fácilmente manejables. Sin embargo este criterio es arbitrario y puede ser rechazado cuando sea conveniente. 5. Al dividir en intervalos el recorrido de la variable se supone que las puntuaciones contenidas en cada intervalo se reparten homogéneamente dentro del mismo.. Representaremos cada intervalo, para realizar los cálculos posteriores, por el punto medio. 10