Organización de los datos y representaciones gráficas

Documentos relacionados
Estadística ESTADÍSTICA

Estadística. Análisis de datos.

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.

ESTADÍSTICA UNIDIMENSIONAL

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

II. ORGANIZACIÓN N Y PRESENTACIÓN N DE DATOS

3 ANALISIS DESCRIPTIVO DE LOS DATOS

alumnos: 20 = n - 100% - x i son los valores que aparecen en los datos. f i

Datos cuantitativos. Método tabular

PROBABILIDAD. Unidad I Ordenamiento de la Información

Tema 3: Estadística Descriptiva

Conceptos de Estadística

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

PRÁCTICAS DE ESTADÍSTICA CON R

UNIDAD 6 Medidas de tendencia central

REPASO DE ESTADÍSTICA DESCRIPTIVA

M i. Los datos vendrán en intervalos en el siguiente histograma de frecuencias acumuladas se ilustra la mediana.

1.5. Representaciones Gráficas

Medidas de variabilidad (dispersión)

Descripción de los Datos

1, 2, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 2, 1, 1, 4, 1

ESTADÍSTICA. Rincón del Maestro:

+ f 2. + f 3. p i. =h i 100. F i. = f i. H i. = h i. P i. = p i

TEMA IV PERCENTIL Y ESTADIGRAFOS DE POSICION

Distribuciones de Frecuencia

Curso de Estadística Aplicada a las Ciencias Sociales

Apuntes de Estadística

TEMA 1. ORGANIZACION Y REPRESENTACION DE LOS DATOS DE UNA MUESTRA Métodos para datos cualitativos.

EJERCICIOS RESUELTOS TEMA 1.

Estadística Inferencial. Estadística Descriptiva

Tabla de frecuencias agrupando los datos Cuando hay muchos valores distintos, los agruparemos en intervalos (llamados clases) de la misma amplitud.

ESTADÍSTICA SEMANA 2

COLEGIO CALASANCIO. MADRID. ESTADÍSTICA UNIDIMENSIONAL. 4º E.S.O.

1. Los pesos (en Kgs.) de los niños recién nacidos en una clínica maternal durante el último año han sido:

INSTITUCIÓN EDUCATIVA NUESTRA SEÑORA DEL PALMAR SEDE LICEO FEMENINO GUÍA DE ESTADÍSTICA GRADO DÉCIMO

Tema 4. Herramientas de representación gráfica

1. Definición de Estadística

CUARTIL Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales.

Otra forma de enumerar los resultados es en una tabla de frecuencia:

1. Estadística. 2. Seleccionar el número de clases k, para agrupar los datos. Como sugerencia para elegir el k

GLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.

1.- Diagrama de barras

ANÁLISIS DE DATOS UNIDIMENSIONALES

ESTADISTICA Y PROBABILIDAD ESTADÍSTICA

4. Medidas de dispersión

ESTADÍSTICA. A su vez, las variables pueden ser :

Tema 1: Estadística descriptiva. Probabilidad y Estadística (Ing. Informática). Tema 1: Estadística descriptiva 1

Clase 2. Tema 2. Medidas de posición

Primero definiré lo que es un gráfico o diagrama en estadística

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA 2)

Exploración de datos

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

Medidas de Posición Preparado por: Dra. Noemí L. Ruiz Limardo 2007 Derechos de Autor Reservados Revisado 2010

ESTADÍSTICA CON EXCEL

ESTADÍSTICA DESCRIPTIVA

2.1. Introducción Análisis exploratorio Análisis exploratorio para variables con muchas modalidades

Una vez que tenga la información de la muestra ordenada, se pueden emitir conclusiones finales.

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

MEDIDAS ESTADÍSTICAS Medidas de Tendencia Central y de Variabilidad

COLEGIO INTERNACIONAL SEK ALBORÁN. Middle Years Programme [PROGRAMA DE AÑOS INTERMEDIOS] CURSO ACADÉMICO

IMADIL /10/2014

Estadística. 1. Conceptos de Estadística. 2. Variable estadística. 3. Tablas de estadística. 4. Diagrama de barras y polígonos de frecuencias.

1.2 Medidas de variación: Rango, desviación estándar y coeficiente de variación

Ejercicios de estadística.

Estadística. Conceptos de Estadística. Un individuo o unidad estadística es cada uno de los elementos que componen la población.

CUARTILES, DIAGRAMA DE CAJA Y BIGOTES, DECILES Y PERCENTILES CON EXCEL Y CON GEOGEBRA

CAPÍTULO IV MEDIDAS DE TENDENCIA CENTRAL Y DE POSICION

Julio Deride Silva. 27 de agosto de 2010

ESTADÍSTICA DESCRIPTIVA

ÍNDICE INTRODUCCIÓN... 21

ESTADISTICA. Tradicionalmente la aplicación del término estadística se ha utilizado en tres ámbitos:

MEDIDAS DE TENDENCIA CENTRAL

Medidas de Dispersión

Práctica 4 de Estadística

ESTADÍSTICA SEMANA 3

1 - TEORIA DE ERRORES : distribución de frecuencias

1 POBLACIÓN Y MUESTRA

9.1. Nociones básicas.

Estadística Inga Patricia Juárez, 2017 MEDIDAS DE TENDENCIA CENTRAL

Una población es el conjunto de todos los elementos a los que se somete a un estudio estadístico.

MEDIDAS DE CENTRALIZACIÓN, POSICIÓN Y DISPERSIÓN. Matemáticas PAI 5 (4ºESO)

TEMA 7 EL MODELO DE LA CURVA NORMAL. CONCEPTO Y APLICACIONES

Guía de Matemática Cuarto Medio

Julio Deride Silva. 18 de agosto de 2010

Tipos de gráficas y selección según los datos CIENCIA, TECNOLOGIA Y AMBIENTE

Estudio estadístico: es la organización y representación de una gran cantidad de datos. Población: es el conjunto que se estudia.

INGENIERO EN COMPUTACION TEMA 1.2: PRESENTACIÓN GRÁFICA DE DATOS

Estadística. La Estadística es la parte de las Matemáticas que estudia una serie de datos para compararlos y sacar conclusiones.

Estadística aplicada a la comunicación

TEMA III. REPRESENTACION GRAFlCA

Estadística Descriptiva Métodos descriptivos visuales y medidas resumen

Lección 19: Histogramas

Gráficos Estadísticos

2º ESO UNIDAD 14 ESTADÍSTICA Y PROBABILIDAD

CUARTO DE ESO. MATEMÁTICAS A

MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN

Medidas de centralización

Medidas de Tendencia Central

Transcripción:

Publicado en: Morales Vallejo, Pedro (2008) Estadística aplicada a las Ciencias Sociales. Madrid: Universidad Pontificia Comillas (edit@pub.upcomillas.es) Organización de los datos y representaciones gráficas Universidad Pontificia Comillas, Madrid Facultad de Ciencias Humanas y Sociales Pedro Morales Vallejo (última revisión, 26 de Agosto, 2007) índice 1. Organización de los datos: la distribución de frecuencias... 3 1.1. Agrupación en intervalos... 3 1.2. Número de intervalos... 3 1.3. Valor del intervalo... 4 1.4. Cómo comenzar la agrupación en intervalos... 4 2. Representaciones gráficas... 5 2.1. Polígono de frecuencias... 5 2.2. Polígono de frecuencias relativas... 7 2.3. Histograma... 7 2.4. Diagrama de cajas... 8

2

3 1. Organización de los datos: la distribución de frecuencias Organizar los datos, e incluso hacer alguna representación gráfica como las que iremos viendo, es muy importante porque: a) Nos hacemos una idea preliminar de la situación, nos da una visión de conjunto muy útil. b) Se facilitan cálculos posteriores, y, aunque los hagamos con un programa informático, una buena sistematización de los datos puede sugerirnos posibles cálculos y análisis, c) Se facilita la presentación y comunicación de todo tipo de resultados. Tanto la distribución de frecuencias (cuántos sujetos han obtenido cada puntuación) como las representaciones gráficas que vamos a eponer (y muchas otras) las tenemos ya programadas en programas de ordenador, pero aun así conviene saber hacerlas a mano por estas razones: a) No siempre tenemos todos los datos individuales introducidos en un ordenador o en una hoja de cálculo; b) A veces partimos de una distribución de frecuencias ya hecha previamente (o que encontramos publicada); c) En cualquier caso es útil ver paso a paso cómo se hacen estas distribuciones de frecuencias y representaciones gráficas. El primer paso es siempre organizar la distribución de frecuencias. La frecuencia es el número de casos o sujetos que ha obtenido cada puntuación. Para hacer esta distribución ponemos en dos columnas la puntuación directa (X) y la frecuencia (f) o número de casos. En el ejemplo de la tabla 1 tenemos la distribución de frecuencias de 40 sujetos que han respondido a una escala de comunicación interpersonal. 1.1. Agrupación en intervalos Cuando las posibles puntuaciones son muchas, podemos agruparlas en intervalos para simplificar su presentación e interpretación. Los datos de la tabla 1. están sin agrupar. Podemos agruparlas de dos en dos, de tres en tres, etc. Cada agrupación se denomina un intervalo. 1.2. Número de intervalos El criterio general es que no haya menos de 10 intervalos o agrupaciones, porque con menos de 10 intervalos se pierde mucha información; además algunos cálculos posteriores se hacen tomando como dato el punto medio del intervalo y resultan muy ineactos si los intervalos son muy pocos. Tampoco es aconsejable que haya más de 20 intervalos, porque se matiza más de lo que con frecuencia es necesario y los gráficos resultantes pueden quedar poco claros, sin resumir bien la información. El número de intervalos se calcula por tanteo. El primer paso es calcular el recorrido o amplitud que es igual a la puntuación más alta menos la puntuación X f 77 1 76 0 75 1 74 1 73 2 72 1 71 0 70 2 69 0 68 2 67 0 66 0 65 3 64 2 63 3 62 2 61 1 60 1 59 2 58 0 57 1 56 3 55 2 54 1 53 1 52 1 51 0 50 0 49 1 48 2 47 0 46 1 45 0 44 0 43 0 42 1 41 0 40 0 39 1 38 1 más baja más uno. Tabla 1. Sumamos una unidad a la diferencia entre las puntuaciones más alta y más baja porque el recorrido o amplitud se calcula a partir de los límites etremos; por esto sumamos.5 a la puntuación más alta y restamos.5 a la puntuación más baja: suponemos que la puntuación mayor no es en este

4 caso 77, sino 77.5, y que la más baja no es 38, sino 37.5 (sobre la amplitud o recorrido trataremos en el conteto de las medidas de dispersión). En los datos de la tabla 1 la amplitud es 77.5-37.5 (ó 77-38 + 1) = 40. Tenemos en principio 40 intervalos, demasiados. Si agrupamos las puntuaciones de dos en dos tendríamos 20 intervalos, demasiados quizás en este caso, con sólo 40 sujetos; si las agrupamos de tres en tres tenemos 14 intervalos, que es lo que hemos hecho en la agrupación que figura en la tabla 2. 1.3. Valor del intervalo X f 75-77 2 72-74 4 69-71 2 66-68 2 63-65 8 60-62 4 57-59 3 54-56 6 51-53 2 48-50 3 45-47 1 42-44 1 39-41 1 36-38 1 Tabla 2 El valor del intervalo (simbolizado por la letra i) es el número de puntuaciones que entran en cada intervalo (y que no hay que confundir con el número de intervalos). En la tabla 1, el valor del intervalo es i = 1 (datos sin agrupar); en los datos de la tabla 2 en cada intervalo hay tres puntuaciones, por lo que i = 3. El valor del intervalo se debe indicar siempre (como información y también porque entra en algunos cálculos, como el de los percentiles por interpolación, como se verá en su lugar). Es más cómodo que el valor del intervalo (i) sea un número impar, porque de esta manera el punto central del intervalo será un número entero, sin decimales. Esto resulta más cómodo porque el punto central del intervalo se utiliza en operaciones hechas a partir de datos agrupados. De hecho no puede hablarse de ninguna norma o regla; los valores de i más frecuentes son 2, 3, 5, 10 y 20. Por otra parte el hacer cálculos (como la media y otros) a partir de puntuaciones agrupadas y utilizando el punto medio del intervalo está menos justificado dada la facilidad de cálculo que nos dan las calculadoras programadas y los programas de ordenador. Estos cálculos pueden hacerse siempre a partir de las puntuaciones sin agrupar. 1.4. Cómo comenzar la agrupación en intervalos. Para comenzar la agrupación suele empezarse por las puntuaciones más bajas, las correspondientes al intervalo inferior. No se suele comenzar a partir de la puntuación más baja de hecho, sino por la inmediatamente inferior que sea múltiplo del valor del intervalo (i). Esta norma (que la puntuación más baja sea múltiplo del intervalo) responde a lo que suele proponerse y hacerse; se trata de una convención que no se sigue siempre. En nuestro ejemplo (tabla 1) la puntuación más baja es 38, que no es múltiplo de 3 (en este caso i = 3, tabla 2), y tampoco lo es 37; por eso comenzamos a partir de 36, que sí es múltiplo de 3 (36/3 = 12, número entero).

5 El último intervalo, el superior, se completa hasta incluir tres puntuaciones (pues 3 es el valor de i en este caso). Como la puntuación más alta es 77, no ha habido que añadir puntuaciones que de hecho nadie ha obtenido. 2. Representaciones gráficas A partir de la distribución de frecuencias podemos hacer diversos tipos de representaciones gráficas. Estas representaciones gráficas son especialmente útiles: a) Para disponer de una visión de conjunto que sin más cálculos nos permite hacernos una idea de la situación, comparar de manera intuitiva varios grupos, etc. b) Para comunicar resultados de manera intuitiva y fácilmente comprensible. La mera distribución de frecuencias ya puede cumplir con estos propósitos, pero los distintos tipos de gráficos son una ayuda importante. Aquí nos limitamos a eponer tres de los tipos de representaciones gráficas más comunes, polígonos de frecuencias, histogramas y diagrama de cajas Estas y otras representaciones gráficas también se encuentran ya programadas en hojas de cálculo como EXCEL. 2.1. Polígono de frecuencias Es una representación gráfica sencilla y clara; en la figura I tenemos el polígono de frecuencias hecho a partir de las frecuencias agrupadas de la tabla 2 Eje vertical (Y, o eje de las ordenadas): corresponde a las frecuencias o número de casos; Eje horizontal (X, o eje de las abscisas): corresponde a las puntuaciones Para mayor claridad en la presentación del gráfico, el eje horizontal suele ser un 50% más largo que el eje vertical; si el eje Y (vertical) mide 10, el eje X (horizontal) medirá 15 aproimadamente. Pasos que seguimos para construir un polígono de frecuencias: 1º En el eje de las abscisas (horizontal) se señalan los puntos inferiores de cada intervalo, añadiendo un intervalo más en cada etremo para mayor claridad. En la figura I el primer punto señalado es el 33: es el punto inferior del intervalo añadido al comienzo (intervalo 33-35), con una frecuencia de 0. En el etremo superior la última puntuación señalada es 78, ya que es el límite inferior del intervalo siguiente (78-80), también con frecuencia 0. Añadiendo dos intervalos etremos con frecuencia 0 se consigue que el polígono llegue hasta la línea horizontal de las abscisas; la figura queda cerrada y clara; ésta es la razón de añadir un intervalo más en cada etremo.

6 8 7 Y 6 5 4 Figura I 3 2 1 0 33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78 X Figura I: Polígono de frecuencias 2º Sobre el punto medio de cada intervalo señalamos la frecuencia, a la altura que corresponda del eje vertical de las ordenadas (que representa las frecuencias). Si unimos los puntos con líneas rectas, tenemos un polígono de frecuencias, si los unimos con un trazo curvo, tendremos una curva. En la tabla 3 y figura II hemos reducido el número de intervalos, agrupando las puntuaciones de 5 en 5 (i = 5). En este caso el intervalo más bajo comienza con 35 (múltiplo de 5). Nos quedan 9 intervalos. i = 5 X f 75-79 2 70-74 6 65-69 5 60-64 9 55-59 8 50-54 3 45-49 4 40-44 1 35-39 2 Tabla 3 9 8 Figura II 7 6 5 4 3 2 1 0 30 35 40 45 5 0 55 60 65 70 75 80 85 Al reducir el número de intervalos el polígono queda simplificado y tiene menos picos; la figura queda suavizada y tenderá a parecerse más a la distribución normal. Es importante caer en la cuenta de que a menor número de intervalos se pierde información aunque se puede ganar en claridad. En la figura I hay dos picos centrales que sugieren una distribución bimodal; y que han quedado reducidos a uno solo en la figura II. La figura queda más clara y suavizada. El hacer esto o no hacerlo (reducir el número de intervalos, simplificar la información) dependerá del tipo de información que se

7 quiere dar. Para dar una impresión gráfica general, y sin pretender mucho matiz, es preferible en principio reducir el número de intervalos. 2.2. Polígono de frecuencias relativas Los polígonos de frecuencias son especialmente útiles para comparar gráficamente dos o más grupos. Los polígonos se superponen en el mismo gráfico y queda una representación clara de los grupos. Cuando los grupos son de distinto tamaño, el incluir más de un polígono de frecuencias en el mismo gráfico se presta confusión. En este caso, para comparar gráficamente dos o más grupos, lo correcto no es utilizar frecuencias absolutas (el simple número de sujetos que hay en cada intervalo) sino frecuencias relativas: el tanto por ciento de sujetos que hay en cada intervalo. Estos tantos por ciento son las frecuencias relativas. El cálculo de las frecuencias relativas es muy sencillo: el número de sujetos en cada intervalo (f) se divide por el número total de sujetos (N) y se multiplica por cien: frecuencias relativas (%) = 100f N En la tabla 4 y figura III tenemos un ejemplo de dos polígonos de frecuencias relativas de dos grupos con distinto número de sujetos. X i = 6 grupo A f % grupo B f % 40% 35 % 30% 25% 20% 15% 10% 5% 0 Grupo A 75-79 69-74 63-68 57-62 51-56 45-50 39-44 1 7 2 13 4 27 5 33 3 20 N = 15 Tabla 4 1 5 6 30 5 25 2 10 4 20 2 10 N = 20 Grupo B 35.5 42.5 47.5 53.5 59.5 65.5 71.5 77.5 82.5 Punto medio de cada intervalo Figura III. Polígonos de frecuencias relativas de dos grupos con distinto número de sujetos. El utilizar frecuencia relativas (tanto por ciento de sujetos en cada intervalo) permite hacer gráficos comparativos cuando los grupos tienen un número distinto de sujetos (comparamos tantos por ciento, no números absolutos). 2.3. Histograma Otra representación gráfica sencilla y de frecuente uso es el histograma. En el histograma cada intervalo de frecuencias está representado por una barra. Cómo hacer un histograma puede verse fácilmente en la figura IV, donde aparece un histograma hecho a partir de los mismos datos de la tabla 3. En el eje de las abscisas (la base horizontal) se señalan los valores inferiores de cada intervalo. En el eje de ordenadas (eje vertical) se señalan las frecuencias o número de casos. En el histograma de la figura IV se ha superpuesto un polígono de frecuencias para facilitar la comparación y ver las diferencias entre el histograma y el polígono de frecuencias.

8 9 8 7 Figura IV 6 5 4 3 2 1 0 30 35 40 45 50 55 60 65 70 75 8 0 85 Figura IV: Histograma con polígono de frecuencias superpuesto 2.4. Diagrama de cajas Para construir un diagrama de cajas se toman como referencia las puntuaciones que dividen al grupo en cuatro partes iguales en número de sujetos; un 25 % en cada parte. En la figura V tenemos las puntuaciones de corte para dividir el grupo. 25 % 25 % 25 % 25 % Puntuación más alta Percentil 75 (Q 3 ) Mediana (Percentil 50) Percentil 25 (Q 1 ) Figura V Puntuación más baja La figura V no es un diagrama de cajas, simplemente nos dice qué puntuaciones debemos calcular para hacer el diagrama. La mediana (o percentil 50) divide al grupo en dos mitades con idéntico número de sujetos, entre el percentil 75 (o cuartil 3, Q 3 ) y la puntuación más alta tenemos un 25 % de sujetos y entre el percentil 25 (o cuartil 2, Q 2 ) y la puntuación más baja tenemos otro 25 %. Los percentiles y su cálculo se entenderán mejor al ver los distintos tipos de puntuaciones, pero el concepto de percentil (tanto por ciento de sujetos que caen debajo de una puntuación) se capta con facilidad.

9 En los diagramas de cajas se visualiza el espacio que ocupa cada 25% del grupo en términos de puntuaciones directas (columna de la izquierda). Estos diagramas de cajas son especialmente útiles para hacer una comparación visual en dos tipos de situaciones: a) Cuando tenemos dos o más grupos medidos en la misma variable; éste es probablemente el caso más frecuente. En la figura VI tenemos el gráfico que corresponde a tres grupos de alumnos universitarios (Psicología, N = 65; Derecho, N = 65; Ingeniería N = 69) medidos con una escala de autoeficacia. La línea que divide el recuadro corresponde a la mediana. De un golpe de vista vemos dónde están las puntuaciones más altas y más bajas y encerrado en un recuadro dónde se sitúa el 50% central del grupo (entre los percentiles 75 y 25). La línea doble dentro del recuadro indica dónde está la mediana, que divide al grupo en dos mitades iguales 1. 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 Psic. Derch. Ing. 25% 50% 25% Puntaje más alto Percentil 75 Mediana Percentil 25 Puntaje más bajo Figura VI b) Cuando tenemos un mismo grupo medido en varias variables, como sucede en el ejemplo de la figura VII. Cada variable está medida por un idéntico número de ítems, por lo que son comparables las puntuaciones absolutas de cada subescala. En la figura VII tenemos el gráfico correspondiente a un único grupo de 283 sujetos que han respondido a un sencillo test que mide cinco variables propias del Análisis Transaccional. Cada variable está medida por ocho ítems con respuestas de 1 (nada) a 6 (mucho), por lo que las puntuaciones máima y mínima posibles son 48 y 8. 1 Si el número de ítems fuera distinto en cada subescala, a cada sujeto se le divide su total en cada subescala por el número de ítems de la misma.

10 Padre Punitivo Padre Nutricio Adulto Niño Natural Niño Adaptado 48 47 46 45 44 43 < 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 Figura VII De un golpe de vista vemos que en Padre Nutricio el 50% central está concentrado en unas pocas puntuaciones (aproimadamente entre 35 y 40) y que son además las más altas en términos comparativos; vemos también que el límite inferior del 50% central en Adulto coincide con el límite superior del 50% central en Padre Punitivo (entre 28 y 29), etc.