Datos cuantitativos. Método tabular

Documentos relacionados
PREGUNTAS TIPO EXAMEN- ESTADÍSTICA DESCRIPTIVA 2

Estadística Inferencial. Estadística Descriptiva

Los estadísticos descriptivos clásicos (Robustez)

2 Pasos en un estudio estadístico.

M i. Los datos vendrán en intervalos en el siguiente histograma de frecuencias acumuladas se ilustra la mediana.

GLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.

Una población es el conjunto de todos los elementos a los que se somete a un estudio estadístico.

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

UNIDAD 7 Medidas de dispersión

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.

1.- Diagrama de barras

Métodos Matemá-cos en la Ingeniería Tema 5. Estadís-ca descrip-va

Bioestadística: Estadística Descriptiva

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

ESTADÍSTICA SEMANA 2

Estadística. Análisis de datos.

Histograma y Grafico de Control

Tema 7. Otras medidas descriptivas usuales Ejercicios resueltos 1

ANÁLISIS DESCRIPTIVO DE LOS DATOS DE VARIABLES CUANTITATIVAS

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

Estadística Descriptiva

Curva de Lorenz e Indice de Gini Curva de Lorenz

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

2º ESO UNIDAD 14 ESTADÍSTICA Y PROBABILIDAD

Fundamentos de Estadística y Simulación Básica

TEMA III. REPRESENTACION GRAFlCA

Gráficos Estadísticos

Y accedemos al cuadro de diálogo Descriptivos

TEMA IV PERCENTIL Y ESTADIGRAFOS DE POSICION

Módulo de Estadística

TEMA 1. ORGANIZACION Y REPRESENTACION DE LOS DATOS DE UNA MUESTRA Métodos para datos cualitativos.

Tema 1. Tabulación y representación gráfica de los datos

Distribuciones de Frecuencia

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

EJERCICIOS TEMA 1. Clasifica los siguientes caracteres estadísticos según sean cualitativos, variables discretas o variables continuas:

ESTADÍSTICA SEMANA 3

Tema 2: Estadísticos. Bioestadística. U. Málaga. Tema 2: Estadísticos 1

ESTADISTICA. Tradicionalmente la aplicación del término estadística se ha utilizado en tres ámbitos:

Universidad Nacional de Mar del Plata. Facultad de Ingeniería. Estadística Básica COMISIÓN 1. 1 Cuatrimestre 2016

II. ORGANIZACIÓN N Y PRESENTACIÓN N DE DATOS

ESTADÍSTICA CON EXCEL

Fase 2. Estudio de mercado: ESTADÍSTICA

CORPORACION UNIFICADA NACIONAL DE EDUCACION SUPERIOR CUN DEPARTAMENTO DE CIENCIAS BASICAS: MATEMATICAS

68 Bioestadística: Métodos y Aplicaciones. curtosis<0 curtosis=0 curtosis>0. Figura 2.10: Apuntamiento de distribuciones de frecuencias

Apuntes y ejercicios de Estadística para 2º E.S.O

Capítulo 2. Presentación, organización y descripción de datos. Continuar

ANÁLISIS EXPLORATORIO DE DATOS ESPACIALES ESTADÍSTICA ESPACIAL

ESTADISTICA Y PROBABILIDAD ESTADÍSTICA

Tabla de frecuencias agrupando los datos Cuando hay muchos valores distintos, los agruparemos en intervalos (llamados clases) de la misma amplitud.

MEDIDAS DE RESUMEN: MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. Lic. Esperanza García Cribilleros

ORGANIZACIÓN Y REPRESENTACIÓN GRÁFICA DE LOS DATOS

CUARTILES, DIAGRAMA DE CAJA Y BIGOTES, DECILES Y PERCENTILES CON EXCEL Y CON GEOGEBRA

2. DESCRIPCIÓN ESTADÍSTICA DE UNA VARIABLE. EJEMPLOS Y EJERCICIOS *.

UNIDAD 6 Medidas de tendencia central

INSTITUCION EDUCATIVA LA PRESENTACION NOMBRE ALUMNA:

Curso de Estadística Aplicada a las Ciencias Sociales

Universidad Diego Portales

Medidas de Posición n y. Boxplot Lección n 11 Secc Prof. Pedro A. Torres ESMA febrero de Prof. Pedro A. Torres, ESMA 3015 UPRM

ANÁLISIS DE DATOS. L.A. y M.C.E. Emma Linda Diez Knoth

Medidas de Tendencia Central.

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

Matemáticas Currículum Universal

Estadística descriptiva y métodos diagnósticos

Z i

Gráficos estadísticos. Estadígrafo

(Se corresponde con el tema 14 del libro de Oxford de 4ºESO Opc. B)

SOLUCIONARIO Medidas de tendencia central y posición

Tema 2 Estadística Descriptiva

Estadística. La Estadística es la parte de las Matemáticas que estudia una serie de datos para compararlos y sacar conclusiones.

Estadísticos Descriptivos

Teoría de la decisión

Tema 6. Variables aleatorias continuas

Medidas de Posición Preparado por: Dra. Noemí L. Ruiz Limardo 2007 Derechos de Autor Reservados Revisado 2010

Unidad Temática 1 Estadística descriptiva y análisis de datos

5.2 Representaciones gráficas

MEDIDAS DE TENDENCIA CENTRAL

ESTADISTICA APLICADA A LA EDUCACIÒN CODIGO: HOC220 EJERCICIOS SOBRE MEDIDAS DE TENDENCIA CENTRAL, POSICIONAL Y DE DISPERSIÓN

RELACIÓN DE EJERCICIOS TEMA 2

El conjunto de datos obtenidos en un estudio se pueden describir en base a tres elementos esenciales:

Contenidos. Tema 2: Conceptos estadísticos fundamentales. Distribuciones de frecuencias unidimensionalales. Enfoques de la Estadística

Curso de Estadística Unidad de Medidas Descriptivas. Lección 1: Medidas de Tendencia Central para Datos Crudos

Estadística Descriptiva Métodos descriptivos visuales y medidas resumen

1 - TEORIA DE ERRORES : distribución de frecuencias

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

FICHA DE REPASO: ESTADÍSTICA

Otra forma de enumerar los resultados es en una tabla de frecuencia:

Unidad III: Estadística descriptiva

PROBLEMAS ESTADÍSTICA I

CUARTO DE ESO. MATEMÁTICAS A

INSTITUCIÓN EDUCATIVA NUESTRA SEÑORA DEL PALMAR SEDE LICEO FEMENINO GUÍA DE ESTADÍSTICA GRADO DÉCIMO

Construcción de Gráficas en forma manual y con programados

Medidas de variabilidad (dispersión)

2. FRECUENCIAS Distribución de Frecuencias.

Estadística Descriptiva de una variable con STATGRAPHICS

Dispone de 1 hora para resolver las siguientes cuestiones planteadas.

CURSO VIRTUAL. Acceso a fuentes de información y manejo de redes sociales. Módulo 2

Tipos de gráficas y selección según los datos CIENCIA, TECNOLOGIA Y AMBIENTE

Medidas descriptivas I. Medidas de tendencia central A. La moda

Transcripción:

Datos cuantitativos Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar los datos en clases y a partir de estas determinar las características de la muestra y por consiguiente las de la población de donde fue tomada. Método tabular La distribución de frecuencia es la representación estructurada, en forma de tabla, de toda la información que se ha recogido sobre la variable que se estudia. El primer paso en el método tabular es el ordenamiento de los datos es decir el acomodamiento de los datos conforme a un antes y un después. El ordenamiento puede ser ascendente o descendente, conforme los datos vayan antes de un dato mayor o menor respectivamente Los datos se acomodan en grupos (clases) conforme a las semejanzas existentes entre ellos. Antes de hacer la clasificación, es necesario saber cuántos grupos habrá y que datos irán en cada grupo. Número de clases (k) Generalmente no es sencillo manejar más de 20 clases, ni es conveniente manejar menos de 5, por lo que estos números se establece como límite. Por lo tanto si se tienen 30 datos (n) serán 6 clases, si 50 datos 10 clases, si 43 datos 9 clases (el número de clases será un número natural), si se tienen 200 datos se harán 20 clases, etc.. n k = 5 Intervalo de clase Es el número de unidades que abarca cada clase. Intervalo de clase = Dato mayor- Dato menor Número de clases El intervalo de clase también puede variar ligeramente conforme se facilite la clasificación. Así, si el intervalo de clase resulta 9.6 puede aproximarse a 10, si 0.475 puede aproximarse a 0.5, si 8.8 puede aproximarse a 9 o a 10, aunque al hacerlo cambie el número de clases que también es arbitrario. El intervalo de clase obtenido es uniforme para todos los grupos o clases, sin embargo, si se desea analizar con mayor profundidad una clase determinada, su intervalo de clase puede dividirse en tantos sub-intervalos como se requiera. Como regla para un buen análisis se recomienda:

(Número de clases)(intervalo de clases) > Dato mayor - Dato menor Linderos de clase Son los puntos de separación entre una clase y otra. Lindero inferior: es el lindero inferior de cada clase Lindero superior: es el lindero mayor de cada clase Con los linderos se presenta una dificultad, dónde clasificar el lindero inferior?, dónde el lindero superior?. Algunos autores salvan esta dificultad aclarando que a cada clase pertenece el lindero inferior, pero no el superior. Sin embargo, la mayoría de autores prefiere establecer un nuevo concepto: límite de clase. Límite de clase Son los datos mayor y menor posibles en una clase. Para pasar de linderos de clase a límites de clase existen tres métodos: Primer método: Establece una frontera más exacta que los datos. Es decir, si nuestros datos están dados en enteros nuestras fronteras estarán en decimales, si los datos en decimales nuestras fronteras en centésimos, si centésimos las fronteras en milésimos,... Esto puede realizarse de dos formas diferentes: disminuyendo o aumentando a los linderos media unidad si nuestros datos son enteros, medio décimo si décimos, medio centésimo,... Aunque el lindero inferior de la primera clase y superior de la última clase no representan dificultad alguna de clasificación, la disminución o aumento se realiza en forma general para mantener el mismo intervalo de clase en todos los grupos. Segundo método: Consiste en aumentar el lindero inferior de cada clase en una unidad sí los datos son enteros, en décimos si décimos, en centésimos si centésimos,... Tercer método: Se disminuye el lindero superior de cada clase en una unidad si los datos son enteros, en un décimo si décimos, en un centésimo si centésimos,... Punto medio de clase ó Marca de clase ( M i ) Es el elemento representativo de los elementos de cada clase y es el punto central del grupo. Mi = Límite infi + Límite supi 2 Frecuencia absoluta (F)

Es la serie de totales de elementos contenidos en cada clase. Se obtiene mediante el recuento de datos pertenecientes a cada clase. Frecuencia relativa (Fr) Es la serie de porcentajes de elementos contenidos en cada clase con respecto al total de datos. En cada clase se obtiene mediante la fórmula: Fr = n F 100 Frecuencia acumulada absoluta (Fa) Es la serie de totales para cada clase de elementos menores al límite inferior de la clase siguiente (en el ordenamiento descendente serán los totales de elementos mayores al límite superior de la clase siguiente). Se obtiene de la suma de los elementos de cada clase en cuestión más los elementos de las clases anteriores. Frecuencia acumulada relativa (Far) Es la serie de porcentajes de elementos menores al límite inferior de la clase siguiente con respecto al total de datos. Far = Fa n 100 Ejemplo Se mide la altura de los niños de la clase de matemáticas y obtenemos los resultados en cm, haz una tabla de distribución de frecuencias. Estatura de 30 alumos: Número de alumno Estatura (cm) 1 1.25 2 1.28 3 1.27 4 1.21 5 1.22 6 1.29 7 1.30 8 1.24 9 1.27 10 1.29 11 1.23

12 1.26 13 1.30 14 1.31 15 1.28 16 1.30 17 1.22 18 1.25 19 1.20 20 1.28 21 1.21 22 1.29 23 1.26 24 1.22 25 1.28 26 1.27 27 1.26 28 1.23 29 1.22 30 1.21 Si presentamos esta información estructurada obtendríamos la siguiente tabla de frecuencia: Variable (valor) Frecuencia absoluta Frecuencia relativa Simple acumulad Simple Acumulada a 1.20 1 1 3.3% 3.3% 1.21 4 5 13.3% 16.6% 1.22 4 9 13.3% 30% 1.23 2 11 6.6% 36.6% 1.24 1 12 3.3% 40% 1.25 2 14 6.6% 46.6% 1.26 3 17 10% 56.6% 1.27 3 20 10% 66.6% 1.28 4 24 13.3% 80% 1.29 3 27 10% 90% 1.30 3 30 10% 100% Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendríamos una tabla de frecuencia muy extensa que aportaría muy poco valor a efectos de síntesis. (tal como se verá en la siguiente lección).

Ejemplo Supón que medimos la estatura de los habitantes de una colonia y obtenemos los siguientes resultados (cm Número de alumno Estatura 1 1.15 2 1.48 3 1.57 4 1.71 5 1.92 6 1.39 7 1.40 8 1.64 9 1.77 10 1.49 11 1.53 12 1.16 13 1.60 14 1.81 15 1.98 16 1.20 17 1.42 18 1.45 19 1.20 20 1.98 21 1.21 22 1.59 23 1.86 24 1.52 25 1.48 26 1.37 27 1.16 28 1.73 29 1.62

30 1.01 Si presentáramos esta información en una tabla de frecuencia obtendríamos una tabla de 30 líneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3,3%. Esta tabla nos aportaría escasa información En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la información queda más resumida (se pierde, por tanto, algo de información), pero es más manejable e informativa: Variable (valor) Frecuencia absoluta Frecuencia relativa Simple acumulada Simple Acumulada 1.01-1.10 1 1 3.3% 3.3% 1.11-1.20 3 4 10% 13.3% 1.21-1.30 3 7 10% 23.3% 1.31-1.40 2 9 6.6% 30% 1.41-1.50 6 15 20% 50% 1.51-1.60 4 19 13.3% 63.3% 1.61-1.70 3 22 10% 73.3% 1.71-1.80 3 25 10% 83.3% 1.81-1.90 2 27 6.6% 90% 1.91-2.00 3 30 10% 100% El número de tramos en los que se agrupa la información es una decisión que debe tomar el analista: la regla es que mientras más tramos se utilicen menos información se pierde, pero puede que menos representativa e informativa sea la tabla. Método gráfico Las tablas de frecuencia son sin duda un avance para el análisis de datos, ya que no se requiere considerar cada uno de los desorganizados datos de la población; sin embargo, conviene representar en forma gráfica los totales obtenidos en las tablas de frecuencia. Las gráficas permiten la comparación objetiva de las clases con una sola mirada, a la vez que muestran rápidamente el avance o retroceso de la frecuencia de una clase respecto a otras. En las formas que tiene la curva que representa una serie de datos de una muestra podemos estudiar las siguientes características: a) Concentración: mide si los valores de la variable están más o menos uniformemente repartidos a lo largo de la muestra. b) Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la misma (centro de simetría) los segmentos de curva que quedan a derecha e izquierda son similares.

c) Curtosis: mide si los valores de la distribución están más o menos concentrados alrededor de los valores medios de la muestra. Se definen 3 tipos de distribuciones según su grado de curtosis. Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable. Histogramas Para variables numéricas continuas, tales como la edad, la tensión arterial o el índice de masa corporal, el tipo de gráfico más utilizado es el histograma. Para construir un gráfico de este tipo, se divide el rango de valores de la variable en intervalos de igual amplitud, representando sobre cada intervalo un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de los datos en cada intervalo y el área de los rectángulos. Los histogramas de frecuencias representan un conjunto de datos representan una variable cuantitativa. En el eje horizontal o de las abscisas se representan los valores tomados por la variable, en el caso de que los valores considerados sean continuos la forma de representar los valores es mediante intervalos de un mismo tamaño llamados clases. En el eje vertical se representan los valores de las frecuencias de los datos. Se puede observar que en un histogramas bajo un proceso en control, a medida que se crecen las clase tiene aproximadamente la forma de una campana centrada, que como veremos posteriormente, es la de una de las distribuciones mas importantes conocidas como frecuencia normal o gaussiana.

formas que puede tomar un histograma Ejemplo La siguiente tabla muestra la distribución de frecuencias de la edad de 100 pacientes, comprendida entre los 18 y 42 años. Traza un histograma. Distribución de frecuencias de la edad en 100 pacientes. Edad Número de pacientes 18 1 19 3 20 4

21 7 22 5 23 8 24 10 25 8 26 9 27 6 28 6 29 4 30 3 31 4 32 5 33 3 34 2 35 3 36 1 37 2 38 3 39 1 41 1 42 1

Si se divide este rango en intervalos de dos años, el primer tramo está comprendido entre los 18 y 19 años, entre los que se encuentra el 4/100=4% del total. Por lo tanto, la primera barra tendrá altura proporcional a 4. Polígono de frecuencias Uniendo los puntos medios del extremo superior de las barras del histograma, se obtiene una imagen que se llama polígono de frecuencias. Dicha figura pretende mostrar, de la forma más simple, en qué rangos se encuentra la mayor parte de los datos. Un ejemplo, utilizando los datos anteriores, se presenta en la. Ejemplo Con el histograma anterior que muestra la distribución de frecuencias de la edad de 100 pacientes, comprendida entre los 18 y 42 años. Traza un polígono de frecuencia.

Uniendo los puntos medios del extremo superior de las barras del histogram: formas que puede tomar un polígono de frecuencia.

Ojiva o Polígono de frecuencias acumuladas: Una gráfica de distribución de frecuencias acumuladas es llamada una ojiva. Se trazan los límites reales superiores contra las frecuencias acumuladas. Diagramas de cajas Otro modo habitual, y muy útil, de resumir una variable de tipo numérico es utilizando el concepto de percentiles, mediante diagramas de cajas. La Figura muestra un gráfico de cajas correspondiente a la distribución de frecuencias de la edad de 100 pacientes, comprendida entre los 18 y 42 años. La caja central indica el rango en el que se concentra el 50% central de los datos. Sus extremos son, por lo tanto, el 1er y 3er cuartil de la distribución. La línea central en la caja es la mediana. De este modo, si la variable es simétrica, dicha línea se encontrará en el centro de la caja. Los extremos de los "bigotes" que salen de la caja son los valores que delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores extremos de la distribución. Se suelen también representar aquellas observaciones que caen fuera de este rango (outliers o valores extremos). Esto resulta especialmente útil para comprobar, gráficamente, posibles errores en nuestros datos. En general, los diagramas de cajas resultan más apropiados para representar variables que presenten una gran desviación de la distribución normal. Como se verá más adelante, resultan además de gran ayuda cuando se dispone de datos en distintos grupos de sujetos.

Comparación de dos o más grupos. Cuando se quieren comparar las observaciones tomadas en dos o más grupos de individuos una vez más el método estadístico a utilizar, así como los gráficos apropiados para visualizar esa relación, dependen del tipo de variables que estemos manejando. La comparación de variables continuas en dos o más grupos se realiza habitualmente en términos de su valor medio, por medio del test t de Student, análisis de la varianza o métodos no paramétricos equivalentes, y así se ha de reflejar en el tipo de gráfico utilizado. En este caso resulta muy útil un diagrama de barras de error, como en el ejemplo siguiente: Ejemplo Se compara el índice de masa corporal en una muestra de hombres y mujeres. Para cada grupo, se representa su valor medio, junto con su 95% intervalo de confianza.

Conviene recordar que el hecho de que dichos intervalos no se solapen, no implica necesariamente que la diferencia entre ambos grupos pueda ser estadísticamente significativa, pero sí nos puede servir para valorar la magnitud de la misma. Así mismo, para visualizar este tipo de asociaciones, pueden utilizarse dos diagramas de cajas, uno para cada grupo. Estos diagramas son especialmente útiles aquí: no sólo permiten ver si existe o no diferencia entre los grupos, sino que además nos permiten comprobar la normalidad y la variabilidad de cada una de las distribuciones. No olvidemos que las hipótesis de normalidad y homocedasticidad son condiciones necesarias para aplicar algunos de los procedimientos de análisis paramétricos.