Fundamentos de Estadística y Simulación Básica
TEMA 2 Estadística Descriptiva Clasificación de Variables Escalas de Medición Gráficos Tabla de frecuencias Medidas de Tendencia Central Medidas de Dispersión
Estadística Descriptiva La estadística descriptiva resume y describe las características importantes de los datos. Proporciona un conjunto de herramientas tales como tablas, gráficas, promedios, y otras para organizar y resumir la información de la muestra Procedimientos matemáticos para transformar un conjunto de datos en índices que resuman las características de una población o una muestra. Los procedimientos pueden ser tabulares, gráficos o numéricos. Consiste en recolectar los datos, organizarlos, presentarlos, analizarlos e interpretar los resultados. El objetivo de la ED es hacer que los datos se comprendan más fácilmente, que sea más sencillo referirse a ellos y analizarlos.
Clasificación de las variables Existen varios de tipos de datos o variables estadísticas, que se agrupan en dos clasificaciones: 1.-Variables Cuantitativas 2.- Variables Cualitativas Los datos de características cuantitativas son aquellos que se pueden expresar numéricamente y se obtienen a través de mediciones y conteos. Los datos cuantitativos y cualitativos se clasifican a su vez en: 1.- Variables continuas: se generan de una medición 2.- Variables discretas: se obtienen de un conteo.
Escalas de medición 1. Nominal (cualitativa): Comprenden categorías como el sexo, carrera de estudio, material de estudio, calificaciones, ect. 2. Orden (jerarquica): En este nivel se definen varias categorías, pero además de mostrar orden hay relación de mayor a menor. 3. Intervalo: En esta escala se miden las variables de manera numérica. 4. Razón: Es la escala más fuerte, dado que usa un sistema numérico en el que el cero es un valor que indica ausencia de la característica que se está midiendo.
Gráficos 1. Histogramas. 2. Polígonos. 3. Ojivas (Distribuciones de frecuencias acumuladas). Los métodos gráficos permiten estudiar, a partir de la distribución de un conjunto de datos, aspectos tales como: forma, localización (centro), y dispersión.
Tabla de frecuencias (1) Ofrece un resumen mas compacto de los datos 1.- Elegir un intervalo que contenga todos los puntos. 2.- Dividirlo en subintervalos (intervalos de clase) de la misma longitud. Sus puntos medios se llaman marca de clase. 3.- Frecuencia de clase es el número de valores en una clase. Los dividimos entre el tamaño de la muestra (frecuencia relativa de clase). 4.- Frecuencia acumulada de clase es el número de valores que pertenecen a esta y a las anteriores clases. Divididas entre el tamaño de la muestra se llama frecuencia relativa acumulada de clase.
Tabla de frecuencias (2) Pasos para la construcción 1. Calcular el rango (Rango = valor máximo valor mínimo) 2. Determinar amplitud del intervalo de clase (Dividir rango entre 1,2,5.. para obtener entre 5 y 20) 3. Preparar el formato para la tabla de frecuencias (clase, punto medio, frec.) 4. Determinar los límites de cada clase. 5. Determinar el punto medio de cada clase 6. Obtener las frecuencias (Notación de frecuencia / )
Tabla de frecuencias (3) Determinar número de clases Para determinar el valor de k se puede usar cualquiera de los tres criterios siguientes: a.- k = n b.- k = 1 + 3.3log 10 (n) c.- Use la tabla siguiente
Medidas de Tendencia Central (1) Sea x 1,x 2,..,x n, una muestra aleatoria (m.a.) de tamaño n de una población. 1. Media 2. Mediana 3. Moda El primer paso para describir un conjunto de datos un representante o centro, existen varios: n 1. Media: x i 1 n x i x 1 x 2 n es definir x n
Medidas de Tendencia Central (2) Ejemplo de Media Valores de colesterol total/lad en 9 pacientes sin crecimiento de lesión aterosclerótica. 6.0 7.2 6.4 6.0 5.5 5.8 8.8 4.5 5.9 Se calcula la media: (6.0 7.2 4.5 5.9) x 6. 23 9 Los pacientes muestran en promedio 6.23 mmol/l de colesterol 1. La media se emplea cuando los datos pueden sumarse; es decir, se miden en una escala numérica. 2. La media es muy sensible a datos extremos o atípicos. 3. Si colocáramos los datos en una balanza, la media sería el centro.
Medidas de Tendencia Central (3) Ejemplo de Mediana Es el valor que se coloca en el medio de todos los valores después de ordenarlos (ascendente o descendentemente). Calculo de la mediana para los datos del ejemplo anterior 6.0 7.2 6.4 6.0 5.5 5.8 8.8 4.5 5.9 La muestra ordenada queda: x (1) =4.5 x (2) = 5.5 x (3) = 5.8 x (4) = 5.9 x (5) =6.0 x (6) =6.0 x (7) =6.4 x (8) =7.2 x (9) =8.8 ~ Como n=9 es impar por tanto, la Mediana es x x 5 6. 0 El 50% de los pacientes tiene niveles de colesterol mayores (menores) a 6.0 mmol/l 1. Para observar como la mediana es menos sensible a datos extremos, eliminemos el dato 8.8. Y la mediana resulta en 5.91 2. La mediana resultó menos afectada que la media. 3. La mediana puede utilizarse tanto para datos numéricos como ordinales.
Medidas de Tendencia Central (4) Ejemplo de Moda Moda es la observación que se presenta con mayor frecuencia en la muestra. Es el valor que se repite más frecuentemente que cualquier otro valor en un grupo de datos. La moda puede ser: unimodal, multimodal o puede no haber moda. 6.0 7.2 6.4 6.0 5.5 5.8 8.8 4.5 5.9 El dato mas frecuente es 6.0 mmol/l., por tanto la moda es 6.
Medidas de Tendencia Central (5) Relación entre Media y Mediana Las propiedades matemáticas y estadísticas de la media hacen de esta la más importante. Otras propiedades la hacen elección universal. 1. La media es afectada por datos extremos. 2. La mediana no es fácil de manipular algebraicamente. 3. La moda puede no existir o haber varias modas. Figura 1. Media Figura 2. Mediana
Medidas de Dispersión (1) Una medida de dispersión (o variabilidad) es un valor numérico que indica la magnitud de la separación entre los elementos de una muestra o población. Comúnmente, la variabilidad se expresa como una desviación promedio de los datos con respecto al centro. También puede expresarse como la posición de un dato con respecto a los demás Hay al menos dos razones para medir la dispersión o variabilidad. 1. Para tener una idea de la precisión con la que un valor central muestral representa a la población. 2. Para conocer la magnitud de la variabilidad y así poder tomar medidas para su control. Las medidas de dispersión más utilizadas son: a) El rango b) La varianza c) La desviación estándar
Medidas de Dispersión (2) a. Rango R máximo mínimo Nota: Aun cuando el rango es una medida sencilla de variabilidad, solo toma en cuenta dos datos para su cálculo. n 2 1 2 b. Varianza s x i x n 1 i 1 La varianza se expresa un unidades cuadradas, si calculamos raíz cuadrada se obtiene una medida de variabilidad en las mismas unidades que los datos originales; así se define la desviación estándar o típica. c. Desviación estándar s s 2 1 n 1 n x i x i 1 2
GRACIAS