Estadística Descriptiva 1
Qué veremos 1. OBJECTIVOS DEL CURSO. DEFINICIONES IMPORTANTES 2. TIPOS DE VARIABLES 3 5 1. Estadísticos de tendencia central 2. Estadísticos de posición 3. Estadísticos de variabilidad/dispersión 4. Estadísticos de forma 3. RESUMENES DE VARIABLES 1. Numéricos 2. Gráficos 4. Ejemplos y ejercicios 2
OBJETIVOS Hacer una aproximación a conceptos clave de la Estadística. Explicar los diferentes tipos de análisis, variables y otros conceptos importantes. Aprender a hacer un resumen estadístico descriptivo de un conjunto de datos. Aprender a implementar los estadísticos descriptivos con R i R- Commander. 3
DEFINICIONES IMPORTANTES Población: La población representa el conjunto grande de individuos que se quiere estudiar y que generalmente suele ser inaccesible. Muestra: Es un subconjunto de la población al que se tiene acceso y sobre el que se hacen las observaciones. Esta muestra debería ser representativa de la población original (cualquier individuo tiene las mismas oportunidades de ser seleccionado). Individuo: Cada uno de los componentes de la población y de la muestra. Variables: Son una característica observable que varía entre los diferentes individuos de una población. Es lo que se estudia de cada individuo (altura, pes, sexo, ). Datos: Los valores que toman les variables en cada caso. 4
PASOS A SEGUIR EN UN ESTUDIO ESTADÍSTICO 1. Plantear hipótesis sobre una población Los hombres tienen más problemas con el colesterol que las mujeres. 2. Decidir que datos recoger (diseño de experimentos) Que individuos formarán parte del estudio (muestras) Hombres y mujeres de 30-40 años Que datos recoger de los individuos (variables) Sexo? Sector laboral? Actividad física? 3. Recoger los datos 4. Describir (resumir) los datos obtenidos Nivel medio de colesterol en sangre (estadísticos) % de hombres con problemas de arterioesclerosis (frecuencias-gráficos) 5. Realizar una inferencia sobre la población Los hombres tienen un 10% más de colesterol de media que las mujeres 6. Cuantificar la confianza en la inferencia Nivel de confianza del 95% 5
TIPOS DE VARIABLES Variables Cuantitativas: Son las variables que pueden medirse, cuantificarse o expresarse numéricamente. Tiene sentido hacer operaciones algebraicas con ellas. Variables cuantitativas continuas: pueden tomar cualquier valor dentro de un rango numérico determinado (edad, peso, altura, ) Variables cuantitativas discretas: no pueden tomar cualquier valor dentro de un rango. Normalmente suelen ser valores sin decimales. (nº de hijos, nº de partes, nº de hermanos ) Variables cualitativas: representan una cualidad o un atributo que clasifica cada caso en una de varias categorías. No tiene sentido hacer operaciones algebraicas con ellas. dos grupos : hombre/mujer, enfermo/sano, Con más categorías (color de los ojos, grupo sanguíneo,..). Se pueden utilizar dos escalas: Nominales: categorías que no mantienen una relación de orden entre ellas Ordinales: Existe orden o jerarquía entre cada categoría 6
MEDIDAS DESCRIPTIVAS. En las variables numéricas nos podemos encontrar con un elevado número de valores observados diferentes Se ha de definir un método de análisis que responda a: Alrededor de que valor se agrupan los datos? Como se agrupan? Muy concentrados? Muy dispersos? Que forma tiene la población? Medidas de tendencia central: responden a la primera pregunta (media) Medidas de posición y dispersión: responden a la segunda pregunta (varianza) Medidas de forma: responden a la tercera pregunta (coeficiente de asimetría) 7
MEDIDAS DESCRIPTIVAS. MEDIDAS DE TENDENCIA CENTRAL Son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse. MEDIA. Es la media aritmética de los valores de una variable. Se calcula realizando la suma de los valores y dividiendo por el tamaño muestral. Propiedades: Muy influenciada por los valores extremos (pueden hacer desplazar la media). No recomendable utilizarla en el caso de distribuciones asimétricas. Muy útil cuando los valores se concentran simétricamente con respecto a este valor. 8
MEDIDAS DESCRIPTIVAS. MEDIDAS DE TENDENCIA CENTRAL Otros tipos de medias que se pueden encontrar: Media geométrica: Media harmónica: Media cuadrática: 9
MEDIDAS DESCRIPTIVAS. MEDIDAS DE TENDENCIA CENTRAL MEDIANA: Es la observación que divide los valores en dos, una vez ordenados, dejando el 50% por debajo suyo y el 50% por encima. Propiedades : No está afectada por las observaciones extremas. Depende del orden, no de los valores Útil en distribuciones asimétricas Relación entre media y mediana: 10
MEDIDAS DESCRIPTIVAS. MEDIDAS DE TENDENCIA CENTRAL MODA(S): Es/Son aquellos valores que presentan una mayor frecuencia. Propiedades: Fácil de calcular Puede no ser única Ejemplo: 62 75 11 20 75 44 5 Media = 41.7 Moda = 75 Mediana = 44 11
MEDIDAS DESCRIPTIVAS. MEDIDAS DE POSICIÓN Son valores de la variable caracterizados por superar un determinado tanto per ciento de observaciones en la población (o muestra). Según las unidades en que agrupamos los %s encontramos percentiles (1%) deciles (10%) o cuartiles (25%). PERCENTIL: Por variable discreta se define el percentil de orden K como la observación, P k que deja por debajo suyo el K% de la población. Propiedades : Mediana = P 50 Peso 12
MEDIDAS DESCRIPTIVAS. MEDIDAS DE POSICIÓN CUARTILES: Dividen la muestra en cuatro grupos con frecuencias similares. Son un caso particular de los percentiles. Propiedades : Primer cuartil (Q 1 ) = P 25 Segundo cuartil (Q 2 ) = P 50 = Mediana Tercer cuartil (Q 3 ) = P 75 DECILES: Dividen las observaciones en 10 grupos del mismo tamaño. Propiedades : Se define: D 1, D 2,. D 9 como: D 1 = P 10, donde i = 1, 9 13
MEDIDAS DESCRIPTIVAS. MEDIDAS DE VARIABILIDAD O DISPERSIÓN Miden el grado de dispersión (variabilidad) de los datos independientemente de su origen. RANGO: Se obtiene restando el valor más pequeño de un conjunto de observaciones del valor más alto. Propiedades : Es fácil de calcular. Solo utiliza dos observaciones para su cálculo Puede estar muy afectado por observaciones extremas El rango aumenta con el número de observaciones o se puede Ejemplo: quedar igual, pero nunca disminuye 2,1,4,3,8,4 El rango es 8-1=7 14
MEDIDAS DESCRIPTIVAS. MEDIDAS DE VARIABILIDAD O DISPERSIÓN VARIANZA: Mide el promedio de las desviaciones de cada observación respecto a la media, al cuadrado. Propiedades : Siempre es positiva Sensible a valores extremos. Ejemplo: 15, 21, 32, 59, 60,60, 61, 64, 71, 80 S 2 = (15-52.3) 2 +(21-53.2) 2 + + (80-52.3) 2 = 427.61 10 15
MEDIDAS DESCRIPTIVAS. MEDIDAS DE VARIABILIDAD O DISPERSIÓN DESVIACIÓN TÍPICA O ESTANDAR: Es la raíz cuadrada de la varianza. Expresa la dispersión de la distribución y se expresa en les mismas unidades que la media de la variable. Ejemplo: 15, 21, 32, 59, 60,60, 61, 64, 71, 80 S 2 = 427.61 S = 20.68 16
MEDIDAS DESCRIPTIVAS. MEDIDAS DE VARIABILIDAD O DISPERSIÓN Algunas características de la varianza y de la desviación estandar: Cuando los datos estén muy alejados de la media, el numerador será muy grande la varianza y la desviación también lo serán. Al aumentar el tamaño de la muestra varianza y desviación Cuando todos los valores son iguales, la varianza y la desviación = 0 Para su cálculo se utilizan todos los datos de la distribución Cualquier cambio de valor será detectado 17
MEDIDAS DESCRIPTIVAS. MEDIDAS DE VARIABILIDAD O DISPERSIÓN COEFICIENTE DE VARIACIÓN: Es una variable adimensional que resulta muy útil para comparar dos variables. Un valor elevado indica menor homogeneidad, mayor dispersión o variabilidad. Propiedades : Solamente se puede calcular con variables con valores positivos. Todo índice de variabilidad es esencialmente no negativo. Es invariante a cambios de escala Normalmente se expresa en % 18
MEDIDAS DESCRIPTIVAS. MEDIDAS DE VARIABILIDAD O DISPERSIÓN Ejemplo: Peso de 5 pacientes (70,60,56,83,79 Kg) X = 69.6 Kg s = 10.44 Tensión arterial de 5 pacientes (150,170,135,180,195 mmhg) X = 166 mmhg s = 21.3 Que distribución es más dispersa? Peso o tensión arterial? s PES < s TA No correcto porque tienen escalas de medida diferentes Calculamos CV CV PES = 15% CV TA = 12.8% 19
MEDIDAS DESCRIPTIVAS. MEDIDAS DE VARIABILIDAD O DISPERSIÓN TIPIFICACIÓN: Es una transformación de una variable que consiste en restar a cada valor la media y dividirlo por su desviación típica. La nueva variable obtenida se llama z-score Propiedades : Permite hacer comparables dos medias que en principio no lo son. A diferencia de los CV (que permiten comparar variabilidades de dos poblaciones) les variables tipificadas, sirven para comparar a dos individuos de cada uno de los dos conjuntos. 20
MEDIDAS DESCRIPTIVAS. MEDIDAS DE ASIMETRIA/FORMA Nos permiten saber si los datos se distribuyen de forma simétrica respecto a un valor central o si la gráfica de la distribución de les frecuencias es de una forma diferente por el lado derecho que por el lado izquierdo. ASIMETRIA: Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha. Propiedades: En las distribuciones simétricas, media y mediana coinciden. La asimetría es positiva o negativa en función de hacia que lado se encuentra la cola de la distribución. Positiva : Si les frecuencias más altas se encuentran en el lado izquierdo de la media. En el lado derecho hay frecuencias más bajas. Negativa: Cuando la cola está en el lado izquierdo. La discrepancia entre las medidas de centralización son indicación de asimetría. 21
MEDIDAS DESCRIPTIVAS. MEDIDAS DE ASIMETRIA/FORMA 22
MEDIDAS DESCRIPTIVAS. MEDIDAS DE ASIMETRIA/FORMA CURTOSIS: Medida del grado de aplastamiento de una distribución respecto a la distribución normal o gaussiana. 23
RESUMENES ESTADISTICOS. Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Les dos exponen de manera ordenada la información recogida de una muestra. Género Hombre 4 Frec. 7 6 5 4 3 Mujer 6 2 1 0 Hombre Mujer 24
RESUMENES ESTADISTICOS. NUMERICOS: TABLAS DE FRECUENCIAS TABLAS DE FRECUENCIAS: Exponen la información recogida de la muestra, de manera que no se pierda nada de información. Frecuencias absolutas: contabilizan el número total de individuos de cada modalidad. Frecuencias relativas: frecuencias absolutas divididas por el total de individuos Frecuencias acumuladas absolutas: se calculan sobre variables cuantitativas. Frecuencias acumuladas relativas: se calculan sobre variables cuantitativas 25
RESUMENES ESTADISTICOS. NUMERICOS: TABLAS DE FRECUENCIAS Tabla estadística: 26
frecuencias RESUMENES ESTADISTICOS. GRAFICOS. VARIABLES CUALITATIVAS. DIAGRAMA DE BARRAS: En el eje de ordenadas se representan las modalidades y en el eje abscisas las frecuencias absolutas o las relativas. A B C D 27
RESUMENES ESTADISTICOS. GRAFICOS. VARIABLES CUALITATIVAS. Cuando intentamos comparar dos poblaciones: (si el tamaño es diferente es mejor utilizar frecuencias relativas) Frecuencias relativas Solteros casados divorciados viudos 28
RESUMENES ESTADISTICOS. GRAFICOS. VARIABLES CUALITATIVAS. DIAGRAMA DE SECTORES: Se divide un círculo en tantas porciones como clases existan, de manera que a cada clase le corresponda una porción del círculo proporcional a su frecuencia absoluta o relativa. s s s s 29
RESUMENES ESTADISTICOS. GRAFICOS. VARIABLES CUALITATIVAS. PICTOGRAMAS: Se expresan con dibujos alusivos al tema de estudio les frecuencias de las modalidades de la variable. La escala de cada dibujo ha de ser tal que el área de cada uno de ellos ha de ser proporcional a la frecuencia de la modalidad que representa. Utilizados por los medios de comunicación porque pueden ser rápidamente entendidos per un público no especializado. Botellas de cerveza recogidas Ciudad A Ciudad B 30
frecuencias RESUMENES ESTADISTICOS. GRAFICOS. VARIABLES CUANTITATIVAS. DISCRETAS. DIAGRAMA DE BARRAS. Las barras son estrechas y están separadas para indicar que la variable solo puede tomar unos valores definidos. Frec. absolutas / relativas Frec. acumuladas 31
frecuencias RESUMENES ESTADISTICOS. GRAFICOS. VARIABLES CUANTITATIVAS. CONTINUAS. HISTOGRAMAS. El histograma se construye a partir de una tabla estadística, representando sobre cada intervalo un rectángulo que tiene este segmento como base. El criterio para calcular la altura de cada intervalo es el de mantener la proporcionalidad entre les frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos. PESO de 20 individuos PESO 32
RESUMENES ESTADISTICOS. GRAFICOS. VARIABLES CUANTITATIVAS. CONTINUAS. DIAGRAMA DE TALLO Y HOJAS. Los números que se ponen a la izquierda del carácter son los dígitos más significativos de cada intervalo, y a la derecha se ponen los dígitos particulares de cada dato. 22,22,23,24 31,31,32,33,34 45,45,45,47,48 33
Edad (años) RESUMENES ESTADISTICOS. GRAFICOS. VALORES ATÍPICOS DIAGRAMA DE CAJAS O BOXPLOT. Es la forma gráfica de representar los cinco números : la caja son percentiles 25 i 75, la línea que está en la mitad es la mediana (percentil 50) y los extremos son los valores mínimo y máximo. percentil 75 media mínimo percentil 25 34
RESUMENES ESTADISTICOS. GRAFICOS. VALORES ATÍPICOS El diagrama de cajas es una forma rápida de identificar los valores atípicos de la muestra (pueden no ser outliers ) energía calcio Proteínas Hierro Vit C Nutrientes 35