TEMA 5 Estadística descriptiva. Análisis de datos Florence Nightingale (1820-1910)
1. Introducción. Modelos matemáticos 2. Métodos numéricos. Resolución de sistemas lineales y ecuaciones no lineales 3. Aproximación de funciones: interpolación y ajuste 4. Modelos discretos elementales. Ecuaciones en diferencias 5. Estadística descriptiva. Análisis de datos 6. Variable aleatoria. Distribuciones de probabilidad 7. Distribuciones de probabilidad importantes 8. Estimación de parámetros por intervalos de confianza 9. Contraste de hipótesis. Introducción al análisis de la varianza 10. Correlación y regresión. El modelo de regresión simple
Conceptos preliminares Tabla de frecuencias. Representación gráfica Descripción basada en momentos Descripción basada en ordenaciones Clases estimadas para este tema: 1 clase
1ĊONCEPTOS PRELIMINARES La Población es el conjunto completo de individuos a los cuales se referirán las conclusiones de su estudio. Tamaño de la población N. La Muestra es un reducido grupo representativo de individuos de la población. A partir de ésta, el investigador, con técnicas estadísticas puede inferir las características y relaciones existentes en una población. Tamaño de la muestra n. Los Sujetos o Individuos son los elementos que integran la población o muestra. Los Parámetros poblacionales son los diferentes índices estadísticos descriptivos de toda una población. Se simbolizan con letras griegas. Por ejemplo, la media µ = ( x i )/N. Función estadístico: cada parámetro de la población puede ser estimado a partir de los datos observados de una muestra extraída al azar. Las funciones que proporcionan estas estimaciones son los estadísticos. Por ejemplo, el estadístico que estima la media x = ( x i )/n.
La variable es cada uno de los caracteres o aspectos que se van a estudiar en los individuos. Los datos se recogen en la matriz de datos que es una matriz cuyas filas representan los individuos y las columnas las diferentes variables. Datos missing son aquellos valores que no se han registrado en la matriz. Las variables se clasifican en: Variables categóricas, que son variables no métricas y que a su vez pueden ser, - Binarias: sexo, sí/no, etc. - Con varias categorías: grupo sanguíneo, tratamiento recibido, etc. Variables cuantitativas, que son variables métricas y que pueden ser, - Discretas: n o de hijos, edad en años, etc. - Continuas: peso, altura, presión arterial sistólica, etc.
2ṪABLA DE FRECUENCIAS. REPRESENTACIÓN DE DATOS Una distribución de frecuencias consiste en una serie de clases predeterminadas (categorías, números, intervalos de valores,...) con el número total de sujetos que se incluyen en cada clase. En una tabla de frecuencias se reflejan los elementos de una distribución de frecuencias. Consideraremos los siguientes elementos: 1. La frecuencia absoluta que es el número de veces que observamos el mismo valor de la variable (n i ). 2. La frecuencia relativa que es el cociente entre la frecuencia absoluta y el número total de repeticiones del experimento (f i ). 3. La frecuencia acumulada (absoluta o relativa) que es la suma de frecuencias absolutas (o relativas) anteriores con la del valor de la variable actual (N i = n 1 + + n i, F i = f 1 + + f i ). 4. El porcentaje es la frecuencia relativa multiplicada por 100 (100f i ).
5. El porcentaje acumulado es la frecuencia relativa acumulada multiplicada por 100 (100F i ). Siempre debemos tener en cuenta lo siguiente!: para n datos y p posibles valores observados: las frecuencias verifican n 1 + n 2 + + n p 1 + n p = n, f 1 + f 2 + + f p 1 + f p = 1. Las frecuencias absolutas N 1 = n 1, N p = n, F 1 = f 1, F p = 1. Y el porcentaje % porcentaje acumulado p = 100. Ejercicio: comprobar matemáticamente todas las relaciones anteriores.
Ejemplo: Supongamos la siguiente puntuación obtenida en una tabla de destreza de 60 primates: 2,0,2,5,1,4,1,5,1,4,3,2,1,2,3,5,1,2,3,1,4,2,3,5,4,2,1,5,1,2, 5,4,3,5,3,2,4,0,2,2,3,5,4,2,4,3,3,3,2,5,4,3,4,1,3,4,3,4,5,3 Valores que puede tomar la variable puntuación : 0,1,2,3,4,5 (n = 60)
Ejemplo: Supongamos la siguiente puntuación obtenida en una tabla de destreza de 60 primates: 2,0,2,5,1,4,1,5,1,4,3,2,1,2,3,5,1,2,3,1,4,2,3,5,4,2,1,5,1,2, 5,4,3,5,3,2,4,0,2,2,3,5,4,2,4,3,3,3,2,5,4,3,4,1,3,4,3,4,5,3 Valores que puede tomar la variable puntuación : 0,1,2,3,4,5 (n = 60) x i n i f i N i F i % % acum 0 2 0.0333 2 0.0333 3.33 3.33 1 9 0.15 11 0.1833 15 18.8 2 13 0.2167 24 0.4 21.67 40 3 14 0.2333 38 0.6333 23.33 63.3 4 12 0.2 50 0.8333 20 83.3 5 10 0.1667 60 1 16.67 100 60 1 100
En el caso de datos continuos agruparemos los valores ordenados en intervalos de clase, que pueden tener o no la misma amplitud según la regla d Sturges. Y en la tabla de frecuencias señalaremos el punto medio del intervalo o marca de clase. Ejemplo: Perímetro craneal medido en 30 perros de tamaño medio: 41 39.5 43.2 40.5 44.5 38.5 42.5 40.3 46.3 42.3 45.6 44.2 40.1 43.5 40.2 40 42.7 45 45.2 46.7 39.4 41 39 39.6 42.8 47.9 46.5 40.2 43 46
En el caso de datos continuos agruparemos los valores ordenados en intervalos de clase, que pueden tener o no la misma amplitud según la regla d Sturges. Y en la tabla de frecuencias señalaremos el punto medio del intervalo o marca de clase. Ejemplo: Perímetro craneal medido en 30 perros de tamaño medio: 41 39.5 43.2 40.5 44.5 38.5 42.5 40.3 46.3 42.3 45.6 44.2 40.1 43.5 40.2 40 42.7 45 45.2 46.7 39.4 41 39 39.6 42.8 47.9 46.5 40.2 43 46 x x i n i f i N i F i % acum 38.2-39.9 39.05 5 0.1667 5 0.1667 16.67 39.9-41.6 40.75 8 0.2667 13 0.4333 43.33 41.6-43.3 42.45 6 0.2 19 0.6333 63.33 43.3-45 44.15 3 0.1 22 0.7333 73.33 45-46.7 45.85 6 0.2 28 0.9333 93.33 46.7-48.4 47.55 2 0.0667 30 1 100 30 1
Regla d Sturges para escoger el número de intervalos: Tamaño de la muestra 6 a 10 11 a 22 23 a 44 45 a 90 91 a 181... Número de intervalos 4 5 6 7 8... Las principales representaciones gráficas son las siguientes: Tipo de variable Categórica Cuantitativa discreta Cuantitativa continua Representaciones gráficas Diagrama de barras Diagrama de sectores Diagrama de líneas Diagrama de barras Diagrama de líneas Diagrama de tallo&hojas Diagrama de tallo&hojas Histograma Polígonos de frecuencias
Nos limitaremos a representar datos cuantitativos. Utilizaremos, el diagrama de barras, con el cual colocamos en el eje de abcisas los distintos valores discretos de la variable y en el eje de ordenadas las frecuencias absolutas o relativas, el histograma, con el cual dibujamos un rectángulo con área igual a la frecuencia absoluta correspondiente: colocaremos en el eje de abcisas los límites de los intervalos y sobre la ordenada el cociente entre la frecuencia y la amplitud (longitud) del intervalo, el polígono de frecuencias que se obtiene de unir los centros de los extremos superiores de cada rectángulo. Nota: Notar que es habitual encontrar una definición del histograma en la que sobre cada intervalo se dibuja una altura correspondiente a la frecuencia (esta no es la que se ha dado aquí, que es más apropiada en ciencias de la salud). Ejercicio: Dibujar los diagramas de barras e histogramas correspondientes a los ejemplos vistos.
3 ḊESCRIPCIÓN BASADA EN MOMENTOS Representan la posición, dispersión, asimetría y apuntamiento de la distribución. Ventajas: - Utilizan todos los datos de la distribución. - Fáciles de obtener: sumas, sumas de cuadrados, sumas de cubos, y sumas de potencias cuartas. Inconvenientes: - Difícil interpretación práctica en algunos casos. - Los principales se ven afectados por valores anormales (poco robustos).
Para sintetizar una distribución de datos cuantitativos es necesario dar las medidas que representen los 4 aspectos fundamentales de distribuciones de variables cuantitativas: Medidas de tendencia central. Resumen la posición central de la distribución. El estimador de la media poblacional (µ) es la media x: µ = xi N, x = xi n = p k=1 x kn k Interpretación física: centro de gravedad. n = x 1n 1 + x 2 n 2 + + x p n p. n Medidas de dispersión. Permiten evaluar la separación de un conjunto de datos respecto a la media. El estimador de la varianza (σ 2 ) se denota por s 2 : σ 2 (xi µ) 2 p =, s 2 k=1 = (x k x) 2 n k N n 1 Interpretación física: momento de inercia. Ejercicio: comprobar la siguiente expresión (x i x) = 0. = (x 1 x) 2 n 1 + + (x p x) 2 n p. n 1
La desviación típica o estándar σ es más útil, su estimador se simboliza por s: σ = + σ 2, s = + s 2 = + p k=1 (x k x) 2 n k, n 1 y caracteriza la dispersión o grado de homogeneidad de una distribución. Nota: En el caso particular de una distribución normal la desviación estándar sí tiene una interpretación más práctica. Nota: Hay que tener cuidado! la media y varianza sólo deberían emplearse en distribuciones simétricas... Medidas de forma: asimetría. Calculamos ahora momentos de orden 3. Elevamos al cubo potencias x i x, y obtenemos valores positivos (asimetría positiva Γ 1 > 0), negativos (asimetría negativa Γ 1 < 0), y nulos (simetría Γ 1 = 0). Γ 1 = 1 N ( ) 3 x i µ, G 1 = 1 σ n 1 ( ) 3 x i x n i. s
Medidas de forma: apuntamiento/curtosis. Calculamos ahora momentos de orden 4. Elevamos a la cuarta potencia las diferencias x i x. Refleja el apuntamiento respecto a la ley normal. Diremos que es platicúrtica (Γ 2 < 0) si es más aplanada que la normal, leptocúrtica (Γ 2 > 0) si es más apuntada, y mesocúrtica (Γ 2 = 0) si la forma coincide con la de la ley normal. Γ 2 = 1 N ( ) 4 x i µ 3, G 2 = 1 σ n 1 ( ) 4 x i x n i 3. s Nota: La asimetría positiva es una característica frecuente en las distribuciones de datos sanitarios, mientras que la asimetría negativa se presenta en pocas ocasiones. Nota: En las distribuciones platicúrticas los valores se acumulan en las colas, mientras que en las leptocúrticas los valores se acumulan en el centro de la distribución. Ejercicio: Calcular los valores anteriores para las muestras de los dos ejemplos.
4ḊESCRIPCIÓN BASADA EN ORDENACIONES Las medidas basadas en ordenaciones tienen la ventaja de ser más robustas, pues los valores extremos no afectan tanto al valor del índice. Quizás sean más complicadas de obtener. Los percentiles, son los 99 sujetos que resultan de dividir la distribución en 100 partes de igual tamaño. El percentil de orden k corresponde al valor de la variable que deja por debajo el k por 100 de los sujetos de la población. x g = P 75 el individuo x g deja por debajo al 75 % de la población. Los deciles son las 9 medidas de posición que dividen el conjunto ordenado de datos en 10 partes iguales. D 1 = P 10, D 2 = P 20,, D 9 = P 90 Los cuartiles son las 3 medidas de posición que dividen el conjunto ordenado de datos en 4 partes iguales. Q 1 = P 25, Q 2 = P 50, Q 3 = P 75
La Mediana es el valor de la variable que divide la distribución en dos partes iguales. Es el percentil 50, el decil 5 y el cuartil 2. La señalaremos en el polígono de frecuencias acumuladas. Ejemplo: en el ejercicio de los primates la mediana está entre 2 y 3. En el ejercicio del perímetro craneal, la mediana cae en el intervalo 41.6-43.3. La Moda es el valor de la variable más frecuente en la distribución. Ejemplo: en el ejercicio de los primates la moda es 3, mientras que en el del perímetro craneal, la moda está en el intervalo 39.9-41.6. Ejercicio: Los valores de hemoglobina en sangre con percentiles de rango 95 y 5 son, respectivamente, 14.34 y 4.29. Esto significa que: a) el 95 % de los valores de hemoglobina son superiores a 14.34 y el 5 % a 4.29, b) el 95 % de los valores de hemoglobina son superiores a 14.34 y el 5 % inferiores a 4.29, c) el 90 % central de los valores de hemoglobina está comprendido entre 14.34 y 4.29.