ESTADÍSTICA DESCRIPTIVA 1. Conceptos Generales Población estadística.- Conjunto de todos los elementos sobre el que recaen las observaciones. Las poblaciones pueden ser: infinitas, p.e. extracciones con reemplazamiento de una bolsa, finitas, p.e. pacientes de un centro médico. Unidad estadística o individuo.- Cada uno de los elementos que componen la población. Este nombre se debe al origen demográfico de la estadística descriptiva. Muestra.- Subconjunto de elementos de la población. Para extraer conclusiones sobre la población, hay que elegir una muestra representativa de ella. El número de elementos de la muestra se llama tamaño de la muestra. Se realiza un censo cuando se observan todos los elementos de la población. Carácter.- Cualidad o propiedad en un individuo. Cada carácter de los individuos de la población puede representar varias modalidades, de tal forma que cada individuo de la población presenta una y solamente una de las modalidades del carácter. Ejemplo 1.1. Considerando una muestra de mujeres ingresadas en una maternidad, el carácter estado civil puede presentar las siguientes modalidades: solteras, casadas, viudas, no consta. 1
Se dice que un carácter es cualitativo si sus modalidades no son medibles. Y que es cuantitativo en caso contrario. Ejemplo 1.2. Considerando la población formada por los pacientes de un centro médico son caracteres cualitativos el sexo o el estado civil, y son caracteres cuantitativos el peso, la edad, la altura o las pulsaciones por minuto. Variable estadística.- Valores numéricos de las distintas modalidades de un carácter estadístico. Se clasifican en: discretas, que solo pueden tomar valores aislados. Generalmente, las variables estadísticas discretas toman valores sobre el conjunto de los números enteros. Ejemplo: número de hijos de mujeres ingresadas en una maternidad. continuas, que pueden tomar infinitos valores en un intervalo dado. Ejemplo: temperatura de un paciente. Existen variables cuantitativas que son continuas por naturaleza, pero que debido a la precisión de los aparatos empleados para medirlas aparecen como discretas. Tal es el caso de una báscula que ofrece 100 gramos de precisión. Las medidas que se pueden obtener con ella en kg son: 10.1, 10.2, 10.3,.... En realidad, lo que representa cada valor es que el peso del objeto en cuestión se encuentra en un intervalo de radio 0.05. 2. Ordenación de datos. Distribuciones de un carácter Consideremos una población estadística de N individuos, y una variable estadística X que puede tomar los valores x 1, x 2,..., x k, pero cada uno de ellos repetido más de una vez. 2
Ejemplo 2.1. El siguiente conjunto de datos representa el número de cigarrillos fumados al día para un cierto número (N = 60) de mujeres embarazadas: 2 1 7 6 8 4 8 4 6 8 6 7 7 7 8 3 9 7 6 5 1 1 2 9 6 3 7 6 4 7 6 9 7 8 6 5 7 10 8 3 5 7 7 6 5 10 8 5 9 7 2 1 4 8 9 4 2 1 8 1 Recorrido.- Diferencia entre el mayor y menor valor que toma la variable. Frecuencia absoluta (n i ) de un valor x i de la variable X.- Número de veces que aparece repetido en el conjunto de las observaciones realizadas. Frecuencia relativa (f i ).- Viene dada por f i número de observaciones. = n i, donde N es el N Frecuencia absoluta acumulada (N i ).- Suma de las frecuencias absolutas de los valores menores o iguales a x i. Frecuencia relativa acumulada (F i ).- Viene dada por F i = i j=1 f j i j=1 n j N = N i N = Tabla de frecuencias de una variable discreta.- Se construye ordenando los distintos valores de la variable de menor a mayor y anotando las distintas frecuencias: x i n i f i N i F i Ejemplo 2.2. Construir la tabla de frecuencias correspondiente al ejemplo anterior. 3
x i n i f i N i F i 1 6 0.1 6 0.1 2 4 0.067 10 0.167 3 3 0.05 13 0.217 4 5 0.083 18 0.3 5 5 0.083 23 0.383 6 9 0.15 32 0.533 7 12 0.2 44 0.733 8 9 0.15 53 0.883 9 5 0.083 58 0.967 10 2 0.033 60 1 2 1 7 6 8 4 8 4 6 8 6 7 7 7 8 3 9 7 6 5 1 1 2 9 6 3 7 6 4 7 6 9 7 8 6 5 7 10 8 3 5 7 7 6 5 10 8 5 9 7 2 1 4 8 9 4 2 1 8 1 2.1. Propiedades de las frecuencias 1. n 1 + n 2 +... + n k = N 2. f 1 + f 2 +... + f k = 1 3. N k = N 4. F k = 1 5. 0 n i N 6. 0 f i 1 7. N i = N i 1 + n i 8. ( %) xi = f i 100 4
2.2. Tratamiento de variables agrupadas en intervalos de clase En caso de disponer de pocas observaciones se tienen pocos valores para la variable en estudio. Aunque se disponga de muchas observaciones, se pueden tener pocos valores distintos. Ahora bien, en caso de tener muchas observaciones y muchos valores distintos, agruparemos los valores en intervalos. Hay que elegir la amplitud del intervalo de modo que no se pierda mucha información. A la diferencia entre el extremo superior y el inferior se le llama amplitud del intervalo. Se distinguen: intervalos de amplitud constante. intervalos de amplitud variable. En general es conveniente agrupar los datos en intervalos de igual tamaño. Los intervalos también podemos elegirlos: semiabiertos [a, b), [b, c),... con límites reales de clase.- No se solapan. Por ejemplo: 120 139, 140 159,... Conviene elegir en este caso intervalos que contengan a éstos, que no modifiquen las frecuencias y que se solapen, por ejemplo 119,5 139,5, 139,5 159,5,... A estos extremos se les llama límites reales de clase. La marca de clase es el punto medio de cada intervalo y es el que representa la información que contiene el intervalo. Para construir la tabla de frecuencias de una variable agrupada en intervalos trabajamos con la marca de clase. Intervalo M. de clase n i f i N i F i 5
3. Representaciones Gráficas Las tablas estadísticas proporcionan un resumen de los datos disponibles de una población. Esto permite realizar un análisis rápido de los datos. Para poder realizar un rápido análisis visual de las características de la población se usan gráficos y diagramas. Veamos algunos de los más empleados. Representación gráfica de caracteres cualitativos Diagrama de barras.- En el eje de abscisas se representan las modalidades del carácter cualitativo, y se levantan rectángulos cuyas bases miden todas lo mismo y cuyas alturas son las frecuencias absolutas. Ejemplo 3.1. Cualitativo discreto: Mujeres ingresadas en una maternidad según su estado civil. Estado civil N o mujeres Solteras 3981 Casadas 68637 Viudas 150 No consta 646 Diagrama de sectores.- Consiste en representar mediante sectores circulares las distintas modalidades de un carácter. Los sectores circulares han de tener un ángulo central proporcional a la frecuencia absoluta correspondiente, por lo que el área del sector circular será proporcional a la frecuencia absoluta. 6
Ejemplo 3.2. Distribución de profesionales sanitarios en el año pasado. Profesionales Frecuencias Médicos 51594 Odontólogos 3613 Farmacéuticos 17498 Veterinarios 7462 ATS 25723 Representación gráfica de caracteres cuantitativos Diagrama de barras.- La definición es análoga al caso de caracteres cualitativos. Ejemplo 3.3. Cuantitativo discreto: Distribución de lotes según número de piezas defectuosas. N o piezas defectuosas Frecuencia por lote 1 6 2 14 3 16 4 7 5 5 6 2 En este ejemplos se ha representado en el eje de ordenadas la frecuencia absoluta n i. También podríamos representar la 7
frecuencia relativa f i. La unión de los puntos medios de las bases superiores de los rectángulos se denomina polígono de frecuencias, y también se ha representado en el ejemplo. Histograma.- Se utiliza para variables agrupadas en intervalos de clase, y consiste en representar, mediante un rectángulo, cada una de las modalidades, de manera que las alturas de los rectángulos sean iguales a las frecuencias de clase, suponiendo que todas las clases tengan igual tamaño. Si no es así, las alturas han de ser calculadas, de manera que las áreas de los rectángulos han de ser proporcionales a las frecuencias de cada clase. La altura del i-ésimo rectángulo viene dada por: h i = n i c i, ó h i = f i c i, donde c i es la longitud del i-ésimo intervalo. Ejemplo 3.4. Distribución de pesos para una determinada muestra poblacional. Peso Frecuencia (kg) (miles) 30-40 29 40-50 127 50-60 16 60-70 24 El polígono de frecuencias, también representado en el ejemplo anterior, es la línea que une los puntos medios de las bases superiores de los rectángulos de un histograma de frecuencias. 8
Diagrama de frecuencias acumuladas.- Se emplea para variables discretas. En el eje x se representan los valores x 1, x 2,..., x k de la variable, y en el eje y sus frecuencias acumuladas, que pueden ser absolutas o relativas. Polígono de frecuencias acumuladas.- Se emplea para variables estadísticas agrupadas en intervalos. En el eje x se representan los intervalos, y en el eje y sus frecuencias acumuladas, que pueden ser absolutas o relativas. 9