Estadística Conceptos de Estadística Descriptiva
Estadística Descriptiva Recordemos que : Es la rama de la Estadística que trata básicamente sobre la recolección, organización, presentación, descripción, comparación y resumen de los datos experimentales de una población o de una muestra de la misma, mediante métodos adecuados. Su objetivo principal es caracterizar tales datos, de manera gráfica o analítica, para resaltar las propiedades de los elementos bajo estudio.
Población y muestra Población es el conjunto de elementos que son objeto de estudio y del cual estamos interesados en obtener conclusiones. En teoría las poblaciones pueden ser finitas o infinitas, por lo cual en la práctica y por razones económicas y de tiempo se estudia una parte de ellas. Muestra es un subconjunto de la población al que tenemos acceso y sobre el que realmente hacemos las observaciones (o mediciones) Debería ser representativa Está formada por elementos seleccionados de la población, pero al azar.
Variables Una variable es una característica, propiedad o cualidad observable que toma distintos valores o modalidades entre los diferentes individuos de una población. Ejemplos : En los individuos de la población uruguaya, de uno a otro es variable: El grupo sanguíneo Su nivel de felicidad declarado El número de hijos La altura Los valores posibles de cada variable son respectivamente: {A, B, AB, O} {Deprimido, Feliz, Muy Feliz} {0,1,2,3,...} {1 62 ; 1 74;...}
Tipos de variables Cualitativas Si sus valores permiten clasificar a los individuos y solo podemos decidir sobre la igualdad o la desigualdad entre ellos (no tiene sentido hacer operaciones algebraicas con ellos) Nominales: Si sus valores no se pueden ordenar Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No), Ordinales: Si sus valores se pueden ordenar Mejoría a un tratamiento, Nivel de felicidad declarado, Intensidad del dolor Cuantitativas Son aquellas que pueden medirse numericamente (tiene sentido hacer operaciones algebraicas con ellos) Discretas: Si toma valores finitos o infinitos numerables Número de hijos, Número de cigarrillos, Num. de cumpleaños Continuas: es aquella que puede tomar cualquier valor, al menos teóricamente en algún intervalo de números reales. Altura, Presión intraocular, Dosis de medicamento administrado, edad
Variables cualitativas En este caso generalmente se codifican las variables como números para poder procesarlas con facilidad en una computadora. Es conveniente asignar etiquetas a los valores de las variables para recordar qué significan los códigos numéricos. Sexo (Cualit: Códigos arbitrarios) 1 = Hombre 2 = Mujer Raza (Cualit: Códigos arbitrarios) 1 = Blanca 2 = Negra,... Felicidad Ordinal: Respetar un orden al codificar. 1 = Muy feliz 2 = Bastante feliz 3 = No demasiado feliz Se pueden asignar códigos a respuestas especiales como 0 = No sabe 99 = No contesta...
Variables cualitativas Pero, aunque se codifiquen como números, debemos recordar siempre el verdadero tipo de las variables y su significado.
Variables cuantitativas En el caso continuo los posibles valores de la variable se agrupan en clases (o intervalos). En el caso discreto, en ocasiones tambien se utiliza este recurso. Tales clases deben forman un sistema exhaustivo y excluyente. Ejemplos : Edades: Hijos: Menos de 20 años, de 20 a 50 años, más de 50 años Menos de 3 hijos, De 3 a 5, 6 o más hijos Exhaustivo: Todo valor de la variable debe pertenecer a alguna clase Excluyente: No puede un elemento estar en dos categorías simultaneamente
Presentación de datos Una vez obtenidos los datos en la muestra, se realiza un primer ordenamiento de los valores de las variables y el número de veces que aparece cada uno. Es claro que podemos optar por presentarlos de distintos modos. Ejemplo : Variable: Género Valores: H = Hombre M = Mujer Datos de la muestra: M H H M M H M M M H es igual a HHHH MMMMMM es igual a H=4 M=6 es igual a Sin embargo, tradicionalmente se han elegido otras :
Presentación ordenada de datos 7 Género Frec. Hombre 4 Mujer 6 tabla de frecuencias 6 5 4 3 2 1 0 Hombre Mujer representación gráfica Las tablas de frecuencias y las representaciones gráficas son dos maneras de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra con caracteristicas diferentes, aunque equivalentes.
Tablas de frecuencias Exponen bajo forma de tabla la información recogida en la muestra, de forma que se pierda poca o nada de información. Se utilizan los siguientes conceptos : Frecuencia absoluta: Contabiliza el número de individuos que presentan determinado valor de la variable Frecuencia relativa: cociente entre la frecuencia absoluta con respecto al número total de individuos Género Frecuenc. Absoluta Frec. Relativa o porcentaje Hombre 4 4/10=0,4=40% Mujer 6 6/10=0,6=60% 10=tamaño muestral Observar que la suma de las frecuencias absolutas da el número de datos o tamaño muestral, mientras que la suma de las frecuencias relativas da 1 (o 100%)
Tablas de frecuencias Frecuencia acumulada absoluta: de un valor de la variable es la suma de frecuencias absolutas de los valores menores o iguales al valor considerado. Frecuencia acumulada relativa: de un valor de la variable es la suma de frecuencias relativas de los valores menores o iguales al valor considerado. Ejemplo : Valor de X Fr.abs. Fr.ac.abs. Fr.rel. Fr.ac.rel. 1 1 1 1/12 = 0,083 0,083 2 3 4 3/12 = 0,250 0,333 3 5 9 5/12 = 0,417 0,750 4 3 12 3/12 = 0,250 1,000
Problema : Cuántos individuos tienen menos de 2 hijos? frec. indiv. sin hijos + frec. indiv. con 1 hijo = 419 + 255 = 674 individuos Qué porcentaje de individuos tiene 6 hijos o menos? 97,3% 0 1 2 3 4 5 6 7 Ocho+ Total Número de hijos Porcent. Porcent. Frec. (válido) acum. 419 27,8 27,8 255 16,9 44,7 375 24,9 69,5 215 14,2 83,8 127 8,4 92,2 54 3,6 95,8 24 1,6 97,3 23 1,5 98,9 17 1,1 100,0 1509 100,0
Gráficos para variables cualitativas Diagramas de barras Alturas proporcionales a las frecuencias (absolutas o relativas) Diagramas de sectores (tartas, polares) El área de cada sector es proporcional a su frecuencia (abs. o rel.) No usarlo con variables ordinales.
Gráficos para variables cualitativas Pictogramas Cada categoría se simboliza o bien por un único dibujo, cuyo tamaño es directamente proporcional a la frecuencia que representa o bien se utilizan dibujos de igual tamaño y la cantidad de éstos en cada categoría es directamente proporcional a su frecuencia.
Ventajas y desventajas de las representaciones gráficas anteriores Los gráficos de barras potencian las diferencias de frecuencias entre las categorias Los gráficos circulares atenúan las diferencias entre las diferentes categorías La utilización de gráficos circulares es aconsejable para variables con un número no muy alto de categorías
Gráficos para variables cuantitativas Son diferentes en función de que las variables sean discretas o continuas. Se utilizan con frecuencias absolutas o relativas. Diagramas de barras o puntos ( variables discretas) Alturas proporcionales a las frecuencias (absolutas o relativas), dejando un hueco entre barras para indicar los valores que no son posibles 400 419 375 Frecuencias absolutas Frecuencias relativas Recuento 300 200 255 215 6 5 4 3 3 5 3 0,500 0,400 0,300 127 2 0,200 100 1 1 0,100 54 24 23 17 0 1 2 3 4 0,000 1 2 3 4 0 1 2 3 4 5 6 7 Ocho o más Número de hijos
Gráficos para variables cuantitativas Histogramas para datos agrupados en intervalos o clases El área que hay bajo el histograma entre dos puntos cualesquiera indica la frecuencia de individuos en el intervalo. 250 200 Recuento 150 100 50 20 40 60 80 Edad del encuestado
Gráficos para variables cuantitativas Diagramas de frecuencias acumuladas La altura de la barra indica la frecuencia acumulada (absoluta o relativa)
Gráficos para variables cuantitativas 16 14.9 14.1 14.8 14.4 14.0 14.6 Polígono de Frecuencias Se unen los extremos de las barras o los puntos medios superiores de los rectángulos en el histograma 15.2 14.7 13.6 14.6 16.1 13.2 13.2 14.9 14.1 15.4 15.3 14.4 14.8 14.8 13.5 15.1 13.5 15 14.6 15.4 15.9 13.7 15.9 14.7 14.5 14.4 13.8 15.3 Ejemplo: En el estudio de pautas de crecimiento en niños, una variable importante es la edad del niño cuando comienza el crecimiento rápido de la adolescencia. Las siguientes observaciones fueron obtenidas en un estudio de 35 varones
Qué hemos visto hasta ahora? Definiciones de Estadística Población Muestra Variables Cualitativas Cuantitativas Presentación ordenada de datos Tablas de frecuencias absolutas relativas acumuladas Representaciones gráficas Cualitativas Cuantitativas
Comentarios y continuación En Estadística no se busca una precisión absoluta sino una visión general. Los datos obtenidos pueden formar un conjunto no manejable de números que hace difícil el seguir adelante y sacar conclusiones. Sin embargo veremos que, en general, podemos englobar conceptualmente todos los datos obtenidos con sólo dos medidas (o números) indicadoras : Medidas de tendencia central : Media aritmética ( o media o promedio), mediana, moda Medidas de Dispersión : Rango, Desviación típica, Varianza
Medidas de tendencia central : x La media aritmética ( ) es el cociente entre la suma de los valores de la variable y el número de valores obtenidos ( N ) : x N i= 1 N x i Representa una especie de centro de masa de x. Se ve más influenciada por los valores mayores de la variable.
Medidas de tendencia central Ejemplo de Media: Calificaciones de un alumno en un año Datos Datos ordenados 84 91 84 78 81 72 76 80 87 72 76 78 80 81 84 84 87 91 Media 81,4 100 80 60 40 Calificaciones alum no A 733 733 20 0 1 2 3 4 5 6 7 8 9 mes
Medidas de tendencia central : La mediana es el valor de la variable que divide el grupo original de datos en dos grupos de igual número de elementos : uno con valores mayores y otro con valores menores que tal mediana. Representa una especie de centro numérico de x. No se ve influenciado por los valores de x, sino por el número de datos en cada valor.
Medidas de tendencia central Ejemplo de Mediana: Calificaciones alum no A Datos ordenados 100 80 60 40 20 0 1 2 3 4 5 6 7 8 9 mes 72 76 78 80 81 84 84 87 91 4 4 Mediana 81
Medidas de tendencia central : La moda es el valor de la variable que se repite más veces, es decir, aquel que tiene mayor frecuencia absoluta. Dicha medida se puede calcular en cualquier tipo de variable y en cualquier escala de medida. Según el o los valores de la moda, las distribuciones de las variables se pueden clasificar en unimodales y multimodales. Da el valor más repetido de x. No se ve influenciado por los valores de x, sino por el número de datos en cada valor.
Medidas de tendencia central Ejemplo de Moda: Calificaciones alum no A Datos ordenados 100 80 60 40 20 0 1 2 3 4 5 6 7 8 9 mes 72 76 78 80 81 84 84 87 91 Moda 84
Medidas de dispersión : El Rango es la diferencia entre el valor mayor y valor menor de la variable. Es una medida de la dispersión de los datos, sin embargo tiene en cuenta solo dos: el máximo y el mínimo. Ejemplo: Datos ordenados 72 76 78 80 81 84 84 87 91 Rango 19 100 80 60 40 20 0 Calificaciones alumno A 1 2 3 4 5 6 7 8 9 mes
Medidas de dispersión : La desviación típica ( s ) es la raíz cuadrada del cociente entre la suma de ciertas desviaciones al cuadrado y el número de datos. Tales desviaciones son las diferencias entre cada valor de la variable y la media del conjunto de datos. La varianza ( s 2 ) es el cuadrado de la desviación típica. N i= 1 σ ( x x) Da una idea de la dispersión de valores alrededor de la media i N 2
Medidas de dispersión Ejemplo de Desviación típica y Varianza: Datos ordenados 72 76 78 80 81 84 84 87 91 81,4-7,7 = 73,7 ( x ±σ ) + 7,7 = 89,1 N i= 1 σ ( x x) i 2 s = 7,7 N s 2 = 59,6 Calificaciones alumno A 100 80 60 40 20 0 1 2 3 4 5 6 7 8 9 mes
Hemos presentado la mayoría de los conceptos básicos de Estadística descriptiva: Definiciones Población, Muestra Variables Cualitativas Cuantitativas Presentación ordenada de datos Tablas de frecuencias absolutas relativas acumuladas Representaciones gráficas Cualitativas Cuantitativas Medidas de un conjunto de datos Tendencia central Dispersión qué sigue? Veremos ahora más ejemplos y cómo utilizar una herramienta importante: la hoja de cálculo