Estadística Descriptiva
Hay tres tipos de mentiras: las mentiras, las cochinas mentiras y las estadísticas. (Mark Twain) El motivo de semejante afirmación radica en el mal uso, o abuso de que se hace de los datos o información recogida en un estudio. (Ejemplos)
TEMA 1 Estadística Descriptiva 1. Variables estadísticas unidimensionales a) Introducción b) Estudio descriptivo de una variable c) Representaciones gráficas d) Medidas de tendencia central e) Medidas de dispersión f) Medidas de posición g) Medidas de comparación 2. Estudio conjunto de dos variables a) Diagramas de dispersión b) Covarianza, coeficiente de correlación c) Rectas de regresión
Introducción Variables Estadísticas Unidimensionales La ESTADÍSTICA MATEMÁTICA es la ciencia que nos facilita métodos precisos para: La obtención de datos y su descripción El análisis, interpretación y obtención de conclusiones a partir de la información recogida. Distinguimos dos disciplinas: ESTADÍSTICA: Estudia la recogida, ordenación, presentación, resumen y comparación de datos PROBABILIDAD: Modelo matemático del fenómeno de la aleatoriedad
Introducción Variables Estadísticas Unidimensionales Definiciones: El objeto de una investigación estadística es estudiar una determinada característica que se denomina VARIABLE ESTADÍSTICA. Se denomina POBLACIÓN al conjunto de individuos (no necesariamente personas) objeto del estudio. El estudio suele realizarse con una parte de la población que denominamos MUESTRA. Un análisis estadístico consta de varias fases: Diseño de experimentos: Planificación de qué datos recoger, decidir el tamaño de la muestra, recogida de datos Estadística descriptiva: Presentación de los datos y resumen de los mismos. Inferencia Estadística: Inferir u obtener conclusiones sobre la muestra a toda la población y determinar un modelo matemático que describa el fenómeno estudiado.
Estudio descriptivo Variables Estadísticas Unidimensionales Una variable estadística se denomina CUALITATIVA si expresa alguna característica no numérica, i.e. una cualidad o atributo. Se denomina CUANTITATIVA si expresa alguna característica numérica. Podemos distinguir dos tipos: Discretas, cuando el resultado de la observación es algún número finito de posibles resultados. Continuas, cuando el resultado de la observación puede ser cualquier número real.
Estudio descriptivo Variables Estadísticas Unidimensionales Ejemplo: Las lesiones observadas en edificios construidos con cemento aluminoso en los años 50 se resumen en la siguiente tabla: Lesión Nº edificios Leves 24 Graves 15 Muy graves 11 Ejemplo: La siguiente tabla contiene el nº de personas que habitan en cada vivienda de un edificio. 1 5 2 2 3 6 2 2 4 3 4 4 3 2 2 4 1 2 5 4 1 6 2 2 6 3 3 4 2 1 Ejemplo: Los siguientes datos corresponden al índice de a-fetoproteina en el suero sanguíneo de 30 individuos adultos. 2.29 2.67 2.84 2.65 2.52 1.75 2.12 1.54 1.95 1.82 1.95 1.75 1.92 1.92 1.46 1.15 1.70 1.86 1.04 1.06 1.52 1.67 1.40 2.13 1.23 1.83 1.91 1.78 2.10 1.52
Estudio descriptivo Tabla de Frecuencias Se trata de la representación más sencilla de una variable estadística, en la que se resume la cantidad de veces que un valor o conjunto de valores se repite. Se llama FRECUENCIA ABSOLUTA de un valor x i al nº de veces que se repite dicho valor, y se representa por n i. Se llama FRECUENCIA RELATIVA de un valor a su frecuencia absoluta dividida por el nº total de datos, y se representa por f i
Estudio descriptivo Tabla de Frecuencias Ejemplo: La siguiente tabla contiene el nº de personas que habitan en cada vivienda de un edificio. 1 5 2 2 3 6 2 2 4 3 4 4 3 2 2 4 1 2 5 4 1 6 2 2 6 3 3 4 2 1 La tabla de frecuencia del ejemplo es x i n i f i % 1 4 0.133 13.3 2 10 0.333 33.3 3 5 0.166 16.6 4 6 0.2 20 5 2 0.066 6.66 6 3 0.1 10 Total n=30 1 100%
Estudio descriptivo Tabla de Frecuencias A menudo los datos se agrupan en clases o intervalos, se pierde información, pero se gana en claridad. Los intervalos suelen tener la misma amplitud. Se llama MARCA DE CLASE al valor central de cada intervalo. Un criterio convencional para elegir el número de intervalos es comenzar con 2 n intervalos, donde n es el número de datos de la muestra. Si es necesario se puede modificar este número para que los intervalos queden de la forma más sencilla posible.
Estudio descriptivo Tabla de Frecuencias Ejemplo: Los siguientes datos corresponden al índice de a-fetoproteina en el suero sanguíneo de 30 individuos adultos. 2.29 2.67 2.84 2.65 2.52 1.75 2.12 1.54 1.95 1.82 1.95 1.75 1.92 1.92 1.46 1.15 1.70 1.86 1.04 1.06 1.52 1.67 1.40 2.13 1.23 1.83 1.91 1.78 2.10 1.52 Clases Marca de clase n i N i f i F i [1.04, 1.34) 1.19 4 4 0,133 0,133 [1.34, 1.64) 1.49 5 9 0,166 0,3 [1.64, 1.94) 1.79 11 20 0,366 0,667 [1.94, 2.24) 2.09 5 25 0,166 0,833 [2.24, 2.54) 2.39 2 27 0,066 0,9 [2.54, 2.84) 2.69 3 30 0,1 1 n=30 Donde N i es la FRECUENCIA ABSOLUTA ACUMULADA, la suma de las frecuencias absolutas de los valores inferiores o iguales a cada valor, una vez que están ordenados de forma creciente. La FRECUENCIA RELATIVA ACUMULADA la suma de las frecuencias relativas de los valores inferiores o iguales a cada valor, una vez que están ordenados de forma creciente. F i
Gráficas Representaciones Gráficas
Gráficas Representaciones Gráficas Las representaciones gráficas permiten una mejor compresión de los datos de la Variable Estadística. Pueden facilitar enormemente la obtención de conclusiones y según el caso son más adecuadas unas que otras. Ejemplo de representaciones gráficas que facilitan la compresión de los datos 200 países, 200 años, 4 minutos Sin embargo hay muchos ejemplos de representaciones gráficas trucadas para influir en la población: Gráficos Manipulados
Variables Cuantitativas y Cualitativas Diagrama de Sectores En un círculo se asigna un sector circular a cada uno de los datos, siendo la amplitud del sector proporcional a la frecuencia del mismo. Distribución de las preferencias deportivas de una muestra de 300 alumnos de la EUITA Deporte Alumnos % Fútbol 65 21,50% Atletismo 58 19,30% Baloncesto 39 12,90% Natación 36 12% Gimnasia 33 11,20% Tenis 19 6,40% Voley 19 6,40% Rugby 10 3,40% Otros 21 6,90% Gráficas
Variables Cuantitativas y Cualitativas Pictograma Cada uno de los datos se representa por un dibujo del tamaño proporcional a la frecuencia del mismo. 0-19 años 20-64 años Más de 64 años 34.1% 59% 6.9% Gráficas
Gráficas Variables cuantitativas Diagrama de Barras. Para Variables Cuantitativas Discretas En esta representación se colocan en el eje de abcisas los distintos valores de la variable y sobre cada uno de ellos se representa una línea perpendicular cuya altura es la frecuencia (absoluta o relativa) de dicho valor. Distribución del número de hermanos de una muestra de 500 alumnos de la EUITA Nº Hermanos 0 1 2 3 4 5 6 Más de 6 Frecuencia 72 155 97 81 30 27 20 18
Variables cuantitativas discretas Histograma. Para Variables Cuantitativas Continuas Se utiliza para variables cuantitativas continuas agrupadas en intervalos. Sobre cada intervalo en el eje de abcisas, se representa un rectángulo cuya área sea la frecuencia del mismo. Peso en Kg Frecuencia <45 1 [45,50) 3 [50,55) 12 [55,60) 75 [60,65) 103 [65,70) 155 [70,75) 101 [75,80) 29 [80,85) 11 [85,90) 8 >90 2 Gráficas Distribución del peso de una muestra de 500 alumnos varones de la EUITA
Gráficas Variables cuantitativas discretas Polígono de Frecuencias. Para Variables Cuantitativas Si la variable es discreta, se obtiene uniendo los extremos superiores de las barras del diagrama de barras. Si la variable es continua y está agrupada en intervalos, se obtiene uniendo los puntos medios de las bases superiores de cada rectángulo en el histograma