Apuntes de Estadística La Estadística es la ciencia que se encarga de recoger, organizar, describir e interpretar datos referidos a distintos fenómenos para, posteriormente, analizarlos e interpretarlos. Tiene mucha importancia en la actualidad, fundamentalmente por la presencia en diversos ámbitos de la vida cotidiana y por la contribución que ejerce en otras materias, como por ejemplo la Medicina, la Biología o la Economía. La gran utilización del lenguaje y técnicas estadísticas en medios de comunicación, política, sanidad, economía, etc. han convertido en básica la necesidad de interpretar y analizar los datos para comprender la realidad que nos rodea. Es importante ser críticos con las informaciones estadísticas, detectar muestras sesgadas y resultados no representativos que se pueden encontrar en cualquier sector de la sociedad actual, por ejemplo, las encuestas y sondeos electorales. Esta presencia de la Estadística en multitud de ámbitos en la vida cotidiana, ha hecho que se considere como parte de la cultura matemática general que debería tener cualquier persona, como ciudadano y miembro de la sociedad. Es decir, los conocimientos estadísticos contribuyen en el desarrollo personal del individuo, no sólo le aporta conocimientos, sino que la gran vinculación con la realidad le servirá para formarse como persona. Estos conocimientos le ayudarán a tomar decisiones en situaciones de incertidumbre y a ser crítico con los resultados que obtenga y encuentre en cualquier sector o situación a lo largo de su vida. Por ello, se convierte en necesaria la educación estadística para llegar a desarrollar todas estas capacidades. 1. Conceptos básicos Estudio estadístico: consiste en recoger información sobre alguna característica de un grupo de individuos. Población: es el conjunto de elementos que son objeto del estudio estadístico. Muestra: es la parte de la población que se estudia cuando ésta es muy grande y, a partir de ella, se deducen las características de la población. Individuo: es cada uno de los elementos de la población o de la muestra. Tamaño muestral: es el número de individuos de la muestra. Ejercicio 1. Razona si utilizarías la población o una muestra a) Conocer el número medio de hijos de las familias del barrio de tu instituto. b) ota media en matemáticas de los alumnos de la clase. c) Preferencias musicales de los alumnos de este instituto. d) El salario medio de los madrileños. e) Destino preferido por los españoles para sus vacaciones. 2. Variable Estadística Una variable estadística es la característica que se estudia en un fenómeno estadístico, es decir, es el conjunto de valores que puede tomar cada uno de los fenómenos estudiados a través de la Estadística. 1
Las variables con las que trabajamos pueden ser cualitativas o cuantitativas y estas últimas, a su vez, discretas o continuas: Variables estadísticas valores numéricos Cuantitativas Discretas (valores aislados, separación entre ellos) { Continuas (cualquier valor dentro de un rango) Cualitativas { valores que expresan cualidades Ejercicio 2. Indica los tipos de variables estadísticas del ejercicio 1. 3. Recuento de datos. Tablas de frecuencias A la hora de analizar y estudiar los resultados obtenidos en un estudio estadístico, es conveniente agrupar y organizar los datos. Este proceso varía ligeramente dependiendo del tipo de variable estadística. Variable cualitativa: se escribe cada valor y se hace el recuento del número de veces que aparece. Variable cuantitativa: se ordenan los valores de menor a mayor y se hace el recuento del número de veces que aparece. Para organizar los datos utilizamos las tablas de frecuencias. Consideremos una variable estadística X con resultados posibles x 1, x 2,, x y número total de datos. Frecuencia absoluta: La frecuencia absoluta f i de un dato x i es el número de veces que se repite. Es claro que la suma de las frecuencias absolutas coincide con el número total de datos : = f 1 + f 2 + + f = f i Frecuencia relativa: La frecuencia relativa h i de un dato x i es el cociente entre su frecuencia absoluta y el total de datos: h i = f i La suma de las frecuencias relativas vale 1: h i = h 1 + h 2 + h = f 1 + f 2 + + f = = 1 El porcentaje p i: El porcentaje % de un dato x i se calcula multiplicando su frecuencia relativa por 100: p i % = h i 100 La suma de los porcentajes de todos los datos x i vale 100: p i = p 1 + p 2 + p = (h 1 + h 2 + h ) 100 = 1 100 = 100 Frecuencia absoluta acumulada: La frecuencia absoluta acumulada F i de un dato x i es la suma de las frecuencias absolutas de los valores que son menores o iguales que el dato x i : F 1 = f 1 F Así, [ 2 = f 1 + f 2.. F i = f 1 + f 2 + + f i 2
Frecuencia relativa acumulada: La frecuencia relativa acumulada H i de un dato x i es la suma de las frecuencias relativas de los valores que son menores o iguales que el dato x i : H 1 = h 1 H Así, [ 2 = h 1 + h 2.. H i = h 1 + h 2 + + h i Cuando el número de datos de una variable estadística X es grande, es conveniente organizarlos en una tabla de distribución de frecuencias donde los datos figuran en la primera columna y su frecuencia absoluta en la segunda. Ejercicio 3. Completa, razonadamente, los valores que faltan en la tabla de frecuencias a partir de los valores que se dan en ella. (Para ello, utiliza las relaciones que ya conocemos h i = f i Cálculos = f 2 = f 3 = f 4 = h 3 = ; f i = h i ; = f i h i ) h 5 = b) Cómo interpretamos F 3 = 9? Tabla de frecuencias Datos x i f i F i h i H i x 1 =3 f 1 =3 h 1 =0,15 x 2 =5 h 2 =0,2 x 3 =7 x 4 =9 h 4 =0,3 x 5 =12 f 5 =5 = h i = 4. Gráficos estadísticos Los gráficos estadísticos nos permiten identificar y observar características importantes sobre el conjunto de datos que se está estudiando. Podemos distinguir los siguientes: 4.1 Diagrama de barras Consiste en un sistema de ejes perpendiculares. En el eje horizontal se representan los distintos valores que toma la variable estadística y en el eje vertical las frecuencias absolutas correspondientes, mediante barras proporcionales a las mismas. Es utilizado en variables cualitativas o cuantitativas discretas. 15 10 5 0 1 2 3 4 5 6 7 En este tipo de gráficos, es frecuente representar el llamado polígono de frecuencias. Se forma a partir del diagrama de barras uniendo mediante una línea poligonal los extremos superiores de cada una de las barras 3
4.2 Pictograma Este tipo de gráfico utiliza dibujos representativos de los datos, cuyos tamaños son proporcionales a las frecuencias. 4.3 Diagrama de sectores En este tipo de gráfico, los datos se representan en un círculo, de forma que el ángulo de cada sector es proporcional a la frecuencia absoluta correspondiente. La amplitud α, medida en grados sexagesimales, de cada sector, se puede obtener de la siguiente forma: α = f i 360 = h i 360 Se trata de un gráfico que puede ser utilizado para todo tipo de variables, pero se usa generalmente para las variables cualitativas. suspensos aprobados notables 4.4 Histograma Es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Sirven para obtener una "primera vista" general, o panorama, de la distribución de la población, o la muestra, respecto a una característica, cuantitativa y generalmente continua. 10 20 30 40 50 60 Ejercicio 4. Responde razonadamente a partir del siguiente histograma: a) Qué representa el gráfico? b) Indica el tipo de variable y la tabla de frecuencias. c) Qué frecuencia indica los alumnos que han obtenido menos de 6? Cuántos alumnos son? 4
5. Medidas de centralización Las medidas de centralización son ciertos parámetros que tienen a situarse, en general, hacia el centro del conjunto de datos ordenados y dan información de los mismos. Los más utilizados con la media, la moda y la mediana. 5.1 Media aritmética Si los posibles resultados de una variable estadística de datos son: x i : x 1, x 2, x 3,, x con frecuencias absolutas f i : f 1, f 2, f 3,, f llamaremos media aritmética y la representaremos como x al cociente: x = x 1f 1 + x 2 f 2 + + x f = x if i f 1 + f 2 + + f es decir, es el cociente de la suma de todos los valores multiplicados por su frecuencia entre el total de datos. Observación: En el caso de datos agrupados en intervalos, x i se refiere a la marca de clase. f i = x if i 5.2 Moda Es el valor de la variable que presenta mayor frecuencia absoluta. Se representa por M o. Puede ocurrir que la moda no sea única. En el caso de una variable continua la moda es la marca de clase del intervalo y también hablaremos de intervalo modal. 5.3 Mediana Llamaremos mediana al número que, una vez ordenados los datos de menor a mayor sin agrupar, está en la posición central. Es decir, es el valor tal que el número de observaciones menores que él es igual al número de observaciones mayores que él (Por encima y por debajo están el 50% de los datos). Se representa por Me. Si el número de datos es par, tomamos como mediana la media aritmética de los valores centrales y si es impar, el valor central. Observación: Cuando el número de datos es muy grande, no es fácil ordenar los datos; y se usan las frecuencias acumuladas F i. Ejercicio 5. Calcula la mediana en los siguientes conjuntos de datos: a) 3, 6, 2, 9, 5, 12, 11 En primer lugar, ordenamos el conjunto de datos de menor a mayor: 2, 3, 5, 6, 9, 11, 12 Como el número de datos es impar, habrá un único valor central. Me = 6. b) 6, 5, 9, 3, 2, 13, 11, 12 En primer lugar, ordenamos el conjunto de datos de menor a mayor: 2, 3, 5, 6, 9, 11, 12, 13 Como el número de datos es par, no hay un único valor central. Tomaremos como mediana la media aritmética de ambos valores centrales. Me = 6+9 2 = 7,5. 5
Ejercicio 6. Calcula las medidas de centralización del siguiente conjunto de datos 1, 3, 2, 1, 4, 5, 6, 4, 7, 6, 5, 4, 8, 6, 9, 6, 5, 4, 5, 1 En primer lugar, construimos la tabla de frecuencias, añadiendo la columna x i f i : x i f i F i x i f i 1 3 3 3 2 1 4 2 3 1 5 3 4 4 9 16 5 4 13 20 6 4 17 24 7 1 18 7 8 1 19 8 9 1 20 9 f i =20 x i f i = 92 Por tanto, x = 92 20 = 4,6 La moda es el dato con mayor frecuencia absoluta. En este caso, la moda no es única ya que los datos 4, 5 y 6 tienen la máxima frecuencia. Como el número de datos es par, la mediana es la media de los dos datos centrales. En este caso: Me = 5+5 2 = 5 Ejercicio 7. A partir del siguiente conjunto de datos 2, 3, 3, 2, 4, 5, 7, 6, 9 a) Añade un dato para que la mediana no varíe En primer lugar, ordenamos los datos de menor a mayor: 2, 2, 3, 3, 4, 5, 6, 7, 9 Como el número de datos es 9 (impar) la mediana será el valor central, es decir, el dato situación en la posición 5. Me = 4. Si añadimos un dato más, el número total de datos sería 10 (par) y no existiría un dato central. En este caso la mediana sería la media de los dos datos situados en las posiciones centrales (posiciones 5 y 6). Por lo tanto, el dato que debemos añadir es 4. Así, Me = 4+4 = 4. 2 b) Añade un dato para que la media no varíe En primer lugar, calculamos la media de los datos actuales: x = 2 2 + 3 2 + 4 + 5 + 6 + 7 + 9 = 41 9 9 4,55 Llamamos x al nuevo dato. Entonces, tendríamos un total de 10 datos y la media sería: x = 2 2 + 3 2 + 4 + 5 + 6 + 7 + 9 + x 41 + x = 4,55 = 4,55 41 + x = 45,5 x = 4,5 10 10 c) Añade un dato para que la moda no varíe En nuestro conjunto de datos, los datos 2 y 3 son los que tienen mayor frecuencia absoluta, por tanto, Mo = {2, 3}. Si queremos añadir un dato de forma que la moda no varíe, estos deberán seguir siendo los datos con mayor frecuencia absoluta. Por tanto, podemos añadir cualquier número distinto de 2, 3, 4, 5, 6, 7 o 9. Por ejemplo, añadir el número 1. d) Añade un dato para que la moda sea 3 En ese caso, el dato 3 debe ser aquel con mayor frecuencia absoluta, por tanto, la única posibilidad es añadir un dato con valor 3. 6
6. Medidas de dispersión Las medidas de centralización no son suficientes para estudiar las características de los datos y para proporcionar una información completa se deben analizar las medidas de dispersión, Son ciertos parámetros que indican la agrupación de los datos respecto de la media. 6.1 Rango o recorrido Es la diferencia entre el mayor y el menor valor de la variable. Es decir: R = x max x min Observación: Si los datos están agrupados en intervalos, se tiene en cuenta el extremo superior y el extremo inferior. 6.2 Varianza Si los posibles resultados de una variable estadística de datos son: x i : x 1, x 2, x 3,, x con las frecuencias absolutas f i : f 1, f 2, f 3,, f llamaremos varianza y la representaremos como σ 2 a la siguiente expresión: σ 2 = (x i x ) 2 f i f i = (x i x ) 2 f i es decir, es la media aritmética de los cuadrados de las desviaciones respecto de la media. En la práctica se puede utilizar la siguiente expresión para el cálculo de la varianza: σ 2 = x i 2 f i 2 x Es decir, la varianza es la media de los cuadrados de los datos menos el cuadrado de la media. Observación 1: Si los datos están agrupados por intervalos, x i se refiere a la marca de clase de cada uno de los intervalos. Observación 2: la varianza siempre es positiva o nula, este último caso cuando todos los datos coinciden con la media. 6.3 Desviación típica La desviación típica se define como la raíz cuadrada positiva de la varianza. σ = (x i x ) 2 f i f i = (x i x ) 2 f i o bien, si utilizamos la otra fórmula más práctica para el cálculo de la varianza: σ 2 = x i 2 f i x 2 7
6.4 Coeficiente de variación Esta medida se calcula como el cociente de la desviación típica entre la media. o tiene unidades y suele expresarse en tanto por ciento. Se utiliza para comparar la dispersión de distintos conjuntos de datos. CV = σ x Ejercicio 8. Las notas de los alumnos de 3E en matemáticas se recogen en la siguiente tabla: x i f i F i x i f i 2 x i x 2 i f i 1 2 2 2 1 2 2 2 4 4 4 8 3 4 8 12 9 36 4 5 13 20 16 80 5 8 21 40 25 200 6 9 30 54 36 324 7 3 33 21 49 147 8 4 37 32 64 256 9 3 40 27 81 243 40 212 1296 a) Calcula las medidas de centralización (Solución: x = 5,3 ; Me = 5 ; Mo = 6 ) b) Calcula las medidas de dispersión. (Solución: R = 8 ; σ 2 = 4,31 ; σ = 2,08 ; CV = 0,39 39%) 7. Medidas de posición Las medidas de posición informan del lugar que ocupa un dato dentro del conjunto de datos ordenado. Los valores utilizados se llaman cuartiles. Los cuartiles son valores que dividen el conjunto de datos en cuatro partes iguales. El primer cuartil Q 1, deja por debajo el 25% de los datos. El segundo cuartil Q 2, deja por debajo el 50% de los datos. Coincide con la mediana. El tercer cuartil Q 3, deja por debajo el 75% de los datos. Para calcular el cuartil Q = 1,2,3, calculamos el % del número de datos y a continuación, se busca la primera frecuencia absoluta acumulada superior o igual a dicho valor (importante que los datos estén previamente ordenados). El valor del cuartil será el del dato asociado a dicha frecuencia. A partir de estos cuartiles podemos construir el llamado diagrama de caja y bigotes. Se trata de un gráfico formado por un segmento con extremos el menor y el mayor valor de los datos (bigotes) y una caja formada sobre el primer y tercer cuartil (caja). os proporciona una visión de la distribución de los datos. 8