1.- TERMINOLOGÍA ESTADÍSTICA. TÉCNICAS DE SELECCIÓN DE MUESTRAS Estadística descriptiva Es la ciencia que estudia conjuntos de datos obtenidos de la realidad. Estos datos son interpretados mediante tablas, gráficas y otros parámetros como la media, moda, varianza, etc. Población Es el conjunto formado por todos los elementos que queremos estudiar. Por ejemplo, si vamos a estudiar el peso de los jóvenes de 16 años nacidos en España, la población sería precisamente el conjunto formado dichos jóvenes Variable estadística Es la característica que queremos estudiar de la población. Hay distintos tipos de variables estadísticas Cualitativa Si los valores son cualidades. Por ejemplo, partido político preferido, color del pelo, etc. Cuantitativa Si los valores son números. Por ejemplo, nº de hermanos, estatura, peso, edad, temperatura, etc. - Página 1 - Discreta Cuando los valores son aislados. Por ejemplo, nº de hermanos, edad, etc. Continua Cuando entre dos valores, aunque estén muy próximos entre sí, siempre es posible tomar otro valor. Por ejemplo, la temperatura, el peso, etc. Muestra Una muestra es una parte de la población que elegimos para estudiar la población. El número de elementos de la muestra se llama tamaño de la muestra y el proceso de elección de una muestra se llama muestreo estadístico. Técnicas de selección de muestras Muestreo aleatorio simple: Consiste en tomar al azar unos pocos elementos de la población. Muestreo aleatorio estratificado proporcional Consiste en dividir la población en grupos y tomar aleatoriamente en cada grupo una muestra proporcional al nº de elementos del grupo. Ejercicio 1 En un centro docente la tercera parte de los alumnos estudia el idioma A, la mitad el idioma B y el resto el idioma C (cada alumno estudia sólo uno de estos idiomas). a) Se desea seleccionar una muestra de 60 alumnos, mediante muestreo aleatorio estratificado proporcional al número de los alumnos de cada idioma. Cómo debería estar conformada la muestra? b) En otra muestra seleccionada por el procedimiento anterior, el número de alumnos tomados del idioma A es 14. Determina cuántos se han elegido de los otros dos idiomas. Ejercicio Una población de 6000 personas se ha dividido en 3 estratos, uno con 1000 personas, otro con 3500 y otro con 1500. En esa población se ha realizado un muestreo estratificado proporcional, en el que se han elegido al azar 15 personas del tercer estrato. Determina el tamaño de la muestra total obtenida con este muestreo y su composición.
Practica tú: 1 Una empresa fabrica cuatro productos A, B, C y D, de los que elabora diariamente 40, 15, 5 y 10 unidades, respectivamente. Si un día se quiere elaborar una muestra de 40 unidades con los productos fabricados, por muestreo aleatorio estratificado proporcional, qué número de unidades de cada producto se debe elegir? En una aldea de 000 habitantes hay personas de pelo negro, rubio o castaño. Se ha seleccionado, mediante muestreo aleatorio estratificado proporcional, una muestra constituida por 8 personas de pelo negro, 3 de pelo rubio y 0 de pelo castaño. Determina cuál es la composición, según el color del pelo, de esa aldea. 3 En una barriada hay 400 hombres y 30 mujeres y queremos seleccionar una muestra de tamaño 54 usando muestreo estratificado proporcional por sexos. Cuál sería la composición de la muestra? 4 Una población de tamaño 1000 se ha dividido en 4 grupos de tamaño 150, 400, 50 y 00. Utilizando muestreo aleatorio estratificado proporcional se han seleccionado 10 individuos del tercer grupo, cuál es el tamaño de la muestra?.- TABLAS DE FRECUENCIAS Y GRÁFICOS ESTADÍSTICOS Tabla de frecuencias Los datos obtenidos en estadística se organizan en una tabla, llamada tabla de frecuencias. Tabla de frecuencias para datos aislados Edades de un grupo de alumnos de alumnos x i f i F i h i H i 13 6 6 30% 30% 14 5 11 5% 55% 15 7 18 35% 90% 16 1 19 5% 95% 18 1 0 5% 100% Suma total 0 = n - 100% - Tabla de frecuencias para datos agrupados Notas en un examen de un grupo Clases f i F i h i H i [,3) 3 3 15% 15% [3,4) 5 10% 5% [4,5) 3 8 15% 40% [5,6) 5 13 5% 65% [6,7) 3 16 15% 80% [7,8) 4 0 0% 100% Total 0 = n - 100% - x i representa los valores que hay en los datos. En el caso de datos agrupados, las clases son los intervalos. f i se llama frecuencia absoluta y representa las veces que aparece cada valor en los datos En el caso de datos agrupados, f i representa el nº de datos que hay en el intervalo o clase. Por ejemplo, en la 1ª tabla, la frecuencia absoluta fi = 7 significa que hay 7 alumnos con 15 años. F i es la frecuencia absoluta acumulada y se calcula sumando uno a uno los valores de la columna f i. Por ejemplo, en la ª tabla, la frecuencia absoluta acumulada Fi = 8 significa que hay 8 alumnos con menos de un 5 en el examen (8 alumnos suspensos). h i se llama frecuencia relativa y se calcula dividiendo cada valor f i entre el nº total de datos y se suele expresar en %. Por ejemplo, en la 1ª tabla, la frecuencia relativa hi = 5% significa que hay un 5% de alumnos con 14 años. H i es la frecuencia relativa acumulada y se calcula sumando uno a uno los valores de la columna h i. Por ejemplo, en la ª tabla, la frecuencia relativa acumulada Hi = 65% significa que hay un 65% de alumnos con menos de un 6 en el examen. - Página -
Practica tú: 5 Al preguntar a los profesores del instituto sus edades se han obtenido los siguientes datos: 5 44 31 53 8 47 38 6 3 45 30 5 44 46 50 31 40 41 38 33 3 35 31 39 7 48 6 54 9 54 30 7 37 34 33 40 3 8 47 39 a) Agrupa los datos en intervalos de amplitud 5 y construye la tabla de frecuencias. b) Qué porcentaje de profesores tiene menos de 40 años? c) Cuántos profesores tienen menos de 45 años? d) Qué porcentaje de profesores tiene entre 30 y 49 años (ambas edades incluidas)? Diagrama de barras Se representan los valores x i en un eje horizontal y para cada valor x i se dibuja una barra cuya altura sea la frecuencia de x i que se quiera representar. Las barras deben ser de la misma anchura y debemos dibujarlas separadas. Uniendo los extremos superiores de las barras por su punto medio, se obtiene una línea quebrada llamada polígono de frecuencias Número de hijos de un grupo de matrimonios x i f i 0 4 1 9 1 3 10 4 8 5 4 6 7 1 Total 50 = n El diagrama de barras se suele utilizar para variables discretas con pocos valores y para variables cualitativas Histograma Es similar al diagrama de barras, sólo que la base de cada barra es el intervalo de la tabla de frecuencias y por tanto no hay espacios entre las barras. Notas de 0 alumnos en un examen: Uniendo los extremos superiores de las barras por su punto medio, se obtiene la línea quebrada llamada polígono de frecuencias. Los histogramas se utilizan cuando los datos los agrupamos en intervalos - Página 3 -
Diagrama de sectores Para dibujar el diagrama de sectores se dibuja un círculo y se divide en tantos sectores (quesitos) como valores haya en los datos. Deporte preferido por un grupo de 30 alumnos Deporte f i h i (en %) Ángulo del sector Baloncesto 1 40 40% de 360º = 144º Natación 3 10 10% de 360º = 36º Fútbol 9 30 30% de 360º = 108º Ninguno 6 0 0% de 360º = 7º Total 30 100% 360º El diagrama de sectores se suele utilizar para variables discretas con pocos valores y para variables cualitativas Ejercicio 3 A los 00 alumnos y alumnas de º y 3º de E.S.O. de un Instituto les preguntamos sobre el nivel máximo de estudios que esperan realizar. El resultado es el reflejado en el siguiente gráfico de sectores: Pasa esta información a una tabla de frecuencias y a un diagrama de barras Solución x i f i F i h i H i Universidad 60 60 30% 30% Bachillerato 60 10 30% 60% CFGS 50 170 5% 85% CFGM 0 190 10% 95% ESO 10 00 5% 100% Suma total 0 = n - 100% - Practica tú: 6 Al observar la marca de coche de 0 personas se obtuvieron los siguientes resultados: SPSRR PPPRR SPRRR PSSRR, donde S = SEAT, P = Peugeot, R = Renault. Valores (x i ) f i F i h i H i SEAT 5 5 5% 5% PEUGEOT 6 11 30% 55% RENAULT 9 0 45% 100% Total 0 = n 100% Dibuja el diagrama de barras y de sectores - Página 4 -
7 8 9 Esta grafica da la cantidad de pares de zapatos de mujer vendidos en una tienda a lo largo del día. Nº de pares vendidos 35 30 5 0 15 10 5 0 36 37 38 39 40 Nº de zapato Pasa esta información a una tabla de frecuencias y a un diagrama de sectores 3.- PARÁMETROS ESTADÍSTICOS La media aritmética Es la suma de todos los datos dividida entre el número total de datos, n. (x ) i Se calcula por la fórmulax= if, donde n significa suma. Notas en un examen de un grupo de amigos x i f i x i f i 4 1 4 5 10 6 4 4 7 3 1 Total 10 = n 59 = (x x i fi) = 59 = 5,9 n 10 Si los datos están agrupados en intervalos, se toma x i el punto medio del intervalo, llamado marca de clase. Gasto mensual en, en teléfono móvil, de un grupo de jóvenes clases x i f i x i f i [10, 11) 10,5 4 4 [11, 1) 11,5 6 69 [1, 13) 1,5 7 87,5 [13, 14) 13,5 3 40,5 Total 0 = n 39 = (x x i fi) = 39 = 11,95 n 0 - Página 5 -
La moda (Mo) Es el valor que más se repite en los datos. La moda es el valor xi que tiene mayor frecuencia absoluta. Si los datos están agrupados en intervalos se toma el intervalo de mayor frecuencia (intervalo o clase modal). Puede haber más de una moda o puede que no haya moda porque todos los valores tengan la misma frecuencia absoluta. x i = Equipo de fútbol preferido Nº de personas Madrid 1 Granada 7 Barcelona 1 Málaga 6 Hay dos modas, Madrid y Barcelona. La mediana (Me) Es el dato que está justamente en medio, cuando tenemos todos los datos ordenados de menor a mayor Cálculo de la mediana cuando hay pocos datos - Si el nº de datos es impar, la mediana es el dato central Edades de 9 personas: 15, 1, 17, 15, 14, 14, 17, 15, 15 Ordenando los datos: 1, 14, 14, 15, 15, 15, 15, 17, 17 Me = 15 - Si el nº de datos es par, la mediana es la media aritmética de los datos centrales Notas de 1 alumnos: 7, 4, 6, 5, 7, 7, 8, 5, 8, 4, 4, 5 Ordenando los datos: 4, 4, 4, 5, 5, 5, 6, 7, 7, 7, 8, 8 Me = 5,5 Cálculo de la mediana cuando hay muchos datos En este caso, la mediana es el primer valor x i cuya H i es mayor que el 50% clases x i H i [,3),5 15 Notas en Inglés de 0 alumnos: [3,4) 3,5 5 Me = 5,5 [4,5) 4,5 40 [5,6) 5,5 65 [6,7) 6,5 80 [7,8) 7,5 100 Los cuartiles Cuando los datos están ordenados de menor a mayor, los cuartiles son tres valores Q 1, Q, Q 3 que dividen a los datos en 4 partes iguales El primer cuartil, Q 1, es el primer valor x i cuya H i es mayor que el 5% El segundo cuartil, Q, es el primer valor x i cuya H i es mayor que el 50%. Es decir, Q = Me El tercer cuartil, Q 3, es el primer valor x i cuya H i es mayor que el 75% El rango intercuartílico (RI) es la distancia entre Q 1 y Q 3 RI: Q 3 Q 1 - Página 6 -
Si los datos estuviesen agrupados en intervalos se toma como x i la marca de clase clases x i H i Notas en Inglés de 0 alumnos: [,3),5 15 Q 1 = 4,5 Q = Me = 5,5 Q 3 = 6,5 RI = 6,5 4,5 = [3,4) 3,5 5 [4,5) 4,5 40 [5,6) 5,5 65 [6,7) 6,5 80 [7,8) 7,5 100 Diagrama de caja Los cuartiles se suelen representar en un diagrama, llamado diagrama de caja Para dibujar el diagrama de caja, se calculan los valores mínimo y máximo de x i así como los cuartiles. Después se dibuja una caja, cuyos extremos son Q 1 y Q 3, que indica donde se concentran el 50% de los datos y una línea central que marca la mediana. Esta representación nos permite saber qué datos son atípicos y si la distribución de datos es simétrica respecto de la mediana: si la caja está desplazada hacía la izquierda o hacía la derecha respecto de la mediana significa que la distribución de datos es asimétrica. Para las notas en Inglés expuesto anteriormente, el diagrama de caja sería: Parámetros de dispersión El recorrido o rango, R, es la diferencia entre el mayor y el menor valor de x i La varianza, s, se calcula con la fórmula: s x i.fi = n x La desviación típica, s, es la raíz cuadrada de la varianza: s= s El coeficiente de variación, CV, se calcula con la fórmula: CV= s x En el intervalo (x s, x + s) se encuentra, aproximadamente el 68% de todos los datos En el intervalo (x s, x + s) se encuentra, aproximadamente el 95% de todos los datos En el intervalo (x 3s, x + 3s) se encuentra, aproximadamente el 99% de todos los datos - Página 7 -
Se han agrupado los hoteles de una región por el número de habitaciones, obteniéndose la siguiente tabla: Habitaciones número de hoteles 0 100 0 100 00 50 00 300 60 300 400 30 400 500 40 5000 Rango: 500 0 = 500 x = = 60 00 16700000 16,095 s = 60 = 15 900 s= 15 900 16,095 C.V. = = 0,485 00 60 Ejercicio 4 Se realiza una estadística en dos centros de enseñanza, uno público y otro privado, referente a la nota global del bachillerato de cada uno de los alumnos que van a acudir a los exámenes de selectividad. Las distribuciones de frecuencias son las siguientes: Público Nota Alumnos [5,6) 60 [6,7) 70 [7,8) 40 [8,9) 0 [9,10) 10 clases x i f i x i f i x i f i [0,100) 50 0 1 000 50 000 [100,00) 150 50 7 500 1 15 000 [00,300) 50 60 15 000 3 750 000 [300,400) 350 30 10 500 3 675 000 [400,500) 450 40 18 000 8 100 000 Total n = 00 5 000 16 700 000 Privado Nota Alumnos 5,5 8 6,5 1 7,5 0 8,5 30 9,5 10 a) Un alumno del centro privado tiene una nota global de un 8,5 y otro del centro público una nota de un 7. Cuál de los dos es mejor alumno comparándolo con la media de su Centro? b) Calcula el coeficiente de variación de las dos distribuciones. Solución - Página 8 -
Practica tú: 10 En este gráfico se muestran las calificaciones de un grupo de alumnos 5 4 Frecuencia 3 1 0 0 1 3 4 5 6 Calificaciones a) Indica cuál es la moda b) Dibuja el diagrama de caja e indica si la distribución de datos es simétrica c) Halla el coeficiente de variación 7 8 9 10 11 El volumen de ventas anuales de las empresas de telefonía se reparte de la siguiente manera: Dentro de la telefonía móvil la media fue de 6,61 millones de euros y la varianza de 86,5. En el caso de la telefonía fija la media fue 7, millones de euros y la varianza de 117,79. a) Usando los coeficientes de variación explica en cuál de estos dos sectores de telefonía están más dispersas las ventas b) Una empresa tiene un volumen de ventas anuales de 7,51 millones de euros en telefonía móvil y 8,41 millones de euros en telefonía fija. En cuál de los dos sectores está mejor situado comparándolo con la media? 1 - Página 9 -
13 14 4.- DISTRIBUCIONES BIDIMENSIONALES Concepto de distribución bidimensional Cuando se quieren estudiar dos características X e Y de una misma población, los datos que se obtienen son parejas de valores (x i, y i ). El conjunto de datos (x i,y i ) se llama distribución bidimensional Diagrama de dispersión o nube de puntos Es la representación gráfica de los puntos (x i, y i ) Notas de 1 alumnos en Matemáticas y Física Alumno a b c d e f g h i j k l Matemáticas 3 4 4 5 6 6 7 7 8 10 10 Física 1 3 4 4 4 6 4 6 7 9 10 - Página 10 -
Interpretación del diagrama de dispersión: Correlación Si la nube de puntos se concentra en torno a una línea se dice que hay correlación entre las dos variables. Se dice que hay correlación lineal si la nube de puntos se concentra en torno a una recta. La correlación será positiva o directa si la línea es creciente y negativa o inversa si es decreciente y será más fuerte cuanto mayor sea la concentración de los puntos entorno a esa línea. Ejemplos: Correlación lineal directa fuerte Correlación directa débil Correlación inversa fuerte Correlación lineal inversa débil Si los puntos están esparcidos sin concentrarse en torno a ninguna línea, se dice que no hay relación entre las variables o que la correlación es nula. Correlación nula Practica tú: 15 En los siguientes casos dibuja el diagrama de dispersión e indica el tipo de correlación que hay entre X e Y. a) Se ha realizado una encuesta preguntando por el número de personas que habitan en el hogar familiar y el número de dormitorios que tiene la casa. La tabla siguiente recoge la información obtenida: X = número de personas 3 5 4 6 4 Y = número de dormitorios 3 4 4 3 b) El número de gérmenes por cm 3 en un enfermo que se está curando viene dado por la tabla X = horas 0 1 3 4 Y = número de gérmenes 80 60 50 40 0 c) El número de libros vendidos en una librería y la temperatura del día X = temperatura (ºC) 0 1 3 4 5 Y = número de libros 10 70 50 0 90 10 5.- PARÁMETROS ESTADÍSTICOS BIDIMENSIONALES Medias aritméticas de X y de Y x i.f x i y.f = y = i i n n Centro de gravedad de la distribución: (x,y) X Varianza y desviación típica de X y de Y x = i.f varianza: s i x x y = i.f varianza: s i y y n n Y Desviación típica: sx = sx Desviación típica: sy = sy - Página 11 -
Covarianza entre X e Y Coeficiente de correlación lineal de Pearson xyf s = i i i xy xy n (x x)(y y) También se puede usar la fórmula i i sxy = n Propiedades del coeficiente de correlación 1) Si r es positivo, la correlación es positiva y si r es negativo, la correlación es negativa ) Cuánto más próximo esté r al 1, más fuerte es la correlación r = sxy sxsy Ejercicio 5 En los siguientes casos, halla las medidas bidimensionales e indica el tipo de correlación que hay entre X e Y. a) Las tallas y los pesos de 10 personas vienen recogidos en la siguiente tabla: X = talla (en metros) 1,60 1,65 1,70 1,80 1,85 1,90 1,9 1,75 1,8 1,7 Y = peso (en kg) 58 61 65 73 80 85 83 68 74 67 Solución - Página 1 -
Practica tú: 16 17 18 - Página 13 -
SOLUCIONES A LAS ACTIVIDADES PROPUESTAS PARA EL ALUMNO 1 8deA,3de B,5deC y 4deD 700depelo negro,800rubios y500castaños 3 30hombres y 4mujeres 4 40 5 6 7 8 - Página 14 -
9 10 11 1 13 - Página 15 -
14 15 a) b) c) - Página 16 -
16 17 18 - Página 17 -