TEMA IV PERCENTIL Y ESTADIGRAFOS DE POSICION 1. Percentiles, cuartiles y deciies. 2. Estadígrafos de Posición. 3. Sesgo y curtosis o de pastel. Pictogramas. OBJETIVOS DE UNIDAD GENERALES. Que el futuro profesor defina con claridad la forma como se ubican determinados valores de la variable y la importancia que tiene este estudio. ESPECÍFICOS. Al concluir la unidad el alumno, estará capacitado para: Calcular el rango percentil de determinado valor o determinados valores, el percentil, el decil, el cuartel. Calcular la media aritmética y sus variantes; hailar la mediana, la moda y verificar el sesgo y curtosis. 42
LECCIÓN Nº 08 PERCENTILES 1. PERCENTIL La división de los datos ordenados por su frecuencia en centésimos se denomina PERCENTIL. Por ejemplo, una persona de 1.55 metros de altura tiene solo 8% de gente más baja que él y por lo tanto su altura se dice que es el octavo percentil de la distribución. Los percentiles que dividen a los datos en cuatro cuartos tienen nombres especiales. El percentil 25 y el 75 se llaman PRIMER y TERCER CUARTIL (Q1 y Q3). El percentil 50 se denomina MEDIANA (Q2). Las fórmulas utilizadas para calcular estas medidas son: Q1 = Ls1 + [(% hasta 25)/ (% en 25)]xAQ1 Donde: Ls1 es el límite superior del intervalo anterior al intervalo que contiene a Q1. AQ1 es el ancho del intervalo que contiene a Q1. Q2 = Ls2 + [(% hasta 50)/ (% en 50)]xAQ2 Donde: Ls2 es el límite superior del intervalo anterior al intervalo que contiene a Q2. AQ2 es el ancho del intervalo que contiene a Q2. Ejemplos: Q1 = 1.55 + (17/22)x0.10 = 1.6272 Q2 = 1.65 + (20/32)x0.10 = 1.7125 Q3 = Ls3 + [(% hasta 75)/ (% en 75)]xAQ3 Donde: Ls3 es el límite superior del intervalo anterior al intervalo que contiene a Q3. AQ3 es el ancho del intervalo que contiene a Q3. La fórmula para obtener el percentil K es: 43
Donde: P k es la puntuación correspondiente al percentil k. L i es el límite inferior exacto del intervalo crítico (aquel que acumula al menos el k% de la frecuencia acumulada). I es la amplitud de los intervalos. n i es la frecuencia del intervalo crítico. k es el porcentaje de observaciones inferiores a P k. n es el número de observaciones hechas. n a es la frecuencia acumulada hasta L i. Ahora vamos a poner un ejemplo para ilustrar el uso de esta fórmula. Vamos a calcular en primer lugar la puntuación a la que corresponde el percentil 40. Tendremos que determinar el intervalo que acumula al menos el 40% de las observaciones. Miramos la Tabla 4, distribución de frecuencias acumuladas, en la columna de porcentaje de frecuencia acumulada. Intervalos de clase Límites exactos Frecuencia Frecuencia Porcentaje de Xi fi acumulada frec. acumulada En nuestro caso se trata del intervalo cuyos límites exactos son 59,5-64,5 cuyo porcentaje de frecuencia acumulada es 46,67%, y una vez localizado este intervalo ya tenemos todos los datos requeridos en la fórmula: L i = 59,5, I = 64,5 59,5 = 5, n i = 3, k = 40, n = 30, n a = 11 y, por tanto P k = 59,5 + (5 / 3) (12-11) = 61,17 La puntuación 61,17 corresponde al percentil 40, es decir el 40% de las observaciones se sitúan por debajo de 61,17. Aprovechamos este resultado para indicar que la puntuación que corresponde a un determinado percentil no tiene por qué coincidir con una puntuación observada como ocurre en este ejemplo. Ninguno de los alumnos del ejemplo obtenía en el test de hábitos de estudio una puntuación de 61,17. Utilizaremos en forma inversa la fórmula para calcular a qué percentil corresponde una determinada puntuación. Un alumno ha obtenido la puntuación 85 y nos 44
pregunta a qué percentil se corresponde o más bien nos pregunta si es una puntuación alta o baja en relación con sus compañeros de clase. Empleamos la misma fórmula aunque en éste caso la incógnita es k. P k es 85, el intervalo crítico es aquél que contiene la puntuación 85, cuyos límites son 84,5-89,5. Por tanto, L i = 84,5, I = 5, n i = 2, n = 30, n a = 26. Sustituyendo en la fórmula tenemos: 85 = 84,5 + (5 / 2) (((k 30) / 100) - 26), 85 84,5 = 2.5 ((k 0,3) - 26), 0,5 / 2,5 = (k 0,3) - 26, 0,2 + 26 = k 0,3 k = 26,2 / 0,3 = 87,33 La puntuación de nuestro alumno se corresponde con el percentil 87,33, el 87,33% de los resultados del test de hábitos de estudio se encuentran por debajo de su puntuación, lo cual quiere decir que su puntuación destaca dentro de la clase. Nos hemos referido al rango del percentil como una medida de posición que nos permite comparar observaciones de una variable respecto de las observaciones de la misma en un grupo o comparar variables distintas en un mismo grupo. Pero como tal medida de posición tiene también sus inconvenientes. El más importante es el que se deriva del hecho de que se está utilizando una escala ordinal: las mismas diferencias en percentiles no se corresponden con diferencias en la puntuación de la variable. Las diferencias en las puntuaciones correspondientes a los percentiles 55 y 56 no tienen por qué ser iguales a las diferencias entre las puntuaciones que corresponden a los percentiles 93 y 94. Generalmente, las distancias entre centiles intermedios suelen ser menores que las diferencias entre centiles extremos, y esto es así porque normalmente se obtienen con más frecuencia puntuaciones intermedias de las variables y los valores más extremos son más infrecuentes. Una vez definidos los percentiles podemos hacer referencia a otras medidas de posición que se obtienen directamente de ellos: los cuartiles y los deciles. Los cuarteles son tres y se denotan por Q1, Q2 y Q3. Se definen como los tres valores de la variable que dividen a la distribución en cuatro partes, cada una contiendo al 25 por cien de las observaciones. Por lo tanto el primer cuartil coincide con el percentil 25, el segundo con el percentil 50 y el tercero con el percentil 75. Los deciles se representan por D k, donde k representa el número del decil al que se refiere, y son nueve puntuaciones que dividen a la variable en 10 partes cada una conteniendo el 10 por 100 de las observaciones. El primer decil corresponde al percentil 10, el segundo al percentil 20 y así sucesivamente. 45
LECCIÓN Nº 09 ESTADIGRAFOS DE POSICION MEDIDAS DE TENDENCIA CENTRAL En esta sección definiremos una serie de medidas o valores que tratan de representar o resumir a una distribución de frecuencia dada, sirviendo además para realizar comparaciones entre distintas distribuciones de frecuencias. Estas medidas reciben el nombre de promedios, medidas de posición o medidas de tendencia central. 1. PROMEDIO O MEDIA ARITMETICA ( X o MA ) Ejemplos: Para Datos No Agrupados 1) Sea los datos (notas): 8; 7; 15; 20; 13. X = 8 + 7 + 15 + 20 + 13 = 63/5 Entonces: X = 12,6 5 2) Sean los datos (edades): 15; 19; 15; 20 X = 15 + 19 + 15 + 20 = 69/4 Entonces: X = 17,25 4 Para Datos Agrupados n MA = X i h i = i = 1 i=1 n I i x i f i x i f i [5-7> 6 1 6 [7-9> 8 5 40 [9-11> 10 4 40 [11-13> 12 6 72 [13-15> 14 2 28 [15-17> 16 2 38 Total 20 218 MA = 218 = 10,9 20 46
2. MEDIANA (ME) Para Datos No Agrupados Ejemplos: 1) Sean los datos: 12; 17; 23; 4; 43. Ordenados crecientemente: 4; 12; 17; 23; 43 Entonces: Me = 17 2) Sean datos: 5; 13; 12; 8; 17; 4 ordenados crecientemente: 4; 5; 8; 12; 13; 17 8 + 12 Med = = 10 2 En general: El valor mediano de un conjunto de valore es aquel que tiene la propiedad de dividir al conjunto en 2 pares iguales numerosas. Si el número de elementos fuese impar se tomará como mediana el valor central, pero si el número de elementos fuese par hay 2 elementos en el centro y como mediana tomaremos el promedio de ambos. X n+1 2 : n impar x m x n + x n 2 2 +1 2 : n par Para Datos Agrupados n Fi -1 2 Med = Li + W fme 47
OBSERVACION: La clase mediana es aquella cuya frecuencia absoluta acumulada sea igual a la mitad de los datos o mayor a la mitad de datos por primera vez. Donde: Li : Limite inferior de la clase mediana. W : Ancho de la clase mediana Fi -1 : Frecuencia absoluta acumulada de la clase anterior a la clase mediana. fme: Frecuencia absoluta de la clase mediana. Ejemplos: [Li-Li + 1> ƒ i F i [4000-4200> 80 80 [4200-4400> 120 200 [4400-4600> 125 325 Clase Mediana [4600-4800> 99 424 [4800-5000> 88 512 [5000-5200> 78 500 [5200-5400> 10 600 Total 600 Clase mediana: [4400-4600> (Intervalo que contiene a la mediana) 600-200 2 Me = 4400 +200 = 4560 125 3. MODA (Mo) La moda se define como aquel valor de la variable al que corresponde la máxima frecuencia (absoluta o relativa). Para calcularla, también será necesario distinguir si los datos están o no agrupados. 48
Para Datos No Agrupados La moda es el valor que se presenta con mayor frecuencia en un grupo de datos. A una distribución que tiene una sola moda se le denomina unimodal. Si hubiese más de dos modas la distribución es multimoda, que puede ser, bimodal, trimodal, etc. En caso que ninguno se repita se dice que no existe moda. Ejemplos: Sean los datos: 1; 20; 30; 100; 12; 18; 100; 18; 100. Mo = 100 Sean los datos: 19; 17; 16; 10; 23; 17; 19 Mo = 17, Mo = 19 Para Datos Agrupados d 1 Mo = Li + W d 1 + d 2 Donde: Li: Limite inferior de la clase modal. W : Ancho de la clase modal. D 1 : Diferencia de la clase modal y la clase anterior. D 2 : Diferencia de la clase modal y la clase siguiente. OBSERVACION: La clase modal es aquella cuya frecuencia absoluta es mayor. Ejemplo: I 1 x i f i [0 ; 2 > 1 9 [2 ; 4 > 3 15 [4 ; 6 > 5 12 [6 ; 8 > 7 8 [8 ; 10 > 9 6 Clase Modal d 1 =15-9=6 M o = L i + W d 1 d 1 + d 2 d 2 =15-12=3 49
6 6 + 3 M o = 3,33 5. EJERCICIOS DE APLICACIÓN Las edades de los estudiantes de la carrera de computación e informática. 16-17-17-17-18-18-18-19-19-19-19-19-19-19 20-20-20-20-21-21-21-22-22-23-24-24-25-27 n = 28 1º Determinación del Rango R = Dato Mayor - Dato Menor R = 27-16 R = 11 Determinación de Nº de clases k Determinación de Amplitud W K= 1 + 3.3 Log. M W = R K K = 1 + 3.3 Log. (28) W = 11 K = 17 3.3 (1.447) 6 K = 5.78 K = 6 Calculo de la Media Aritmética para datos agrupados Ti fi xi xi.fi 16-17 4 16,5 66 18-19 10 18,5 185 20-21 7 20,5 143,5 22-23 3 22,5 67,5 24-25 3 24,5 73,5 26-27 1 26,5 26,5 n=28 fi.xi = 562 X = fi.xi fi X = 562 28 X = 20.07 El promedio de las edades es: X = 20 años 50
Calculo de la mediana para datos agrupados Me = Li + n/2 - Fi-1 W f me Ii Fi Fi 16-17 4 4 18-19 10 14 20-21 7 21 22-23 3 24 24-25 3 27 26-27 1 28 Clase mediana n = 28 Calculo n/z Reemplazando en la fórmula n = 28 Me = 18 + 14-4 2 2 2 10 n = 14 2 Me = 20 años Li = 18 fi-1 = 14 fme = 10 W =2 Calculo de la moda para los datos agrupados I i fi 16-17 4 18-19 10 20-21 7 22-23 3 24-25 3 16-27 1 Clase Modal Datos Mo = Li + A1 W A1 + A2 A1 = 10-4=6 A2 = 10-7 = 3 Li = 18 Mo = 18 + 6 2 W = 2 6+3 Mo = 18 + 6 2 = 18 + 1.33 9 Mo = 19.33 Mo = 19 51
LECCIÓN Nº 10 SESGO Y CURTOSIS 1. SESGO Es el grado de asimetría de una distribución, esto es, la inclinación que adopta la curva estadística respecto de la media aritmética. Esta inclinación se llama cola, que puede ser más prolongada a la izquierda o derecha de su media aritmética. Cuando la cola es mas prolongada a la derecha, se dice que es sesgo positivo y presenta una marcada agrupación de datos de mayor valor cuyo máximo valor es +1. En este caso se cumple que: Mo < Me < x Su gráfico es el siguiente: Cuando la cola es más prolongada a la izquierda, se dice que presenta "sesgo negativo" y se aprecia una marcada agrupación de "datos de menor valor", cuyo valor máximo es -1. En este caso se cumple que: x < Me < Mo Su gráfica es la siguiente: Cuando los datos se reparten de manera "simétrica", con respecto al valor central, se dice "que no presenta asimetría" o que la "asimetría es nula". En este caso, los datos se distribuyen igualmente a la derecha e izquierda del valor central y la media aritmética, mediana y moda coinciden en un mismo punto cuyo valor es O. 52
La gráfica correspondiente forma el nombre de "curva normal" o "campana de gauss". Se cumple que: x = Me = Mo FORMULAS PARA CALCULAR EL VALOR DEL SESGO En función a la media, moda y desviación estándar: Sesgo = x-mo U Que equivale al 2º coeficiente de Karl Pearson. En función de la media, mediana y desviación estándar: Sesgo = 3(x- Me) U Que equivale al 2º coeficiente de Karl Pearson. Obtenido el valor del sesgo, dicho valor se compara con la siguiente escala: Valores Interpretación 0 Simetría o asimetría nula. ± 0.1 Asimetría moderada positiva o negativa. ± 0.3 Asimetría muy marcada positiva o negativa ± 1 Asimetría máxima positiva o negativa 2. Curtosis Es el grado de alargamiento de una curva correspondiente a una distribución de frecuencia ( K ). Existen 3 tipos de curvas y son: Curva Normal o Curva Mesocuartica: tiene un coeficiente de curtosis K igual a 0.263. Curva Plaricurtica: tiene menor altura que la curva normal, su coeficiente de curtosis es menor a 0.263. Curva Leptocurtica: tiene mayor altura que la curva normal, su coeficiente de curtosis es mayor a 0.263. 53
Curva Platicurtica Curva Mesocurtica Curva Leptocurtica El coeficiente de curtosis se determina por la siguiente expresión: K = Q3 Q1 2( P P ) 90 10 Ejemplo: Indique el tipo de curva a la que pertenece la siguiente distribución, usando el coeficiente de curtosis. Intervalo Fi FA 1-10 4 4 11-20 12 16 21-30 17 33 31-40 20 53 41-50 16 69 51-60 13 82 61-70 5 87 71-80 1 88 88 Q3 = b+ 3N 4 fi fa C Q1 = b+ N 4 fa C fi 66 53 Q3= 405. + 10 16 Q3= 4862. 22 16 Q1= 205. + 10 17 Q1= 2402. 54 P 90 P 90N fa 100 = b+ C fi 10 10N fa 100 = b+ C fi P P P P 90 90 10 10 79. 2 69 = 505. + 10 18 = 58. 34 88. 4 = 105. + 10 12 = 14. 5
Q3 Q1 48. 62 24. 02 K = = 2( P90 P10 ) 25834 (. 145. ) K = 0. 28 0. 263 La curva es Leptocurtica 24. 6 = = 028. 87. 68 55
PRUEBA AUTOEVALUATIVA IV UNIDAD 1. En la tabla de distribución de frecuencia que has construido en la pregunta 6 de la segunda unidad, identifica el X i = 45, y halla su rango percentil. a) 80% b) 42% c) 45% d) 84% e) Ninguna de las anteriores 2. Porque los valores de una variable siempre tienden a concentrarse alrededor de un valor y porque existe la necesidad de designar con un valor a todos los valores de una muestra, es que se estudia. a. La Estadística b. Las probabilidades c. Las medidas de tendencia central o estadígrafos de posición. d. Las variables e. Ninguna de las anteriores 3. Tenemos los siguientes calificativos con sus respectivos créditos. Hallar el promedio simple y su promedio ponderado en función a sus créditos: Asignatura Nota Crédito A. Matemático 11 5 Lógica 16 3 Física 15 3 Estadística 12 4 Lenguaje 11 6 a)13 b) 15 c) 12 d) 15 e) Ninguna de las anteriores 12,5 14 13 16 4. Hallar la media aritmética para los datos distribuidos en la tabla de la pregunta (6) de la autoevaluación de la segunda unidad. El resultado redondearlo a unidades. a) 38 b) 36 c) 40 d) 33 e) Ninguna de las anteriores 5. Hallar la media aritmética de los datos distribuidos en la tabla presentada en la pregunta (6) de la autoevaluación de la unidad III. a) 35,75 b) 36,50 c) 37,25 d) 33,50 e) N.A. 6. En la distribución de frecuencia construida para la pregunta (6) de la autoevaluación de la segunda unidad, hallar la mediana correspondiente: a) 38 b) 40 c) 36 d) 19 e) Ninguna de las anteriores 56
7. Con la tabla de distriboci6n de frecuencia presentada en la pregunta (6) de la autoevaluación de la tercera unidad, calcular la mediana. a) 35.75 b) 36.5 c) 37,0 d) 33.8 e) Ninguna de las anteriores 8. Calcular la moda para los datos proporcionados en la pregunta (6) de la autoevaluación de la segunda unidad. a) 34.6 b) 33.8 c) 35,67 d) 38,6 e) Ninguna de las anteriores 9. Calcular la moda para los datos presentados en la pregunta (6) de la autoevaluación de la tercera unidad. a) 38 b) 41 c) 16 d) 36 e) Ninguna de las anteriores 10. En términos de percentiles, la mediana es igual a: a) Percentil 25 b) Percentil 50 c) Percentil 25/75 d) Percentil 75 e) Ninguna de las Anteriores 57