Estadística unidimensional
Población y muestra Población Se llama población al conjunto bien delimitado de unidades (elementos), ya sean individuos u objetos, del que se interesa observar o medir alguna característica. Ejemplo: Todos los alumnos del instituto. Muestra Una muestra representativa es un subjconjunto de la población que represente bien todas sus características, para realizar el estudio estadístico cuyos resultados se extrapolan a toda la población. Ejemplo: Una muestra del ejemplo anterior sería seleccionar a 4 alumnos de cada una de las clases del instituto.
Técnicas de muestreo Muestreo aleatorio simple Es cuando cogemos individuos u objetos al azar. Ejemplo: De un grupo de 800 smarthphone seleccionar 100 para hacer pruebas de calidad. Como la población es homogénea se trata de una muestra aleatoria simple. Muestreo aleatorio estratificado Si la característica a analizar no es homogénea en toda la población esta se divide en diferentes grupos o estratos lo más homogéneos posibles. La muestra debe respetar la proporción entre ellos. Ejemplo: Para averiguar cuantas horas le dedican a los videojuegos los 900 alumnos del centro se quiere hacer un estudio dividiendo la población en dos estratos chicos y chicas. Los chicos son 600 alumnos y las chicas 300. Si queremos hacer un muestreo de 150 personas: chicos 600 900 = x x=100 chicos 150 chicas 300 900 = x x=50 chicas 150
Tipos de variables Una variable estadística, X, representa una característica de la población que se va a estudiar. A cada valor concreto de esta característica, x, se le denomina dato. En cada elemento la variable toma un único valor. Estas variables pueden ser: Cualitativas: son aquellas que se refieren a una cualidad o atributo que no se puede representar numéricamente. Por ejemplo: color de los ojos, estado civil, sexo Cuantitativas: son aquellas variables que se les puede asignar un número y por tanto son medibles. Estas se clasifican en: Discretas: Si toman un número finito o numerable de valores. Por ejemplo: número de hijos de una familia, números de coches en un parking, número de robos al mes en viviendas de una ciudad, etc. Continuas: Si pueden tomar cualquier valor dentro de un intervalo de la recta real. Por ejemplo: estatura, peso, tiempo de vida un móvil, salto de longitud de una competición atlética. En general el tiempo y la longitud se van a considerar variables continuas.
Variable discreta: frecuencia absoluta y relativa Vamos a ver la estadística unidimensional mediante dos ejemplos. El primero de ellos es este: un estudio de variables discretas. 0 1 1 1 3 3 Modalidades o valores de x. X es cada una de las distintas opciones que tenemos. Utilizamos el subíndice i para hacer referencia a cada una de las filas: x 1 =0 x =1 x i h i 0 1 0,1 1 3 0,3 4 0,4 3 0, 10 1 Frecuencia absoluta Esta columna hace referencia al número de veces que se repite x i. Debajo de ella suele indicarse la suma (10) que indica el número total de elementos estudiados. A este número también se le llama n, es decir, el número de observaciones realizadas. Frecuencia relativa h i Al % en tanto por 1 en el que aparece cada valor de x i. Se calcula dividiendo cada entre n. 1/10=0,1 3/10=0,3 4/10=0,4 /10=0, Esto quiere decir que, por ejemplo el valor representa un 40% de los datos recogidos para el estudio y que el valor 0 tan solo sería un 10%. Puesto que son porcentajes las suma de todos ellos debe ser el 100% por lo que, si no hemos truncado los decimales, nos debería de salir 1.
Variable discreta: frecuencia absoluta acumulada y discreta acumulada x i h i F i H i 0 1 0,1 1 0,1 1 3 0,3 4 0,4 4 0,4 8 0,8 3 0, 10 1 10 1 Frecuencia relativa acumulada H i Esta columna se obtiene sumando todas las h i anteriores a ella (como en el caso anterior) o dividiendo F i entre n. Se define como el porcentaje de observaciones de la muestra que queda por debajo de un determinado valor. Frecuencia absoluta acumulada F i Esta columna se obtiene sumando todas las anteriores a ella. Se define como el número de veces que aparece en la muestra un valor igual o inferior a dicho valor. Nota: Fijémonos en que el ultimo valor de F i coincide con n y que el último valor de H i siempre tendrá que ser 1 ya que es la suma de todas las h i. 1=1 1+3=4 1+3+4=8 1+3+4+=10 También puede obtenerse mediante: F i = F i-1 +
Variable discreta: Representación. Diagrama de barras. La tabla anterior puede representarse gráficamente de varias formas. Una de ellas es mediante el diagrama de barras donde en función de x podemos representar cualquiera de las otras columnas ya sea la frecuencia absoluta, la frecuencia relativa, la frecuencia absoluta acumulada o la frecuencia relativa acumulada. 5 0,5 4 0,4 3 0,3 0, 1 0,1 0 0 1 3 0 0 1 3 1 1,1 1 10 0,9 0,8 8 0,7 6 0,6 0,5 4 0,4 0,3 0, 0,1 0 0 1 3 0 0 1 3
Variable discreta: Coeficientes de localización: media y moda Media La media es el valor medio de todos los valores observados. Solo tiene sentido para variables cuantitativas. Si tuviéramos pocos valores se podría hacer de forma manual sumando todos los valores y dividiendo entre el número total de ellos. Cuando son muchos o están tabulados la siguiente fórmula es mucho más rápida. x= n x i i=1 n i=1 x i h i F i H i x i 0 1 0,1 1 0,1 0 1 3 0,3 4 0,4 3 4 0,4 8 0,8 8 3 0, 10 1 6 10 1 17 Moda La moda es el valor x i que más se repite, es decir, con mayor frecuencia absoluta. En este caso la moda es. x= 17 10 =1,7 Nota: Añadimos esta columna para agilizar las cuentas. Se obtiene aplicando la fórmula indicada en la primera fila.
Variable discreta: Coeficientes de localización: mediana, cuartiles y percentiles. Mediana (el valor central) Miramos el primer valor de H i que es superior al 50%. En este caso el 1 se corresponde con 0,4, es decir deja por debajo suya al 40% de las observaciones y el es el 0,8 es decir deja por debajo el 80% de las observaciones. Como 0,8 es el primer valor que supera 0,5 la mediana es. 0 1 1 1 3 3 40% 80% Nota: Cuando ponemos los datos en orden es fácil encontrar la mediana. Si hay un número impar de números la mediana es el número central. Si hay un número par de números la mediana es la media de los dos números centrales. Cuartiles Existen tres cuartiles, Q 1 que se corresponde con el 5%, Q que se corresponde con el 50% (la mediana) y Q 3 que se corresponde con el 75%. Para obtenerlos se utiliza el mismo razonamiento que con la mediana. El primer valor de H i que supere el % indicado. Para nuestra ejemplo Q 1 sería 1 y Q 3 sería. Percentiles Existen 100 percentiles y se obtienen de la misma forma que los cuartiles y la mediana. Por ejemplo el percentil 90, P 90, sería el primer valor de H i que supere el 90%, en este caso sería 3.
Variable discreta: Coeficientes de dispersión: varianza. Varianza s = n 1 n 1 x i x Nota: Añadimos esta columna para agilizar las cuentas. Se obtiene aplicando la fórmula indicada en la primera fila. x i h i F i H i x i x i 0 1 0,1 1 0,1 0 0 1 3 0,3 4 0,4 3 3 4 0,4 8 0,8 8 16 3 0, 10 1 6 18 10 1 17 37 Nota: Al igual que con la media solo tiene sentido para variables cuantitativas. s = 37 10 1,7 =0,81
Variable discreta: Coeficientes de dispersión: varianza y desviación típica. Desviación típica La desviación típica es la raíz de la varianza. Se utiliza esta medida ya que en la varianza utiliza unidades cuadráticas. s= s = 0,81=0,9 Coeficiente de variación El coeficiente de variación nos indica como de homogéneos o de dispersos son los datos de una distribución. Cuanto más pequeño sea el CV más homogéneos serán los datos. CV = s x = 0,9 1,7 =0,59
Variable continua Cuando los datos son muchos y se pueden agrupar en intervalos, por ejemplo la altura, hablamos de variables continuas. En general nos darán la amplitud de los intervalos en el enunciado, otras veces será a nuestra elección y debemos escoger un número que no sea demasiado pequeño pero tampoco demasiado grande. En cualquier caso vamos a agrupar las alturas en intervalos de 10 cm de diferencia. Todos de ellos iguales de amplitud. Por convenio se tiene que el extremo izquierdo de cada intervalo es cerrado y el derecho abierto. Los datos que vamos a utilizar para este ejemplo son: 1,57 1,59 1,61 1,63 1,65 1,69 1,70 1,71 1,7 1,73 1,74 1,75 1,8 1,84 1,84 1,89 Clase La clase es cada uno de los intervalos en los que agrupamos las variables. A la diferencia entre los extremos se le denomina amplitud. En este ejemplo todas las amplitudes son iguales 1,6-1,5=0,1 1,7-1,6=0,1 1,8-1,7=0,1 1,9-1,8=0,1 Pero no siempre tiene que ser así como veremos un poco más adelante. Clase x i [1,5, 1,6) 1,55 [1,6, 1,7) 1,65 4 [1,7, 1,8) 1,75 6 [1,8, 1,9) 1,85 4 16 Marca de clase Trabajar con intervalos suele ser costoso. Para simplificar el trabajo utilizamos la marca de clase x i que resulta de hacer la media del intervalo. Por ejemplo para la primera fila: (1,5+1,6)/=1,55 Frecuencia absoluta Esta columna hace referencia al número observaciones que se encuentra dentro de cada intervalo. Como detalle observar que 1,70 se contabiliza en la tercera fila donde [1,7 es cerrado y no en la anterior donde es abierto.
Variable continua: tabla completa El resto de la tabla se completa de igual forma al caso de la variable discreta. Clase x i h i F i H i x i x i [1,5, 1,6) 1,55 0,15 0,15 3,1 4,805 [1,6, 1,7) 1,65 4 0,5 6 0,375 6,6 10,89 [1,7, 1,8) 1,75 6 0,375 1 0,75 10,5 18,375 [1,8, 1,9) 1,85 4 0,5 16 1 7,4 13,69 16 1 7,6 47,76
Variable continua: Histograma Las 18 variables discretas se representan en histogramas. Son similares a los diagramas de barras solo que ahora la base del rectángulo es la amplitud del intervalo. Suele realizarse con frecuencias absolutas y relativas. 16 14 1 10 8 6 Si unimos los puntos medios de cada rectángulo obtenemos el polígono de frecuencias. Para dibujar estos polígonos añadimos dos clases más a fi ambos lados con frecuencia 0 quedando un dibujo como en el ejemplo. 4 0 [1,5, 1,6) [1,6, 1,7) [1,7, 1,8) [1,8, 1,9)
Variable continua: Histograma Qué sucede si los intervalos no tienen todos la misma amplitud? En este caso hay que hacer una pequeña modificación. Lo veremos con este ejemplo. Clase Longitud /longitud [0, 15) 45 15 3 [15, 5) 0 10 [5, 40) 60 15 4 [40, 65) 5 5 1 Esta ultima columna es la que indica la altura de cada barra del histograma. De esta forma el área de cada rectángulo es proporcional a su frecuencia absoluta. A estos histogramas también se les puede realizar un polígono de frecuencias.. 4,5 4 3,5 3,5 1,5 1 0,5 0 0 5 10 15 0 5 30 35 40 45 50 55 60 65
Variable continua: Medidas de localización La media, moda, mediana, etc. se realizan igual que en el ejemplo anterior. Clase x i h i F i H i x i x i [1,5, 1,6) 1,55 0,15 0,15 3,1 4,805 [1,6, 1,7) 1,65 4 0,5 6 0,375 6,6 10,89 [1,7, 1,8) 1,75 6 0,375 1 0,75 10,5 18,375 [1,8, 1,9) 1,85 4 0,5 16 1 7,4 13,69 16 1 7,6 47,76 x= 7,6 16 =1,75 moda=1,75 mediana=q =1,75 Q 1 =1,55 Q 3 = 1,75+1,85 =1,80 Cuando un % coincide exactamente con H i como en este caso (0,75) se hace la media entre su valor x y el siguiente.
Variable continua: Medidas de dispersión La varianza, desviación típica y coeficiente de variación se realizan igual que en ejemplo anterior. Clase x i h i F i H i x i x i [1,5, 1,6) 1,55 0,15 0,15 3,1 4,805 [1,6, 1,7) 1,65 4 0,5 6 0,375 6,6 10,89 [1,7, 1,8) 1,75 6 0,375 1 0,75 10,5 18,375 [1,8, 1,9) 1,85 4 0,5 16 1 7,4 13,69 16 1 7,6 47,76 s = 47,76 16 1,75 =0,009375 s= 0,009375=0,9684 CV = 0,9684 1,75 =0,0561