MEDIDAS DE CENTRALIZACIÓN Media aritmética: variables cuantitativas Datos no agrupados: x 1, x 2,...,x n x= x 1 +x 2 +... x n n n i=1 = n Ejemplo: dados los valores: X = 1, 4, 16, 11, 3, 6, su media es x i x= 1+3+4+11+16 5 = 35 5 =7 Sección 2.1 del libro Cada barra representa un valor de X, la linea gris es la media
MEDIDAS DE CENTRALIZACIÓN Media aritmética: variables cuantitativas Datos no agrupados x 1, x 2,...,x k con frecuencias absolutas f 1, f 2,...,f k x= f 1 x 1 +f 2 x 2 +...+f k x k i=1 = f 1 +f 2 +...f k k k i=1 f i x i Ejemplo: si tus calificaciones son 8, 9, 9, 9, 10, 10, la nota media es f i x= 8+9+9+9+10+10 6 = 8 1+3 9+2 10 1+3+2 = 55 6 =9.1666666667 Aprenderemos a manejar lo decimales
MEDIDAS DE CENTRALIZACIÓN Media aritmética: variables cuantitativas Datos ya agrupados en clases [a 0, a 1 ] (a 1, a 2 ] (a 2, a 3 ] (a k-1, a k ] f 1 f 2 f 3 f k La marca de clase (pto medio) x i := (a i +a i+1 )/2 representa a los elementos de la clase. Así, tenemos x 1, x 2, x 3,, x k con frecuencias f 1, f 2, f 3,, f k y podemos aplicar x= k i=1 k i=1 f i x i f i Ejemplo: [1.52,1.58] (1.58,1.64] (1.64,1.7] (1.7,1.76] (1.76,1.82] (1.82,1.88] 12 16 30 28 11 2 Marcas de clase: x 1 = 1.55, x 2 = 1.61, x 3 = 1.67, x 4 = 1.73, x 5 = 1.79, x 6 = 1.85 Frecuencia: f 1 = 12, f 2 = 16, f 3 = 30, f 4 = 28, f 5 = 11, f 6 = 2
MEDIDAS DE CENTRALIZACIÓN Media aritmética: variables cuantitativas: algunas consideraciones Ejemplo: supón que tus calificaciones son 8, 9, 9, 9, 10,10 x= 8+9+9+9+10+10 6 8 1+3 9+2 10 = = 55 1+3+2 6 =9.1666666667 * Y si hubiera pinchado en un examen? x= 1+9+9+9+10+10 6 = 48 6 =8 La media es sensible a valores extremos Ejemplo: La media no siempre es representativa
MEDIDAS DE CENTRALIZACIÓN Moda Valor de la variable estadística (o de la clase) con frecuencia más alta. Hay muestras unimodales y multimodales (bimodal, trimodal,...) Ejemplo: dos muestras de 29 individuos. Se pregunta Por el nº analgésicos que toman al mes. Por cierto: Los dos conjuntos de datos tienen la misma media: 5! Qué diferencia ambas situaciones? Sección 2.2.4 del libro
MEDIDAS DE CENTRALIZACIÓN Moda Distribuciones multimodales: posible(s) variable(s) oculta(s) Mouse Allergen and Asthma Cohort Study. Publicacion: http://bit.ly/2cuyvyw Se representa el log(eno) frente al tanto por uno de episodios de asma nocturnos ENO: oxido nítrico exhalado. El oxido nítrico (NO) es una molécula gaseosa producido por cierto tipo de células como respuesta a un proceso inflamatorio. Mopo: individuos sensibilizados a los alergenos del ratón
MEDIDAS DE DISPERSIÓN Para variables cuantitativas. Miden lo agrupados que están los datos en torno a una mediad de centralización o su grado de desagregación Recorrido (o rango) de una variable: Resta entre los valores máximo y mínimo de la variable Ejemplo: valores 6, 13, 5, 8, 2, 4 recorrido : 13 2 = 11 Varianza poblacional: Datos no agrupados: x 1, x 2,...,x n con media Var( X )= ( x x 1 ) 2 +(x 2 x) 2 +...+(x n x ) 2 = n n i=1 (x i x ) 2 n x Ejemplo: Sección 2.3.2 del libro
MEDIDAS DE DISPERSIÓN Varianza poblacional datos agrupados Ejemplo: cálculo de la varianza a partir de la tabla de frecuencias absolutas (la media es 43) x_i f_i 40 2 42 1 45 3 Var( X )= (40 43 )2 + ( 40 43) 2 + (42 43 ) 2 + (45 43 ) 2 + (45 43 ) 2 + (45 43) 2 6 Var( X )= (40 43 )2 2+ (42 43) 2 1+(45 43 ) 2 3 2+1+3 =7.4 Desviación típica poblacional Var (X )= k i=1 ( x i x ) 2 f i k f i i=1 DT ( X)= Var (X )
MEDIDAS DE DISPERSIÓN Varianza muestral o cuasivarianza Datos sin agrupar: s 2 = (x 1 x) 2 +(x 2 x) 2 +...+( x n x) 2 n 1 = n i=1 (x i x ) 2 n 1 Datos agrupados: s 2 = k i=1 ( x i x ) 2 f i k i=1 f i 1 Desviación típica muestral o cuasidesviación típica: s= s 2 Muchos libros hablan de la cuasivarianza incluso sin definir la varianza. La cuasivarianza aparecerá en el bloque de inferencia. Si usas software o una función de la calculadora, es importante que sepas si el número que se obtienes es la varianza o la cuasivarianza muestra
MEDIDAS DE DISPERSIÓN Varianza muestral o cuasivarianza Ejemplo: Cálculo de varianza y cuasivarianza
MEDIDAS DE DISPERSIÓN Varianza muestral o cuasivarianza Propiedades de la (cuasi)varianza y la (cuasi)desviación típica: 1.- La varianza no puede ser negativa. 2.- A igualdad de medias, mayor dispersión implica mayor varianza. 3.- De dos muestras con medias similares, es más dispersa la que tenga mayor varianza. Ambas muestras tienen media 5 Muestra morada (arriba) tiene desviación típica = 4 Muestra verde (abajo) tiene desviación típica = 1
MEDIDAS DE DISPERSIÓN Varianza muestral o cuasivarianza Propiedades de la (cuasi)varianza y la (cuasi)desviación típica: 4.- PERO, si dos muestras tienen medias diferentes, mayor varianza NO implica mayor dispersión la varianza depende del tamaño (unidades) de los datos. Adimensionalizar Coeficiente de variación (CV) CV = s X x A mayor CV, mayor dispersión, y viceversa. También útil para comparar variables diferentes Presenta problemas cuando la media es próxima a cero
MEDIDAS DE DISPERSIÓN Coeficiente de variación Ejemplo: Estás estudiando la variable peso en una población de ballenas y otra de salmones. Tenemos muestras de tamaño 50 Ballenas Media = 61966.67 s = 19399.85 CV = 0.313069 Salmones Media = 7.696667 s = 1.939985 CV = 0.2483269 Ejemplo: El muestreo por áreas se usa en Ecología para contar el número de especies de plantas por área. Las parcelas tienen área diferente, y cada una es doble de otra. X = 1, 2, 4, 8, 16, 32, 64 m 2 Y = 2, 4, 7, 11, 16, 19, 21 especies distintas Area Media = 18.14286 s = 22.9378 CV = 1.264288 Nº especies Media = 11.42857 s = 7.457818 CV = 0.6525591
MEDIDAS DE POSICIÓN Mediana, cuartiles,..., y cuantiles variables cuantitativas y cualitativas ordenadas Mediana: valor de la variable que, una vez ordenados de menor a mayor, deja la mitad de los datos por debajo de sí: * Si hay una cantidad impar de datos, se toma el valor del centro * Si hay una cantidad par de datos, se toma la media entre los dos centrales. Es robusta frente a (unos pocos) valores extremos. Ejemplos: * Para {1, 4, 5, 8, 27} la mediana vale 5 * En los dos casos {8, 9, 9, 9, 10, 10} {1, 1, 9, 9, 10, 10} la mediana vale 9 Linea a puntos (izquierda) la mediana Linea a guiones (derecha) la media
MEDIDAS DE POSICIÓN Mediana, cuartiles,..., y cuantiles Cuartiles: valores de la variable que, una vez ordenados de menor a mayor, dividen la muestra en cuatro partes con el mismo número de elementos. Ejemplo: considera los datos 20, 21, 27, 30, 32, 35, 36, 40, 40, 40, 40, 41, 42, 45, 47, 50, 52, 71, 89,108. La mediana es Md = Q2 = (40+40)/2 = 40 El primer cuartil es Q1 = (32+35)/2 = 33.5 El tercer cuartil es Q3 = (47+50)/2 = 48.5
MEDIDAS DE POSICIÓN Cuartiles: diagrama de caja y bigotes (boxplot) Idea: representar los cuartiles y señalar los puntos muy alejados de los que hay entre los cuartiles 1º y 3º Ejemplo: 3, 8, 12, 13, 14, 15, 16, 16, 16, 19, 25 Recorrido intercuartilico: IQR = Q3-Q1 = 16 12.5 = 3.5 Es el rango del 50% central de la muestra; hay datos muy grandes/pequeños? Los que sean menores que Q1 1.5 * IQR = 7.25 Los que sean mayores que Q3 + 1.5 * IQR = 21.25 Mínimo dato no atípico = 8 Q1 = 12.5 Q2 = 15 Q3 = 16 Máximo dato no atípico = 19 Datos atípicos =3, 25 Sección 2.3.1 libro
MEDIDAS DE POSICIÓN Deciles, centiles y cuantiles Ejercicio: Se ha contado el número de especies diferentes que hay en 10 parcelas {13, 3, 11, 9, 4, 5, 8, 17, 15, 2} Cuántas especies hay, como mucho, n el 30% de parcelas con menor diversidad? El cuantil q (x q ) es el valor de la variable tal que, una vez ordenados de menor a mayor el q% de los datos es menor o igual que x q Ejemplo: dados los valores el 6º decil es d 6 = 64 23, 24, 44, 54, 58, 64, 69, 73, 85, 90 Cuánto vale el percentil 82?
MEDIDAS DE POSICIÓN Cuantiles y tablas de frecuencias acumuladas Frecuencia absoluta acumulada de un elemento o clase (si agrupados): Nº de elementos menor o igual que él. F i =f 1 +f 2 +...+f i = i j Frecuencia relativa acumulada de un elemento o clase (si agrupados): es el tanto por uno de elementos menor o igual que él f j F ' i =f ' 1 +f ' 2 +...+f ' i = i j f ' j Nº analgésicos f_i F_i f '_i F '_i 1 1 1 0,04 0,04 2 2 3 0,08 0,12 3 3 6 0,12 0,24 4 4 10 0,16 0,4 5 5 15 0,2 0,6 6 4 19 0,16 0,76 7 3 22 0,12 0,88 8 2 24 0,08 0,96 9 1 25 0,04 1 Ejemplo: Cuánto vale la mediana? Cuánto vale el primer cuartil? Cuánto vale el 3 er decil? y el 6º? Cuánto vale el percentil 23?
Diagrama de dispersión datos univariados y simetrías x x Asimetría negativa (a la izqda.) Asimetría positiva (a la dcha.)
Redondeo a cifras significativas (sección 1.3 libro) La variable altura de un individuo es continua, o discreta? Algo que mide 5cm = 50mm sabemos que está entre 49mm y 51mm. Error: 1mm Si dividimos esa longitud entre 3, la calculadora dice que cada parte mide 16.66666667mm Tiene sentido (significado) usar tantos decimales? 456 / 45.4 = 10.0440528634 456 / 45.5 = 10.021978022 456 * 45.4 = 20702,4 456 * 45.5 = 20748
Redondeo a cifras significativas (sección 1.3 libro) Ejemplo 1: redondear 2.712798 a 4 cifras significativas. 1.- Buscar primera cifra (más a la izquierda) no nula 2.712798 2.- contar 4 cifras (hacia la derecha) 2.712798 3.- Qué hacer con el resto de cifras: redondear la 5ª (el resto se obvian): * Si es menor o igual que 4, se elimina sin más. * Si es mayor o igual que 5, se elimina y se suma 1 a la 4ª cifra. 2.713 Posible acarreo
Redondeo a cifras significativas (sección 1.3 libro) Ejemplo 2: redondear 0.023899275 a 5 cifras significativas. 1.- Buscar primera cifra (más a la izquierda) no nula 0.023899725 2.- contar 5 cifras (hacia la derecha) 0.023899725 3.- Qué hacer con el resto de cifras: redondear la 6ª (el resto se obvian): 0.023899725 * Si es menor o igual que 4, se elimina sin más. * Si es mayor o igual que 5, se elimina y se suma 1 a la 5ª cifra. Si la 5ª cifra Es un 9, anota un 0 y suma 1 a la 4ª cifra, y así sucesivamente (acarreo) 0.023900