Tema 2: Introducción a la Estadística Descriptiva

1 Tema 2: Introducción a la Estadística Descriptiva Contenidos Qué es la Estadística? - Definición. Palabras clave: población, parámetro, muestra, estadístico, tamaño poblacional, tamaño muestral, individuos, objetos. Tipos de variables: categórica (ordinal, nominal) y numérica (discreta, continua). Por qué una muestra? Definición de muestra aleatoria simple. Frecuencias y distribución/tabla de frecuencias: absoluta, absoluta acumulada, relativa, relativa acumulada. Propiedades. 2 Contenidos Gráficas para datos categóricos (diagrama de barras, diagrama de sectores). Gráficas para datos numéricos (histograma, poĺıgono de frecuencias, diagrama de cajas). Medidas numéricas para describir: tendencia central (media, mediana, moda) variación (varianza, desviación típica, cuasi-varianza y cuasi-desviación típica, rango, RIC, coeficiente de variación) otros (cuartiles, percentiles)

3 Lecturas recomendadas Peña, D., Romo, J., Introducción a la Estadística para las Ciencias Sociales. Capítulos 1, 2, 3, 4, 5. Newbold, P. Estadística para los Negocios y la Economía (2009). Capítulo 1 Capítulo 2. Definición de Estadística 4 Definición. La Estadística es la ciencia que trata de: recoger, organizar, resumir, presentar, interpretar y procesar datos para convertir los datos en información predicciones, pronósticos, estimación Estadística Descriptiva En qué ocasiones escuchaste/viste la palabra estadística? Resúmenes de partidos de fútbol/tenis Tasas de desempleo, número de heridos en accidentes de coche La estadística es mucho más que porcentajes y números! Inferencia Estadística

5 Palabras clave Una población es la colección completa de todos los ítems/individuos/objetos/sujetos de interés, o bajo investigación. N representa el tamaño poblacional Una muestra es un subconjunto de la población, elegida habitualmente para investigar las propiedades de la población subyacente. n representa el tamaño muestral Un parámetro es una característica específica de una población (fija). Un estadístico es una característica específica de una muestra (varía de muestra en muestra). Una variable es una característica de un individuo. Ejemplos Pob todos los estudiantes de la UC3M. Variable: altura (0, ) Param: Altura media de todos los estudiantes. Estadístico: Altura media de los estudiantes muestreados. Pob: todos los peces de un lago. Variable: tamaño {G,M,P} Param: Número de peces pequeños en todo el lago. Estadístico: Número de peces pequeños capturados. Pob: todos los pacientes del Hospital de Getafe. Variable: grupo sanguíneo {A, B, AB, O} Param: Porcentaje de grupo sanguíneo AB entre todos los pacientes. Estadístico: porcentaje de grupo sanguíneo AB entre los pacientes muestreados. Pob: todas las bombillas de la marca Acme. Variable: tiempo de vida en días {0,1,2,...}. Param: Variación en el tiempo de vida de todas las bombillas. Estadístico: Variación en el tiempo de vida de las bombillas muestreadas. 6

Tipos de datos 7 ւ Categóricos (Cualitativos) ւ ց Datos (Variables) ց Numéricos (Cuantitativos) ւ ց Ordinales Nominales Discretos Continuos clases ordenables sin orden natural entero no entero Ejemplo Ejemplo Ejemplo Ejemplo Talla de ropa: Grupo sanguíneo: n o de hijos: Altura: G>M>P A,B,AB,O 0,1,2,... 1.55cm, 1.71cm Notación: Se usan en general las letras X,Y,Z. Ejemplo: X = altura en cm (letras mayúsculas en definición) x = 1.55 (letras minúsculas para valores específicos) x 1 = 1,55, x 2 = 1,71 (con más de uno, se añaden subíndices) Por qué se usa una muestra? 8 En la práctica no estudiamos la población porque: Podemos destruir la población (ej. tiempo de vida de una bombilla). La población puede existir como concepto pero no en la realidad (ej. población de ítems defectuosos). Imposible de realizar (ej. población de todos los peces del mar). Demasiado caro. Tiempo de ejecución excesivo.

9 Definición de muestra aleatoria simple (m.a.s.) Definición. Una muestra aleatoria simple es una parte de la población obtenida de forma que, cada miembro de la población se elige estrictamente al azar, cada miembro tiene la misma probabilidad de ser elegido, y cada posible muestra de n objetos es igualmente probable de ser elegida. Notación: Una muestra de tamaño n obtenida de una variable X significa que: Tenemos n individuos seleccionados aleatoriamente de una población. Para cada uno de los individuos conocemos el valor de la variable X. Si X es categórica o discreta, es conveniente escribir los diferentes valores muestrales que toma X como x 1,x 2,...,x k, k n (ordenados desde el menor al mayor, salvo que X sea nominal). Frecuencias y distribuciones de frecuencias 10 Definición. Una distribución de frecuencias es una lista o una tabla... conteniendo agrupaciones de clases (categorías o intervalos donde toman valor los datos)... y las correspondientes frecuencias mediante las cuales los datos toman valor dentro de cada clase o categoría. Frecuencias: frecuencia absoluta es el (número de veces que el valor aparece en la muestra). frecuencia relativa es el (proporción de veces que el valor aparece en la muestra).

Por qué usar distribuciones de frecuencias? 11 Una distribución de frecuencias es una forma de resumir los datos. La distribución condensa los datos primarios en una forma más útil... y permite una interpretación visual rápida de los datos. Agrupaciones por clases: datos categóricos y discretos 12 Nota: Frec. Frec. Frec. Frec. Absol. Relat. Clase, x i Absol., n i Relat., f i Acumul., N i Acumul., F i x 1 n 1 f 1 = n 1 N 1 = n 1 F 1 = f 1 x 2 n 2 f 2 = n 2 n N 2 = N 1 +n 2 F 2 = F 1 +f 2..... x k n k f k = n k n N k = n F k = 1 Total n 1 vacío vacío n i = número de x i en la muestra, f i = número de x i n N i = N i 1 +n i, F i = F i 1 +f i 0 f i,f i 1 F i y N i no tienen sentido para variables categóricas nominales

13 Agrupaciones por clases Ejemplo 1: Los datos inferiores muestran el grupo sanguíneo al que pertenecen los 40 individuos de una muestra. AB, A, B, O, A, A, A, B, O, AB, B, O, B, B, B, A, A, A, AB, B, O, A, A, A, AB, AB,O, B, B, AB, O, B, O, O, A, A, O, B, AB, AB Qué tipo de variable es grupo sanguíneo? Obtén la distribución de frecuencias de los datos. Qué porcentaje de la gente de la muestra pertenece al grupo sanguíneo A? Qué porcentaje de la gente de la muestra pertenece a un grupo sanguíneo diferente de O? Agrupaciones por clases 14 Ejemplo 1 cont.: Categórica, nominal con 4 clases diferentes. La distribución de frecuencias es: 30% 100% 22,5% = 77,5% Frecuencia Frecuencia Clase Absoluta Relativa A 12 0.300 B 11 0.275 AB 8 0.200 O 9 0.225 Total 40 1

Agrupaciones por clases Ejemplo 2: La tabla inferior muestra diferentes niveles de satisfacción (I=insatisfecho, M=muy, S=satisfecho) en relación a 901 empleados. 15 Frecuencia Clase Absoluta MI 62 I 108 S 319 MS 412 Total 901 Qué tipo de variable se está estudiando? Obtén la distribución de frecuencias de los datos. Qué porcentaje de la gente muestreada está satisfecha? Cuántos individuos están insatisfechos o peor? En%? Cuántos individuos están al menos satisfechos? En%? Agrupaciones por clases 16 Ejemplo 2 cont.: Categórica, ordinal con 4 clases diferentes. La distribución de frecuencias es: Frecuencia Frecuencia Frecuencia Frecuencia Absoluta Relativa Clase Absoluta Relativa Acumulada Acumulada MI 62 0.07 62 0.07 I 108 0.12 170 0.19 S 319 0.35 489 0.54 MS 412 0.46 901 1 Total 901 1 35% 170, 19% 319+412 = 731 ó 901 170 = 731, 35%+46% = 81% ó 100% 19% = 81%

Agrupaciones por clases Ejemplo 3: De entre las plantas que han sido tratadas con un nuevo pesticida, se seleccionaron 50 para evaluar el comportamiento del nuevo pesticida. En cada una de las plantas muestreadas se contó el número de hojas atacadas por un hongo. El resultado se muestra a continuación. Frecuencia x i Absoluta 0 6 1 10 2 12 3 8 4 5 5 4 6 3 8 1 10 1 Total 50 17 Agrupaciones por clases 18 Ejemplo 3 cont.: Qué puedes decir acerca de la variable en estudio? Obtén su distribución de frecuencias. Qué porcentaje de las plantas muestreadas tuvo sólo 3 hojas atacadas? Cuántas plantas muestreadas tuvieron no más de 3 hojas atacadas? Cuántas plantas muestreadas tuvieron al menos 6 hojas atacadas? Qué porcentaje de las plantas muestreadas tuvo entre 3 y 5 hojas atacadas? Qué porcentaje de las plantas muestreadas tuvo al menos 8 hojas atacadas? Qué porcentaje de las plantas muestreadas tuvo a lo sumo 2 hojas atacadas?

19 Agrupaciones por clases Ejemplo 3 cont.: Numérica, discreta con 9 valores diferentes. La distribución de frecuencias es: Frecuencia Frecuencia Frecuencia Frecuencia Absoluta Relativa x i Absoluta Relativa Acumulada Acumulada 0 6 0.12 6 0.12 1 10 0.20 16 0.32 2 12 0.24 28 0.56 3 8 0.16 36 0.72 4 5 0.10 41 0.82 5 4 0.08 45 0.90 6 3 0.06 48 0.96 8 1 0.02 49 0.98 10 1 0.02 50 1 Total 50 1 Agrupaciones por clases 20 Ejemplo 3 cont.: 16% 36 3+1+1 ó 50 45 = 5 16%+10%+8% = 34% ó (8+5+4)/50 = 34% 2%+2% = 4% ó 100% 96% = 4% 56%

Agrupaciones por clases que son intervalos: datos continuos (y discretos) 21 Nota: Intervalo Marca de clase [l i 1,l i ) x i = l i+l i 1 2 n i f i N i F i [l 0,l 1 ) x 1 n 1 f 1 N 1 F 1 [l 1,l 2 ) x 2 n 2 f 2 N 2 F 2...... [l k 1,l k ) x k n k f k n 1 Total n 1 vacío vacío Se incluye el extremo izquierdo, pero se excluye el extremo derecho (convención típica). Es posible aplicar la convención en sentido opuesto - verifica su definición en el software. Útil para tabular datos discretos si X toma muchos valores diferentes. Agrupaciones por clases que son intervalos: datos continuos (y discretos) 22 Muy frecuentemente los intervalos tomados como clases poseen la misma amplitud. Determinar la amplitud a para cada intervalo mediante a = número mayor - número menor número de intervalos deseados Cuántos intervalos? Aproximadamente entre 5 y 20. Más concretamente: k n si n es pequeño. k 1+3,22log(n) si n es grande. Los intervalos nunca se solapan. Redondea la amplitud del intervalo para obtener los extremos de los intervalos deseados.

Agrupaciones por clases que son intervalos: datos continuos (y discretos) Ejemplo 4: Un fabricante de aislantes selecciona al azar 20 días de invierno y anota la temperatura más elevada del día (en grados Fahrenheit) 24,35,17,21,24,37,26,46,58,30, 32,13,12,38,41,43,44,27,53,27 Obtén la distribución de frecuencias de los datos. Se ordenan los datos primarios en orden ascendente: 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58 Se obtiene el rango (valor mayor valor menor): 58 12 = 46 Se selecciona el número de clases: es decir k = 5 Se calcula la amplitud de los intervalos: 10 (46/5 redondeo). Se determinan los extremos: 10 pero menor que 20, 20 pero menor que 30, etc. Se cuentan las observaciones que corresponden a cada clase. 23 Agrupaciones por clases que son intervalos: datos continuos (y discretos) Ejemplo 4 cont.: 24 Intervalo Marca de clase n i f i N i F i [10, 20) 15 3 0,15 3 0,15 [20, 30) 25 6 0,30 9 0,45 [30, 40) 35 5 0,25 14 0,70 [40, 50) 45 4 0,20 18 0,90 [50, 60) 55 2 0,10 20 1 Total 20 1 En cuántos días la temperatura se encontraba por debajo de 30 o F? En%? (3+6 = 9, que es el 45%) En cuántos días la temperatura se encontraba en al menos 45 o F? En%? = 4, que es el 20%) (2+4 45 40 50 40

Representación gráfica de datos 25 Una vez obtenida la distribución de frecuencias de los datos, se pueden determinar las siguientes representaciones gráficas: Categórico Numérico diagrama de sectores histograma diagrama de barras poĺıgono de frecuencias diagrama de caja Gráficos para datos cualitativos: diagrama de sectores 26 Ejemplo 1: La siguiente tabla de frecuencias corresponde a los datos de grupos sanguíneos obtenidos de una muestra de 40 individuos. Frecuencia Frecuencia Clase Absoluta Relativa A 12 0.300 B 11 0.275 AB 8 0.200 O 9 0.225 Total 40 1

27 Diagrama de sectores Ejemplo 1 cont.: Cada sector es una fracción del total del círculo. Los sectores están etiquetados con los nombres de las clases. Muchos programas ordenan las clases en orden alfabético. Aunque es vistoso, es más complejo de leer que el diagrama de barras. Evitar los diagramas de sectores en 3D, ya que los sectores traseros tienden a parecer menores que los sectores delanteros. Gráficos para datos cualitativos: diagrama de barras 28 Ejemplo 2: La tabla inferior muestra diferentes niveles de satisfacción en relación a 901 empleados. Frecuencia Frecuencia Frecuencia Frecuencia Absoluta Relativa Clase Absoluta Relativa Acumulada Acumulada MI 62 0.07 62 0.07 I 108 0.12 170 0.19 S 319 0.35 489 0.54 MS 412 0.46 901 1 Total 901 1

Diagrama de barras Ejemplo 2 cont.:. Las barras tienen la misma amplitud y son equidistantes, con alturas correspondientes a las frecuencias (absolutas). Existen huecos entre las barras. Las barras están etiquetadas con los nombres de las clases. Muchos programas ordenan las clases en orden alfabético. 29 Diagrama de barras Los diagramas de barras pueden construirse también para datos discretos si no existen demasiados valores diferentes. Este es el diagrama de barras para el Ejemplo 3 del Tema 1, donde se consideraba el número de hojas infectadas por un hongo en una muestra de 50 plantas. 30 FRECUENCIAS 0 2 4 6 8 10 12 0 1 2 3 4 5 6 7 8 9 10

Gráficos para datos cuantitativos: histograma y poĺıgono de frecuencias 31 Ejemplo 4: La distribución de frecuencias de la temperatura más alta del día (en grados o F) tomada en 20 días de invierno es como sigue: Intervalo Marca de clase n i f i N i F i [10, 20) 15 3 0,15 3 0,15 [20, 30) 25 6 0,30 9 0,45 [30, 40) 35 5 0,25 14 0,70 [40, 50) 45 4 0,20 18 0,90 [50, 60) 15 2 0,10 20 1 Total 20 1 Histograma y poĺıgono de frecuencias No hay huecos entre las barras/cajas. Amplitud de cajas amplitud de intervalos (idénticos) y los ĺımites de las clases se marcan en el eje horizontal. Alturas de cajas frecuencias (aquí, absoluta). Las áreas de cajas son proporcionales a las frecuencias. 32

Histogramas de área 1 (sobre una escala de densidad) Amplitud de cajas amplitud de intervalos (no necesariamente idénticos). alturas de cajas = f i l i l i 1 áreas de cajas = f i 33 Descripción numérica de datos 34 Nueva notación: Centro Variación Otros media rango cuartiles mediana rango intercuartílico percentiles moda varianza desviación típica coef. de variación n x i = x 1 +x 2 +...+x n i=1 ( : suma, i = 1: el ĺımite inferior, n: el ĺımite superior, x i : ejemplo de fórmula dependiente de i) Ejemplo: 3 i 2 = ( 1) 2 +0 2 +1 2 +2 2 +3 2 = 15 i= 1

Tendencia central: media (aritmética) 35 La medida de tendencia central más común. Media poblacional. Media muestral µ = x = N i=1 x i N n i=1 x i n = x 1 +...+x N N = x 1 +...+x n n Si a,b (b 0) son números reales e y = a+bx, se tiene ȳ = a+b x Afectado por valores extremos (observaciones atípicas (outliers)). Ejemplo: X: 3,1,5,4,2, Y: 3,1,5,4,200 x = 3+1+5+4+2 5 = 3 ȳ = 3+1+5+4+200 5 = 42,6! Tendencia central: mediana En la lista de observaciones ordenada, la mediana M es el número que está en la mitad de la lista. { x((n+1)/2) si n impar (número en la mitad) M = x (n/2) +x (n/2+1) if n par (promedio de los dos números en la mitad) 2 (x (1),x (2),...,x (n) significa que las observaciones están ordenadas en orden creciente, ej. x (1) = x mín, x (n) = x máx ) No afectado por observaciones atípicas (outliers) Ejemplo: Dadas las observaciones 3,1,5,4,2 (n = 5), ordenar los datos 1,2, 3,4,5, e identificar el/los números situados en la mitad de la lista M = x ((5+1)/2) = 3 o menor {}}{ x (3) = 3 Ejemplo: Dadas las observaciones 3,1,5,4,2,0 (n = 6), ordenar los datos 0,1, 2,3,4,5, e identificar el/los números en la mitad de la lista M = x (6/2) +x (6/2+1) 2 = el promedio del 3 o y el 4 o {}}{ x (3) +x (4) 2 = 2+3 2 = 2,5 36

37 Tendencia central: moda El valor que aparece más a menudo. No afectado por valores atípicos=outliers. Utilizado tanto para datos numéricos como categóricos. Puede no haber moda o puede haber más de una moda. Ejemplo: Dadas las observaciones 3,1,5,4,2, no hay moda Ejemplo: Dadas las observaciones 3,1,5,4,2,1, la moda es 1 Forma: comparación de la media y la mediana 38 Tres tipos de distribuciones: Asimétrica a la izquierda Media < Mediana. Simétrica Media = Mediana. Asimétrica a la derecha Mediana < Media. x < M x = M M < x Asimétrica Izquierda Simétrica Asimétrica Derecha Nota: La distribución en que está en el centro se conoce como normal o acampanada (ver figuras)

39 Cuartiles y percentiles Los cuartiles dividen los datos ordenados en cuatro segmentos que recogen la misma cantidad de observaciones. El primer cuartil Q 1 ocupa la posición 1 4 (n+1). El segundo cuartil Q 2 (= mediana) ocupa la posición 1 2 (n+1). El tercer cuartil Q 3 ocupa la posición 3 4 (n+1). Ejemplo: Dadas las observaciones 22,18,17,16,16,13,12,21,11 (n = 9), se ordenan los datos 11, 12, 13, 16, 16, 17, 18, 21, 22, a continuación de identifican las posiciones Q 1 = x (2,5) = 12,5 Q 3 = 16 Q 3 = x (7,5) = 19,5 El p% de los datos (0 < p < 100) se encuentran por debajo o sobre el p-ésimo percentil. Ejemplo cont.: 33-ésimo percentil = 13 Variación: rango y rango intercuartílico (RIC) 40 El rango es la medida de variación más simple R = x máx x mín Ignora la manera en que se distribuyen los datos. Sensible a observaciones atípicas (outliers). Ejemplo: Dadas las observaciones 3,1,5,4,2, R = 5 1 = 4 Ejemplo: Dadas las observaciones 3,1,5,4,100, R = 100 1 = 99 El rango intercuartílico (RIC) puede eliminar ciertos problemas con los datos atípicos (outliers). Se eliminan las observaciones de mayor valor y las de menor valor y se calcula el rango de los 50% de los datos que se encuentran en la mitad. RIC = 3er cuartil 1er cuartil = Q 3 Q 1

Variación: Rango intercuartílico y diagrama de cajas Las observaciones atípicas (outliers) se encuentran por debajo de Q1 1,5 RIC por encima de Q3 +1,5 RIC Para observaciones atípicas (outliers) extremos, reemplazar 1.5 por 3 en la definición anterior 41 MEDIANA x min Q 1 (Q 2 ) Q 3 x max 25% 25% 25% 25% 12 24 31 42 58 RI=18 Medida de variación: varianza Promedio de cuadrados de las desviaciones de valores a la media. Varianza poblacional. Varianza muestral ˆσ 2 = n i=1 (x i x) 2 n σ 2 = N i=1 (x i µ) 2 N más rápido de calcular { }}{ n i=1 = x2 i n( x) 2 n Cuasi-varianza muestral (varianza muestral corregida) dividido por n 42 s 2 = n i=1 (x i x) 2 n 1 = n i=1 x2 i n( x) 2 n 1 dividido por n 1 ˆσ 2 es sesgado, mientras s 2 es insesgado (Tema 5). Su relación es ˆσ 2 = n 1 n s2 Si a,b (b 0) son números reales e y = a+bx, se tiene s 2 y = b 2 s 2 x

Medida de variación: desviación típica (DT) 43 La medida de dispersión más comúnmente utilizada. La desviación típica poblacional, la desviación típica muestral y la cuasi-desviación típica muestral son respectivamente Muestra la variación sobre la media. σ = σ 2 ˆσ = ˆσ 2 s = s 2 Posee las misma unidades que los datos, mientras que para la varianza se tienen unidades 2 Varianza y DT se encuentran ambos afectados por observaciones atípicas (outliers). Cálculo de la varianza y la desviación típica Ejemplo: X : 11,12,13,16,16,17,18,21, Y : 14,15,15,15,16,16,16,17, Z : 11,11,11,12,19,20,20,20 s 2 x = x = 124 8 = 15,5 ȳ = 124 8 n i=1 n i=1 n i=1 n i=1 x2 i n( x) 2 n 1 = 15,5 z = 124 8 = 15,5 x 2 i =11 2 +12 2 +...+21 2 = 2000 y 2 i =14 2 +15 2 +...+17 2 = 1928 z 2 i =11 2 +11 2 +...+20 2 = 2068 = 2000 8(15,5)2 8 1 s 2 y = 1928 8(15,5)2 8 1 s 2 z = 2068 8(15,5)2 8 1 = 78 7 = 11,1429 s x = 3,3381 = 6 7 = 0,8571 s y = 0,9258 = 146 7 = 20,8571 s z = 4,5670 44

Comparación de desviaciones típicas Ejemplo cont.: X : 11,12,13,16,16,17,18,21, Y : 14,15,15,15,16,16,16,17, Z : 11,11,11,12,19,20,20,20 45 x = 15.5 s x = 3.3 11 12 13 14 15 16 17 18 19 20 21 y = 15.5 s y = 0.9 11 12 13 14 15 16 17 18 19 20 21 z = 15.5 s z = 4.6 11 12 13 14 15 16 17 18 19 20 21 Regla empírica 46 Si la distribución de los datos es acampanada (normal), es decir, simétrica y con colas suaves, se verifica: 68% de los datos en ( x 1s, x +1s) 95% de los datos en ( x 2s, x +2s) 99.7% de los datos en ( x 3s, x +3s) Nota: Esta regla se conoce también como la regla del 68-95-99.7 Ejemplo: Sabemos que para una muestra de 100 observaciones, la media es 40 y la cuasi-desviación típica es 5. Asumiendo que los datos poseen distribución acampanada, proporciona los ĺımites del intervalo que captura el 95% de las observaciones. 95% de x i s están en: ( x ±2s) = (40±2(5)) = (30,50)

Medidas de variación: coeficiente de variación (CV) 47 Es una medida relativa de variación que se define como CV = s x Es un número sin unidad (se expresa a veces en% s). Muestra la variación con respecto a la media. Ejemplo: Stock A: Precio promedio el año anterior = 50, Desviación típica = 5 Stock B: Precio promedio el año anterior = 100, Desviación típica = 5 CV A = 5 50 = 0,10 CV B = 5 100 = 0,05 Ambos stocks poseen la misma DT, pero el stock B es menos variable en relación a la media de su precio.