Probabilidad y Estadística, EIC 311 Medida de resumen 1er Semestre 2016 1 / 105
, mediana y moda para datos no Una medida muy útil es la media aritmética de la muestra = Promedio. 2 / 105
, mediana y moda para datos no Una medida muy útil es la media aritmética de la muestra = Promedio. Definición 1.1 Sea x 1, x 2,, x n las observaciones en una muestra de tamaño n. La media de la muestra es: x = n i=1 x i n = x 1 + x 2 + + x n n 3 / 105
, mediana y moda para datos no Otra medida importante es la mediana de la muestra que resulta ser el valor tal que el 50 % de la muestra es menor o igual a este valor. 4 / 105
, mediana y moda para datos no Otra medida importante es la mediana de la muestra que resulta ser el valor tal que el 50 % de la muestra es menor o igual a este valor. Definición 1.2 Dado que las observaciones en una muestra son x 1, x 2,, x n ordenados en orden creciente, la mediana de la muestra es: m e = x n 2 + x n 2 +1 2 si n es par m e = x n+1 2 si n es impar 5 / 105
, mediana y moda para datos no Otra medida importante es la mediana de la muestra que resulta ser el valor tal que el 50 % de la muestra es menor o igual a este valor. Definición 1.2 Dado que las observaciones en una muestra son x 1, x 2,, x n ordenados en orden creciente, la mediana de la muestra es: m e = x n 2 + x n 2 +1 2 si n es par m e = x n+1 2 si n es impar A diferencia de la media, la mediana no se ve afectada por valores extremos. 6 / 105
, mediana y moda para datos no Definición 1.3 La moda de una muestra es el valor que aparece más veces en la muestra. Esta medida no se ve afectada por valores extremos, Puede haber más de una moda (multimodal; bimodal) o no haber moda. 7 / 105
Ej:, mediana y moda para datos no Ejemplo 1.1 Caso Impar: Sean las siguientes estaturas de 5 alumnos medidas en cm: 1.62 ; 1.72 ; 1.68 ; 1.72 ; 1.80; = Muestra ordenada: 1.62 ; 1.68 ; 1.72; 1.72 ; 1.80 8 / 105
Ej:, mediana y moda para datos no Ejemplo 1.1 Caso Impar: Sean las siguientes estaturas de 5 alumnos medidas en cm: 1.62 ; 1.72 ; 1.68 ; 1.72 ; 1.80; = Muestra ordenada: 1.62 ; 1.68 ; 1.72; 1.72 ; 1.80 x = 1,71 9 / 105
Ej:, mediana y moda para datos no Ejemplo 1.1 Caso Impar: Sean las siguientes estaturas de 5 alumnos medidas en cm: 1.62 ; 1.72 ; 1.68 ; 1.72 ; 1.80; = Muestra ordenada: 1.62 ; 1.68 ; 1,72 ; 1.72 ; 1.80 x = 1,71 m e = 1,72 10 / 105
Ej:, mediana y moda para datos no Ejemplo 1.1 Caso Impar: Sean las siguientes estaturas de 5 alumnos medidas en cm: 1.62 ; 1.72 ; 1.68 ; 1.72 ; 1.80; = Muestra ordenada: 1.62 ; 1.68 ; 1,72 ; 1.72 ; 1.80 x = 1,71 m e = 1,72 m o = 1,72 11 / 105
Ej:, mediana y moda para datos no Ejemplo 1.1 Caso Impar: Sean las siguientes estaturas de 7 alumnos medidas en cm: 1.62 ; 1.72 ; 1.68 ; 1.72 ; 1.80; 1.60 ; 1.90 = Muestra ordenada: 1.60 ; 1.62 ; 1.68 ; 1,72 ; 1.72 ; 1.80 ; 1.90 x = 1,71 m e = 1,72 m o = 1,72 Agreguemos 2 estaturas. 12 / 105
Ej:, mediana y moda para datos no Ejemplo 1.1 Caso Impar: Sean las siguientes estaturas de 7 alumnos medidas en cm: 1.62 ; 1.72 ; 1.68 ; 1.72 ; 1.80; 1.60 ; 1.90 = Muestra ordenada: 1.60 ; 1.62 ; 1.68 ; 1,72 ; 1.72 ; 1.80 ; 1.90 x = 1,71 = x = 1,72 m e = 1,72 = m e = 1,72 m o = 1,72 = m e = 1,72 Agreguemos 2 estaturas. 13 / 105
Ej:, mediana y moda para datos no Ejemplo 1.2 Caso par: Sean las siguientes estaturas de 4 alumnos medidas en cm: 1,72 ; 1,68 ; 1,75 ; 1,80 = Muestra ordenada: 1,68 ; 1,72 ; 1,75; 1,80 14 / 105
Ej:, mediana y moda para datos no Ejemplo 1.2 Caso par: Sean las siguientes estaturas de 4 alumnos medidas en cm: 1,72 ; 1,68 ; 1,75 ; 1,80 = Muestra ordenada: 1,68 ; 1,72 ; 1,75; 1,80 x = 1,74 15 / 105
Ej:, mediana y moda para datos no Ejemplo 1.2 Caso par: Sean las siguientes estaturas de 4 alumnos medidas en cm: 1,72 ; 1,68 ; 1,75 ; 1,80 = Muestra ordenada: 1,68 ; 1, 72; 1, 75 ; 1,80 x = 1,74 m e = 1,72+1,75 2 = 1,735 16 / 105
Ej:, mediana y moda para datos no Ejemplo 1.2 Caso par: Sean las siguientes estaturas de 4 alumnos medidas en cm: 1,72 ; 1,68 ; 1,75 ; 1,80 = Muestra ordenada: 1,68 ; 1, 72; 1, 75 ; 1,80 x = 1,74 m e = 1,72+1,75 2 = 1,735 m o = NO HAY MODA 17 / 105
Ej:, mediana y moda para datos no, sensibilidad a datos extremos Ejemplo 1.3 Caso Impar: Sean las siguientes estaturas de 5 alumnos medidas en cm: 1.62 ; 1.72 ; 1.68 ; 1.72 ; 1.80; = Muestra ordenada: 1.62 ; 1.68 ; 1.72; 1.72 ; 1.80 18 / 105
Ej:, mediana y moda para datos no, sensibilidad a datos extremos Ejemplo 1.3 Caso Impar: Sean las siguientes estaturas de 5 alumnos medidas en cm: 1.62 ; 1.72 ; 1.68 ; 1.72 ; 1.80; = Muestra ordenada: 1.62 ; 1.68 ; 1.72; 1.72 ; 1.80 x = 1,71 m e = 1,72 m o = 1,72 19 / 105
Ej:, mediana y moda para datos no, sensibilidad a datos extremos Ejemplo 1.3 Caso Impar: Sean las siguientes estaturas de 6 alumnos medidas en cm: 1.62 ; 1.72 ; 1.68 ; 1.72 ; 1.80; 2.00 = Muestra ordenada: 1.62 ; 1.68 ; 1.72; 1.72 ; 1.80 ; 2.00 x = 1,71 m e = 1,72 m o = 1,72 Agreguemos 1 estatura. 20 / 105
Ej:, mediana y moda para datos no, sensibilidad a datos extremos Ejemplo 1.3 Caso Impar: Sean las siguientes estaturas de 6 alumnos medidas en cm: 1.62 ; 1.72 ; 1.68 ; 1.72 ; 1.80; 2.00 = Muestra ordenada: 1.62 ; 1.68 ; 1.72; 1.72 ; 1.80 ; 2.00 x = 1,71 = x = 1,76 m e = 1,72 m o = 1,72 Agreguemos 1 estatura. 21 / 105
Ej:, mediana y moda para datos no, sensibilidad a datos extremos Ejemplo 1.3 Caso Impar: Sean las siguientes estaturas de 6 alumnos medidas en cm: 1.62 ; 1.72 ; 1.68 ; 1.72 ; 1.80; 2.00 = Muestra ordenada: 1.62 ; 1.68 ; 1.72; 1.72 ; 1.80 ; 2.00 x = 1,71 = x = 1,76 m e = 1,72 = m e = 1,72 m o = 1,72 Agreguemos 1 estatura. 22 / 105
Ej:, mediana y moda para datos no, sensibilidad a datos extremos Ejemplo 1.3 Caso Impar: Sean las siguientes estaturas de 6 alumnos medidas en cm: 1.62 ; 1.72 ; 1.68 ; 1.72 ; 1.80; 2.00 = Muestra ordenada: 1.62 ; 1.68 ; 1.72; 1.72 ; 1.80 ; 2.00 x = 1,71 = x = 1,76 m e = 1,72 = m e = 1,72 m o = 1,72 = m e = 1,72 Agreguemos 1 estatura. 23 / 105
, mediana y moda para datos Definición 1.4 Sea una muestra x 1,..., x n de tamaño n que se agrupan en una tabla con K clases. Se denotan c 1,..., c k las k marcas de clases. La media de la muestra para estos datos es: x = K k=1 c k n k n donde k = 1,, K 24 / 105
, mediana y moda para datos na Definición 1.5 Sea una muestra x 1,..., x n de tamaño n que se agrupan en una tabla con K clases. La mediana de la muestra para estos datos es: ( ) n/2 Nk 1 m e = L inf + a k donde n k 25 / 105
, mediana y moda para datos na Definición 1.5 Sea una muestra x 1,..., x n de tamaño n que se agrupan en una tabla con K clases. La mediana de la muestra para estos datos es: ( ) n/2 Nk 1 m e = L inf + a k donde L inf : valor inferior del intervalo (clase) donde se encuentra la mediana n k 26 / 105
, mediana y moda para datos na Definición 1.5 Sea una muestra x 1,..., x n de tamaño n que se agrupan en una tabla con K clases. La mediana de la muestra para estos datos es: ( ) n/2 Nk 1 m e = L inf + a k donde L inf : valor inferior del intervalo (clase) donde se encuentra la mediana a k : ancho del intervalo (clase) donde se encuentra la mediana n k 27 / 105
, mediana y moda para datos na Definición 1.5 Sea una muestra x 1,..., x n de tamaño n que se agrupan en una tabla con K clases. La mediana de la muestra para estos datos es: ( ) n/2 Nk 1 m e = L inf + a k donde L inf : valor inferior del intervalo (clase) donde se encuentra la mediana a k : ancho del intervalo (clase) donde se encuentra la mediana N k 1 : frec. abs. acum. del intervalo anterior n k 28 / 105
, mediana y moda para datos na Definición 1.5 Sea una muestra x 1,..., x n de tamaño n que se agrupan en una tabla con K clases. La mediana de la muestra para estos datos es: ( ) n/2 Nk 1 m e = L inf + a k donde L inf : valor inferior del intervalo (clase) donde se encuentra la mediana a k : ancho del intervalo (clase) donde se encuentra la mediana N k 1 : frec. abs. acum. del intervalo anterior n: número total de obs. n k 29 / 105
, mediana y moda para datos na Definición 1.5 Sea una muestra x 1,..., x n de tamaño n que se agrupan en una tabla con K clases. La mediana de la muestra para estos datos es: ( ) n/2 Nk 1 m e = L inf + a k donde L inf : valor inferior del intervalo (clase) donde se encuentra la mediana a k : ancho del intervalo (clase) donde se encuentra la mediana N k 1 : frec. abs. acum. del intervalo anterior n: número total de obs. n k : frec. abs. del intervalo asociado al la mediana. n k 30 / 105
, mediana y moda para datos na Definición 1.6 Sea una muestra x 1,..., x n de tamaño n que se agrupan en una tabla con K clases. La clase modal es la clase asociada a la mayor frecuencia absoluta. 31 / 105
, mediana y moda para datos Ejemplo: Temperatura clase c k n k f k N k F k [10, 20) 15 3 0.15 3 0.15 [20, 30) 25 6 0.30 9 0.45 [30, 40) 35 5 0.25 14 0.70 [40, 50) 45 4 0.20 18 0.90 [50, 60) 55 2 0.10 20 1 TOTAL 20 1 En este ejemplo tenemos 5 intervalos, k = 5. 32 / 105
, mediana y moda para datos Ejemplo: Temperatura clase c k n k f k N k F k [10, 20) 15 3 0.15 3 0.15 [20, 30) 25 6 0.30 9 0.45 [30, 40) 35 5 0.25 14 0.70 [40, 50) 45 4 0.20 18 0.90 [50, 60) 55 2 0.10 20 1 TOTAL 20 1 En este ejemplo tenemos 5 intervalos, k = 5. x = 15 3 + 25 6 + 35 5 + 45 4 + 55 2 20 = 33 m e = Clase modal = 33 / 105
, mediana y moda para datos Ejemplo: Temperatura clase c k n k f k N k F k [10, 20) 15 3 0.15 3 0.15 [20, 30) 25 6 0.30 9 0.45 [30, 40) 35 5 0.25 14 0.70 [40, 50) 45 4 0.20 18 0.90 [50, 60) 55 2 0.10 20 1 TOTAL 20 1 En este ejemplo tenemos 5 intervalos, k = 5. x = 15 3 + 25 6 + 35 5 + 45 4 + 55 2 20 = 33 m e = Clase modal = 34 / 105
, mediana y moda para datos Ejemplo: Temperatura clase c k n k f k N k F k [10, 20) 15 3 0.15 3 0.15 [20, 30) 25 6 0.30 9 0.45 [30, 40) 35 5 0.25 14 0.70 [40, 50) 45 4 0.20 18 0.90 [50, 60) 55 2 0.10 20 1 TOTAL 20 1 En este ejemplo tenemos 5 intervalos, k = 5. x = 15 3 + 25 6 + 35 5 + 45 4 + 55 2 20 ( ) 20/2 9 m e = 30 + 10 = 32 5 = 33 Clase modal = 35 / 105
, mediana y moda para datos Ejemplo: Temperatura clase c k n k f k N k F k [10, 20) 15 3 0.15 3 0.15 [20, 30) 25 6 0.30 9 0.45 [30, 40) 35 5 0.25 14 0.70 [40, 50) 45 4 0.20 18 0.90 [50, 60) 55 2 0.10 20 1 TOTAL 20 1 En este ejemplo tenemos 5 intervalos, k = 5. x = 15 3 + 25 6 + 35 5 + 45 4 + 55 2 20 ( ) 20/2 9 m e = 30 + 10 = 32 5 = 33 Clase modal = [20, 30[ 36 / 105
: cuartiles Estas medidas dividen los datos ordenados en una cierta cantidad de segmentos que concentran la misma cantidad de observaciones. 37 / 105
: cuartiles Estas medidas dividen los datos ordenados en una cierta cantidad de segmentos que concentran la misma cantidad de observaciones. Definición 1.7 Los cuartiles dividen la muestra ordenada en 4 segmentos con la misma cantidad de observaciones. Se tienen entonces tres cuartiles: Q 1, Q 2 y Q 3. 38 / 105
: cuartiles Estas medidas dividen los datos ordenados en una cierta cantidad de segmentos que concentran la misma cantidad de observaciones. Definición 1.7 Los cuartiles dividen la muestra ordenada en 4 segmentos con la misma cantidad de observaciones. Se tienen entonces tres cuartiles: Q 1, Q 2 y Q 3. El primer cuartil, Q 1, esta definido tal que 25 % (1/4) de los datos son a Q 1. El 2do cuartil, Q 2 es equivalente a la mediana = Q 2 = m e!!! 39 / 105
: cuartiles Estas medidas dividen los datos ordenados en una cierta cantidad de segmentos que concentran la misma cantidad de observaciones. Definición 1.7 Los cuartiles dividen la muestra ordenada en 4 segmentos con la misma cantidad de observaciones. Se tienen entonces tres cuartiles: Q 1, Q 2 y Q 3. El primer cuartil, Q 1, esta definido tal que 25 % (1/4) de los datos son a Q 1. El 2do cuartil, Q 2 es equivalente a la mediana = Q 2 = m e!!! El 3er cuartil, Q 3, esta definido tal que 75 % (3/4) de los datos son a Q 3. 40 / 105
para datos no : cuartiles El primer cuartil, Q 1, ocupa la n si los datos son pares o 4 n+1 si son impares = 25 % de los datos son a Q 4 1. El 2do cuartil, Q 2 es equivalente a la mediana = Q 2 = m e!!! 41 / 105
para datos no : cuartiles El primer cuartil, Q 1, ocupa la n si los datos son pares o 4 n+1 si son impares = 25 % de los datos son a Q 4 1. El 2do cuartil, Q 2 es equivalente a la mediana = Q 2 = m e!!! El 3er cuartil, Q 3, ocupa la 3 (n) 4 si los datos son pares o 3 (n+1) 4 si son impares = 75 % de los datos son a Q 3. 42 / 105
para datos : cuartiles Se calculan de la siguiente manera para j=1,2,3: ( ) j n N 4 k 1 Q j = L inf + a k n k L inf : valor inferior del intervalo asociado al cuartil j 43 / 105
para datos : cuartiles Se calculan de la siguiente manera para j=1,2,3: ( ) j n N 4 k 1 Q j = L inf + a k n k L inf : valor inferior del intervalo asociado al cuartil j a k : ancho del intervalo asociado al cuartil j. 44 / 105
para datos : cuartiles Se calculan de la siguiente manera para j=1,2,3: ( ) j n N 4 k 1 Q j = L inf + a k n k L inf : valor inferior del intervalo asociado al cuartil j a k : ancho del intervalo asociado al cuartil j. N k 1 : frec. abs. acum. del intervalo anterior 45 / 105
para datos : cuartiles Se calculan de la siguiente manera para j=1,2,3: ( ) j n N 4 k 1 Q j = L inf + a k n k L inf : valor inferior del intervalo asociado al cuartil j a k : ancho del intervalo asociado al cuartil j. N k 1 : frec. abs. acum. del intervalo anterior n k : frec. abs. del intervalo asociado al cuartil j. 46 / 105
para datos : cuartiles Se calculan de la siguiente manera para j=1,2,3: ( ) j n N 4 k 1 Q j = L inf + a k n k L inf : valor inferior del intervalo asociado al cuartil j a k : ancho del intervalo asociado al cuartil j. N k 1 : frec. abs. acum. del intervalo anterior n k : frec. abs. del intervalo asociado al cuartil j. n: número total de observaciones (tamaño de la muestra). 47 / 105
para datos : percentiles Definición 1.8 Sea una muestra x 1,..., x n de tamaño n que se agrupan en una tabla con K clases. Los percentiles para estos datos se calculan de la siguiente forma: ( j n 100 p j = L inf + a k N ) k 1 donde j = 1,, 100 y n k 48 / 105
para datos : percentiles Definición 1.8 Sea una muestra x 1,..., x n de tamaño n que se agrupan en una tabla con K clases. Los percentiles para estos datos se calculan de la siguiente forma: ( j n 100 p j = L inf + a k N ) k 1 donde j = 1,, 100 y n k L inf : valor inferior del intervalo asociado al percentil j 49 / 105
para datos : percentiles Definición 1.8 Sea una muestra x 1,..., x n de tamaño n que se agrupan en una tabla con K clases. Los percentiles para estos datos se calculan de la siguiente forma: ( j n 100 p j = L inf + a k N ) k 1 donde j = 1,, 100 y n k L inf : valor inferior del intervalo asociado al percentil j a k : ancho del intervalo asociado al percentil j. 50 / 105
para datos : percentiles Definición 1.8 Sea una muestra x 1,..., x n de tamaño n que se agrupan en una tabla con K clases. Los percentiles para estos datos se calculan de la siguiente forma: ( j n 100 p j = L inf + a k N ) k 1 donde j = 1,, 100 y n k L inf : valor inferior del intervalo asociado al percentil j a k : ancho del intervalo asociado al percentil j. N k 1 : frec. abs. acum. del intervalo anterior 51 / 105
para datos : percentiles Definición 1.8 Sea una muestra x 1,..., x n de tamaño n que se agrupan en una tabla con K clases. Los percentiles para estos datos se calculan de la siguiente forma: ( j n 100 p j = L inf + a k N ) k 1 donde j = 1,, 100 y n k L inf : valor inferior del intervalo asociado al percentil j a k : ancho del intervalo asociado al percentil j. N k 1 : frec. abs. acum. del intervalo anterior n k : frec. abs. del intervalo asociado al percentil j. 52 / 105
para datos : percentiles Definición 1.8 Sea una muestra x 1,..., x n de tamaño n que se agrupan en una tabla con K clases. Los percentiles para estos datos se calculan de la siguiente forma: ( j n 100 p j = L inf + a k N ) k 1 donde j = 1,, 100 y n k L inf : valor inferior del intervalo asociado al percentil j a k : ancho del intervalo asociado al percentil j. N k 1 : frec. abs. acum. del intervalo anterior n k : frec. abs. del intervalo asociado al percentil j. n: número total de observaciones (tamaño de la muestra). 53 / 105
para datos : percentiles Ejemplo: Temperatura Calculemos el percentil 20, p 20, para este conjunto de datos clase c k n k f k N k F k [10, 20) 15 3 0.15 3 0.15 [20, 30) 25 6 0.30 9 0.45 [30, 40) 35 5 0.25 14 0.70 [40, 50) 45 4 0.20 18 0.90 [50, 60) 55 2 0.10 20 1 TOTAL 20 1 En este ejemplo tenemos 5 intervalos, k = 5. 54 / 105
para datos : percentiles Ejemplo: Temperatura Calculemos el percentil 20, p 20, para este conjunto de datos clase c k n k f k N k F k [10, 20) 15 3 0.15 3 0.15 [20, 30) 25 6 0.30 9 0.45 [30, 40) 35 5 0.25 14 0.70 [40, 50) 45 4 0.20 18 0.90 [50, 60) 55 2 0.10 20 1 TOTAL 20 1 En este ejemplo tenemos 5 intervalos, k = 5. p 20 = 55 / 105
para datos : percentiles Ejemplo: Temperatura Calculemos el percentil 20, p 20, para este conjunto de datos clase c k n k f k N k F k [10, 20) 15 3 0.15 3 0.15 [20, 30) 25 6 0.30 9 0.45 [30, 40) 35 5 0.25 14 0.70 [40, 50) 45 4 0.20 18 0.90 [50, 60) 55 2 0.10 20 1 TOTAL 20 1 En este ejemplo tenemos 5 intervalos, k = 5. ( ) 0,2 20 3 p 20 = 20 + 10 = 21,67 6 56 / 105
La medida de más común es la media, que corresponde al punto de equilibrio de la distribución. La media es afectada por valores extremos (atípicos). 57 / 105
La medida de más común es la media, que corresponde al punto de equilibrio de la distribución. La media es afectada por valores extremos (atípicos). Propiedades: La suma de las desviaciones con respecto a la media es igual a cero: n (x i x) = 0 i=1 La media de una constante es una constante. 58 / 105
Propiedades: La media del producto de una constante por las observaciones es igual a la constante por la media: Cx = n i=1 Cx i n = C x La media de la suma de una constante y las observaciones es igual a la media más la constante: n i=1 x i + C n = x + C 59 / 105
Introducción Las medidas de y de no permiten reflejar la o dispersión presente en los datos. 60 / 105
Introducción Las medidas de y de no permiten reflejar la o dispersión presente en los datos. La de una muestra tiene que ser estudiada en un análisis de datos estadístico, en particular la con respecto a la media. 61 / 105
Rango para datos no Definición 1.9 La medida más simple de en una muestra x 1,, x n es el rango y se calcula como: R = max[(x i ) i=1,,n ] min[(x i ) i=1,,n ] 62 / 105
Rango para datos no Definición 1.9 La medida más simple de en una muestra x 1,, x n es el rango y se calcula como: R = max[(x i ) i=1,,n ] min[(x i ) i=1,,n ] 63 / 105
Rango intercuartil El Rango Intercuartil es la diferencia entre el 3er cuartil (Q 3 ) y el 1er cuartil (Q 1 ). También se le conoce como Disperción de los Cuartos. 64 / 105
Rango intercuartil El Rango Intercuartil es la diferencia entre el 3er cuartil (Q 3 ) y el 1er cuartil (Q 1 ). También se le conoce como Disperción de los Cuartos. Notación: RIC o f s. RIC = f s = Q 3 Q 1. 65 / 105
Varianza para datos no Definición 1.10 La de una muestra, o muestral, S 2, para datos no se define como: ( n S 2 i=1 = (x i x) 2 n ) = 1 x 2 i n x 2 n 1 n 1 i=1 66 / 105
Varianza para datos no Definición 1.10 La de una muestra, o muestral, S 2, para datos no se define como: ( n S 2 i=1 = (x i x) 2 n ) = 1 x 2 i n x 2 n 1 n 1 i=1 Nota: Es importante notar que naturalmente uno tiende a dividir por n pero por propiedades teóricas, se divide la suma de cuadrados de las diferencias por n 1. 67 / 105
Varianza para datos no Definición 1.10 La de una muestra, o muestral, S 2, para datos no se define como: ( n S 2 i=1 = (x i x) 2 n ) = 1 x 2 i n x 2 n 1 n 1 i=1 Nota: Es importante notar que naturalmente uno tiende a dividir por n pero por propiedades teóricas, se divide la suma de cuadrados de las diferencias por n 1. En la práctica, los softwares estadísticos (Excel, SAS, SPSS, R, ) usan esta definición (dividiendo por n 1). 68 / 105
Varianza para datos no Definición 1.10 La de una muestra, o muestral, S 2, para datos no se define como: ( n S 2 i=1 = (x i x) 2 n ) = 1 x 2 i n x 2 n 1 n 1 i=1 Nota: Es importante notar que naturalmente uno tiende a dividir por n pero por propiedades teóricas, se divide la suma de cuadrados de las diferencias por n 1. En la práctica, los softwares estadísticos (Excel, SAS, SPSS, R, ) usan esta definición (dividiendo por n 1). Si n es grande, dividir por n o n 1 es equivalente (asintóticamente equivalente). 69 / 105
Desviación estándar para datos no Definición 1.11 La desviación estándar, S, para datos no se define como la raíz cuadrada de la : S = n S 2 i=1 = (x i x) 2 n 1 70 / 105
Desviación estándar para datos no Definición 1.11 La desviación estándar, S, para datos no se define como la raíz cuadrada de la : S = n S 2 i=1 = (x i x) 2 n 1 Una expresión alternativa para el numerador de S 2 es: S xx = n (x i x) 2 = i=1 n i=1 x 2 i ( n i=1 x i) 2 n 71 / 105
Desviación estándar para datos no Definición 1.11 La desviación estándar, S, para datos no se define como la raíz cuadrada de la : S = n S 2 i=1 = (x i x) 2 n 1 Una expresión alternativa para el numerador de S 2 es: S xx = n (x i x) 2 = i=1 n i=1 x 2 i ( n i=1 x i) 2 n Nota: La unidad de S es la misma que los datos y la de S 2 es la unidad de los datos al cuadrado. 72 / 105
Ejemplos: Varianza Ejemplo 1.4 Sea la siguiente muestra 5, 17, 6, 4. Entonces x = 8 S 2 = (5 8)2 +(17 8) 2 +(6 8) 2 +(4 8) 2 3 = 110 3 73 / 105
Ejemplos: Varianza Ejemplo 1.5 Un profesor enseña dos secciones de introducción al marketing y selecciona aleatoriamente una muestra de calificaciones de los exámenes realizados por los 2 grupos. Calcular S y S 2 para ambos grupos: G 1 50 60 70 80 90 G 2 72 68 70 74 66 74 / 105
Ejemplos: Varianza Ejemplo 1.5 Un profesor enseña dos secciones de introducción al marketing y selecciona aleatoriamente una muestra de calificaciones de los exámenes realizados por los 2 grupos. Calcular S y S 2 para ambos grupos: G 1 50 60 70 80 90 G 2 72 68 70 74 66 Sol. : x 1 = x 2 = 70 S 1 = S 2 1 = 250 = 15,8 S 2 = S2 2 = 10 = 3,16 75 / 105
Coeficiente de variación para datos no Definición 1.12 El coeficiente de variación (C.V.) para datos no expresa la desviación típica en porcentaje de la media. Es una medida relativa: C.V. = S x 100 76 / 105
Coeficiente de variación para datos no Definición 1.12 El coeficiente de variación (C.V.) para datos no expresa la desviación típica en porcentaje de la media. Es una medida relativa: C.V. = S x 100 Ej. 1.5 C.V. 1 = 15,8 70 C.V. 2 = 3,16 70 100 = 22,57 % 100 = 4,51 % 77 / 105
Ej.: C.V. para datos no Ejemplo 1.6 Si comparamos las desviaciones estándares de las ventas de los grandes y los pequeños almacenes que venden bienes similares, la S de los grandes almacenes será mayor. La comparación puede ser engañosa. El C.V. resuelve el problema teniendo en cuenta la escala en que se miden las unidades poblaciones 78 / 105
Ejemplos: Varianza Ejemplo 1.7 Se tienen las cantitades de ventas de productos en pequeños almacenes y grandes almacenes P A 50 60 70 80 90 GA 597 557 577 617 537 79 / 105
Ejemplos: Varianza Ejemplo 1.7 Se tienen las cantitades de ventas de productos en pequeños almacenes y grandes almacenes P A 50 60 70 80 90 GA 597 557 577 617 537 Sol. : x 1 = 70, x 2 = 577 S 1 = S 2 1 = 250 = 15,8 S 2 = S2 2 = 1000 = 31, 6227766 80 / 105
Ejemplos: Varianza Ejemplo 1.7 Se tienen las cantitades de ventas de productos en pequeños almacenes y grandes almacenes P A 50 60 70 80 90 GA 597 557 577 617 537 Sol. : x 1 = 70, x 2 = 577 S 1 = S 2 1 = 250 = 15,8 S 2 = S2 2 = 1000 = 31, 6227766 CV 1 = 22,57 %, CV 2 = 5,48 % 81 / 105
Varianza y C.V. para datos Definición 1.13 Si una muestra x 1,, x n se agrupa en K clases o intervalos con c 1,..., c k las k marcas de clase, la para estos datos es: ( K S 2 k=1 = (c k x) 2 n k = 1 K ) c 2 k n 1 n 1 n k n x 2 k=1 82 / 105
Varianza y C.V. para datos Definición 1.13 Si una muestra x 1,, x n se agrupa en K clases o intervalos con c 1,..., c k las k marcas de clase, la para estos datos es: ( K S 2 k=1 = (c k x) 2 n k = 1 K ) c 2 k n 1 n 1 n k n x 2 k=1 Definición 1.14 Si una muestra x 1,, x n se agrupa en K clases o intervalos, el C.V. para estos datos es: C.V. = S x 100 83 / 105
S 2 y S son siempre positivos, siendo 0 su mínimo. La de la suma de una constante y las observaciones es igual a la de la muestra original. y i = x i + C = S 2 y = S 2 x La del producto de una constante por las observaciones es igual a la de la muestra original pondereda por la constante al cuadrado: y i = Cx i = S 2 y = C 2 S 2 x 84 / 105
Las medidas descritas anteriormente son las medidas más usadas para resumir datos. Sin embargo, existen otras medidas, en particular medidas relacionadas con la forma de la distribución de los datos. 85 / 105
Las medidas descritas anteriormente son las medidas más usadas para resumir datos. Sin embargo, existen otras medidas, en particular medidas relacionadas con la forma de la distribución de los datos. Definición 1.15 La curtosis es una medida que compara la forma de la distribución muestral con la distribución en forma de campana (distribución Normal). Esta medida refleja cuan puntiaguda es la forma de la distribución de la muestra. 86 / 105
Curtosis Coef. Curtosis = n(n + 1) (n 1)(n 2)(n 3) n xi x ( S i=1 )4 3 (n 1) 2 (n 2)(n 3) 87 / 105
Asimetría Definición 1.16 Diremos que los datos siguen una distribución simétrica si se tiene que x = m e = m o 88 / 105
Asimetría Definición 1.16 Diremos que los datos siguen una distribución simétrica si se tiene que x = m e = m o Diremos que los datos son asimétricos si x m e. 89 / 105
Asimetría Definición 1.16 Diremos que los datos siguen una distribución simétrica si se tiene que x = m e = m o Diremos que los datos son asimétricos si x m e. Diremos que existe un sesgo a la derecha o a la izquierda. 90 / 105
Asimetría con sesgo positivo a la derecha 91 / 105
Asimetría con sesgo negativo a la izquierda 92 / 105
Asimetría Una medida simple de la asimetría es: Coef. de asimetría = Coef. de asimetría = n (n 1)(n 2) 1 K K k=1 (x k x) 3 n k S 3 n i=1 (x i x) 3 S 3 Datos agrup. Un valor positivo de esta medida indica que los datos están sesgados hacia a la derecha. 93 / 105
Asimetría Una medida simple de la asimetría es: Coef. de asimetría = Coef. de asimetría = n (n 1)(n 2) 1 K K k=1 (x k x) 3 n k S 3 n i=1 (x i x) 3 S 3 Datos agrup. Un valor positivo de esta medida indica que los datos están sesgados hacia a la derecha. Un valor negativo de esta medida indica que los datos están sesgados hacia a la izquierda. 94 / 105
Asimetría Una medida simple de la asimetría es: Coef. de asimetría = Coef. de asimetría = n (n 1)(n 2) 1 K K k=1 (x k x) 3 n k S 3 n i=1 (x i x) 3 S 3 Datos agrup. Un valor positivo de esta medida indica que los datos están sesgados hacia a la derecha. Un valor negativo de esta medida indica que los datos están sesgados hacia a la izquierda. Es cero si los datos son simétricos. 95 / 105
Este gráfico contiene y resume varias medidas: 96 / 105
Este gráfico contiene y resume varias medidas: 97 / 105
: Datos atípicos Es común que en una base de datos se observen datos atípicos: datos que están muy debajo o muy por encima de los datos preponderantes. 98 / 105
: Datos atípicos Es común que en una base de datos se observen datos atípicos: datos que están muy debajo o muy por encima de los datos preponderantes. Razones: anomalía en el proceso; error de digitación; fenómenos extremos; etc... 99 / 105
: Datos atípicos El criterio de Tukey permite indentificar datos atípicos: 100 / 105
: Datos atípicos El criterio de Tukey permite indentificar datos atípicos: BIE : Q 1 3RIC : Barrera Inferior Exterior BII : Q 1 1,5RIC : Barrera Inferior Interior BSI : Q 3 + 1,5RIC : Barrera Superior Interior BSE : Q 3 + 3RIC : Barrera Superior Exterior. 101 / 105
: Datos atípicos El criterio de Tukey permite indentificar datos atípicos: BIE : Q 1 3RIC : Barrera Inferior Exterior BII : Q 1 1,5RIC : Barrera Inferior Interior BSI : Q 3 + 1,5RIC : Barrera Superior Interior BSE : Q 3 + 3RIC : Barrera Superior Exterior. Valor entre barreras interiores: dato normal. Valor fuera de las barreras interiores pero dentro de las barreras exteriores: dato atípico. Valor fuera de las barreras exteriores: dato atípico extremo. 102 / 105
: Ejemplo (Prof. José Tapia) 103 / 105
: Ejemplo 104 / 105
E F 191 373 28 6 393 341 34 7 a) Represente en un gráfico adecuado el número de postulantes qué concluye? b) Represente en un gráfico adecuado el porcentaje de aceptados qué concluye? c) Compare el porcentaje total de hombres aceptados con el porcentaje total de Ejemplo mujeres aceptadas en esa Escuela de Graduados qué concluye? ---------------------------------------------------------------------------------------------------------------- Problema 22 Gale Marrs, gerente de personal de la compañía Baxter Richfield sospecha que los trabajadores de más edad pierden más días de trabajo al año por enfermedad que los trabajadores jóvenes. Gale elige al azar los registros de 10 empleados de 40 años o más y de 10 empleados de menos de 40 años. Los datos obtenidos se procesaron en Excel y en SPSS y corresponden al número de días laborales en los que el respectivo trabajador estuvo ausente el último año. A continuación se entregan las salidas de interés: Días ausentes menos de 40 40 o más menos de 40 40 o más 24 37 42 19 17,3 23,2 18 21 Error típico 3,54353872 5,79616732 15 35 na 16,5 20 0 16 Moda #N/A #N/A 9 4 Desviación estándar 11,2056533 18,3290904 10 0 Varianza de la muestra 125,566667 335,955556 20 12 Curtosis 2,198459 1,47973664 22 63 Coeficiente de asimetría 0,91440296 1,03513836 13 25 Rango 42 63 Mínimo 0 0 Máximo 42 63 Suma 173 232 Cuenta 10 10 a) Analice las salidas entregadas y, fundamentado en estas salidas, presente un informe que considere los aspectos más importantes observados respecto al número de días de ausencias por motivo de enfermedad en estos dos grupos de trabajadores. (Su informe no debe contener más de 25 líneas.) Respuesta Se esperaría que un trabajador menor de 40 años se ausente aproximadamente 17,3 días. La mitad de este grupo se ausenta 16,5 días o menos aproximadamente. Se esperaría que un trabajador de 40 años o más se ausente aproximadamente 23,2 días laborales. La mitad de estos se ausentan a los más 20 días laborales. La distribución de los trabajadores menores de 40 años es asimétrica con valores entre 0 y 24 días aproximadamente, salvo por la presencia de un dato atípico (42) que produce un coeficiente de asimetría positivo y hace crecer la dispersión de este grupo. Sin este dato atípico la distribución seria asimétrica negativa y la dispersión menor. La distribución de los trabajadores de 40 años o más es asimétrica con valores entre 0 y 63 días, se observa claramente sesgo hacia la derecha (este resultado se confirma con el coeficiente de asimetría obtenido). La dispersión es diferente en ambos grupos, siendo mayor en el grupo de trabajadores a) Analice de 40 años las o salidas más. En entregadas este sentido y, fundamentado la ocurrencia en de estas observaciones salidas, presente mayores un a 24 informe días que ausentes considere es probable los aspectos en el grupo más importantes de trabajadores observados de 40 años respecto o más al e número improbable de días en el de ausencias grupo de menos por motivo de 40 de años. enfermedad en estos dos grupos de trabajadores. (Su informe no debe contener más de 25 líneas.) b) Respuesta Gale ha pedido calcular la mediana de cada grupo, después de eliminar valores Se atípicos esperaría detectados que un por trabajador medio de menor los diagramas de 40 años de caja. se ausente Obtenga aproximadamente estos nuevos valores 17,3 días. de medianas La mitad y de decida este grupo si estos se ausenta valores 16,5 producen días o menos cambios aproximadamente. de importancia en lo ya observado. Se esperaría que un trabajador de 40 años o más se ausente aproximadamente 23,2 Respuesta