M. en C. Juan Carlos Gutiérrez Matus Instituto Politécnico Nacional 2004 IPN UPIICSA c 2004 Juan C. Gutiérrez Matus Desde la segunda mitad del siglo anterior, el milagro industrial sucedido en Japón, hizo posible su éxito sobre potencias como los Estados Unidos. Este éxito puede ser atribuido a la capacidad de los japoneses, en aplicar métodos estadísticos, tanto en procesos de manufactura como las demás actividades de las organizaciones, y de esta manera generar productos de alta calidad. IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 1 Los métodos estadísticos se aplican en infinidad áreas en las que se desea describir y conocer las variaciones presentes entre individuos, programas, ensambles, productos terminados, etc. Por ejemplo, en el control de calidad de un fármaco, se pueden hacer un muestreo de los lotes producidos, para saber si serán ó no enviados a los distribuidores. IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 2
La aplicación de un método estadístico conlleva el recopilar datos y el hacer inferencias con base a sus variaciones. Los datos se pueden recopilar en forma de muestras, u observaciones. En estadística, existen múltiples herramientas anaĺıticas que permiten comprender y describir el fenómeno ó sistema que generan dichos datos. IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 3 Descripción Gráfica Descripción Gráfica Una de las formas más usadas para entender y visualizar un conjunto de observaciones, es a través de una distribución de frecuencia ó también llamada histograma de frecuencias. Para su construcción, el conjunto de observaciones se agrupan en intervalos ó clases de igual longitud. El número de intervalos, así como su longitud, son arbitrarios y dependerán de las conveniencias de quien construyera el histograma. IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 4 Cada observación debe de caer en un solo intervalo, por lo cual se recomienda que los extremos de los intervalo no coincidan con ninguna observación. Para construir el histograma; en un eje se marcan los extremos de los intervalos, entre cada par de marcas se dibuja una barra cuya altura corresponderá al número de observaciones presentes dentro del intervalo correspondiente. IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 5
Ejemplo: Considere el siguiente conjunto de datos, que representa las observaciones del largo en centímetros de 50 conexiones de aluminio. 46.9816 47.3203 47.3975 47.0140 47.2518 47.1761 47.2183 47.0919 47.3832 47.2429 47.0014 47.0898 46.9555 46.9281 47.3538 46.9585 46.8245 47.3436 47.4517 47.2643 46.8652 46.9581 47.1328 46.9353 47.1433 47.0056 47.3565 47.4529 47.3557 47.0871 47.4112 47.0155 47.3584 47.2820 47.2627 47.1610 47.2536 47.0994 47.0145 47.0055 47.0899 47.0196 47.2405 47.3599 47.3909 47.0917 46.8950 47.2262 47.1830 47.2913 IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 6 Podemos generar siete intervalos, cada uno con una longitud de 0.09cm. Intervalo Frecuencia 46.824-46.914 3 46.914-47.004 7 47.004-47.094 11 47.094-47.184 6 47.184-47.274 8 47.274-47.364 9 47.364-47.454 6 Total 50 IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 7 IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 8
Diagrama de Tallo y Hoja Diagrama de Tallo y Hoja Este diagrama es muy parecido a un histograma pero un poco más de información. Suponga que tenemos un conjunto de datos x 1, x 2,..., x n y cada x i tiene al menos dos dígitos 1. Seleccionar dígitos iniciales para el tallo. 2. Enlistar los valores de tallo en una columna. 3. Registrar la hoja por cada observación junto a su valor correspondiente de tallo. 4. Indicar las unidades. IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 9 Diagrama de Tallo y Hoja Diagrama de Tallo y Hoja 23 62 91 83 82 64 73 94 94 52 67 11 87 99 37 62 40 33 80 83 99 90 18 73 68 75 75 90 36 55 9 9944100 8 73320 7 5533 6 87422 5 52 4 0 3 763 2 3 1 81 tallo : decenas hoja : unidades IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 10 Descripción Numérica Descripción Numérica Los histogramas proporcionan información importante sobre el conjunto de observaciones, pero no son suficientes para efectuar alguna inferencia. Son necesarias mediciones rigurosas que nos permitan analizar la información de la muestra. Dentro de todas las posibles mediciones, existen dos grupos importantes, las medidas de tendencia central y las medidas de dispersión. IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 11
Media de la Muestra. Media de la Muestra. Es la medida de tendencia central más común y útil. La media de la muestra x es simplemente el promedio del valor de las observaciones x 1, x 2,..., x n que pertenecen a la muestra. x = 1 n x i n IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 12 Mediana de la Muestra Mediana de la Muestra Es otra medida, cuyo propósito es el reflejar la tendencia central de la muestra sin que intervengan los valores extremos. La palabra mediana es sinónimo de medio, así la mediana de la muestra es el observación de en medio. Si x 1, x 2,..., x n representan las observaciones acomodadas en orden creciente, entonces la mediana de la muestra es { X(n+1)/2 si n es impar. x = (X n/2 + X (n/2)+1 )/2 si n es par. IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 13 El localizar la tendencia central de un conjunto de observaciones, no es suficiente para obtener un resumen completo de este conjunto. Es posible encontrar muestras cuyas medidas de tendencia central son las mismas, pero las observaciones se encuentran dispersadas de forma diferente. La variabilidad de las observaciones nos indicará si es necesario tomar las acciones pertinentes para reducir variabilidad de un sistema ó proceso. IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 14
La dispersión de las observaciones se mide a través de la varianza muestral. Es denotada por s 2 y esta dada por s 2 = 1 n 1 n (x i x) 2 El único problema con la varianza, es que arroja unidades cuadradas. IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 15 Por lo cual en muchas ocasiones es más significativo el calcular la desviación estándar de la muestra, que simplemente es la raíz cuadrada de la varianza. Es denotada por la letra s y esta dada por n s = (x i x) 2 n 1 IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 16 Sesgo y Curtosis Sesgo y Curtosis El sesgo y la curtosis son otros parámetros importates que miden el grado de simetría y de curvatura de un conjunto de datos. sesgo = 1 n (x x) 3 n curtosis = 1 n n (x x) 4 Si el conjunto de datos es simétrico tiene un sesgo igual a cero cero. IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 17
Diagrama de Caja Diagrama de Caja Este resumen gráfico describe varias de las má destacadas características de un conjunto de datos, tales como: centro dispersión naturaleza y magnitud los sesgos identificación de puntos inusuales Para evitar el efecto de puntos inusuales este diagrama esta basado en una medida de dispersión llamada rango intercuartílico. IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 18 Diagrama de Caja Diagrama de Caja Al ordenar n observaciones en forma ascendente: Cuarto Inferior: mediana de las mínimas l observaciones; donde l = n/2 si n es par y l = (n + 1)/2 si n es impar. Cuarto Superior: mediana de las máximas h observaciones; donde h = n/2 si n es par y h = (n + 1)/2 si n es impar. Cuarta Dispersión d s : cuarto superior menos cuarto inferior. IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 19 Diagrama de Caja, construcción Diagrama de Caja, construcción 1. Dibujar eje. 2. Marcar una caja del cuarto superior al inferior. 3. Dividir la caja en la mediana. 4. Marcar lineas desde los extremos de la caja, hasta la observación que este a un máximo de 1.5d s de la caja. 5. Dibujar un circulo abierto para identificar cada observación que caiga entre 1.5d s y 3d s, estos serán puntos insulares suaves. 6. Dibujar un circulo relleno para identificar cada observación que caiga a más de 3d s, puntos insulares extremos. IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 20
Diagrama de Caja, ejemplo Diagrama de Caja, ejemplo Construya el diagrama de caja para el siguiente conjunto de datos. 2.68 3.06 4.31 4.71 5.71 5.99 6.06 7.04 7.17 7.46 7.50 8.27 8.42 8.73 8.84 9.14 9.19 9.21 9.39 11.28 15.19 21.06 IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 21 Diagrama de Caja, ejemplo Diagrama de Caja, ejemplo IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 22 Uso de Frecuencias Uso de Frecuencias Suponga que los datos toman p valores diferentes x 1,..., x p con frecuencias f 1,..., f p respectivamente. Cómo calcular x y s 2 rápidamente? x = 1 p f i x i n ( p ) s 2 1 = f i x 2 i n 1 nx2 IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 23
Datos Agrupados Datos Agrupados Si las observaciones individuales no pueden ser determinadas en la distribución de frecuencias, entonces se tendría que agrupar las observaciones en c intervalos intervalo x i m i f i 100 150 125 4 150 200 175 6... x 1 n c f i m i s 2 1 ( c ) f i m 2 i n 1 nx2 IPN UPIICSA c 2004 Juan C. Gutiérrez Matus 24