Probabilidad y Estadística Tema 9 Experimentación y presentación de datos Objetivo de aprendizaje del tema Al finalizar el tema serás capaz de: Describir los conceptos de experimentación y determinación del tamaño de la muestra. Resolver problemas para presentar datos estadísticos en situaciones reales.
Introducción al tema Un niño buscó por toda su casa los carritos que le habían ido regalando durante los últimos años y cuando se aseguró haber buscado y encontrado todos su carritos, volvió a su cuarto y se encontró con una pequeña montaña de carritos de todos colores y formas. Pacientemente, fue revisando carrito a carrito y acomodándolo cada uno en un grupo de acuerdo a su color. Introducción al tema Desde el punto de vista de la estadística, el niño sin saberlo había obtenido un cúmulo de información, había ideado una forma de organizar y agrupar y había logrado obtener resultados que resumían la información. Durante este tema, conoceremos los conceptos generales de la estadística descriptiva y las distintas formas en que se puede organizar la información para obtener resultados claros y sencillos, así como representación a través de métodos gráficos. Te invito a que juntos desarrollemos la habilidad para organizar y presentar información, con el fin de aplicar dichos conocimientos en situaciones de la vida real.
Conceptos básicos La Estadística es la ciencia que trata de la recopilación, organización, presentación, análisis e interpretación de datos numéricos con el fin de realizar una toma de decisiones más efectiva. La Estadística Descriptiva se define como los procedimientos empleados para organizar y resumir conjuntos de datos numéricos. Conceptos básicos: Niveles de medición Nominal Ordinal Intervalo Razón No existe orden entre los grupos, solo hay conteos globales. Las categorías son mutuamente excluyentes y exhaustivas. Existe una relación de mayor que entre las categorías. Las categorías son mutuamente excluyentes y exhaustivas. Existe una relación de mayor que entre las categorías. Las categorías son mutuamente excluyentes y exhaustivas. La distancia entre valores de la categoría es constante. Existe una relación de mayor que entre las categorías. Las categorías son mutuamente excluyentes y exhaustivas. La distancia entre valores de la categoría es constante. Tienen un punto cero significativo. La razón o cociente entre dos números es significativa.
Clasificación y organización de los datos Una distribución de frecuencias es un método estadístico útil para organizar un conjunto de observaciones en forma significativa, basado en un agrupamiento de datos en categorías que muestran el número de observaciones de cada categoría. Clasificación y organización de los datos Ejemplo: se seleccionó una muestra de 120 ofertas de arrendamiento y se obtuvieron los siguientes datos:
Clasificación y organización de los datos El primer paso es establecer un conjunto de agrupamientos denominados clases. Cada clase tiene dos límites: un límite inferior declarado y un límite superior declarado. Un intervalo de clase se determina restando el límite inferior del límite inferior de la siguiente clase. El punto medio de una clase se denomina marca de clase. Clasificación y organización de los datos Una forma práctica para obtener el intervalo de clase es utilizar la siguiente fórmula: Si no se está seguro del número de clases que se deban utilizar, podemos utilizar la siguiente fórmula:
Clasificación y organización de los datos El siguiente paso determinar cuántos valores pertenecen a cada clase. Una distribución de frecuencias resultante para el ejemplo, considerando 8 clases sería: Clasificación y organización de los datos Puede resultar conveniente convertir las frecuencias a frecuencias de clase relativas para mostrar el porcentaje del número total de observaciones en cada clase.
Análisis descriptivo de los datos A menudo los datos sobre ingresos, edades, etc., se agrupan y presenta en forma de una distribución de frecuencias. Por lo general resulta imposible obtener los datos originales. Si nos interesa un valor representativo para los datos, es necesario estimarlo con base en la distribución de frecuencias. Media aritmética La media de una muestra de datos, organizados en una distribución de frecuencias se calcula con la siguiente fórmula: Donde: = Media aritmética X = Marca de clase de cada clase f = Frecuencia de clase n = Número total de observaciones
Media aritmética Considerando el ejemplo: Realizando los cálculos correspondientes, se obtiene: Media aritmética El valor de la media aritmética obtenido a través de datos agrupados, puede ser diferente a la media aritmética que se puede obtener de los datos originales, debido principalmente a la pérdida de información. De esta forma, la media aritmética de datos agrupados sólo puede considerarse una estimación de la media aritmética de los datos no agrupados.
Desviación estándar La desviación estándar para datos agrupados también es una aproximación de la desviación estándar que se puede obtener de los datos originales. Por tanto, también en este caso estamos hablando de una estimación de la desviación estándar de los datos no agrupados. Desviación estándar La media de una muestra de datos, organizados en una distribución de frecuencias se calcula con la siguiente fórmula: Donde: s = Desviación estándar X = Marca de clase de cada clase f = Frecuencia de clase n = Número total de observaciones
Desviación estándar Considerando el ejemplo: Realizando los cálculos correspondientes, se obtiene: Representación gráfica de los datos Los gerentes de ventas y otros ejecutivos con frecuencia necesitan tener una visión rápida de la tendencia en ventas, precios, acciones, costos, etc. Estas tendencias pueden mostrarse utilizando diagramas o gráficas. Tres diagramas que representan de manera adecuada una distribución de frecuencias: Histograma, Polígono de frecuencias y Polígono de frecuencias acumuladas.
Histograma La información obtenida a partir del histograma es evidente: la renta mensual más baja es aproximadamente 600, la más elevada es aproximadamente 2200 Número de unidades El histograma proporciona una noción visual de fácil interpretación. Rentas menuales Polígono de frecuencias A diferencia del histograma, el polígono de frecuencia necesita los puntos medios de clase y las frecuencias de clase. El polígono de frecuencias es muy útil cuando se quieren comparar dos o más distribuciones de frecuencias. Frecuencia 45 40 35 30 25 20 15 10 5 0 699.5 899.5 1099.5 1299.5 1499.5 1699.5 1899.5 2099.5 Rentas menuales
Polígono de frecuencias acumuladas En el polígono de frecuencias acumuladas del tipo menor que se acumulan el número de observaciones por clase hacia abajo. Frecuencia acumulada 140 120 100 80 60 40 20 0 Menos Menos de 599 de 799 Menos Menos Menos Menos Menos Menos Menos de 999 de 1199 de 1399 de 1599 de 1799 de 1999 de 2199 Rentas menuales En el polígono de frecuencias acumuladas del tipo mayor que se acumulan el número de observaciones por clase hacia arriba. Frecuencia acumulada 140 120 100 80 60 40 20 0 Más de 599 Más de 799 Más de 999 Más de 1199 Más de 1399 Más de 1599 Rentas menuales Más de 1799 Más de Más de 1999 2199 Cierre Las distribuciones de frecuencia son utilizadas para concentrar un gran número de datos en una serie de clases o categorías, dándonos una ventaja importante: resumir la información caótica en una vista comprensible para los espectadores en formato tabular gráfico. La desventaja de organizar los datos en una distribución de frecuencia es que perdemos detalle de los elementos individuales.
Cierre La pérdida de información al detalle al agrupar los datos en distribuciones de frecuencia, trae consigo otra desventaja al obtener datos como la media aritmética y la desviación estándar. A través de la distribución de frecuencia podemos calcular estos datos, pero siempre existirá una diferencia entre la media aritmética de la distribución de frecuencias y el dato real obtenido de los datos desagrupados. En el siguiente tema profundizaremos en el tema de la estimación muestral a través de estadísticos muestrales, así como sus principales aplicaciones. Referencias bibliográficas Devore, J. (2008). Probabilidad y estadística para ingeniería y ciencias. (7a. Ed.). México: Cengage Learning. Capítulo: 1 Wakerly, D., Mendenhall, W. et al. (2002). Estadística matemática con aplicaciones. (6a. Ed). México: Cengage Learning. Spiegel, M.(2004). Probabilidad y estadística (2a. Ed). México: McGraw Hill.
Créditos Diseño de contenido: Ing. Armando Calzada Mezura, MA, PMP Coordinador académico: Lic. José de Jesús Romero Álvarez, MC y MED. Edición de contenido: Lic. Verónica Montes de Oca Pinzón. Edición de texto: Lic. Arcelia Ramos Monobe, MEE Diseño Gráfico: Lic. Alejandro Calderas González, MATI