Conceptos Básicos de Inferencia Álvaro José Flórez 1 Escuela de Ingeniería Industrial y Estadística Facultad de Ingenierías Febrero - Junio 2012
Inferencia Estadística Cuando obtenemos una muestra, conocemos las respuestas de cada uno de sus individuos. No obstante, en general, no tenemos suficiente con la información de la muestra. Queremos inferir a partir de los datos de la muestra algunas conclusiones sobre la población que esta representa (Moore, 2005).
Inferencia Estadística Cuando obtenemos una muestra, conocemos las respuestas de cada uno de sus individuos. No obstante, en general, no tenemos suficiente con la información de la muestra. Queremos inferir a partir de los datos de la muestra algunas conclusiones sobre la población que esta representa (Moore, 2005).
Inferencia Estadística Definición: Proceso inductivo que permite inferir acerca de una característica de la población proposiciones, usando información obtenida de un subconjunto o una muestra de la población.
Inferencia Estadística Definición: Proceso inductivo que permite inferir acerca de una característica de la población proposiciones, usando información obtenida de un subconjunto o una muestra de la población. Ejemplo: Una empresa productora está interesada en conocer el gasto promedio semanal en alimentos de las familias de estrato socioeconómico bajo, con el fin de diseñar una estrategia de mercado para promover la demanda en el mercado. En la ciudad hay una gran cantidad de familias de este perfil, y resulta casi imposible saber el gasto de cada una de estas familias. Por lo cual, se hace necesario el uso de una muestra representativa para lograr el objetivo de estimar el parámetro poblacional (gasto promedio semanal de una familia de estrato socioeconómico bajo)
Población Se llama población objetivo al conjunto de elementos de interés en un estudio, sobre los cuales se desea información y hacia los cuales se extenderán las conclusiones. Esta población puede ser concreta (estar delimitada e identificada, en el sentido de saber quiénes cuáles son sus miembros) o puede ser hipotética. En un estudio de mercados se puede estar interesado en las familias de estrato socieconómico bajo.
Población Se llama población objetivo al conjunto de elementos de interés en un estudio, sobre los cuales se desea información y hacia los cuales se extenderán las conclusiones. Esta población puede ser concreta (estar delimitada e identificada, en el sentido de saber quiénes cuáles son sus miembros) o puede ser hipotética. En un estudio de mercados se puede estar interesado en las familias de estrato socieconómico bajo. En un estudio social se puede estar interesado en las personas que están desempleadas en la ciudad.
Población Se llama población objetivo al conjunto de elementos de interés en un estudio, sobre los cuales se desea información y hacia los cuales se extenderán las conclusiones. Esta población puede ser concreta (estar delimitada e identificada, en el sentido de saber quiénes cuáles son sus miembros) o puede ser hipotética. En un estudio de mercados se puede estar interesado en las familias de estrato socieconómico bajo. En un estudio social se puede estar interesado en las personas que están desempleadas en la ciudad. En un estudio de calidad se puede estar interesado en los elementos producidos por una maquina.
Muestra Aleatoria Una muestra es un subconjunto representativo de elementos obtenidos de la población de interés. Qué hace a una muestra representativa de la población?
Muestra Aleatoria Una muestra es un subconjunto representativo de elementos obtenidos de la población de interés. Qué hace a una muestra representativa de la población? La muestra debe conservar la estructura de las características y las relaciones que se quieren observar, que los alejamientos se deban solamente a la acción del azar (aleatoriedad) el mecanismo de selección debe ser tal que se conozca la probabilidad que tiene cada unidad de la población de ser incluida en la muestra Si una muestra no es aleatoria se puede estar tentado a elegir una muestra seleccionando los miembros más convenientes de la población, lo que puede llevar a una falsa idea sobre el valor del parámetro o una inadecuada toma de decisiones (Sesgo, sobre-estimación o sub-estimación del parámetro)
Muestra Aleatoria Una muestra es un subconjunto representativo de elementos obtenidos de la población de interés. Qué hace a una muestra representativa de la población? El tamaño también influye en la representatividad de la muestra, aunque este no está relacionado directamente con el tamaño de la población El grado de homogeneidad, es decir la variabilidad de la característica de interés, toma un papel importante en la definición del tamaño de muestra. El criterio que define si una muestra de un tamaño determinado, puede considerarse como representativa, tiene relación también con el nivel de precisión requerido.
Algunas otras definiciones Variable: Característica de interés medible sobre cada elemento de la población. Parámetro: Valor numérico constante que resume la característica de interés de toda población (µ, σ 2 ) Estadístico: Valor numérico que resume la característica de interés en una muestra( X, S 2 ) En general, una estadística es una función de los datos de la muestra. En caso de que se usen para hacerse idea (estimar) de los parámetros de una población estos reciben el nombre de Estimadores
Estimación Puntual de un parámetro Ejemplo: Para estimar el gasto promedio semanal en alimentos de familias de estratos bajos, se tomó una muestra aleatoria de tamaño 10 y los resultados (en miles de pesos) fueron: 70, 45, 50, 48, 40, 55, 66, 44, 65. Por lo cual el promedio muestral ( x = $53,666) es un estimador de la media teórica (µ)
Estimación Puntual de un parámetro Ejemplo: Para estimar el gasto promedio semanal en alimentos de familias de estratos bajos, se tomó una muestra aleatoria de tamaño 10 y los resultados (en miles de pesos) fueron: 70, 45, 50, 48, 40, 55, 66, 44, 65. Por lo cual el promedio muestral ( x = $53,666) es un estimador de la media teórica (µ) Si: El valor calculado de x dificilmente nos da el valor exacto de µ El valor de x cambia cuando se toma otra muestra aleatoria Podemos estar seguros de que x me proporciona estimaciones confiables de la media poblacional?
Estimación Puntual de un parámetro Simulación: Suponga que el gasto promedio semanal de las familias (µ) es de $60.000 y se toman 100 muestras aleatorias diferentes de tamaño 10 y se observa su x 0 20 40 60 80 100 55 60 65 70 # Muestra Estimación Parámetro Estimación
Estimación Puntual de un parámetro Simulación: Suponga que el gasto promedio semanal de las familias (µ) es de $60.000 y se toman 100 muestras aleatorias diferentes de tamaño 10 y se observa su x frecuencia 0 5 10 15 20 25 30 50 55 60 65 70 Promedio de cada muestra
Propiedades de un estimador Puesto que cualquier estadístico puede ser usada para la estimación de un parámetro, es necesario que verificar que el estimador cumpla con unas propiedades para que pueda ser catalogado como un buen estimador. Algunas de estas son: Insesgamiento. Eficiencia. Consistencia.
Propiedades de un estimador Se desea que los valores que toma el estimador (T) en promedio sean cercanos al parámetro (θ). Se debe cumplir que E(T ) = θ (la esperanza de una variable aleatoria puede ser vista como un promedio de todos los valores que toma la variable) (Propiedad de insesgamiento) Fig: Estimaciones de un estimador insesgado 0 20 40 60 80 100 45 50 55 60 65 70 75 # Muestra Estimación Parámetro Prom. Estimaciones Estimación
Propiedades de un estimador Se desea que los valores que toma el estimador (T) en promedio sean cercanos al parámetro (θ). Se debe cumplir que E(T ) = θ (la esperanza de una variable aleatoria puede ser vista como un promedio de todos los valores que toma la variable) (Propiedad de insesgamiento) Fig: Estimaciones de un estimador sesgado Estimación 45 50 55 60 65 70 75 Parámetro Prom. Estimaciones Estimación 0 20 40 60 80 100 # Muestra
Propiedades de un estimador También se quiere que el estimador tenga una variabilidad alrededor de la media lo más pequeño posible (Varianza Mínima). Se dice que un estimador T 1 es más eficiente que T 2 si: Var(T 1 ) < Var(T 2 ) Fig: Comparación de los resultados de dos estimadores Estimacion 40 50 60 70 80 T1 T2 Estimador
Estimación Puntual de un parámetro Si el valor que adquiere un estimador es el resultado de un experimento aleatorio (una muestra aleatoria), el estimador se considera como una variable aleatoria y debe tener una distribución asociada. La distribución de probabilidad de un estimador recibe el nombre de distribución muestral. Fig: Simulación del promedio de 10000 muestras frecuencia 0 200 400 600 800 1000 1200 1400 50 55 60 65 70 Promedio de cada muestra
Distribución de la media muestral Suponga que se toma una muestra aleatoria de tamaño n de una población normal con media µ y varianza σ 2 (conocida). Cada observación x i, i = 1,..., n de la muestra tiene entonces la misma distribución normal que la población que está siendo muestrada. De aquí que: X = x 1 + x 2 +... + x n n Tiene una distribución aproximadamente normal con media igual a µ y una varianza de σ 2 /n ) X Normal (µ, σ2 n
Distribución Normal Una variable aleatoria X tienen una distribución normal con parámetros µ y σ 2 si su función de densidad está dada por: { 1 f(x) = exp 1 } (x µ)2 2πσ 2 2σ2 N(0,1) N(0,2) N(2,1) donde σ > 0. 4 2 0 2 4 x
Ejemplo Una fabrica embotelladora de jugos emplea una maquina para envasarlo, la cual llena las botellas automáticamente con 16 onzas. Sin embargo, la cantidad de líquido que se vierte en cada botella puede diferir. El fabricante garantiza que la cantidad de líquido que se vierte en cada botella se aproxima a una distribución normal con media 16 onzas y una desviación estándar de 1 onza. Cuál es la probabilidad de que una botella sea llenada con menos de 15.5 onzas?
Ejemplo Una fabrica embotelladora de jugos emplea una maquina para envasarlo, la cual llena las botellas automáticamente con 16 onzas. Sin embargo, la cantidad de líquido que se vierte en cada botella puede diferir. El fabricante garantiza que la cantidad de líquido que se vierte en cada botella se aproxima a una distribución normal con media 16 onzas y una desviación estándar de 1 onza. Cuál es la probabilidad de que una botella sea llenada con menos de 15.5 onzas? Si luego de tomar una muestra aleatoria de 10 botellas se encuentra que el promedio es inferior a 15.5 onzas Usted dudaría de lo que el fabricante le está afirmando?
Ejemplo Una fabrica embotelladora de jugos emplea una maquina para envasarlo, la cual llena las botellas automáticamente con 16 onzas. Sin embargo, la cantidad de líquido que se vierte en cada botella puede diferir. El fabricante garantiza que la cantidad de líquido que se vierte en cada botella se aproxima a una distribución normal con media 16 onzas y una desviación estándar de 1 onza. Cuál es la probabilidad de que una botella sea llenada con menos de 15.5 onzas? Si luego de tomar una muestra aleatoria de 10 botellas se encuentra que el promedio es inferior a 15.5 onzas Usted dudaría de lo que el fabricante le está afirmando? Y si la muestra es de 30 botellas?
Ejemplo Una fabrica embotelladora de jugos emplea una maquina para envasarlo, la cual llena las botellas automáticamente con 16 onzas. Sin embargo, la cantidad de líquido que se vierte en cada botella puede diferir. El fabricante garantiza que la cantidad de líquido que se vierte en cada botella se aproxima a una distribución normal con media 16 onzas y una desviación estándar de 1 onza. Cuál es la probabilidad de que una botella sea llenada con menos de 15.5 onzas? Si luego de tomar una muestra aleatoria de 10 botellas se encuentra que el promedio es inferior a 15.5 onzas Usted dudaría de lo que el fabricante le está afirmando? Y si la muestra es de 30 botellas? Que puedo hacer si la distribución de los datos no es normal?
Teorema Central del Límite La suma de un gran numero de variables aleatorias independientes tiende a seguir de manera asintótica una distribución normal, siempre que determinadas condiciones queden satisfechas
Teorema Central del Límite La suma de un gran numero de variables aleatorias independientes tiende a seguir de manera asintótica una distribución normal, siempre que determinadas condiciones queden satisfechas Importancia: La normalidad es fundamental en los procedimientos inferenciales como son las estimaciones por intervalos de confianza, pruebas de hipótesis, pronósticos, entre otros procedimientos. Uso de la normal como distribución de los errores aleatorios de medición. El error de medición esta compuesto de muchos errores pequeños no observables que pueden considerarse aditivos
Teorema Central del Límite Sea X 1, X 2, X n una sucesión de variables aleatorias independientes e igualmente distribuidas con media µ y varianza σ 2 <. Sea: X = n j=1 Entonces, la sucesión de variables X 1, X 2,... converge en distribución a una variable aleatoria con una distribución normal (cuando n es suficientemente grande). Esto es, ( ) d X n Normal µ, σ2 n X j n
Ejemplo Cierto fabricante de bombillos asegura que su producto tiene una vida media de 800 horas con una desviación estándar de 150 horas. Un distribuidor esta dispuesto a representar su producto si al efectuar una prueba con 40 focos la duración media es superior a 750 horas. Que probabilidad tiene el fabricante de cerrar el negocio si: Realmente la producción de bombillos tiene los parámetros declarados. La verdadera duración media es de 700 horas con la misma desviación estándar. La verdadera desviación estándar es de 300 horas (media igual, 800).
Ejercicio Por experiencia se sabe que el peso de los ladrillos producidos por una determinada fábrica sigue una distribución normal con media 5 kilos y una desviación estándar de 0.5 kilos. Un cliente no está seguro de lo que afirma el fabricante por lo cual selecciona una muestra aleatoria de 20 ladrillos y observa su promedio. Cuál es la probabilidad de que el promedio de la muestra aleatoria sea superior a 5.1 kilos? Si el comprador decide que compra los ladrillos si el promedio de la muestra no difiere del poblacional en más de 0.05 kilos, Cuál es la probabilidad de que no compre los ladrillos (siendo verdadera la afirmación del productor)? Si el comprador desea que la probablidad del punto anterior no sea superior a 0.05 De cuanto debería ser la diferencia máxima tolerable entre la media muestral y la poblacional?
Bibliografía Canavos, G. (1988). Probabilidad y Estadística: Aplicaciones y métodos. Mc Graw Hill, México, vol. 1 edition. Devore, J. L. (2008). Probabilidad y estadística para ingeniería y ciencias. Thomson Paraninfo, México, vol. 7 edition. Gutierrez, A. and Zhang, H. (2010). Teoría Estadística: Aplicaciones y Métodos. Universidad Santo Tomás, Bogotá,Colombia, vol. 1 edition. Mayorga, J. H. (2004). Inferencia Estadística. Universidad Nacional de Colombia, Bogotá,Colombia, vol. 1 edition. Moore, D. S. (2005). Estadística aplicada básica. Antoni Bosch Editor, Barcelona, España, vol. 2 edition.