EYP14 Estadística para Construcción Civil 1 Inferencia Estadística El campo de la inferencia estadística está formado por los métodos utilizados para tomar decisiones o para obtener conclusiones sobre una población. Estos métodos utilizan la información contenida en una muestra de la población para obtener conclusiones. La inferencia estadística puede dividirse en dos grandes áreas: estimación de parámetros y prueba de hipótesis.
EYP14 Estadística para Construcción Civil Ejemplo de un problema de estimación de parámetros : Supóngase que un ingeniero de estructuras analiza la resistencia a la tensión de un componente empleado en la carrocería de un automóvil. Puesto que la variabilidad existe de manera natural en la resistencia a la tensión entre distintos componentes, debido a diferencias en los lotes de la materia prima, en el proceso de fabricación y en los procedimientos de medición (por ejemplo), el ingeniero está interesado en estimar la resistencia a la tensión promedio de los componentes.
EYP14 Estadística para Construcción Civil 3 Una aplicación muy importante de la estadística es obtener estimaciones puntuales de parámetros tales como la media y la varianza de la población. El objetivo de la estimación puntual es seleccionar un número, con base en los datos de la muestra, que sea el valos más plausible de θ. El valor numérico de alguna estadística de la muestra es el que será utilizado como estimación puntual. En general, si X es una variable aleatoria con distribución de probabilidad f (x), caracterizada por el parámetro no conocido θ, y si X,..., X 1 n es una muestra aleatoria de X de tamaño n, entonces la estadística θ ˆ h( X,..., X ) recibe el nombre de estimador 1 n puntual de θ. Nótese que θˆ es una variable aleatoria, ya que es una función de variables aleatorias.
EYP14 Estadística para Construcción Civil 4 Definición Un estimador es una medida estadística que especifica cómo utilizar los datos de la muestra para estimar un parámetro desconocido de la población. Propiedades de los Estimadores : Estimadores Insesgados Un estimador debe estar próximo en algún sentido al valor verdadero del parámetro desconocido. De manera formal, se dice que θˆ es un estimador insesgado de θ si el valor esperado de θˆ es igual a θ. Esto equivale a afirmar que la media de la distribución de probabilidad de θˆ (o la media de la distribución de muestreo de θˆ) es igual a θ.
EYP14 Estadística para Construcción Civil 5 Definición Un estimador θˆ es un estimador insesgado para estimar a θ si E ( θ ˆ) θ Si el estimador no es insesgado, entonces la diferencia es conocida como sesgo del estimador θˆ. E ( θˆ) θ Ejemplo 1 Supóngase que X es una variable aleatoria con media µ y varianza σ. Sea X 1,..., X n una muestra aleatoria de tamaño n tomada de una población representada por X. Demuéstrese que la media muestral X y la varianza muestral S son estimadores insesgados de µ y σ, respectivamente.
EYP14 Estadística para Construcción Civil 6 En ocasiones existen varios estimadores insesgados del parámetro de la población muestral. Puesto que no hay un estimador insesgado único, no es posible depender exclusivamente de esta propiedad para seleccionar el estimador. Se necesita un método para seleccionar uno de entre varios estimadores insesgados. Varianza y error cuadrático medio de un estimador puntual Supóngase que θ ˆ 1 y θ ˆ son estimadores insesgados de θ. Esto indica que la distribución de cada estimador está centrada en el verdadero valor de θ. Sin embargo, las varianzas de estas distribuciones pueden ser diferentes. Cuando se elige uno de entre varios estimadores, un principio lógico de estimación es seleccionar el estimador que tenga la menor varianza.
EYP14 Estadística para Construcción Civil 7 Definición Si se consideran todos los estimadores insesgados de θ, el que tiene la menor varianza recibe el nombre de estimador insesgado de varianza mínima. Otro método es el error cuadrático medio. Definición (Error Cuadrático Medio) El error cuadrático medio de un estimador θˆ del parámetro θ está definido como Obs. ECM ( θˆ) E( θˆ θ ) El error cuadrático medio puede reescribirse de la siguiente manera: ECM ( θˆ) Var( θˆ) + (sesgo)
EYP14 Estadística para Construcción Civil 8 El error cuadrático medio es un criterio importante para comparar dos estimadores. Sean θ ˆ 1 y θ ˆ dos estimadores del parámetro θ, y ECM ( θˆ 1 ) y ECM ( θˆ ) los errores cuadráticos medios de θ ˆ 1 y θ ˆ. Entonces, la eficiencia relativa de θ ˆ con respecto a θ ˆ 1 se define como ECM ( θˆ 1) ECM ( θˆ ) si la eficiencia relativa es menor que uno, entonces puede concluirse que θ ˆ 1 es un estimador más eficiente de θ que θ ˆ, en el sentido que tiene un error cuadrático medio más pequeño.
EYP14 Estadística para Construcción Civil 9 Ejemplo Supóngase que se desea estimar la media µ de una población. Se tiene una muestra aleatoria de n observaciones X,..., X 1 n y se quiere comparar dos estimadores posibles de µ : la media muestral X y una observación de la muestra, por ejemplo X i. Cuál estimador se utilizaría, y por qué? Ejemplo 3 Supóngase que X 1,..., X 5 representa una muestra aleatoria de alguna población para la cual E X ) µ y ( i Var ( ) σ, i 1,..., 5. Se proponen como estimadores de µ a los X i 1 1 1 siguientes: θˆ ˆ ( ), ˆ ( ), ˆ 1 X 1, θ X1 + X 5 θ3 X1 + X 5 θ4 X ( X1 + + X 5). 5 Cuál estimador se utilizaría, y por qué?
EYP14 Estadística para Construcción Civil 10 Método de Máxima Verosimilitud Uno de los métodos para obtener un estimador puntual de un parámetro es el método de máxima verosimilitud. Tal como su nombre lo implica, el estimador será el valor del parámetro que maximiza la función de verosimilitud. Supóngase, por ejemplo, que una caja contiene cuatro pelotas, de las cuales un número desconocido θ son blancas y ( 4 θ ) no son blancas. Se extraen al azar dos pelotas y se cuenta X, el número de pelotas blancas en la muestra. La distribución de probabilidad de X está dada por P( X x) θ 4 θ x x p( x) 4
EYP14 Estadística para Construcción Civil 11 Ahora supóngase que se observa que 1 X. Qué valor de θ hará máxima la probabilidad de este evento?. De acuerdo con la distribución anterior se tienen que 0 4) (1 1 3) (1 3 ) (1 1 6 3 4 1 3 1 1 1) (1 0 0) (1 θ θ θ θ θ p p p p p
EYP14 Estadística para Construcción Civil 1 Por lo tanto, θ hace máxima la probabilidad de la muestra observada, así que se escogería este valor,, como el estimador de máxima verosimilitud de θ, dado que se ha observado que X 1. Definición Supóngase que X es una variable aleatoria con distribución de probabilidad f ( x, θ ), donde θ es un parámetro desconocido. Sean x,..., x 1 n los valores observados en una muestra aleatoria de tamaño n. La función de verosimilitud de la muestra es L( θ ) f ( x1, θ ) f ( x, θ ) f ( xn, θ ) Nótese que la función de verosimilitud es ahora una función del parámetro desconocido θ. El estimador de máxima verosimilitud de θ es el valor de θ que maximiza la función de verosimilitud L (θ ).
EYP14 Estadística para Construcción Civil 13 Nota : El método de máxima verosimilitud puede emplearse en situaciones donde esxisten varios parámetros desconocidos (por ejemplo, θ 1, θ,, θ ), que es necesario estimar. En tales casos, la función de verosimilitud es una función de los k parámetros desconocidos θ 1, θ,,, y los estimadores de máxima verosimilitud θ ˆ } se obtienen al igualar a cero θ k las k derivadas parciales L( θ 1, θ,, θk ) θi, i 1,,, k, y resolver el sistema de ecuaciones resultante. k { i Ejemplo 4 Supóngase que en una sucesión de n intentos Bernoulli independientes, se observan Y éxitos. Determinar el estimador de máxima verosimilitud de p, la probabilidad de éxito en cualquier intento dado.
EYP14 Estadística para Construcción Civil 14 Ejemplo 5 Supóngase que se observan n mediciones independientes de vida útil X, X,, X 1 n, de componentes de los que se sabe que sus vidas útiles siguen un modelo Weibull representado por γx f ( x) θ γ 1 e x γ / θ, x > 0 Suponiendo que se conoce γ, determinar el estimador de máxima verosimilitud de θ. Ejemplo 6 Sea X, X,, X y varianza 1 n una muestra aleatoria de tamaño n con distribución normal, media µ σ, donde µ y verosimilitud de µ y σ. σ son desconocidas. Determinar el estimador de máxima
EYP14 Estadística para Construcción Civil 15 Observaciones : 1. Los estimadores de máxima verosimilitud no son necesariamente insesgados.. El estimador de máxima verosimilitud es insesgado para n grande. Esto implica que el estimador de máxima verosimilitud θˆ es, de manera aproximada, el estimador insesgado de varianza mínima de θ para n grande ( n ). 3. Los estimadores de máxima verosimilitud también tienen una propiedad de invarianza. Esto es, si θˆ, θˆ,, θˆ 1 k, son los estimadores de máxima verosimilitud de los parámetros θ 1, θ,, θ k, entonces el estimador de máxima verosimilitud de cualquier función h θ, θ,, θ ) de estos parámetros, es la misma función h θˆ, θˆ,, θˆ ) de los ( 1 k estimadores θˆ, θˆ,, θˆ 1 k. ( 1 k
EYP14 Estadística para Construcción Civil 16 Ejemplo 7 Sea X una variable aleatoria igual al número de clientes que solicitan información a una empresa constructora durante un día. Se quiere saber el número esperado de clientes que solicitan información en un día y para esto se tomó una muestra aleatoria durante 50 días de la cantidad de clientes que llegaron por día, obteniéndose: Número de clientes por día 0 1 3 4 Cantidad de días observados 17 7 3 1 Además se sabe que la función de probabilidad de esta variable aleatoria es Poisson(λ ). En base a los datos, encuentre el estimador de máxima verosimilitud de la probabilidad de que no hayan clientes en un día.
EYP14 Estadística para Construcción Civil 17 Distribuciones de Muestreo La distribución de muestreo de una estadística depende de la distribución de la población, del tamaño de la muestra y del método utilizado para seleccionar ésta. Definición La distribución de probabilidad de una estadística recibe el nombre de distribución de muestreo. Por ejemplo, la distribución de probabilidad de X se conoce como distribución de muestreo de la media.
EYP14 Estadística para Construcción Civil 18 Distribución de Muestreo de la Media Supóngase que se toma una muestra aleatoria de tamaño n de una población normal con media µ y varianza σ. Cada observación de esta muestra (por ejemplo, X, X,, X 1 n) es una variable aleatoria distribuida normal e independientemente, con media µ y varianza σ. Entonces se tiene que la media muestral X tiene una distribución normal con media µ y varianza n σ / n (es decir, X ~ N( µ, σ / )). Si se muestrea una población que tiene una distribución de probabilidad desconocida, la distribución de muestreo de la media muestral seguirá siendo aproximadamente normal con media µ y varianza σ / n, si el tamaño de la muestra n es grande. Éste es uno de los teoremas más útiles en estadística; se le conoce como teorema central del límite.
EYP14 Estadística para Construcción Civil 19 Teorema central del límite Si X 1, X,, X es una muestra aleatoria de tamaño n tomada de una población con n media µ y varianza finita distribución de σ, y si X es la media muestral entonces la forma límite de la Z X µ σ / n cuando n, es la distribución normal estándar. Ejemplo 8 Una compañía de electrónica fabrica resistores que tienen una resistencia promedio de 00 Ω y una desviación estándar de 0 Ω. La distribución de la resistencia es normal. Encuéntrese la probabilidad de que al tomar una muestra de n 5 resistores, la resistencia promedio de éstos será menor que 95 Ω (Rpta. 0.006).
EYP14 Estadística para Construcción Civil 0 Definición El error estándar de una estadística es la desviación estándar de su distribución de muestreo. Si el error estándar involucra parámetros desconocidos cuyos valores pueden estimarse, la sustitución de estas estimaciones en el error estándar da como resultado un error estándar estimado. Obs. El error estándar da alguna idea sobre la precisión de la estimación. Por ejemplo, si la media muestral X se utiliza como estimador puntual de la media poblacional µ, el error estándar de X mide cuán precisamente X estima a µ.
EYP14 Estadística para Construcción Civil 1 Ejemplo 9 Un artículo publicado en el Journal of Heat Transfer (Trans. ASME, Ses. C, 96, 1974, pág. 59) describe un nuevo método para medir la conductividad térmica del hierro Armco. Al utilizar una temperatura de $ 00 F y una potencia de entrada de 550 W, se obtienen las diez mediciones siguientes de conductividad térmica (en Btu/hr-ft- $ F): 41.60 41.48 4.34 41.95 41.86 4.18 41.7 4.6 41.81 4.04 Una estimación puntual de la conductividad térmica promedio a muestral, X 41.94 Btu/hr-ft- $ F. El error estándar de la media muestral es $ 00 F y 550 W es la media σ X σ / n, y dado que σ es desconocido, puede reemplazarse por la desviación estándar muestral s 0.84 para obtener el error estándar estimado de X como σ ˆ σ n X / 0.84/ 10 0.0898, el cual es alrededor de 0.% de la media muestral, lo que implica que se ha obtenido una estimación puntual relativamente precisa de la conductividad térmica.
EYP14 Estadística para Construcción Civil Distribuciones importantes en inferencia estadística Distribución Chi-Cuadrado Sean Z 1, Z,, Z variables aleatorias distribuidas normal e independientemente, con k media µ 0 y varianza σ 1. Entonces, la variable aleatoria 1 + Z + Zk X Z + tiene la función de densidad de probabilidad f ( x) k 1 ( k / ) 1 x / x e, para x > / Γ( k / ) y se dice que sigue una distribución chi-cuadrado con k grados de libertad, lo que se abrevia χ (k ). 0
EYP14 Estadística para Construcción Civil 3 Propiedades : E X k y Var X k Propiedad de aditividad de la distribución chi-cuadrado Sean Y, Y,, Y k, k,, k 1 p variables aleatorias chi-cuadrado independientes con 1 p grados de libertad, respectivamente. Entonces Y Y + Y + + sigue una distribución chi-cuadrado con grados de libertad igual a 1 Y p Ejemplo 10 Supóngase que X, X,, X k p k i i 1 1 n es una muestra aleatoria tomada de una distribución normal, con media µ y varianza ( n 1) S σ. Entonces σ ( n 1) está distribuida como χ.
EYP14 Estadística para Construcción Civil 4 Distribución t Sea Z una variable aleatoria con distribución N (0,1) y V una variable aleatoria con distribución chi-cuadrado con k grados de libertad. Si Z y V son independientes, la variable aleatoria tiene la función de densidad de probabilidad T Z V / k [ ( k + 1) / ] 1 [ ] < < Γ f ( x) x ( k + 1) / πk Γ( k / ) ( x / k) + 1 y se dice que sigue la distribución t con k grados de libertad, lo que se abrevia como t k. Propiedades : E 0 X, y Var X k /( k ) para k >.
EYP14 Estadística para Construcción Civil 5 Ejemplo 11 Supóngase que normal, con media µ y varianza X 1, X,, X es una muestra aleatoria tomada de una distribución n σ. Entonces T X µ sigue una distribución t ( n 1). S / n Distribución F Sean W e Y variables aleatorias independientes con distribución chi-cuadrado con grados de libertad u y v respectivamente. Entonces el cuociente W / u F Y / v tiene la función de densidad de probabilidad :
EYP14 Estadística para Construcción Civil 6 f x u + v u Γ v u / ( ) ( u+ v) / u v u Γ Γ x + 1 v x ( u / ) 1, 0 < x < y se dice que sigue la distribución F con u y v grados de libertad. Usualmente, esto se denota como F ( u, v). Propiedades E X v /( v ) para v >, y v ( u + v ) VarX, v u( v ) ( v 4) > 4
EYP14 Estadística para Construcción Civil 7 Relaciones importantes 1. Si X ~ F( p, q) entonces / X ~ F( q, p). ~ q. Si X ~ tq entonces X F(1, ). Ejemplo 11 Supóngase que se tienen dos poblaciones normales con varianzas σ 1 y respectivamente. Se toman dos muestras aleatorias independientes de tamaños n 1 y n de las poblaciones 1 y, respectivamente, y sean S 1 y S las varianzas muestrales. Entonces, el cuociente σ, tiene una distribución F n 1, 1). ( 1 n F S S 1 / σ / σ 1