Tema 3: Estimación estadística de modelos probabilistas. (primera parte) Estructura de este tema: 1. 2 Estimación por intervalos de confianza. 3 Contrastes de hipótesis.
Planteamiento del problema Inconveniente: La distribución de probabilidad de la v.a. X de interés suele ser desconocida. Simplificación del problema: Supondremos que la distribución de probabilidad es conocida, pero que depende de unos parámetros desconocidos. Entonces, especificando el valor de los parámetros, determinamos totalmente la distribución de X. Los parámetros que nos van a interesar en este curso son: Media y Varianza poblacional (µ y σ 2 ) cuando X N(µ, σ). Proporción p de individuos de una población que presentan cierta característica cuando X Bernoulli(p). Media poblacional (λ) cuando X Pois(λ) ó X exp(1/λ) Objetivo: Estimar el valor de los parámetros desconocidos a partir de una muestra aleatoria simple de la población, X 1,..., X n : cada X i tiene la misma distribución de probabilidad que X ; las v.a. X 1,..., X n son independientes entre sí.
Un estimador/estadístico es una función real de la muestra X 1,..., X n (que, en general, se denota por T (X 1,..., X n )) y que aproxima el valor de un parámetro de interés. Una estimación (puntual) es el valor (numérico) concreto que toma un estimador al ser aplicado a una realización muestral y se denota utilizando el símbolo: (p.e. ˆµ, ˆσ, ˆp, ˆλ). Estimadores naturales de la media y varianza poblacional son: Media muestral: X = X 1 + + X n = 1 n n n i=1 Varianza muestral: V X = 1 n (X i n X ) 2 = 1 n i=1 Cuasi-varianza muestral: S 2 X = 1 n 1 X i n i=1 n (X i X ) 2 i=1 X 2 i X 2
Determina en los siguientes ejemplos el parámetro poblacional de interés, su correspondiente estimador y la estimación con los datos obtenidos. Ejemplo 3.1: Se está estudiando el n o de averías que se registran en las Centrales Eléctricas. En uno de los estudios se analizaron 35 muestras aleatorias y se observó que 6 de ellas sufrieron algún tipo de incidencia. Ejemplo 3.2: Se contabiliza el tiempo (en milisegundos) de acceso a un registro de una base de datos. Debido a imprecisiones en los aparatos, las medidas tienen distribución normal. Se toman 10 muestras aleatorias a la base de datos y se analizan. La media observada es 0,88.
Obs. Un mismo estimador puede tomar diferentes valores numéricos, e.d. tenemos diferentes estimaciones, ya que su valor depende totalmente de la muestra concreta que se ha utilizado. Ejemplo 3.2 (cont.): Los tiempos observados fueron: 0,73 0,8 0,9 1,24 0,82 0,72 0,57 1,18 0,54 1,3 x = v x = s 2 x = Se vuelve a la misma base y se recogen otras muestras diferentes, obteniéndose los siguientes tiempos: 1,56 1,22 1,32 1,39 1,33 1,54 1,04 2,25 1,49 1,28 x = v x = s 2 x =
Estimación puntual de parámetros Sea X 1,..., X n una muestra aleatoria de una población X cuya distribución de probabilidad es conocida pero depende de un parámetro desconocido = ( 1,..., k ). Objetivos: Aproximar/estimar el valor de mediante estimadores ˆ. Estudiar métodos para hallar estimadores. Decidir qué estimadores son razonables. Si X es una v.a. discreta, la función de masa de la muestra es: P(x 1,..., x n ) = P{X 1 = x 1,..., X n = x n } = P(x 1 ) P(x n ) Si X es continua con densidad f, la función de densidad de la muestra es: f (x 1,..., x n ) = f (x 1 ) f (x n )
PRIMER MÉTODO: Método de los Momentos El estimador por el método de los momentos, que denotaremos por ˆ = ( ˆ 1,..., ˆ k ), se obtiene al resolver el siguiente sistema E [X ] = 1 n n i=1 X i, E [X 2 ] = 1 n n i=1 X 2 i, E [X k ] = 1 n n i=1 X k i Observación: Presenta el inconveniente de que la solución puede no pertenecer al espacio paramétrico.
SEGUNDO MÉTODO: Estimación por el método de máxima verosimilitud (EMV) La función de verosimilitud de la muestra observada x 1,..., x n es { P (x L() = L(; x 1,..., x n ) = 1 ) P (x n ) si X es discreta f (x 1 ) f (x n ) si X es continua Expresa lo verosímil que es el valor de un parámetro en base a la muestra observada. El estimador de máxima verosimilitud (EMV), ˆ = ( ˆ 1,..., ˆ k ), es el que maximiza la func. de verosimilitud L(). Observación: En la práctica, la forma más cómoda de encontrar el EMV es considerar ln(l()) en vez de L(): ln(l()) = 0
Sesgo y Error Cuadrático Medio Una medida del comportamiento del estimador ˆ es su error cuadrático medio (ECM) [ Sesgo 13.2. E (ˆ ) 2] Insesgadez 13.2. = Insesgadez V (ˆ) + (Sesgo(ˆ)) 2, 13.2. Insesgadez siendo Sesgo(ˆ) = E(ˆ) Sesgo(ˆ). = E(ˆ). Insesgadez SiUn E(ˆ) buen = estimador se dice que debeelser estimador Insesgadez insesgadoˆ oestener insesgado. un sesgo pequeño. Insesgadez Estimador insesgado: Sesgo positivo: Sesgo negativo: 5
Ejemplos importantes: Distribución X Bernoulli(p) X Poisson(λ) X exp(λ) X N(µ, σ) Estimadores ˆp = x ˆλ = x ˆλ = 1/ x ˆµ = x ˆσ 2 = v x, sx 2 Cómo de buenos son estos estimadores?, es decir son insesgados? Tenemos que estudiar la distribución de X...
Propiedades de la media muestral X : Sea X 1,..., X n una muestra aleatoria de una v.a. X, la media muestral X verifica: Si X tiene distribución normal, entonces la distribución de los valores que toma X es también normal. ( ) Si X N(µ, σ) = X σ N µ,. n Teorema central del ĺımite (TCL): Si n es grande, la distribución de X es aproximadamente normal de media µ y desviación típica σ/ n, aunque X no sea normal. Si n es grande = X aprox N ( E(X ), ) Var(X ). n
Distribución de la media muestral
Conclusiones: Sea X 1,, X n una muestra aleatoria de una v.a. X con media y varianza poblacional µ y σ 2 respectivamente La media muestral X siempre es un estimador insesgado de la media de la población: E( X ) = µ. La varianza muestral V X es un estimador no insesgado de la varianza de la población: E(V X ) = n 1 n σ2. La cuasivarianza muestral SX 2 es un estimador insesgado de la varianza de la población: E(SX 2 ) = σ2. Observación: Se divide por n 1 ya que puede demostrarse que al dividir por n el estimador tiene una tendencia sistemática a infraestimar el verdadero valor de la varianza poblacional σ 2. Esta es la razón por la que se usa la cuasi-varianza muestral y no la varianza muestral: estimador insesgado de la varianza poblacional.