ESTADÍSTICA I Tema 3: Estimación puntual paramétrica Planteamiento del problema Estimadores. Concepto, error cuadrático medio y propiedades deseables Construcción de estimadores: el método de máxima verosimilitud La información de Fisher. Estimadores eficientes. Eficiencia asintótica de los e.m.v. Construcción de estimadores: el método de los momentos La metodología bayesiana Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 1
Planteamiento del problema Se supone que la muestra X 1,..., X n está tomada de una distribución absolutamente continua (resp. discreta) con función de densidad (resp. con función de probabilidad) f (.; θ) que es totalmente conocida excepto por el valor de un parámetro θ del cual se conoce sólo su rango de posibles valores, denotado por Θ (Antonio utiliza también la notación T). El conjunto Θ recibe el nombre de espacio paramétrico. En lo sucesivo, a menos que se advierta lo contrario, supondremos que Θ R, aunque una parte importante de los conceptos y de los resultados se aplica también al caso Θ R k. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 2
El problema consiste en estimar (o aproximar) el valor desconocido de θ. Esto se hace mediante un estimador que es una función medible T n (X 1,..., X n ) (o, más bien, una sucesión {T n } de funciones medibles) de los valores muestrales. Se trata por tanto de determinar qué se entiende por una buena estimación; estudiar las propiedades de estos estimadores; ofrecer algún procedimiento general para construir estimadores; mostrar algunos ejemplos de especial interés. En términos muy generales, los puntos anteriores constituyen el objeto de la estimación paramétrica. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 3
Estimadores Sean X 1,..., X n v.a.i.i.d. con distribución común caracterizada por la función de densidad (resp. de masa) f ( ; θ), donde θ es un parámetro desconocido, del que sólo se sabe que pertenece al espacio paramétrico Θ R. Un estimador es una función medible T n (X 1,..., X n ) que se utiliza para estimar o aproximar el valor de θ (es frecuente utilizar también la notación ˆθ n para denotar un estimador de θ). Es habitual definir los estimadores para todos los posibles valores de n. En este caso, la sucesión {T n } se suele llamar también, con abuso de de notación, estimador. Por tanto, los estimadores son v.a. y tiene sentido hablar de su media, su varianza, su distribución, etc. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 4
La calidad de un estimador se evalúa mediante su error cuadrático medio ECM(T n ) = E[(T n θ) 2 ] Obsérvese que esta expresión en general depende de θ. Para enfatizar esto a veces se denota ECM θ (T n ). Sumando y restando E(T n ) es inmediato ver que es decir, ECM(T n ) = E[(T n E(T n )) 2 ] + (E(T n ) θ) 2 ECM(T n ) = Varianza de T n + (Sesgo de T n ) 2 Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 5
Propiedades interesantes de los estimadores: Ausencia de sesgo: Se dice que un estimador T n es insesgado si, siempre que X i f (.; θ), se tiene que E θ (T n ) = θ, θ Θ. Ejemplo: X es estimador insesgado de µ = E(X ). S 2 = 1 n 1 n (X i X ) 2 (cuasi-varianza muestral) es estimador insesgado de σ 2 = V(X ). En cambio, ˆσ 2 = 1 n (X i X ) 2 n es estimador sesgado. i=1 i=1 Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 6
Consistencia: Se dice que {T n } := {T n (X 1,..., X n )} es consistente en probabilidad si, siempre que X i f (.; θ), T n P θ, θ Θ P Si se reemplaza por, c.s. se obtiene la consistencia fuerte (o casi segura). Teorema de la aplicación continua.- Sea g : R R continua en todo punto de un conjunto C tal que P{X C} = 1. (i) Si X n d X, entonces g(x d n) g(x ). n n P (ii) Si X n X, entonces g(x P n) g(x ). n n c.s. (iii) Si X n X, entonces g(x c.s. n) g(x ). n n Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 7
Cómo demostrar fácilmente la consistencia? Mediante la ley de los grandes números: Si g : R R es continua entonces, T n = g( X ) es estimador consistente c.s. de θ = g(µ). La consistencia en probabilidad se puede intentar probar usando la desigualdad de Markov: y, por tanto, P{ T n θ > ɛ} E T n θ ɛ P{ T n θ > ɛ} E[(T n θ) 2 ] ɛ 2 E T n θ 0 T n E[(T n θ) 2 ] 0 T n P θ P θ. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 8
c.s Respecto a la consistencia c.s recordemos que T n θ si y solo si P{ω Ω : lim T n(x 1 (ω),..., X n (ω)) = θ} = 1. (1) n Esta condición es, en general, difícil de comprobar directamente. Por ello, es habitual utilizar condiciones suficientes. Por ejemplo, c.s. una condición suficiente para que T n θ es la condición de n Borel-Cantelli P{ T n θ > ɛ} <, ɛ > 0. (2) n=1 Por la desigualdad de Markov, (2) puede establecerse a su vez usando alguna de las condiciones suficientes E T n θ < o bien n=1 E[(T n θ) 2 ] <. n=1 Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 9
Ejercicio: Sean X 1,..., X n v.a.i.i.d. con distribución uniforme en el intervalo [0, θ], θ > 0. Estudiar la consistencia de los siguientes estimadores de θ: a) T n = 2 X b) T n = X (n) = max{x 1,..., X n }. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 10
Normalidad asintótica: Se dice que una sucesión de estimadores {T n } del parámetro θ es asintóticamente normal (con tasa n) si se verifica d n(tn θ) N(0, σ(θ)), (3) n donde σ 2 (θ) es una cierta función del parámetro θ denominada varianza asintótica del estimador. La propiedad (3) es muy útil para obtener una idea más precisa del error cometido en la estimación ya que permite hacer cálculos aproximados del tipo P{ T n θ < c} = P{ n T n θ < nc} ( ) ( ) c Φ σ(θ)/ c Φ n σ(θ)/ n Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 11
Cómo se puede probar en la práctica la normalidad asintótica? Por el TCL sabemos que n( X µ) d N(0, σ). n Supongamos que T n = g( X ), siendo g : R R función derivable con derivada continua. Se tiene entonces n(g( X ) g(µ)) d N(0, g (µ) σ). n Este resultado se llama método delta y es consecuencia casi inmediata del teorema del valor medio y de las propiedades elementales de la convergencia en distribución. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 12
Una observación sobre la normalidad asintótica: En general, también se habla de normalidad asintótica (con tasa {a n }) cuando se verifica un resultado del tipo a n (T n θ) d N(0, σ(θ)), (4) n donde 0 < a n es una sucesión de constantes. Tiene especial importancia el caso a n = n porque es el que aparece en el Teorema Central del Límite. Sin embargo, en muy diversos problemas estadísticos se obtiene normalidad asintótica con sucesiones a n diferentes. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 13
Construcción de estimadores Planteamiento: En lo que sigue suponemos que la muestra X 1,..., X n está formada por v.a.i.i.d. cuya distribución tiene una función de densidad o de masa f ( ; θ 0 ) perteneciente a una familia {f ( ; θ) : θ Θ}. El verdadero valor del parámetro se denota por θ 0 y la letra θ designa un valor genérico de este parámetro. Habitualmente θ 0 es desconocido y nuestro objetivo es definir un método general para estimarlo. En el resto de este tema la expresión función de densidad deberá entenderse en sentido amplio para incluir también a las funciones de probabilidad de las variables discretas. Parametrización adecuada: Suponemos también que se cumple (MV0) Las distribuciones correspondientes a f ( ; θ) son distintas para diferentes valores de θ Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 14
El método de máxima verosimilitud Dada una muestra fija x 1,..., x n, llamamos función de verosimilitud (likelihood function) a L n (θ; x 1,..., x n ) := L n (θ) = n f (x i ; θ). i=1 Denominamos estimador de máxima verosimilitud (EMV, maximum likelihood estimator, MLE) a ˆθ n = ˆθ n (x 1,..., x n ) = arg max L n (θ; x 1,..., x n ), (5) θ Θ cuando este máximo está bien definido. También se puede utilizar log L n en lugar de L n en la expresión (5), ya que el logaritmo es una función creciente. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 15
Cálculo efectivo del EMV: Típicamente ˆθ n se obtiene como solución de la ecuación de verosimilitud Ejemplos: θ log L n = θ n log f (θ; x i ) = 0. i=1 Para la distribución de Poisson de parámetro λ, ˆλ n = x. Para la exponencial de parámetro θ, ˆθ n = x Para la normal N(µ, σ), ˆµ n = x, ˆσ 2 n = n i=1 (x i x) 2 /n. Para otras distribuciones, como la gamma o la Weibull, los e.m.v. de los parámetros existen pero no hay expresiones cerradas para ellos (aparecen como soluciones únicas de ciertas ecuaciones). Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 16
Motivación del método de m.v.: Por la L.G.N., 1 n log L n(θ) c.s. Ψ(θ) := E θ0 [log f (X ; θ)] = log f (x; θ)f (x; θ 0 )dx. Teorema 1.- Sea X f ( ; θ 0 ). Supongamos que (MV0) Se verifica la condición de buena parametrización. (MV1) Las distribuciones f ( ; θ) tienen un soporte común. (MV2) Ψ(θ) es finita para todo θ Θ. Entonces θ 0 es el único máximo de la función Ψ(θ) y además P θ0 {L n (θ 0 ; X 1,..., X n ) > L n (θ; X 1,..., X n )} n 1, θ θ 0. La demostración del teorema se hará en clase. Ver también: Lehmann & Casella (1998). Theory of Point Estimation. Springer. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 17
Consistencia de los estimadores de m.v.: Teorema 2.- Supongamos que se verifican las condiciones del Teorema 1 y además (MV3) El espacio paramétrico Θ es un intervalo abierto (no necesariamente finito) y, para casi todo x, f (x; θ) es diferenciable respecto a θ con derivada continua. Entonces, con probabilidad tendiendo a 1, la ecuación θ log L n(θ; X 1,..., X n ) = 0 (6) P tiene una raíz ˆθ n = ˆθ n (x 1,..., x n ) tal que ˆθ n (X 1,..., X n ) θ 0. Si además suponemos que la raíz de (6) es única se tiene que ˆθ n maximiza la verosimilitud L n y, por tanto, es el estimador de máxima verosimilitud. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 18
La información de Fisher I (θ) y su significado En la discusión que sigue suponemos que en la integral f (x; θ)dx se puede derivar dos veces bajo el signo integral. Entonces f (x; θ)dx = 1 f (x; θ)dx = 0. θ Por tanto, θ (log f (x; θ))f (x; θ)dx = E θ[ log f (X ; θ)] = 0 θ y también (comprobarlo) [ ] [ ( ) ] 2 E θ 2 log f (X ; θ) = E θ2 θ θ log f (X ; θ). Si esta última cantidad es finita se denota por I (θ) y se denomina información de Fisher. Representa intuitivamente la cantidad de información acerca del valor del parámetro θ contenida en una observación de la v.a. X. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 19
Según esto, la v.a. Z = n i=1 θ log f (X i; θ) satisface E θ (Z) = 0, V θ (Z) = n I (θ). Sea ahora T n = T n (X 1,..., X n ) un estimador insesgado de θ. Comprobemos que Cov θ (Z, T n ) = 1, lo que, en este caso, equivale a E θ (ZT n ) = 1. En efecto, E θ (ZT n ) =... T n (x 1,..., x n ) [ n i=1 θ f (x i; θ) f (x i ; θ) ] n f (x j, θ)dx j j=1 Pero [ n i=1 θ f (x i; θ) f (x i ; θ) ] n f (x j, θ) = θ j=1 n f (x j, θ) i=1 Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 20
Por tanto, Cov θ (Z, T n ) = = θ...... T n (x 1,..., x n ) θ T n (x 1,..., x n ) = θ E θ(t n ) = θ θ = 1. n f (x i, θ)dx i i=1 n f (x i, θ)dx i i=1 Por otra parte, la desigualdad de Cauchy-Schwartz establece que Cov 2 θ (Z, T n) V θ (Z)V θ (T n ) es decir, V θ (T n ) 1 n I (θ). Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 21
En definitiva, hemos probado que Supuesto que todas las integrales anteriores son finitas, que existen las derivadas utilizadas en los cálculos y que se dan las condiciones que permiten intercambiar las derivadas y las integrales, se verifica que para cualquier estimador insesgado de θ, T n, V θ (T n ) 1 n I (θ) 1 La expresión n I (θ) se denomina cota de Fréchet-Cramér-Rao. Los estimadores (insesgados) cuya varianza coincide con el valor de esta cota se denominan eficientes. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 22
Eficiencia asintótica de los e.m.v. Teorema 3.- Supongamos que se verifican las condiciones (MV0)-(MV3) y además (MV4) La integral f (x; θ)dx se puede derivar dos veces bajo el signo integral. (MV5) Para cada x la densidad f (x; θ) es tres veces diferenciable con respecto a θ, con la tercera derivada continua en θ. (MV6) 0 < I (θ 0 ) < (MV7) Para cada θ 0 Θ existen un número c > 0 y una función M(x) (que pueden depender de θ 0 ) tales que E θ0 [M(X )] < y 3 log f θ 3 (x; θ) M(x), x, θ (θ 0 c, θ 0 + c). Entonces, si ˆθ n (X 1,..., X n ) es cualquier sucesión consistente de soluciones de las ecuaciones de verosimilitud, se verifica n(ˆθn θ 0 ) d N ( 0, 1 I (θ0 ) ). Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 23
Demostración del Teorema 3: Denotemos Ψ n (θ) := n log f (X i ; θ) i=1 Ψ n = ( / θ) Ψ n f = ( / θ)f. Recordemos que Ψ n (θ) depende de la muestra. Para cada muestra fija se tiene Ψ n(ˆθ n ) = Ψ n(θ 0 ) + (ˆθ n θ 0 ) Ψ n (θ 0 ) + 1 2 (ˆθ n θ 0 ) 2 Ψ n (θn), para algún θ n entre ˆθ n y θ 0. Como el primer miembro es 0, resulta n(ˆθn θ 0 ) = (1/ n) Ψ n(θ 0 ) (1/n) Ψ n (θ 0 ) (1/2n)(ˆθ n θ 0 ) Ψ n (θn) (7) Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 24
Demostración del Teorema 3 (cont.): La idea clave de la demostración es: Paso 1 Probar que el numerador de (7) tiende en distribución a una N(0, I (θ 0 )) (recordemos que, en nuestra notación, el segundo parámetro de la normal denota la desv. típica, no la varianza). Paso 2 Probar que el primer término del denominador de (7) tiende en probabilidad a I (θ 0 ). Paso 3 Probar que el segundo término del denominador de (7) tiende en probabilidad a 0. Paso 4 A partir de aquí el resultado es inmediato ya que, como consecuencia del Teorema de Slutsky, d n(ˆθn θ 0 ) 1 I (θ 0 ) N(0, ( ) 1 I (θ 0 )) = N 0,. I (θ0 ) Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 25
Demostración del Teorema 3 (cont.): Paso 1: 1 Ψ n n (θ 0 ) = n 1 n [ f ( (X i ; θ 0 ) f )] n f (X i ; θ 0 ) E (X i ; θ 0 ) θ 0, f (X i ; θ 0 ) i=1 ( ) Como E f (X i ;θ 0) θ0 f (X i ;θ 0) = 0, la aplicación del TCL (a las variables Y i = f (X i ;θ 0) f (X i ;θ ) y la definición de I (θ 0) 0) proporcionan directamente Paso 2: 1 n (1/ n) Ψ n(θ 0 ) Ψ n (θ 0 ) = 1 n Por la LGN esto tiende en probabilidad a d N(0, I (θ 0 )). f 2 (X i ; θ 0 ) f (X i ; θ 0 )f (X i ; θ 0 ) f 2. (X i ; θ 0 ) I (θ 0 ) E θ0 ( f (X i ; θ 0 ) f (X i ; θ 0 ) ) = I (θ 0 ) Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 26
Demostración del Teorema 3 (cont.): Paso 3: Por último, 1 Ψ n (θ) = 1 3 n n θ 3 log f (X i; θ), de modo que 1 Ψ n (θ ) n < 1 n M(X i ) n i=1 con probabilidad tendiendo a 1. Por tanto 1 n Ψ n (θ) está acotado en probabilidad ya que el segundo miembro de la desigualdad anterior tiende P a E θ0 [M(X )]. En definitiva, como ˆθ n θ0, se deduce (1/2n)(ˆθ n θ 0 ) Ψ n (θn) P 0, lo que concluye la prueba del Paso 3 y del teorema. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 27
El método de los momentos Sea X f ( ; θ), donde θ = (θ 1,..., θ p ) es un parámetro p-dimensional (p 1). Si los momentos α k (θ) := E θ (X k ), k = 1,..., p, son funciones sencillas de los θ i, un procedimiento natural para obtener un estimador de θ, es resolver en θ 1,..., θ p el sistema de ecuaciones m 1 = α 1 (θ),..., m p = α p (θ), n i=1 X k i n. donde m k es el momento muestral de orden k, m k = La idea es estimar el parámetro como aquel valor de θ que hace que los momentos poblacionales (tantos como componentes tenga θ) coincidan con los correspondientes momentos muestrales. En general, si θ 0 es el verdadero valor del parámetro, NO sucederá que m k = α k (θ 0 ) (de hecho, m k es aleatorio) pero, por la ley de los grandes números, m k α k (θ 0 ) cuando n. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 28
La principal ventaja del método de los momentos es que proporciona estimadores con expresión sencilla en algunos casos en los que el e.m.v. no se puede obtener en forma cerrada (porque aparece la solución de una ecuación complicada). Esto sucede, por ejemplo, en la estimación de los parámetros a y p en la distribución gamma. En los ejercicios se pueden encontrar más ejemplos. En general, el método de m.v. proporciona estimadores mejores (con menor error) que el de los momentos, aunque en algunos casos importantes ambos métodos llevan al mismo estimador. También puede plantearse el método de los momentos (en el caso k = 2) definiendo el estimador como solución de las ecuaciones E θ (X ) = X, V θ (X ) = s 2, es decir, usando la varianza en lugar del momento de orden 2, E θ (X 2 ). Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 29
Ejemplos del método de los momentos: Si se tiene el modelo f (x; θ) = 1 + θx 2 1 [ 1,1] (x), θ [ 1, 1] no es sencillo calcular el e.m.v., pero sí obtener el estimador por el método de los momentos: E θ (X ) = 1 1 xf (x; θ)dx = θ 3 Por tanto, la solución de X = E θ (X ) es θ n = 3 X, cuya varianza es V θ ( θ n ) = V θ (3 X ) = 9 σ2 n = 3 θ2 n ya que σ 2 = V θ (X ) = E θ (X 2 ) (E θ (X )) 2 = 1 3 θ2 9. Este c.s. estimador es consistente ya que, por la LGN, 3 X 3E θ (X ) = θ. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 30
Si X Beta(a, b), f (x; a, b) = Γ(a + b) Γ(a)Γ(b) x a 1 (1 x) b 1 1 [0,1] (x). E θ (X ) = = 1 0 Γ(a + b) Γ(a) Γ(a + b) Γ(a)Γ(b) x a (1 x) b 1 dx Γ(a + 1) Γ(a + b + 1) V θ (X ) = 1 0 Γ(a + b + 1) Γ(a + 1)Γ(b) x a (1 x) b 1 dx = ab (a + b) 2 (a + b + 1) Los estimadores por el método de los momentos son: ( ) ( ) X (1 X ) X (1 X ) â = X s 2 1, ˆb = (1 X ) s 2 1. a a + b Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 31
La metodología bayesiana: ideas básicas La distribución a priori En muchos casos se tiene cierta información a priori (es decir, antes de extraer la muestra) sobre la probabilidad (entendida como grado de creencia subjetiva ) de los diferentes valores del parámetro θ. En estos casos se sabe, o se supone, que ciertos intervalos de valores de θ son más probables que otros y se concreta esta información en una distribución a priori sobre θ cuya función de densidad se denota π(θ). Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 32
La función de verosimilitud Formalmente, este planteamiento equivale a considerar el parámetro θ como una variable aleatoria con distribución conocida. En consecuencia, la densidad f (x; θ) con la que se generan los datos puede considerarse como la densidad condicionada de la v.a. X dado el valor θ de la v.a. parámetro. Por este motivo se suele emplear la notación f (x θ) en lugar de f (x; θ). Del mismo modo, la función de verosimilitud L n (x 1,..., x n ; θ) = n i=1 f (x i θ) puede interpretarse (cuando se considera como función de (x 1,..., x n ) para cada θ fijo) como la densidad de la v.a. vectorial (X 1,..., X n ), condicionada al valor θ del parámetro. Por este motivo, suele denotarse (con cierto abuso de notación), n f (x 1,..., x n θ) := f (x i ; θ). i=1 Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 33
La distribución a posteriori Esencialmente, la idea metodología bayesiana consiste en combinar la información a priori (recogida en π(θ)) con la información muestral y la del modelo (recogidas en la verosimilitud). Esto se consigue aplicando la fórmula de Bayes para obtener la distribución a posteriori, definida por la siguiente función de densidad en Θ f (x 1,..., x n θ)π(θ) π(θ x 1,..., x n ) = Θ f (x 1,..., x n θ)π(θ)dθ La densidad a posteriori (8) recoge toda la información disponible sobre el parámetro y es la base de todos los procedimientos de inferencia en la metodología bayesiana. (8) Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 34
El cálculo de π(θ x 1,..., x n ) puede ser complicado a veces, pero en muchos casos se simplifica recordando que π(θ x 1,..., x n ) debe ser una función de densidad en θ y, por tanto, debe integrar 1. Esto significa que la integral que aparece en el denominador de (8) puede ser considerada como una constante (en el sentido de que no depende de θ) y esta es justamente la constante necesaria para que la integral en θ de π(θ x 1,..., x n ) sea 1. Por tanto, en algunos ejemplos importantes, no es necesario calcular esa integral, siempre que, a partir del numerador de (8), se pueda identificar el tipo de distribución al que corresponde π(θ x 1,..., x n ). Por ejemplo, si el numerador de la fórmula de Bayes (8) es, salvo constantes multiplicativas, de la forma θ p 1 e aθ, entonces no es necesario calcular la integral del denominador porque ya podemos asegurar que π(θ x 1,..., x n ) es una densidad gamma de parámetros a y p. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 35
Ejemplo: En un problema de la relación 3, θ es la proporción de votantes de un partido (P). Sea X la v.a. Bernoulli que toma valor 1 cuando un votante elige el partido P y 0 en caso contrario: f (x θ) = θ para x = 1, f (x θ) = 1 θ para x = 0. Entonces tenemos que f (x 1,..., x n θ) = n i=1 f (x i θ) = θ n i=1 x i (1 θ) n n i=1 x i. Suponemos que la distribución a priori es una Beta(4,10): π(θ) = Γ(14) Γ(4)Γ(10) θ3 (1 θ) 9 1 [0,1] (θ). Así pues, aplicando la fórmula de Bayes (8), tenemos (usando aquí el signo para indicar proporcional a ): π(θ x 1,..., x n ) θ x i (1 θ) n x i θ 3 (1 θ) 9 = θ 3+ x i (1 θ) 9+n x i, densidad que corresponde a una beta de parámetros a = 4 + x i, b = 10 + n x i. Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 36
Estimadores Bayes El estimador Bayes se define, para cada muestra dada (x 1,..., x n ), como la esperanza de la distribución a posteriori T n (x 1,..., x n ) = θπ(θ x 1,..., x n )dθ. Θ Ejemplo (cont.): Hemos visto que π(θ x 1,..., x n ) tiene distribución Beta(a = 4 + x i, b = 10 + n x i ). Por tanto el estimador Bayes es T n = 4 + x i 14 + n = ( n 4 + 10 + n ) ( ) 4 + 10 4 x + 4 + 10 + n 4 + 10. Es sencillo comprobar que en este caso el emv coincide con el estimador basado en el método de los momentos, ˆθ n = x. En la muestra concreta que tenemos x i = 125 y n = 1000, luego T n = 129 1014 = 0.12722, ˆθ n = 125 1000 = 0.125 Estadística I (Mat/DG). Profesora: Amparo Baíllo Tema 3: Estimación puntual 37