Estimación Bayesiana y Máximo a Posteriori

Estimación Bayesiana y Máximo a Posteriori Alvaro Gómez & Pablo Musé {agomez, pmuse}@fing.edu.uy Departamento de Procesamiento de Señales Instituto de Ingeniería Eléctrica Facultad de Ingeniería Marzo de 018

Dos enfoques: clásico o frecuentista vs. Bayesiano I Enfoque clásico o frecuentista: variable determinística desconocida, a determinar. I Enfoque Bayesiano: V.A. cuya realización particular debemos estimar. Motivación: I Marco que posibilita incorporar conocimiento previo sobre, mediante un prior o distribución a priori p(). Si el prior es razonable, puede conducir a estimaciones más precisas. I Útil cuando no podemos encontrar un MVU, por ejemplo cuando la varianza de un estimador insesgado no es uniformemente menor la la de todos los otros estimadores insesgados (i.e. sobre todo el dominio de definición de ). Sin embargo, puede cumplirse que existe un estimador que minimiza el MSE para la mayoría de los valores posibles del parámetro. Asignando una PDF p(), esposible encontrar un estimador que sea óptimo en promedio, sobre los valores posibles de.

Agenda I Definición del MSE Bayesiano (BMSE). I Minimización del BMSE. I Interpretación: compromiso entre el conocimiento a priori y el conocimiento que aportan las observaciones o los datos. I Modelo lineal Bayesiano. I Estimador MAP (Máximo A Posteriori)

Motivación: conocimiento a priori y estimación Mostremos con un ejemplo como El conocimiento a priori conduce a estimadores más exactos A R, x[n] A + w[n], n 0, 1,..., 1, {w[n]} iid, E[w[n]] 0. I Vimos previamente que el MVU era x (media muestral). I Supongamos ahora que sabemos que A applea 0 < +1. I Claramente Â x no será el mejor estimador (puede incluso conducir a valores fuera de [ A 0,A 0 ] I Postulemos el estimador media muestral truncada 8 < A 0 si x < A 0 Ǎ x si A 0 apple x apple A 0 : A 0 si x >A 0

Seguimos con el ejemplo: media muestral truncada Cómo es la PDF de Ǎ, pǎ(u; A)? pǎ(u; A) Pr( x< A 0 ) (u + A 0 )+pâ(u; A)[H(u + A 0 ) H(u A 0 )] +Pr( x>a 0 ) (u A 0 )

Qué podemos decir de Ǎ? I Sesgado o insesgado? Sesgado I En términos de MSE, cuál es mejor: Â o Ǎ? MSE(Â) ZR (u A) pâ(u; A)du Z A0 Z A0 1 (u A) pâ(u; A)du + (u A) Z +1 pâ(u; A)du + (u A) pâ(u; A)du A 0 A 0 Z A0 > 1 ( A 0 A) Z A0 pâ(u; A)du + (u A) Z +1 pâ(u; A)du + (A 0 A) pâ(u; A)du A 0 A 0 MSE(Ǎ) ) En términos de MSE, Ǎ es mejor que Â Algunas observaciones generales I Autorizando un sesgo, podemos reducir el MSE. I Podemos preguntarnos si existe un estimador óptimo en cuanto al MSE... I Ya vimos que en el enfoque clásico optimizar el MSE puede conducir a estimadores irrealizables que dependen del parámetro a estimar. I Veremos que esto no es un problema en el enfoque bayesiano.

MSE clásico y MSE bayesiano (BMSE) Supongamos que disponemos de conocimiento previo sobre, e.g.: I Sólo puede ser positivo (peso de un objeto, etc). I [ 0, 0 ] sin preferencia por ningún valor ( U[ 0, 0 ]). I Las leyes físicas o de la naturaleza nos dicen que sigue cierto tipo de distribución, p(). Ahora es una V.A., y el objetivo es estimar una realización particular, dado el conocimiento previo y los datos observados. Antes teníamos ( era determinística): I MSE(ˆ) E x [(ˆ ) ] R (ˆ ) p(x; )dx. I Es claro que el resultado de optimizar el MSE puede depender de.

MSE clásico y MSE bayesiano (BMSE) (cont.) Ahora introducimos el BMSE: BMSE(ˆ) E x, [(ˆ ) ] Z Z Z (ˆ ) p( x)p(x)ddx x Z p(x) (ˆ ) p( x)ddx Ejercicio: encontrar ˆ ˆ(x) que minimice el BMSE. Siempre existe? Solución: comop(x) 0 8 x, minimizarbmse(ˆ) equivale a minimizar, 8 x, R (ˆ ) p( x)d. 0 @ Z Z (ˆ ) p( x)d (ˆ @ˆ Z Z ˆ p( x)d p( x)d {z } {z } 1 E[ x] )p( x)d, ˆ(x) E[ x] 8 x (la media del posterior)

Interpretación y observaciones sobre el BMSE I El estimador basado en BMSE se define como aquél que minimiza el promedio del MSE sobre todas las realizaciones posibles de. I Este estimador resulta ser la media de la distribución a posteriori, 8 x, ˆ(x) R p( x)d E[ x]. I El efecto de observar datos es concentrar cada vez más el prior p():

Rol del prior, rol de los datos observados I Si el prior es poco informativo (e.g. una uniforme con gran soporte o una Gaussiana con de varianza enorme), el estimador BMSE estará casi determinado por los datos. I Si la cantidad de datos es poca o tiene mucha varianza, el resultado estará sesgado hacia la media del prior. I La elección del prior es fundamental cuando se dispone de pocos datos, o si los datos son de muy mala calidad.

Ejemplo instructivo: Modelo Lineal Bayesiano (y Gaussiano) x H + w, siendox, w R vectores de observaciones y ruido, R p vector de p parámetros, H R p el sistema. Tenemos w (0, C w ), (µ, C ), y w independientes. Objetivo: obtener el estimador ˆ que minimice el BMSE, Z ˆ(x) E[ x] p( x)d, Les propongo construir ( Porqué? Justificar...) x H + w H I z I p 0 w... Para llegar a obtener p( x). Tenemos, w independientes ) conjuntamente Gaussiano, w Gaussianos w. ) z vector Gaussiano (T.L. de Gauss. son Gauss.)

Modelo Lineal Bayesiano (y Gaussiano) Cálculo de media y matriz de covarianza de z Obs: u V.A., A matriz, v Au. Entonces: C v E[(v Ev)(v Ev) T ]E[A(u Eu)(u Eu) T A T ]AC u A T. apple I H + w E[z] E HE + Ew E Hµ µ Cx C C z C (x,) x C x C H I C 0 H T I I p 0 0 C w I p HC H T + HC w HC C H T C 0 Luego, z Hµ µ, C z.

Modelo Lineal Bayesiano Gaussiano Cálculo de p( x). p(z) p(, x) p( x) p(x) Hµ, C µ z E[ x], C x (Hµ, C x ) Ejercicio: mostrar que E[ x] µ + C H T HC H T + C w 1 (x Hµ ) C x C C H T HC H T + C w 1 HC y que luego, gracias a la identidad de Woodbury (A + UCV) 1 A 1 + A 1 U(C 1 + VA 1 U) 1 VA 1 ), E[ x] µ +(C 1 + HT Cw 1 H) 1 H T Cw 1 (x Hµ ) C x (C 1 + HT Cw 1 H) 1

Modelo Lineal Bayesiano Gaussiano Ejemplo: DC en WG con prior Gaussiano x[n] A + w[n], n 0, 1,..., 1, A (µ A, A ), {w[n]} i.i.d., w[n] (0, ) Ejercicio: Calcular Â E[A x] y Var(A x). Mostrar que BMSE(Â) <MSE( x). x 1A + w, conw (0, I), con1 T [1, 1,...,1]. 1 Var(A x) + 1T 1 1 + A A E[A x] µ A + A A + A A + x + 1 A A + 1 1T (x 1µ A )µ A +! A A + µ A. A A + ( x µ A ) Obs: BMSE(Â) Var(A x) A A + A A + < MSE( x).

Modelo Lineal Bayesiano Gaussiano Ejemplo: DC en WG con prior Gaussiano

Estimador MAP (Máximo A Posteriori) Equivalente Bayesiano del MLE: en lugar de maximizar la verosimilitud, se maximiza la densidad a posteriori (posterior likelihood prior / evidence). p(x )p() ˆ MAP : arg max p( x) arg max p(x) arg max p(x )p() arg max{log p(x ) + log p() } {z } {z } likelihood prior Obs: si p() ' cte (prior no informativo), ˆ MAP ' ˆ ML

Estimador MAP: Ejemplo lineal Gaussiano x H + w, con w (0, C w ), (µ, C ), y w independientes. Ejercicio 1: encontrar ˆ MAP ˆ MAP arg max { 1 (x H) T Cw 1 (x H)+( µ ) T C 1 ( µ ) } {z } f(,x) 0 @f @ 1 H T C 1 w H H T C 1 w x +C 1 x T C 1 w H T H T C 1 w x C 1 µ, H T Cw 1 H + C 1 H T Cw 1 x + C 1, ˆ MAP H T C 1 w H + C 1 µ 1 H T Cw 1 x + C 1 µ Ejercicio : mostrar que ˆ MAP µ + H T Cw 1 H + C 1 H T Cw 1 (x coincide con el estimador BMSE). Hµ ) (i.e. en este caso