Estimación Bayesiana y Máximo a Posteriori

Documentos relacionados
Estimadores insesgados lineales óptimos (BLUE)

ESTIMACIÓN Estas transparencias contienen material adaptado del curso de PATTERN RECOGNITION AND MACHINE LEARNING de Heikki Huttunen y del libro Duda.

Estimador de máxima verosimilitud (MLE)

Estimación insesgada de mínima varianza

Sistemas de Reconocimiento de Patrones

Estimador de Máxima Verosimilitud

Variables aleatorias. Utilizando el resultado anterior, vemos que

Algoritmo de adaptación LMS

Métodos Bayesianos (Convocatoria Febrero 2005)

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

Tema 3: Estimación estadística de modelos probabilistas. (primera parte)

Auxiliar 9. MNL y MLE. Daniel Olcay. 21 de octubre de 2014 IN4402. Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de / 13

IDENTIFICACIÓN DE SISTEMAS ESTIMACIÓN ESTOCÁSTICA

MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN

Regresión Lineal Múltiple

Fundamentos para la inferencia. Estadística Prof. Tamara Burdisso

Tema 6. Estimación puntual

Estadística I Tema 5: Introducción a la inferencia estadística

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Tema 3 - Introducción. Tema 2. Distribuciones en el muestreo Estadísticos y distribución muestral. Ejemplos: X y S 2.

Tema 6. Estimación puntual

Clasificación Supervisada

Variables aleatorias

Análisis Multivariante de Datos

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

Tema 4. Regresión lineal simple

ECONOMETRÍA I. Tema 2: El Modelo de Regresión Lineal Simple. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía

Aprendizaje Automático

Least Squared Methods for System Identification. 1. Modelamiento de datos - Least Squared Estimator

Doctorado en Tecnologías de las Comunicaciones - Procesado Digital de Señales en Comunicaciones (Curso 2003/04)

EJERCICIO T1 NOMBRE: Correctas Incorrectas En Blanco Puntos

Tema 8. Fundamentos de Análisis discriminante

Tema 9. Análisis factorial discriminante

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Estimación de Parámetros

Apuntes de Series Temporales

CUESTIONES TEÓRICAS ESTADÍSTICA

Econometría 1. Karoll GOMEZ Segundo semestre 2017

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

Curso Inferencia. Miguel Ángel Chong R. 1 de octubre del 2012

ESTADÍSTICA I Tema 3: Estimación puntual paramétrica

Capítulo 2. Medidas Estadísticas Básicas Medidas estadísticas poblacionales

10.1 Enfoque Bayesiano del problema de la estimación

PFC: Localización de robots mediante filtro de Kalman

Econometría 1. Karoll GOMEZ Segundo semestre 2017

Inferencia Bayesiana en la distribución Gumbel: aplicación en el modelamiento de intensidades de lluvia

Cota Inferior de Cramer Rao

Clasificación. Aurea Grané. Análisis Discriminante

GUIÓN TEMA 2. PROPIEDADES DE LOS ESTIMADORES MCO 2.1 PROPIEDADES ESTADÍSTICAS DEL ES- TIMADOR MCO DE.

Part VII. Estadística I. Mario Francisco. Introducción a la inferencia. Estimación puntual. Propiedades deseables de los estimadores

Inferencia Estadística

Identificación n de SIStemas

UNIVERSIDAD DE ATACAMA

EXÁMEN INFERENCIA ESTADÍSTICA I Diplomado en Estadística Convocatoria de Febrero 2006

Estimación Máxima Verosimilitud

Estadística Bayesiana

7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL. Jorge Eduardo Ortiz Triviño

B1 - Apuntes de estimación

Análisis de Datos. Clasificación Bayesiana para distribuciones normales. Profesor: Dr. Wilfrido Gómez Flores

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

Germán Bassi. 9 de septiembre de X(i) = 1 N 1T X. i=1

Tema 6: Introducción a la Inferencia Bayesiana

Curso Inferencia. Miguel Ángel Chong R. 24 de septiembre del 2013

Overfit, cross validation y bootstrap

Filtrado e identificación de parámetros mediante métodos bayesianos

Selección de distribuciones de probabilidad

Repaso de Probabilidad y Estadística

TEMA 2: Propiedades de los estimadores MCO

Estadística. Tema 3. Esperanzas Esperanza. Propiedades Varianza y covarianza. Correlación

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Tema 2: Introducción a la Inferencia Estadística

Curso Inferencia. Miguel Ángel Chong R. 17 de septiembre del 2013

Econometría de series de tiempo aplicada a macroeconomía y finanzas

Índice Introducción Economía y Estadística Análisis de Regresión. Clase 1. Introducción a la Econometría. Profesor: Felipe Avilés Lucero

Fundamentos para la inferencia. Unidad 3 Parte II Estadísca Prof. Tamara Burdisso

Fundamentos para la inferencia. Unidad 3 Parte II Estadísca Prof. Tamara Burdisso

Introducción a la inferencia estadística

Análisis de Sensibilidad de los Resultados

Introducción. Distribución Gaussiana. Procesos Gaussianos. Eduardo Morales INAOE (INAOE) 1 / 47

2.3. Análisis bayesiano para datos normales

INGENIERÍA INFORMÁTICA DE GESTIÓN Septiembre 2005 SOLUCION

TEMA 3.- VECTORES ALEATORIOS.- CURSO

6. Inferencia con muestras grandes. Informática. Universidad Carlos III de Madrid

Examen de Teoría de (Introducción al) Reconocimiento de Formas

La modelación en el diseño de sistemas de observación de la calidad del agua subterránea

Tratamiento Digital de la Información

Momentos de Funciones de Vectores Aleatorios

Estadística para la Economía y la Gestión IN 3401 Clase 5

Estadística I Tema 7: Estimación por intervalos

ESTADÍSTICA I Tema 2: Algunas ideas básicas sobre inferencia estadística. Muestreo aleatorio

Juan Carlos Colonia INFERENCIA ESTADÍSTICA

Métodos Estadísticos Multivariados

Curso Inferencia. Miguel Ángel Chong R. 10 de septiembre del 2013

Estimación de densidades basada en núcleos: algunos elementos. Isabel Cañette

Estadística. Generalmente se considera que las variables son obtenidas independientemente de la misma población. De esta forma: con

ANALISIS FACTORIAL. Jorge Galbiati R.

Transcripción:

Estimación Bayesiana y Máximo a Posteriori Alvaro Gómez & Pablo Musé {agomez, pmuse}@fing.edu.uy Departamento de Procesamiento de Señales Instituto de Ingeniería Eléctrica Facultad de Ingeniería Marzo de 018

Dos enfoques: clásico o frecuentista vs. Bayesiano I Enfoque clásico o frecuentista: variable determinística desconocida, a determinar. I Enfoque Bayesiano: V.A. cuya realización particular debemos estimar. Motivación: I Marco que posibilita incorporar conocimiento previo sobre, mediante un prior o distribución a priori p(). Si el prior es razonable, puede conducir a estimaciones más precisas. I Útil cuando no podemos encontrar un MVU, por ejemplo cuando la varianza de un estimador insesgado no es uniformemente menor la la de todos los otros estimadores insesgados (i.e. sobre todo el dominio de definición de ). Sin embargo, puede cumplirse que existe un estimador que minimiza el MSE para la mayoría de los valores posibles del parámetro. Asignando una PDF p(), esposible encontrar un estimador que sea óptimo en promedio, sobre los valores posibles de.

Agenda I Definición del MSE Bayesiano (BMSE). I Minimización del BMSE. I Interpretación: compromiso entre el conocimiento a priori y el conocimiento que aportan las observaciones o los datos. I Modelo lineal Bayesiano. I Estimador MAP (Máximo A Posteriori)

Motivación: conocimiento a priori y estimación Mostremos con un ejemplo como El conocimiento a priori conduce a estimadores más exactos A R, x[n] A + w[n], n 0, 1,..., 1, {w[n]} iid, E[w[n]] 0. I Vimos previamente que el MVU era x (media muestral). I Supongamos ahora que sabemos que A applea 0 < +1. I Claramente  x no será el mejor estimador (puede incluso conducir a valores fuera de [ A 0,A 0 ] I Postulemos el estimador media muestral truncada 8 < A 0 si x < A 0 Ǎ x si A 0 apple x apple A 0 : A 0 si x >A 0

Seguimos con el ejemplo: media muestral truncada Cómo es la PDF de Ǎ, pǎ(u; A)? pǎ(u; A) Pr( x< A 0 ) (u + A 0 )+pâ(u; A)[H(u + A 0 ) H(u A 0 )] +Pr( x>a 0 ) (u A 0 )

Qué podemos decir de Ǎ? I Sesgado o insesgado? Sesgado I En términos de MSE, cuál es mejor:  o Ǎ? MSE(Â) ZR (u A) pâ(u; A)du Z A0 Z A0 1 (u A) pâ(u; A)du + (u A) Z +1 pâ(u; A)du + (u A) pâ(u; A)du A 0 A 0 Z A0 > 1 ( A 0 A) Z A0 pâ(u; A)du + (u A) Z +1 pâ(u; A)du + (A 0 A) pâ(u; A)du A 0 A 0 MSE(Ǎ) ) En términos de MSE, Ǎ es mejor que  Algunas observaciones generales I Autorizando un sesgo, podemos reducir el MSE. I Podemos preguntarnos si existe un estimador óptimo en cuanto al MSE... I Ya vimos que en el enfoque clásico optimizar el MSE puede conducir a estimadores irrealizables que dependen del parámetro a estimar. I Veremos que esto no es un problema en el enfoque bayesiano.

MSE clásico y MSE bayesiano (BMSE) Supongamos que disponemos de conocimiento previo sobre, e.g.: I Sólo puede ser positivo (peso de un objeto, etc). I [ 0, 0 ] sin preferencia por ningún valor ( U[ 0, 0 ]). I Las leyes físicas o de la naturaleza nos dicen que sigue cierto tipo de distribución, p(). Ahora es una V.A., y el objetivo es estimar una realización particular, dado el conocimiento previo y los datos observados. Antes teníamos ( era determinística): I MSE(ˆ) E x [(ˆ ) ] R (ˆ ) p(x; )dx. I Es claro que el resultado de optimizar el MSE puede depender de.

MSE clásico y MSE bayesiano (BMSE) (cont.) Ahora introducimos el BMSE: BMSE(ˆ) E x, [(ˆ ) ] Z Z Z (ˆ ) p( x)p(x)ddx x Z p(x) (ˆ ) p( x)ddx Ejercicio: encontrar ˆ ˆ(x) que minimice el BMSE. Siempre existe? Solución: comop(x) 0 8 x, minimizarbmse(ˆ) equivale a minimizar, 8 x, R (ˆ ) p( x)d. 0 @ Z Z (ˆ ) p( x)d (ˆ @ˆ Z Z ˆ p( x)d p( x)d {z } {z } 1 E[ x] )p( x)d, ˆ(x) E[ x] 8 x (la media del posterior)

Interpretación y observaciones sobre el BMSE I El estimador basado en BMSE se define como aquél que minimiza el promedio del MSE sobre todas las realizaciones posibles de. I Este estimador resulta ser la media de la distribución a posteriori, 8 x, ˆ(x) R p( x)d E[ x]. I El efecto de observar datos es concentrar cada vez más el prior p():

Rol del prior, rol de los datos observados I Si el prior es poco informativo (e.g. una uniforme con gran soporte o una Gaussiana con de varianza enorme), el estimador BMSE estará casi determinado por los datos. I Si la cantidad de datos es poca o tiene mucha varianza, el resultado estará sesgado hacia la media del prior. I La elección del prior es fundamental cuando se dispone de pocos datos, o si los datos son de muy mala calidad.

Ejemplo instructivo: Modelo Lineal Bayesiano (y Gaussiano) x H + w, siendox, w R vectores de observaciones y ruido, R p vector de p parámetros, H R p el sistema. Tenemos w (0, C w ), (µ, C ), y w independientes. Objetivo: obtener el estimador ˆ que minimice el BMSE, Z ˆ(x) E[ x] p( x)d, Les propongo construir ( Porqué? Justificar...) x H + w H I z I p 0 w... Para llegar a obtener p( x). Tenemos, w independientes ) conjuntamente Gaussiano, w Gaussianos w. ) z vector Gaussiano (T.L. de Gauss. son Gauss.)

Modelo Lineal Bayesiano (y Gaussiano) Cálculo de media y matriz de covarianza de z Obs: u V.A., A matriz, v Au. Entonces: C v E[(v Ev)(v Ev) T ]E[A(u Eu)(u Eu) T A T ]AC u A T. apple I H + w E[z] E HE + Ew E Hµ µ Cx C C z C (x,) x C x C H I C 0 H T I I p 0 0 C w I p HC H T + HC w HC C H T C 0 Luego, z Hµ µ, C z.

Modelo Lineal Bayesiano Gaussiano Cálculo de p( x). p(z) p(, x) p( x) p(x) Hµ, C µ z E[ x], C x (Hµ, C x ) Ejercicio: mostrar que E[ x] µ + C H T HC H T + C w 1 (x Hµ ) C x C C H T HC H T + C w 1 HC y que luego, gracias a la identidad de Woodbury (A + UCV) 1 A 1 + A 1 U(C 1 + VA 1 U) 1 VA 1 ), E[ x] µ +(C 1 + HT Cw 1 H) 1 H T Cw 1 (x Hµ ) C x (C 1 + HT Cw 1 H) 1

Modelo Lineal Bayesiano Gaussiano Ejemplo: DC en WG con prior Gaussiano x[n] A + w[n], n 0, 1,..., 1, A (µ A, A ), {w[n]} i.i.d., w[n] (0, ) Ejercicio: Calcular  E[A x] y Var(A x). Mostrar que BMSE(Â) <MSE( x). x 1A + w, conw (0, I), con1 T [1, 1,...,1]. 1 Var(A x) + 1T 1 1 + A A E[A x] µ A + A A + A A + x + 1 A A + 1 1T (x 1µ A )µ A +! A A + µ A. A A + ( x µ A ) Obs: BMSE(Â) Var(A x) A A + A A + < MSE( x).

Modelo Lineal Bayesiano Gaussiano Ejemplo: DC en WG con prior Gaussiano

Estimador MAP (Máximo A Posteriori) Equivalente Bayesiano del MLE: en lugar de maximizar la verosimilitud, se maximiza la densidad a posteriori (posterior likelihood prior / evidence). p(x )p() ˆ MAP : arg max p( x) arg max p(x) arg max p(x )p() arg max{log p(x ) + log p() } {z } {z } likelihood prior Obs: si p() ' cte (prior no informativo), ˆ MAP ' ˆ ML

Estimador MAP: Ejemplo lineal Gaussiano x H + w, con w (0, C w ), (µ, C ), y w independientes. Ejercicio 1: encontrar ˆ MAP ˆ MAP arg max { 1 (x H) T Cw 1 (x H)+( µ ) T C 1 ( µ ) } {z } f(,x) 0 @f @ 1 H T C 1 w H H T C 1 w x +C 1 x T C 1 w H T H T C 1 w x C 1 µ, H T Cw 1 H + C 1 H T Cw 1 x + C 1, ˆ MAP H T C 1 w H + C 1 µ 1 H T Cw 1 x + C 1 µ Ejercicio : mostrar que ˆ MAP µ + H T Cw 1 H + C 1 H T Cw 1 (x coincide con el estimador BMSE). Hµ ) (i.e. en este caso