Cota Inferior de Cramer Rao

Documentos relacionados
Tema 4: Variables aleatorias multidimensionales

Econometría II Grado en finanzas y contabilidad

Tema 4: Variables aleatorias multidimensionales

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

Variables aleatorias

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Ejercicios de Variables Aleatorias

Distribuciones de probabilidad bidimensionales o conjuntas

EL Estimación y Detección

Teorema Central del Límite (1)

Conceptos Básicos de Inferencia

Maestría en Bioinformática Probabilidad y Estadística: Clase 3

1. La Distribución Normal

Modelos de probabilidad. Modelos de probabilidad. Modelos de probabilidad. Proceso de Bernoulli. Objetivos del tema:

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

Repaso de conceptos de álgebra lineal

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

Tema 5. Muestreo y distribuciones muestrales

Capítulo 6: Variable Aleatoria Bidimensional

Cálculo de Probabilidades II Preguntas Tema 1

8. Estimación puntual

Derivada de la función compuesta. Regla de la cadena

Tema 2 Datos multivariantes

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

Función diferenciable Regla de la cadena (2 variables) Regla de la cadena (vectorial) Diferenciabilidad

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Prof. Eliana Guzmán U. Semestre A-2015

Análisis de datos Categóricos

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

VARIABLES ALEATORIAS DISCRETAS

Tema 1. El Modelo de Regresión Lineal con Regresores Aleatorios.

Tema 7 Intervalos de confianza Hugo S. Salinas

Campo Magnético en un alambre recto.

Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis. Facultad de Ciencias Sociales, UdelaR

Métodos Estadísticos de la Ingeniería Tema 7: Momentos de Variables Aleatorias Grupo B

Introducción al Tema 9

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Variables aleatorias unidimensionales

Estimación por intervalo del parámetro de la distribución de Poisson con una sola observación

Econometria de Datos en Paneles

Métodos Estadísticos Multivariados

Algunas Distribuciones Continuas de Probabilidad. UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides

PLAN DE TRABAJO 9 Período 3/09/07 al 28/09/07

Tema 8: Contraste de hipótesis

Transformaciones de variables

520142: ALGEBRA y ALGEBRA LINEAL

Examen de Matemáticas Aplicadas a las CC. Sociales II (Junio 2007) Selectividad-Opción A Tiempo: 90 minutos

Tema 9: Contraste de hipótesis.

Sistemas de ayuda a la decisión Modelización de la incertidumbre Tema 2. Incertidumbre y Probabilidad

Órdenes de la convergencia de sucesiones. Condiciones de la convergencia lineal y cuadrática del método de iteración simple

Robusticidad de los Diseños D-óptimos a la Elección. de los Valores Locales para el Modelo Logístico

Preliminares Interpolación INTERPOLACIÓN Y APROXIMACIÓN POLINOMIAL

Variables aleatorias

PROBABILIDAD Y ESTADÍSTICA

Curso de Probabilidad y Estadística

Modelado de la aleatoriedad: Distribuciones

DERIVADAS PARCIALES Y APLICACIONES

NORMALIDAD ASINTÓTICA PARA LOS E-GINI. Pablo Martínez Camblor RESUMEN

2 x

Estimación MC3E, MVIC en Modelos de Ecuaciones Simultáneas

Tema 4: Probabilidad y Teoría de Muestras

El Algoritmo E-M. José Antonio Camarena Ibarrola

INFERENCIA ESTADISTICA

Tema 6. Variables aleatorias continuas

EL4005 Principios de Comunicaciones Clase No.24: Demodulación Binaria

1 Método de la bisección. 1.1 Teorema de Bolzano Teorema 1.1 (Bolzano) Contenido

Determinación del tamaño de muestra (para una sola muestra)

Análisis de procesos estocásticos en el dominio del tiempo

Introducción al Tema 8. Tema 6. Variables aleatorias unidimensionales Distribución. Características: media, varianza, etc. Transformaciones.

EJERCICIOS RESUELTOS DE ESTADÍSTICA II

ESTADÍSTICA. Se trata de una variable aleatoria binormal con n=5, probabilidad= ¼. B(5, ¼); La probabilidad es P= P(x=3) +P(x=4) + P(x=5):

CAPÍTULO 4 TÉCNICA PERT

MATEMÁTICAS 2º DE BACHILLERATO

Tema 1. Espacios Vectoriales Definición de Espacio Vectorial

Descomposición en valores singulares de una matriz

Distribuciones de probabilidad

Tema 5. Contraste de hipótesis (I)

Conceptos del contraste de hipótesis

BLOQUE 4. CÁLCULO DIFERENCIAL DE FUNCIONES REALES DE UNA VARIABLE

Límites y continuidad de funciones reales de variable real

Tema 4: Probabilidad y Teoría de Muestras

Distribuciones de probabilidad multivariadas

Nombre y Apellidos:... EXAMEN ECONOMETRÍA II (Enero 2010)

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Objetivo: Comprender la diferencia entre valor esperado, varianza y desviación estándar. Poner en práctica el teorema de Chebyshev

III Verano de Probabilidad y Estadística Curso de Procesos de Poisson (Víctor Pérez Abreu) Lista de Ejercicios

Distribuciones de Probabilidad

Espacios Vectoriales Asturias: Red de Universidades Virtuales Iberoamericanas 1

Cálculo en varias variables

May 4, 2012 CAPÍTULO 5: OPTIMIZACIÓN

JUEGO DE BASKETBALL. Repaso de Distribuciones de Probabilidad Discretas y Continuas

Prueba Integral Lapso /6

Variable Aleatoria Continua. Principales Distribuciones

INDICE. Prólogo a la Segunda Edición

Distribuciones Continuas de. Probabilidad. Dr. Víctor Aguirre Torres, ITAM. Guión 7.

5. DISTRIBUCIOES COTIUAS DE PROBABILIDAD

Esta definición se puede ampliar a cualquier par de bases de los espacio inicial y final MATRIZ DE UNA APLICACIÓN LINEAL EN BASES ARBITRARIAS

ANX-PR/CL/ GUÍA DE APRENDIZAJE. ASIGNATURA Estadistica. CURSO ACADÉMICO - SEMESTRE Primer semestre

2. Continuidad y derivabilidad. Aplicaciones

1. VALORES FALTANTES 2. MECANISMOS DE PÉRDIDA

Transcripción:

Cota Inferior de Cramer Rao Tratamiento Estadístico de Señales Pablo Musé, Ernesto López & Luís Di Martino {pmuse,elopez}@fing.edu.uy Departamento de Procesamiento de Señales Instituto de Ingeniería Eléctrica Facultad de Ingeniería Curso 2015

Repaso Objetivo: Estimación de parámetros Encontrar un buen estimador de los parámetros de una señal discreta. Dado el conjunto de N datos {x[0], x[1],... x[n 1]} que dependen de un parámetro desconocido θ, Se quiere estimar θ a partir de los datos Se define un estimador ˆθ de θ, ˆθ = g(x[0], x[1],... x[n 1]) Condiciones sobre el estimador En media conduzca al valor verdadero del parámetro, E(ˆθ) = θ Estimador insesgado La variabilidad del estimador sea lo menor posible ˆθ = minvar(ˆθ) Estimador de varianza mínima Estimador insesgado de varianza mínima (MVU)

Cota Inferior de Cramer-Rao (CRLB) La Cota Inferior de Cramer-Rao establece una cota inferior teórica en la varianza de un estimador insesgado: Utilidad práctica var(ˆθ) CRLB(θ), para todo estimador insesgado ˆθ. Permite afirmar si un estimador insesgado es el estimador MVU. Este es el caso si el estimador alcanza la cota para todos los valores posibles del parámetro desconocido, var(ˆθ) = CRLB(θ), para todo valor de θ Provee una referencia contra la cual comparar el desempeño de cualquier estimador insesgado. Indica la imposibilidad física de encontrar un estimador insesgado con varianza menor que la cota. Esto es útil en estudios de viabilidad. La teoría permite además determinar si existe un estimador que alcanza la cota.

Descripción intuitiva de la CRLB Dependencia de la PDF de los datos con el parámetro Toda la información está contenida en los datos observados y en la función de densidad de probabilidad (PDF) de esos datos. Por lo tanto, la precisión de la estimación depende directamente de la PDF. No se puede esperar una estimación con mucha precisión si la PDF depende débilmente del parámetro. Análogamente, no se puede esperar una estimación precisa si el modelo depende débilmente del parámetro. Cuanto mayor es la influencia del parámetro desconocido sobre la PDF, mejor debería poder estimarse.

Descripción intuitiva de la CRLB Ejemplo: dependencia de la PDF con el parámetro Se quiere estimar el nivel de DC (parámetro A) en WGN cuando se observa una sola muestra, x[0] = A+w[0], donde w[0] = N(0,σ 2 ) Se espera que la estimación sea mejor si σ 2 es pequeño. Un buen estimador insesgado es  = x[0] La varianza del estimador es var(â) = σ2. La precisión del estimador mejora a medida que σ 2 decrece.

Descripción intuitiva de la CRLB Ejemplo: dependencia de la PDF con el parámetro Se considera la PDF para dos valores distintos de varianza [ 1 p i (x[0];a) = exp 1 ] 2πσ 2 i 2σi 2 (x[0] A) 2, con i = 1, 2. Se observa la PDF para x[0] = 3 fijo en función del parámetro desconocido. Se consideran los valores σ 1 = 1/3 y σ 2 = 1. Definición: cuando la PDF es vista como una función del parámetro desconocido con x fijo, se denomina función de verosimilitud. p 1 (x[0]=3;a) con σ 1 =1/3 p 2 (x[0]=3;a) con σ 2 =1 1 1 0.5 0.5 0 0 2 4 6 A 0 0 2 4 6 A

Descripción intuitiva de la CRLB Ejemplo: dependencia de la PDF con el parámetro con σ 1 = 1/3, los valores de A > 4 tienen una probabilidad de ( ) A x[0] Pr{A > 4 x[0] = 3} = 1 Φ = 1 Φ(3) 0.0013 con σ 2 = 1, los valores de A > 4 tienen una probabilidad de ( ) A x[0] Pr{A > 4 x[0] = 3} = 1 Φ = 1 Φ(1) 0.1587 σ 1 σ 2 p 1 (x[0]=3;a) con σ 1 =1/3 p 2 (x[0]=3;a) con σ 2 =1 1 1 0.5 0.5 0 0 2 4 6 A 0 0 2 4 6 A

Descripción intuitiva de la CRLB Ejemplo: dependencia de la PDF con el parámetro Si x N(µ,σ 2 ) Pr{ x µ 3σ} 0.9973. Valores de A en el intervalo x[0]±3σ i son viables. Valores fuera de ese intervalo tienen una probabilidad muy pequeña. Con σ1 = 1/3, los candidatos viables son A [2, 4] Con σ2 = 1, los candidatos viables son A [0, 6] Observaciones La función de verosimilitud p 2 (x[0] = 3;A) tiene una dependencia más débil del parámetro A que p 1 (x[0] = 3;A) por lo que los candidatos viables de A se encuentran en un intervalo mas amplio. Intuitivamente, la agudeza de la función de verosimilitud determina la precisión con la cual es posible estimar el parámetro desconocido. Una forma de medir la agudeza de la función de verosimilitud es a través del opuesto de la derivada segunda respecto al parámetro (curvatura) en el pico.

Descripción intuitiva de la CRLB Derivada segunda del logaritmo de la función de verosimilitud La función de verosimilitud es [ 1 p(x[0];a) = exp 1 ] 2πσ 2 2σ 2(x[0] A)2 El logaritmo de la función de verosimilitud es lnp(x[0];a) = ln 2πσ 2 1 2σ 2(x[0] A)2 Tomando la derivada primera, lnp(x[0];a) A = 1 σ 2(x[0] A). y el opuesto de la derivada segunda queda, 2 lnp(x[0];a) A 2 = 1 σ 2.

Descripción intuitiva de la CRLB Ejemplo: dependencia de la PDF con el parámetro 2 lnp(x[0];a) A 2 = 1 La curvatura crece a medida que la σ 2 varianza del ruido σ 2 decrece. Teniendo en cuenta que el estimador es  = x[0], y por lo tanto su varianza es var(â) = σ2, para este ejemplo particular se cumple que var(â) = 1 2 lnp(x[0];a) A 2 En este ejemplo, la derivada segunda no depende de los datos (x[0]), pero en general lo hará. Por lo tanto, una medida mas apropiada de la curvatura es [ 2 ] lnp(x[0];a) E A 2 Mide la curvatura promedio de la función de verosimilitud logarítmica. La esperanza se toma sobre los datos (x[0] en este caso), resultando en una función únicamente de A.

Resumen Descripción intuitiva de la CRLB Se dispone de un conjunto de datos y un modelo de los datos que depende de un parámetro desconocido que se quiere estimar. El modelo impone una PDF de los datos, la cual depende del parámetro desconocido. Si se considera la PDF como función del parámetro manteniendo fijos los datos, la función se denomina función de verosimilitud. Cuanto mas fuerte es la dependencia de la función de verosimilitud con el parámetro, éste puede estimarse con mayor precisión. Una forma de medir la dependencia de la función de verosimilitud con el parámetro es a través de la concavidad (opuesto de la derivada segunda respecto al parámetro). Cuanto mayor es la concavidad, mayor es la dependencia con el parámetro y mejor puede estimarse el parámetro. El estimador del parámetro tendrá menor varianza cuanto mayor esa la concavidad de la función de verosimilitud.

Cota Inferior de Cramer-Rao Teorema: Cota Inferior de Cramer-Rao, parámetro escalar Hipótesis: La PDF p(x; θ) satisface la condición de regularidad, [ ] lnp(x;θ) θ, E = 0 (1) θ Tésis: La esperanza se toma sobre los datos x. 1. La varianza de todo estimador insesgado ˆθ cumple que 1 var(ˆθ) [ 2 ] (2) lnp(x;θ) E θ 2 La derivada se evalúa en el valor verdadero de θ. La esperanza se toma sobre los datos x. 2. Existe un estimador que alcanza la cota para todo θ si y solo si lnp(x;θ) θ = I(θ)(g(x) θ) para alguna función I y g (3) Este estimador, que es el MVU, es ˆθ = g(x) y su varianza es 1 I(θ).

CRLB. Consideraciones. Esperanza de las derivadas de la función de verosimilitud La esperanza se toma respecto a los datos x, [ 2 ] lnp(x;θ) 2 lnp(x;θ) E θ 2 = θ 2 p(x;θ)dx La esperanza reconoce el hecho de que la función de verosimilitud y sus derivadas son variables aleatorias por depender de los datos observados x. La cota depende en general del parámetro desconocido θ.

CRLB. Consideraciones. Condición de regularidad [ ] lnp(x;θ) lnp(x;θ) E = p(x; θ)dx θ θ (a) p(x;θ) = dx θ (b) = p(x; θ)dx θ (c) = 0 (a) Regla de la cadena (b) Cambio del orden de integración y diferenciación (c) θ, p(x;θ)dx = 1. La condición de regularidad se cumple si es posible cambiar el oreden de integración y diferenciación. Esto es cierto en general salvo cuando el soporte de p(x;θ) depende del parámetro desconocido θ. se deduce de la regla de integración de Leibniz (ver apéndice I) Ejercicio: Demostrar que en el caso en que x U[0,θ] no se cumple la condición de regularidad y por lo tanto no es posible calcular la CRLB.

Ejemplo I CRLB para muestra de DC en WGN Estimar A a partir de x[0] = A+w[0] donde w[0] = N(0,σ 2 ). Eligiendo  = x[0], se tiene que var(â) = σ2. Las derivadas primera y segunda de la función de verosimilitud son, lnp(x[0];a) = 1 A σ2(x[0] A) (4) [visto en la página 9] 2 lnp(x[0];a) A 2 = 1 σ 2 (5) Aplicando la ecuación 2 de la cota de Cramer-Rao se tiene que var(â) σ2 A. No existe un estimador insesgado de varianza menor a σ 2 Conclusión: Como el estimador elegido es insesgado y alcanza la CRLB para todo A, es el estimador MVU.

Ejemplo I CRLB para muestra de DC en WGN En el caso de no haber descubierto a  = x[0] como estimador, se podría emplear la segunda parte del teorema de la CRLB. De la ecuación 3 del teorema de la cota de Cramer-Rao La derivada de la función de verosimiltud es (ec. 4) lnp(x;θ) lnp(x[0];a) = I(θ)(g(x) θ) = 1 θ A σ 2(x[0] A) Identificando términos Se concluye que θ = A I(θ) = 1 σ 2 g(x[0]) = x[0]  = g(x[0]) = x[0] es el estimador MVU. var( Â) = 1 I(θ) = σ2 Como el estimador alcanza la cota, se cumple la ecuación 2 con igualdad, y [ ] 2 lnp(x[0];a) I(θ) = E A 2

Ejemplo II CRLB para nivel de DC en WGN Como generalización del ejemplo anterior, en este caso se observan múltiples muestras del nivel de continua en WGN, x[n] = A+w[n] con n = 0, 1,...,N 1 y w[n] N(0,σ 2 ) n Se quiere determinar la CRLB de A. La función de verosimilitud es N 1 [ 1 p(x;a) = exp 1 ] n=0 2πσ 2 2σ 2(x[n] A)2 [ ] 1 = exp 1 N 1 (2πσ 2 ) N 2 2σ 2 (x[n] A) 2. Tomando el logaritmo queda, n=0 [ ] lnp(x;a) = ln (2πσ 2 ) N 2 1 N 1 2σ 2 (x[n] A) 2 (6) n=0

Ejemplo II CRLB para nivel de DC en WGN Aplicando la derivada primera se tiene que lnp(x;a) A { } = [ ] ln (2πσ 2 ) N 2 1 N 1 A 2σ 2 (x[n] A) 2 = 1 N 1 σ 2 (x[n] A) n=0 ( = N 1 σ 2 N y diferenciando nuevamente, N 1 n=0 x[n] A ) n=0 = N ( x A) (7) σ2 2 lnp(x;a) A 2 = N σ 2

Ejemplo II CRLB para nivel de DC en WGN Teniendo en cuenta que la derivada segunda es constante, empleando la ecuación 2 se obtiene la CRLB, var(â) 1 [ 2 ] = σ2 lnp(x;a) N. (8) E A 2 Además, asociando los términos de la ecuación 7 con los de la ecuación 3 se llega a que  = x (media muestral) alcanza la CRLB y por lo tanto es el estimador MVU. La ecuación 8 se cumple con igualdad, var(â) = 1 I(A) = σ2 N. La varianza del estimador es inversamente proporcional a la cantidad de datos observados.

Ejemplo III Estimación de fase Se quiere estimar la fase φ de una sinusoide contaminada con WGN, x[n] = Acos(2πf 0 n+φ)+w[n] con n = 0, 1,...,N 1, donde w[n] N(0,σ 2 ) para todo n. La derivada del logaritmo de la función de verosimilitud es (ejercicio) lnp(x;φ) φ Además = A N 1 σ 2 n=0 [ x[n]sin(2πf 0 n+φ) A ] 2 sin(4πf 0n+2φ). [ 2 ] lnp(x;φ) E φ 2 NA2 2σ 2 = var(ˆφ) 2σ2 NA 2 No se cumple la condición para alcanzar la cota porque la ecuación 9 no se puede expresar en la forma de la ecuación 3. Es posible que de todas formas exista un estimador MVU, pero mediante el teorema de Cramer-Rao no es posible determinar su existencia ni encontrarlo. (9)

Estimador eficiente Definición Un estimador que es insesgado y alcanza la cota de Cramer-Rao para todos los valores del parámetro desconocido se dice que es eficiente. Obsevación Un estimador MVU puede ser o no ser eficiente. ˆθ 1 es eficiente y MVU ˆθ1 es MVU pero no eficiente ˆθ1 alcanza la CRLB y por lo tanto es el MVU. Ninguno alcanza la CRLB. La varianza de ˆθ 1 es menor que la de los otros estimadores insesgados. Es el MVU.

Definición La información de Fisher para los datos x se define como: Información de Fisher [ 2 ] lnp(x;θ) I(θ) = E θ 2 (10) Cuando un estimador alcanza la CRLB, su varianza es: Propiedades I(θ) tiene las propiedades de una medida de información: 1 var(ˆθ) = [ 2 ] = 1 lnp(x;θ) I(θ) E θ 2 Es no-negativa. Esto puede verse a partir de la siguiente igualdad: -Ejercicio, ver Apéndice 3A [ 2 ] [ ( lnp(x;θ) ) ] 2 en [Kay, 1993] lnp(x;θ) E θ 2 = E θ Es aditiva para observaciones independientes Si I(θ) es la información de N observaciones IID y i(θ) de una única observación -Ejercicio: calcular la CRLB para nivel de DC en WGN I(θ) = Ni(θ)

Información de Fisher Aditividad para observaciones IID La densidad de probabilidad de N observaciones IID cumple que p(x;θ) = p(x[0],x[1],...,x[n 1];θ) = La información de Fisher es entonces [ 2 ] lnp(x;θ) I(θ) = E θ 2 N 1 = n=0 N 1 n=0 p(x[n];θ). [ 2 ] lnp(x[n];θ) E θ 2 = Ni(θ), [ 2 ] lnp(x[n];θ) con i(θ) = E θ 2 la información de Fisher de una muestra. La CRLB al observar N muestras IID es N veces menor que al observar una muestra (como en los ejemplos I y II) Independencia No Independencia Dependencia completa I(θ) = Ni(θ) I(θ) < Ni(θ) I(θ) = i(θ)

CRLB general para señales en WGN Se derivará la CRLB para el caso de una señal s[n;θ] con AWGN, frecuente en la práctica. Sea una señal determinística con un parámetro desconocido θ observada en AWGN, x[n] = s[n;θ]+w[n] con n = 0, 1,...,N 1 y w[n] N(0,σ 2 ) n La función de verosimilitud es [ ] 1 p(x;θ) = exp 1 N 1 (2πσ 2 ) N 2 2σ 2 (x[n] s[n;θ]) 2 Tomando el logaritmo queda n=0 [ ] lnp(x;θ) = ln (2πσ 2 ) N 2 1 N 1 2σ 2 (x[n] s[n;θ]) 2 Diferenciando una vez se tiene que lnp(x;θ) θ n=0 = 1 N 1 σ 2 (x[n] s[n;θ]) s(n;θ) θ n=0

CRLB general para señales en WGN Una segunda diferenciación resulta en [ 2 lnp(x;θ) θ 2 = 1 N 1 σ 2 (x[n] s[n;θ]) 2 s(n;θ) θ 2 n=0 ( ) ] 2 s(n;θ) θ y tomando el valor esperado, ( 2 ) [ lnp(x;θ) E θ 2 = 1σ N 1 ( ) ] 2 2 (E(x[n]) s[n;θ]) 2 s(n;θ) s(n;θ) θ 2 θ n=0 (a) = 1 N 1 ( ) 2 s(n;θ) σ 2, θ n=0 en donde en (a) se empleó que E(x[n]) = s[n;θ]. La CRLB es por lo tanto var(ˆθ) N 1 n=0 σ 2 ( s(n;θ) θ ) 2 (11) Se obtiene una mejor estimación cuando la señal cambia mas rápidamente con el parámetro.

CRLB general para señales en WGN Ejemplo: Estimación de la frecuencia de una sinusoide Se considera una señal sinusoidal en AWGN y se quiere estimar su frecuencia. Sea la señal x[n] = s[n;θ]+w[n] con n = 0, 1,...,N 1 y w[n] N(0,σ 2 ) n donde s[n;f 0 ] = Acos(2πf 0 n+φ) con 0 < f 0 < 1 2 con la amplitud A y la fase φ conocida. Usando la ecuación 11, la CRLB es var(ˆf 0 ) σ 2 A 2 N 1 [2πnsen(2πf 0 n+φ)] 2 n=0

CRLB general para señales en WGN Ejemplo: Estimación de la frecuencia de una sinusoide Observaciones En la precisión del estimador hay frecuencias preferidas. Cuando f 0 0, CRLB. Esto es porque para f 0 0, pequeños cambios en f 0 no alteran la señal significativamente. Mediante la teoría de Cramer-Rao, se encontró una cota de la varianza del estimador, pero no es posible encontrar el estimador en este ejemplo. 4 x 10 4 Estimacion de frecuencia, N = 10, φ = 0, SNR = 0 db CRLB 3 2 1 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 Frecuencia

Transformación de parámetros Ejemplo: potencia de DC en WGN En el Ejemplo II se vio que x es un estimador eficiente de A. Podría ocurrir que no interese el signo de A y en cambio interese por ejemplo, la potencia A 2 de la señal. Surgen las preguntas: 1. x 2 es un buen estimador de A 2? 2. Cómo obtener la CRLB de A 2? 1. x 2 como estimador de A 2 : estudio del sesgo. Como x es un estimador eficiente de A y la CRLB(A) = σ 2 /N, x N(A,σ 2 /N) E ( x 2) = E 2 ( x)+var( x) = A 2 + σ2 N (12) A 2 x 2 ni siquiera es un estimador insesgado de A 2 Una transformación no lineal destruye la eficiencia de un estimador.

Transformación de parámetros Ejemplo: potencia de DC en WGN 2. Cálculo de la CRLB de A 2 Teorema: La CRLB del estimador de α = g(θ) es ( ) 2 g θ var(ˆα) [ 2 ] = lnp(x;θ) E θ 2 Ver demostración en Apéndice 3A en [Kay, 1993] En el caso del ejemplo, α = g(a) = A 2 y por lo tanto, ( ) 2 g CRLB(ˆθ) (13) θ var(â2 ) (2A)2 N/σ 2 = 4A2 σ 2 N (14) Observación: Al emplear la ecuación 13, la CRLB queda en general expresada en función del valor del parámetro θ.

Transformación de parámetros Eficiencia bajo transformaciones lineales Se supone que ˆθ es un estimador eficiente de θ y se quiere estimar g(θ) = aθ +b. Como estimador se elige ĝ(θ) = g(ˆθ) = aˆθ +b. Esperanza Varianza CRLB ( ) 2 ) g E (ĝ(θ) = E(aˆθ +b) ) ) θ var (ĝ(θ) var (ĝ(θ) = var(aˆθ +b) I(θ) = ae(ˆθ)+b ( ) 2 = aθ +b = a 2 var(ˆθ) g = var(ˆθ) θ = g(θ) = a 2 var(ˆθ) ) El estimador transformado es insesgado, ya que E (ĝ(θ) = g(θ). También es eficiente, ya que la varianza coincide con la CRLB. Las transformaciones lineales mantienen la eficiencia de los estimadores

Transformación de parámetros Sesgo y eficiencia asintóticos La eficiencia es aproximadamente mantenida bajo transformaciones no lineales si el conjunto de datos es suficientemente grande Estimador asintóticamente insesgado: lim N E(ˆθ) = θ Estimador asintóticamente eficiente: lim N var(ˆθ) = CRLB(θ) Ejemplo: potencia de DC en WGN Previamente se vio que x 2 es un estimador sesgado de A 2. Sin embargo, la esperanza es (ecuación 12) E( x 2 ) = A 2 + σ2 N N A2 x 2 es un estimador asintóticamente insesgado de A 2

Transformación de parámetros Ejemplo: potencia de DC en WGN Además, como x N(A,σ 2 /N) es posible evaluar la varianza, var( x 2 ) = E( x 4 ) E 2 ( x 2 ) Observación: Si ξ N(µ,σ 2 ), los momentos segundo y cuarto son respectivamente, E(ξ 2 ) = µ 2 +σ 2 E(ξ 4 ) = µ 4 +6µ 2 σ 2 +3σ 4 Demostración: ejercicio. var(ξ 2 ) = E(ξ 4 ) E 2 (ξ 2 ) = 4µ 2 σ 2 +2σ 4 var( x 2 ) = 4A2 σ 2 N + 2σ4 4A 2 σ 2 N 2 N N = CRLB( x2 ) x 2 es un estimador asintóticamente eficiente de A 2

Transformación de parámetros Linealidad estadística de una transformación no lineal A medida que crece N, la PDF de x se concentra alrededor de la media A. Los valores observados de x están en un intervalo pequeño en torno de A. En ese intervalo pequeño, la transformación no lineal es aproximadamente lineal. Los valores de x en la región no lineal ocurren raramente. N pequeño N grande

Transformación de parámetros Linealidad estadística de una transformación no lineal Formalmente, esto se puede ver linealizando la transformación g en A, g( x) g(a)+ dg(a) da ( x A). Con esta aproximación, se cumple que E[g( x)] = g(a)+ dg(a) da (E( x) A) = g(a) = A 2 El estimador es asintóticamente insesgado [ ] 2 dg(a) var[g( x)] = var( x) (15) da = (2A) 2σ2 N = 4A2 σ 2 N El estimador alcanza la CRLB asintóticamente La linealización conduce a un estimador asintóticamente eficiente. La ecuación 15 provee intuición de la forma de la ecuación 13.

Transformación de parámetros Resumen Una transformación lineal de un estimador eficiente mantiene la eficiencia. El estimador transformado es un estimador eficiente del parámetro transformado. Una transformación no lineal de un estimador eficiente destruye la eficiencia, e incluso puede hacerlo sesgado. Sin embargo, el estimador transformado no linealmente es asintóticamente insesgado y eficiente. Cuando la cantidad N de datos crece, el estimador tiende a ser insesgado y eficiente.

Extensión a vector de parámetros Se estudiará la extensión de los resultados al caso en que hay mas de un parámetro desconocido. Se desea estimar el vector de parámetros θ = [θ 1 θ 2...θ p ] T. Asumiendo que el estimador ˆθ es insesgado, la CRLB para un vector de parámetros establece una cota en la varianza de cada elemento, var(ˆθ i ) [ I 1 (θ) ] ii, donde I(θ) es la matriz de información de Fisher p p. La matriz de información de Fisher se define como [ 2 ] lnp(x;θ) i = 1, 2,...,p [I(θ)] ij = E, con θ i θ j j = 1, 2,...,p (16) en donde al evaluar esta ecuación hay que emplear el valor verdadero de θ. Notar que en el caso escalar (p = 1), I(θ) = I(θ), con I(θ) definida en la ecuación 10, obteniendo la CRLB escalar.

Ejemplo IV CRLB para nivel de DC en WGN Como extensión del Ejemplo II, se considera la observación de N muestras del nivel de continua en WGN, x[n] = A+w[n] con n = 0, 1,...,N 1 y w[n] N(0,σ 2 ) n pero ahora, además de desconocerse A también se desconococe σ 2. En este caso, el vector de parámetros es θ = [ A σ 2] T, y p = 2. La matriz de información de Fisher 2 2 es, [ 2 ] [ lnp(x;θ) 2 ] lnp(x;θ) E I(θ) = A 2 E A σ 2 [ 2 ] [ lnp(x;θ) 2 ] lnp(x;θ), E σ 2 E A simétrica y definida positiva. σ 22

Ejemplo IV CRLB para nivel de DC en WGN La función de verosimilitud logarítmica, al igual que en el ejemplo II (ecuación 6), es lnp(x;θ) = N 2 ln2π N 2 lnσ2 1 N 1 2σ 2 (x[n] A) 2. y las derivadas son (ejercicio), 2 lnp(x;θ) A 2 = N σ 2 2 lnp(x;θ) A σ 2 = 1 σ 4 2 lnp(x;θ) σ 22 n=0 N 1 (x[n] A) n=0 = N 2σ 4 1 N 1 σ 6 (x[n] A) 2 n=0

Ejemplo IV CRLB para nivel de DC en WGN Tomando el opuesto de la esperanza, se construye la matriz de Fisher, I(θ) = N 0 σ 2 N 0 2σ 4. Como en este caso la matriz de Fisher es diagonal, es fácil de invertir, conduciendo a que la cota de Cramer-Rao es Observaciones σ2 var(â) N var( ˆσ 2 ) 2σ4 N La CRLB de  es la misma que en el caso en que σ2 es conocido (ejemplo II). Análogamente, se puede ver que la CRLB de ˆσ 2 es la misma si A es conocido (ejercicio). Lo anterior se debe a que la matriz de Fisher es diagonal.

Extensión a vector de parámetros Teorema: Cota Inferior de Cramer-Rao, parámetro vectorial Hipótesis: La PDF p(x; θ) satisface la condición de regularidad, [ ] lnp(x;θ) θ, E θ Tésis: = 0 La esperanza se toma respecto a los datos x. 1. La matriz de covarianza de todo estimador insesgado ˆθ cumple que [ Cˆθ I 1 2 ] lnp(x;θ) (θ) 0, donde [I(θ)] ij = E (17) θ i θ j I(θ) es la matriz de información de Fisher 0 se interpreta en el sentido de matriz semidefinida positiva La derivada se evalúa en el valor verdadero de θ. La esperanza se toma respecto a los datos x. 2. Existe un estimador que alcanza la cota Cˆθ = I 1 (θ) si y solo si para alguna función g : R lnp(x;θ) N R p y = I(θ)(g(x) θ) (18) alguna matriz I p p. θ Ese estimador es ˆθ = g(x) con matriz de covarianza I 1, MVU.

Consecuencias Extensión a vector de parámetros Como en una matriz semidefinida positiva todos los elementos de la diagonal son no negativos, la ecuación 17 implica que [ Cˆθ I 1 (θ) ] ii 0 Por lo tanto, la varianza de cada elemento del vector estimador cumple que var(ˆθ i ) = [ ] Cˆθ [ I 1 (θ) ]. (19) ii ii Si se cumple la condición de la ecuación 18, la ecuación 19 se cumple con igualdad, var(ˆθ i ) = [ I 1 (θ) ] ii. El estimador ˆθ = g(x) es eficiente y por lo tanto MVU. Ver la definición de la matrix de covarianza en el apéndice en pag. 45

Distribución de probabilidad Apéndice I La distribución de probabilidad (CDF, Cumulative Distribution Function) de una variable aleatoria real X se define como F X (x) = Pr{X x}. Se puede expresar como la integral de la PDF p X (x) como F X (x) = x p X (u)du. p X (x)=n(0,1) 1 0.5 Si X N(0,1), la CDF se denomina función Φ, 3 Φ(x) 3 x Φ(x) = 1 2π x e u2 /2 du, 1 0.5 y sus valores están tabulados. 3 3 x

Apéndice I Distribución de probabilidad Si X es una variable aleatoria con X N(µ,σ 2 ), se cumple que ( ) x µ Pr{X x} = Φ σ Notar que la transformación de la variable aleatoria hace que X N(0,1). x = x µ σ

Apéndice II Regla de Integración de Leibniz ( ) d b(θ) b(θ) f(x, θ) f(x,θ)dx = dx+f ( b(θ),θ ) b (θ) f ( a(θ),θ ) a (θ) dθ a(θ) a(θ) θ De la regla surge que el orden de derivación y integración puede cambiarse si los ĺımites de integración no dependen de θ, a(θ) = a b(θ) = b a (θ) = b (θ) = 0, y ( d b ) b f(x, θ) f(x,θ)dx = dx. dθ a a θ

Covarianza Apéndice III La covarianza entre dos variables aleatorias X y Y se define como cov(x,y) = E [ (X E[X])(Y E[Y]) ] = E[XY] E[X]E[Y]. Es una medida de la dependencia entre variables aleatorias. Definición: dos variables aleatorias X y Y se dicen no correlacionadas si cov(x,y) = 0. Independencia: si dos variables aleatorias X y Y son independientes se cumple que cov(x,y) = 0, cov(x,y) = E[XY] E[X]E[Y] = E[X]E[Y] E[X]E[Y] = 0. (Lo recíproco no es cierto.)

Apéndice III Matriz de Covarianza Sea el vector de variables aleatorias X = [ ] T, X 1 X 2...X n la matriz de covarianza se define como C = E [(X E[X])(X E[X]) T] donde la esperanza de un vector y una matriz con entradas aleatorias se define como la esperanza de las entradas.

Apéndice III Matriz de Covarianza C = E[(X 1 µ 1)(X 1 µ 1)] E[(X 1 µ 1)(X 2 µ 2)] E[(X 1 µ 1)(X n µ n)] E[(X 2 µ 2)(X 1 µ 1)] E[(X 2 µ 2)(X 2 µ 2)] E[(X 2 µ 2)(X n µ n)]............ E[(X n µ n)(x 1 µ 1)] E[(X n µ n)(x 2 µ 2)] E[(X n µ n)(x n µ n)] = var(x 1) cov(x 1,X 2) cov(x 1,X n) cov(x 2,X 1) var(x 2) cov(x 2,X n)............ cov(x n,x 1) cov(x n,x 2) var(x n)

Referencias I Kay, S. M. (1993). Fundamentals of Statistical Signal Processing, Volume I: Estimation Theory, chapter 3. Prentice Hall, 1st edition.