Introducción a la Teoría de la Información

Documentos relacionados
Introducción a la Teoría de la Información

Introducción a la Teoría de la Información

Estadística. Tema 2. Variables Aleatorias Funciones de distribución y probabilidad Ejemplos distribuciones discretas y continuas

Variables aleatorias continuas, TCL y Esperanza Condicional

Vectores Aleatorios. Definición 1.1. Diremos que el par (X,Y) es un vector aleatorio si X e Y representan variables aleatorias

Integrales múltiples

Integral de Lebesgue

2 de mar de 2004 Codificación de imágenes y v ideo

1. Teorema de Fubini. Teorema de Fubini.

Cálculo de probabilidad. Tema 3: Variables aleatorias continuas

Variables aleatorias

Variables aleatorias

VARIABLES ALEATORIAS CONTINUAS

Tema 6: Modelos de probabilidad.

AMPLIACIÓN DE MATEMÁTICAS

1. Construcción de la Integral

Ejercicios sobre probabilidades y entropías

ENUNCIADO y SOLUCIONES. Problema 1

Tema 2: Variables Aleatorias Unidimensionales

Derivada de la función compuesta. Regla de la cadena

Distribuciones de probabilidad bidimensionales o conjuntas

Teoremas de convergencia y derivación bajo el signo integral

Funciones integrables en R n

Variables aleatorias. Tema Introducción Variable aleatoria. Contenido

VARIABLES ALEATORIAS CONTINUAS

Por ser f continua y R compacto, existen x 0, y 0 en R tales que f(x 0 ) = sup{f(t) : t R} y f(y 0 ) = inf{f(t) : t R}

( ) DISTRIBUCIÓN UNIFORME (o rectangular) 1 b a. para x > b DISTRIBUCIÓN DE CAUCHY. x ) DISTRIBUCIÓN EXPONENCIAL. α α 2 DISTRIBUCIÓN DE LAPLACE

Clase 4: Cuantificación. Eytan Modiano Departamento de astronáutica y aeronáutica. Eytan Modiano Slide 1

Integrales múltiples

Tema 5. Muestreo y distribuciones muestrales

Integrales dobles. Integrales dobles

Tema 4: Variables aleatorias multidimensionales

ESTADÍSTICA I Tema 2: Algunas ideas básicas sobre inferencia estadística. Muestreo aleatorio

Ejercicios de Variables Aleatorias

Tema 4: Variable Aleatoria Bidimensional

Otras distribuciones multivariantes

Teoría de la decisión

Curso Propedéutico de Cálculo Sesión 3: Derivadas

TEMA 1 VARIABLES ALEATORIAS MULTIDIMENSIONALES

El teorema de Lebesgue

Cuáles son las características aleatorias de la nueva variable?

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Movimiento Browniano o proceso de Wiener

Tema 4: Variables aleatorias multidimensionales

Departamento de Matemática Aplicada a la I.T.T.

Sucesiones y series de funciones

Intersección y suma de subespacios

Teoría de la decisión

Capítulo 1. Teoría de la probabilidad Teoría de conjuntos

1.- Primitiva de una función ( )

Definición Se dice que una variable aleatoria X es continua si su conjunto de posibles valores es todo un intervalo (finito o infinito) de números

Ejercicio 1. Ejercicio 2

EL4005 Principios de Comunicaciones Clase No.10: Repaso de Probabilidades

Tema 13: Distribuciones de probabilidad. Estadística

Unidad 1: Espacio de Probabilidad

Estadistica II Tema 0. Repaso de conceptos básicos. Curso 2009/10

1. Medida Exterior. Medida de Lebesgue en R n

Distribución conjunta de variables aleatorias

Integración indefinida y definida. Aplicaciones de la integral: valor medio de una función continua.

Ruido en los sistemas de comunicaciones

Variables aleatorias bidimensionales discretas

Sistemas autónomos. Introducción a la teoría cualitativa.

El Teorema de Recurrencia de Poincaré

Part I. Variables aleatorias unidimensionales. Estadística I. Mario Francisco. Definición de variable aleatoria. Variables aleatorias discretas

Tema 6. Variables aleatorias continuas

Propiedades de la integral

Tema 3: Función de Variable Aleatoria y Teoremas Asintóticos

Introducción a los códigos compresores

1 Método de la bisección. 1.1 Teorema de Bolzano Teorema 1.1 (Bolzano) Contenido

DISTRIBUCIONES DE PROBABILIDAD

Extremos Locales. Un punto x 0 es un punto crítico de f si Df(x 0 ) = 0. Un punto crítico que no es un extremo local se llama punto silla.

Tema 6: Introducción a la Inferencia Bayesiana

+ ax 2 + bx) x. ( 2 sen(x) 0 (a + b sen(x) sen(2x))2 dx sea mínima.

GRADO de TELECOMUNICACIONES

Principios de reducción de la data

Tema 3. Probabilidad y variables aleatorias

El teorema de Stokes. 1. Integración de formas en variedades

CC40A Complejidad de Kolmogorov

Integrales Dobles. Hermes Pantoja Carhuavilca. Matematica II. Facultad de Ingeniería Industrial Universidad Nacional Mayor de San Marcos

Tema 5: Vectores aleatorios bidimensionales.

PROBABILIDAD Y ESTADÍSTICA. Sesión 6 (A partir de tema 5.9)

Variables aleatorias unidimensionales

Estadísticas y distribuciones de muestreo

1. Teorema de Cambio de Variable para la Integral de Riemann.

Introducción al Tema 9

Kolmogorov y la teoría de la la probabilidad. David Nualart. Academia de Ciencias y Universidad de Barcelona

Temario 4.Campo Eléctrico

Generación de variables aleatorias discretas Método de la Transformada Inversa

1. La Distribución Normal

Martingalas. Es decir, condicionando al pasado, la ganancia neta esperada luego del turno siguiente es cero. Esto es, el juego es justo.

6 Variables aleatorias independientes

Tema 3: Variables aleatorias y vectores aleatorios bidimensionales

La reordenación aleatoria de un conjunto finito

1. Funciones Medibles

Funciones elementales

Coordinación de Matemática I (MAT021) 1 er Semestre de 2013 Semana 7: Lunes 22 - Viernes 27 de Abril. Contenidos

Curso: Métodos de Monte Carlo Unidad 3, Sesión 7: Problemas de conteo

Comenzamos recordando algunos conceptos de la topología de l - R 2. Dado a lc y ɛ > 0 se llama bola abierta de centro a y radio ɛ al conjunto

Esperanza condicionada Apuntes de clase Probabilidad II (grupos 31 y 40) Curso

Modelos de probabilidad. Modelos de probabilidad. Modelos de probabilidad. Proceso de Bernoulli. Objetivos del tema:

Transcripción:

Introducción a la Teoría de la Información Entropía diferencial. Facultad de Ingeniería, UdelaR (Facultad de Ingeniería, UdelaR) Teoría de la Información 1 / 19

Definición Definición (Entropía diferencial) Para una variable aleatoria X con densidad de probabilidad f(x) de soporte S, se define como: h (X) = f(x) log f(x) dx S Para variables aleatorias continuas Similar a la entropía discreta Algunas diferencias importantes, hay que usarla con cuidado. Puede no existir para ciertas f(x). (Facultad de Ingeniería, UdelaR) Teoría de la Información 2 / 19

Ejemplos Ejemplo (Distribución uniforme en (0, a)) h (X) = a Para a < 1, h (X) = log a es negativa 0 1 a log 1 dx = log a a (Facultad de Ingeniería, UdelaR) Teoría de la Información 3 / 19

Ejemplos Ejemplo (Distribución Normal X φ(x) = 1 h (X) = φ(x) log φ(x) = 1 2 log(2πeσ2 )bits 2πσ 2 e x2 /2σ 2 ) (Facultad de Ingeniería, UdelaR) Teoría de la Información 4 / 19

AEP Teorema (AEP) X 1... X n variables i.i.d., X i f(x) 1 n log f(x 1, X 2,..., X n ) E [ log f(x)] = h (X) Definición (Conjunto típico) { A (n) ɛ = (x 1, x 2,..., x n ) S n : 1 } n log f (x 1, x 2,..., x n ) h (X) ɛ (Facultad de Ingeniería, UdelaR) Teoría de la Información 5 / 19

Propiedades de A (n) ɛ Propiedades ( ) P A ɛ (n) > 1 ɛ para n suf. grande ( ) Vol A (n) ɛ 2 n(h(x)+ɛ) para todo n ( ) Vol (1 ɛ)2 n(h(x) ɛ) para n suf. grande A (n) ɛ Las pruebas son análogas a las demostradas para el conjunto típico de una variable aleatoria discreta. (Facultad de Ingeniería, UdelaR) Teoría de la Información 6 / 19

Algunas observaciones El volumen del conjunto típico es aproximadamente 2 nh, o sea el volumen de un cubo n-dimensional de lado 2 h. Esto da una interpretación de h(x) como el logaritmo del lado de un cubo, que tiene el mismo volumen que un subconjunto del soporte de X que concentra la mayoría de la probabilidad. (Facultad de Ingeniería, UdelaR) Teoría de la Información 7 / 19

Entropía diferencial y Entropía discreta (1) Dividimos el soporte S de X f(x) en intervalos de ancho Para f continua, por Teorema del Valor Medio podemos tomar en cada intervalo un punto x i tal que f(x i ) = (i+1) Definimos X = x i i X < (i + 1) i f(x)dx (Facultad de Ingeniería, UdelaR) Teoría de la Información 8 / 19

Entropía diferencial y Entropía discreta (2) Pr { X = x i } = (i+1) i f(x)dx = f(x i ) X es una variable aleatoria discreta con entropía dada por: H ( X ) = = p i log p i f(x i ) log ( f(x i )) = f(x i ) log (f(x i )) f(x i ) log ( ) = f(x i ) log (f(x i )) log (Facultad de Ingeniería, UdelaR) Teoría de la Información 9 / 19

Entropía diferencial y Entropía discreta (3) Teorema (h(x) vs H(X )) Si f(x) log f(x) es integrable Riemann, H(X ) + log h(f) = h(x) cuando 0 Si tomamos = 2 n, vemos que, para n grande, h(x) + n es aproximadamente la cantidad de bits promedio necesarios para codificar X con n bits de precisión. (Facultad de Ingeniería, UdelaR) Teoría de la Información 10 / 19

Entropía diferencial y Entropía discreta (4) Ejemplo (X U(0, a), h(x) = log a) Si X U(0, 1), h(x) = 0 entonces h(x) + n = n coincide con la cantidad necesaria de bits para describir X con n bits de precisión. X U(0, 1 8 ), los 3 bits a la derecha del punto en la representación binaria de X quedan en 0, o sea que describir X con n bits de precisión requiere sólo n 3 bits, que coincide con h(x) + n = log 1/8 + n. (Facultad de Ingeniería, UdelaR) Teoría de la Información 11 / 19

Entropía diferencial conjunta y condicional Definición (Entropía conjunta) h(x, y) = f(x, y) log f(x, y)dxdy Definición (Entropía condicional) h(x Y ) = f(x, y) log f(x y)dxdy S Regla de la cadena De forma similar al caso discreto, obtenemos h(x, Y ) = h(x) + h(y X) (Facultad de Ingeniería, UdelaR) Teoría de la Información 12 / 19

Entropía relativa e Información mutua Definición (Distancia de Kullback-Leibler) D(f g) = f log f g Notar que D es finita sólo si el soporte de f está contenido en el de g. Definición (Información mutua) f(x, y) I(X; Y ) = f(x, y) log f(x)f(y) dxdy Por definición se obtiene, al igual que para el caso discreto, que I(X; Y ) = h(x) h(x Y ) = h(y ) h(y X) I(X; Y ) = D (f(x, y) f(x)f(y)) (Facultad de Ingeniería, UdelaR) Teoría de la Información 13 / 19

Definición general de información mutua Definición (Información mutua) Sean X, Y los soportes de X, Y, respectivamente. I(X; Y ) = sup I([X] P ; [Y ] Q ) P,Q Donde P = {P i } i=1...np y Q = {Q i } i=1...nq son particiones finitas de X, Y, respectivamente, y se cumple Pr {[X] P = i} = Pr {X P i } ; Pr {[Y ] Q = i} = Pr {Y Q i }. Esta definición aplica a variables discretas, continuas, y mezclas de uno y otro tipo. Si P refina P, [X] P es función de [X] P, por lo tanto podemos escribir [Y ] Q [X] P [X] P y por la desigualdad de procesamiento de datos I([X] P ; [Y ] Q ) I([X] P ; [Y ] Q ) (Facultad de Ingeniería, UdelaR) Teoría de la Información 14 / 19

Definición general de información mutua Cuando X, Y son discretas de alfabeto finito, para particiones P y Q suficientemente finas se cumple que H([X] P ) = H(X) H([Y ] Q ) = H(Y ) H([X] P, [Y ] Q ) = H(X, Y ) sup I([X] P ; [Y ] Q ) = H(X) + H(Y ) H(X, Y ) = I(X; Y ) P,Q (Facultad de Ingeniería, UdelaR) Teoría de la Información 15 / 19

Definición general de información mutua Cuando X continua, Y discreta de alfabeto finito, consideremos particiones P y Q a intervalos regulares de ancho. Entonces, I(X ; Y ) = H(X ) + log (H(X Y ) + log ) = H(X ) + log ( ) p(y = i) H(X Y = i) + log Para suficientemente chico, = H(X ) + log ( ) p(y = y i ) H(X Y = y i ) + log h(x) ( ) p(y = y i ) h(x Y = y i ) = h(x) h(x Y ) (Facultad de Ingeniería, UdelaR) Teoría de la Información 16 / 19

Definición general de información mutua Cuando X, Y continuas, también puede verse que I(X ; Y ) h(x) + h(y ) h(x, Y ) = I(X; Y ) (Facultad de Ingeniería, UdelaR) Teoría de la Información 17 / 19

Propiedades 1 D(f g) 0 con igualdad sii f = g en casi todo punto 2 I(X; Y ) 0 con igualdad sii X, Y independientes 3 I(X; Y ) = h(x) h(x Y ) 4 h(x) h(x Y ) con igualdad sii X, Y independientes 5 h(x 1, X 2,..., X n ) = n i=1 h(x i X 1,..., X i 1 ) 6 h(x 1, X 2,..., X n ) h(x i ) 7 Si X Y Z, I(X; Y ) I(X; Z) 8 h(x + c) = h(x) 9 h(ax) = log a + h(x) 10 Para un vector X, h(ax) = log det A + h(x) (Facultad de Ingeniería, UdelaR) Teoría de la Información 18 / 19

La distribución normal maximiza h para varianza dada Teorema Sea X R n con media cero y covarianza K = E [ XX t]. Entonces h(x) 1 2 log(2πe)n K con igualdad sii X tiene distribución normal. Demostración. Sea g densidad de probabilidad con media cero y covarianza K. Sea φ(x) = 1 ( 2π) n K e 1 2 xt K 1 x D(g φ) = g log g/φ = h(g) = h(g) E g [log φ(x)] g log φ = h(g) E φ [log φ(x)] porque E φ [X i X j ] = E g [X i X j ] = h(g) + h(φ), dado que x T K 1 x es una forma cuadrática. (Facultad de Ingeniería, UdelaR) Teoría de la Información 19 / 19