Unidad 5: Entropía y Fuente del Teorema de Codificación de Shannon

Documentos relacionados
2 de mar de 2004 Codificación de imágenes y v ideo

Teoría de la información breve introducción práctica. Javier García, Graphics & Imaging Laboratory (UdG)

Introducción a la Teoría de la Información

Estructura de Datos. Códigos de Huffman. Primer Semestre, Compresión de Archivos. Compresión de Archivos

Universidad Simón Bolívar Departamento de Computación y Tecnología de la Información Organización del Computador CI-3815

Análisis y Complejidad de Algoritmos. Arboles Binarios. Arturo Díaz Pérez

Un canal de comunicación puede ser definido como el medio a través del cual la señal del mensaje se propaga desde la fuente hasta el destino.

Compresión. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Teoría de la Información

Compresión de Vídeo. Juan A. Michell Mar>n Gustavo A. Ruiz Robredo. Tema 1.5. Codificación entrópica. Departamento de Electrónica y Computadores

Algoritmos glotones 2 (código de Huffman) mat-151

EL4005 Principios de Comunicaciones Clase No. 11: Modelamiento de Fuentes de Información

CI5438. Inteligencia Artificial II Clase 4: Aprendizaje en Árboles. Cap 18.3: RN

Sobre Codificación Conjunta Fuente-Canal

F. Javier Gil Chica 2010

Tema 7: Teoría de la Información Estadística p. 1/16

Teoría de la Información Estadística p. 1/1

ÁRBOLES CRISTIAN ALFREDO MUÑOZ ÁLVAREZ JUAN DAVID LONDOÑO CASTRO JUAN PABLO CHACÓN PEÑA EDUARDO GONZALES

Teoría de Información y Codificación Ejercicios adicionales (temas correspondientes al primer parcial)

Práctica 5. Códigos Huffman y Run-Length

TRANSMISIÓN DE DATOS 2005/06. Lea atentamente estas instrucciones y no de la vuelta a esta hoja hasta que se le indique

Aprendizaje Automático. Objetivos. Funciona? Notas

Tema 2. Códigos sin prefijos

Tratamiento probabilístico de la Información. INGENIERÍA DE SISTEMAS Cursada 2017

Algoritmos y Complejidad

MATRIZ DE ARBOLES DE DECISION

Introducción a la Teoría de la Información Codificación de fuentes

SISTEMAS DE COMUNICACIONES

Algo sobre Compresión de Datos

ALGORITMO ID3. Objetivo

Sistemas de comunicación

Comunicaciones Digitales

Análisis de algoritmos

Compresión de Datos. Método de Huffman. Dpto. Informática

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.

Lógica: Algoritmo: Archivo: Base de datos: Bit:

Banda Ancha. Compresión, Almacenamiento y Transmisión Eficiente de Señales de Voz, Video y Datos. MSc. Luis Rojas

Introducción a la Teoría de la Información

Árboles. Un grafo no dirigido es un árbol si y sólo si existe una ruta unica simple entre cualquiera dos de sus vértices.

EL4005 Principios de Comunicaciones Clase No.22: Señalización Ortogonal

Almacenamiento de imágenes digitales. Primera parte

Análisis y Diseño de Algoritmos

EL4005 Principios de Comunicaciones Clase No.10: Repaso de Probabilidades

I. CARACTERISTICAS DEL ALGORITMO ID3

Teoría de la Información Estadística

COMPRESIÓN DE MENSAJES

Procesamiento Digital de Imágenes. Pablo Roncagliolo B. Nº 16

ARBOLES DE DECISION. Miguel Cárdenas-Montes. 1 Introducción. Objetivos: Entender como funcionan los algoritmos basados en árboles de decisión.

FICHEROS Y BASES DE DATOS (E44) 3º INGENIERÍA EN INFORMÁTICA. Tema 3. Estructuras de Almacenamiento. Básicas. Definición y Manejo.

Matemáticas Discretas Probabilidad

Arboles de Decisión (II) Carlos Hurtado L. Depto de Ciencias de la Computación, Universidad de Chile

Análisis de algoritmos

Bits, bans y nats: Unidades de medida de cantidad de información

Características y uso. Recordando. La criptografia define una función de

Análisis y Diseño de Algoritmos

12/08/2017 AVL. Especificación sobre árboles AVL. AVL: rotaciones

Algoritmos y Estructuras de Datos III

Elementos de Probabilidad y Estadística. Primer Examen. Parte 2

CC40A Complejidad de Kolmogorov

Modelos estadísticos y la entropía del lenguaje. Dr. Luis Alberto Pineda Cortés

Orden de las clases...

Indexación y Asociación

Estructuras de Datos. Practica 06: Codificación de Huffman

Capítulo 1. Teoría de la probabilidad Teoría de conjuntos

Relación de Ejercicios. Programación Paralela 4º de Grado en Ingeniería Informática.

Aprendizaje Automático

2. SEÑALES Y SISTEMAS DISCRETOS EN EL TIEMPO. Una señal puede ser definida como una portadora física de información. Por ejemplo,

A veces queremos almacenar algún elemento que es Verdadero o Falso. Este tipo de dato se llama Booleano y su representación es sencilla, para cada

EVALUACIÓN EN APRENDIZAJE. Eduardo Morales y Jesús González

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Capítulo 4: Grafos Clase 4: Árboles

Tratamiento probabilístico de la Información. INGENIERÍA DE SISTEMAS Cursada 2016

Demostrando cotas inferiores: Arboles de decisión

Parte A. Ing. Roque Castillo Investigación y Salud III

Algoritmos y Estructuras de Datos III

Matemáticas Discretas Enrique Muñoz de Cote INAOE. Permutaciones y Combinaciones

TEMA 6 Solución a alguno de los ejercicios propuestos en la hoja de problemas

SISTEMAS INTELIGENTES

Estructuras de Datos. Montículos. Montículos. Montículos. Tema 3. Montículos. Definiciones básicas: Definiciones básicas:

Definiciones: conjuntos, grafos, y árboles. Agustín J. González ELO 320: Estructura de Datos y Algoritmos. 2002

CAPÍTULO 2. ÁRBOLES 2.0. CONCEPTOS GENERALES

Ataque de texto claro escogido contra la clave de protocolo del cifrado de Doble Criptograma Simétrico

Introducción a los códigos compresores

Implementación de diccionarios sobre Trie en C++

Curso Básico de Computación

Introducción a la Teoría de la Información

Árboles de Decisión Árboles de Sintaxis

Capítulo 2: Código detector de errores. Materia: Teoría de la información y métodos de codificación.

Teoría de la Información y Codificación

Aprendizaje Automático

Máquinas de estado finito y expresiones regulares

OCW-V.Muto El método de la Secante Cap. VIII CAPITULO VIII. EL METODO DE LA SECANTE 1. INTRODUCCION Y METODO

Método simplex para redes (representaciones gráficas) Cálculo del flujo de un árbol de expansión

Tema 8: ALMACENAMIENTO

1. Experimentos aleatorios

COMUNICACIÓN DE DATOS

Inteligencia Artificial

Estructura de datos y de la información Boletín de problemas - Tema 10

Física Estadística. A entregar: Viernes 25 de febrero de 2011.

Transcripción:

Unidad 5: Entropía y Fuente del Teorema de Codificación de Shannon

En ésta unidad empezamos a ver la teoría de la información, al cual nos permitirá aprender mas sobre las propiedades fundamentales de códigos generales sin tener que diseñarlos. La teoría de la información es una parte de la física que trata de describir qué es la información y cómo podemos trabajar con ella. Como todas las teorías en la física, es un modelo del mundo real el cual es aceptado como verdadero siempre mientras que éste pueda predecir con suficiente precisión cómo actúa la naturaleza.

Motivación Empezamos éste subtema preguntándonos sobre lo que es la información. A partir de éste punto, podemos reforzar varios puntos, tales como: El número de posibles respuestas r a algún problema o pregunta debería de estar relacionada con la información. La información debería de ser aditiva de alguna forma (o sea, se acumula a medida que se obtiene más información). Una medida de la información correcta necesita tomar en consideración las probabilidades de los varios posibles eventos

Podemos calcular cualquier medida deseada información con la fórmula I U log b r Donde r es el número de todos los resultados posibles de un mensaje aleatorio U. Podemos utilizar ésta fórmula para confirmar la propiedad antes mencionada de la adición: I U 1, U 2,, U n = log b r n = n log b r = n I(U)

La medida de la información de Shannon es una información de Hartley promedio, la cual es representada de la siguiente manera: r i=1 p i log 2 1 p i r = p i log 2 p i i=1 Donde pi denota la probabilidad del resultado posible en la i vez

Incertidumbre o entropía Debido a su relación con un concepto que corresponde a diferentes áreas de la física, Shannon denominó a su medida como entropía; sin embargo, incertidumbre es una definición más precisa. Dicho esto, la entropía o incertidumbre de un mensaje aleatorio U que toma diferentes valores r con probabilidad pi, i=1,, r, es definida como: H U p i log b p i r i=1

Es importante señalar que cada vez que sumamos sobre p i log b p i, podemos asumir que implícitamente se excluyen todos los índices i con pi = 0 También es importante señalar que en el caso que todos los eventos r son igualmente probables, la definición de entropía de Shannon se reduce a la medición de Hartley: p i = 1 r, i: H U = 1 r r i=1 log b 1 r = 1 r log br 1 r i=1 = log b r

Función de entropía binaria En éste caso, si U es binaria con dos posibles valores u 1 y u 2 de dicha manera que Pr[U=u1] = p y Pr[U=u2] = 1 p, entonces: H U = H b (p), Donde H b ( ) es llamada la función de entropía binaria, y ésta es definida como: H b p plog 2 p 1 p log 2 1 p, p [0,1]

La Teoría de la Información Desigualdad Ésta desigualdad no tiene un nombre exacto, pero ya que es muy importante en la teoría de la información se le conoce como la Teoría de la Información Desigualdad o la Desigualdad TI, la cual estipula que para cualquier base b > 0 y cualquier ξ > 0: 1 1 ξ log be log b ξ (ξ 1) log b e Con desigualdades en ambos lados si, y únicamente si, ξ = 1

Límites de la entropía Si U tiene r posibles valores, entonces: 0 H U log 2 r bits En donde: H U = 0 si, y únicamente si, p i = 1 para alguna i H U log 2 r bits si, y únicamente si, p i = 1 r i

Árboles revisitado Considera un árbol binario con probabilidades. Recuerda que: n denota el número total de hojas pi, i=1,, n, denota las probabilidades de las hojas N denota el número de nodos (incluyendo la raíz pero excluyendo las hojas) Pl, l=1,, N, denota las probabilidades de los nodos, en donde por definición p1 = 1 es la probabilidad de la raíz. Además se utilizará ql,j para denotar la probabilidad del nodo/hoja j que está un paso delante de l (el hijo j del nodo l) donde j = 0,1.

La entropía de hojas es definida como H hoja n i=1 p i log 2 p i Denotando que P1, P2,, Pn son las probabilidades de todos los nodos (incluyendo la raíz) y que por qj,l la probabilidad de los nodos y hojas un paso adelante del nodo l, podemos definir a la entropía derivativa hj del nodo l como: H l q l,0 P l log 2 q l,0 P l q l,1 P l log 2 q l,1 P l

Teorema de Entropía de Hojas: En cualquier árbol con posibilidades tenemos que: H hoja = N l=1 P l H l

Codificación de una fuente de Información Una fuente discreta sin memoria r-aria (DMS) es un dispositivo cuya salida es una secuencia de mensajes aleatorios U1, U2, U3,, donde: Cada Ul puede aceptar diferentes valores r con probabilidades p1,, pr y Los diferentes mensajes Ul son independientes el uno del otro

El teorema de Codificación de Código de Shannon/Teorema de codificación para un DMS: Existe un código binario libre de prefijos de un mensaje bloque-v de una fuente discreta sin memoria (DMS) de tal manera que el número promedio lav/v de dígitos de código binario por cada letra fuente satisface lo siguiente: L av v < H U + 1 v bits, En donde H(U) es la entropía de una sola letra medida en bits y v es un vector de mensajes aleatorios. Inversamente, por cada código binario de un mensaje bloque-v: L av v H U bits

Note que siempre necesitamos escoger las unidades de la entropía para que se encuentren en bits. Esto se debe a que, al escoger un v suficientemente grande, podemos acercarnos arbitrariamente cerca al límite definitivo de compresión H(U) cuando usamos códigos de Huffman o Fano. En otras palabras, podemos comprimir cualquier DMS a bits D(U) en promedio, pero no menos. Mientras más cerca nos queremos acercar al límite definitivo de la entropía, más grande es nuestro retraso potencial en el sistema.

Un sistema verdaderamente práctico debería de trabajar independientemente de la fuente asociada; en otras palabras, debería de estimar las probabilidades de los símbolos fuente al instante para poder adaptarse a éstos automáticamente. Tal sistema es denominado un esquema de compresión universal. Dichos sistemas existen y son utilizados en algoritmos de compresión; un ejemplo de un sistema que implementa dichos sistemas es el ZIP.