Tema 3: Codificación de Contenidos Multimedia.

Documentos relacionados

Introducción general a la compresión de datos multimedia

VoIP: Una Puerta hacia la Convergencia. Page 1

Formatos de audio y vídeo: códecs

TRANSMISION DIGITAL. PCM, Modulación por Codificación de Pulsos

Figura 1.12 Señalización analógica y digital de datos analógicos y digitales.

CELERINET ENERO-JUNIO 2013 ESPECIAL

Audio ::: Introducción Diseño de materiales multimedia. Web Introducción

Capítulo 1 CAPÍTULO 1-INTRODUCCIÓN-

LINEAMIENTOS DE VIDEOCONFERENCIA

Tecnología IP para videovigilancia... Los últimos avances han hecho posible conectar cámaras directamente a una red de ordenadores basada en el

CAPITULO I INTRODUCCION. Conforme la informática avanza, las imágenes se han convertido en un área muy

TECNOLOGÍA 3G ACOSTA VENEGAS ALBERTO AGUILAR SALINAS GUILLERMO MIRANDA ELIZALDE CARLOS VENEGAS HURTADO JUAN

TELEVISION DIGITAL TERRESTRE

Bases de Datos Multimedia

Computadores y Comunicaciones. Tema 6: Aplicaciones Multimedia

Sistemas de Gestión de Calidad. Control documental

INTRODUCCIÓN Videoconferencia sobre Frame Relay

1. SISTEMAS DIGITALES

"Cómo hacer un vídeo digital" Edición de vídeo

Formatos y Compatibilidad. Años anteriores al 2005 los formatos analógicos más comunes eran:

RECOMENDACIÓN UIT-R F (Cuestión UIT-R 125/9) a) que el UIT-T ha realizado estudios y elaborado Recomendaciones sobre la RDSI;

Guía de aprendizaje Audacity: guía de edición de sonido

App para realizar consultas al Sistema de Información Estadística de Castilla y León

Tema 1: Sistemas de comunicación digital. Transmisión digital (I.T.T. Telemática)

Estudio y Diseño de la Configuración de Link Adaptation para Servicios Multimedia en Sistemas Avanzados de Comunicaciones Móviles

Qué es la tecnología digital?

Francisco J. Hernández López

Puesto que la trama consta de 32 intervalos de tiempo iguales, la duración de cada intervalo o canal será de:

ANTENAS: Teledistribución y televisión por cable

Existen una serie de criterios a tomar en cuenta sobre la información que genera el usuario:

ALTA DEFINICIÓN: NUEVAS TENDENCIAS

Introducción a los Sistemas Digitales

Un filtro general de respuesta al impulso finita con n etapas, cada una con un retardo independiente d i y ganancia a i.

XFCodecIP Guía rápida

Unidad 1. La información

Características de los servicios de transferencia de contenidos multimedia

Unidad II Conmutación.

Conceptos y fundamentos generales. Curso Manuel A. Martín Santiago

INTRODUCCIÓN. Dado a que internamente la computadora trabaja con datos en binario, texto, imágenes y sonidos deben traducirse a este formato.

Plan de ahorro en costes mediante telefonía IP

Quality of Service MODULO I FUNDAMENTOS DE NETWORKING 14/04/2012. Ing. Nelwi Báez P. Msc. Página 0

Formatos de audio y uso didáctico

No se requiere que los discos sean del mismo tamaño ya que el objetivo es solamente adjuntar discos.

Yull Arturo Matamba Valencia Andrés Xavier Rogel Valarezo

Edición de vídeo con movie maker Autor: Jhon Gilberto Sánchez

CAPÍTULO 6 SIMULACIONES Y RESULTADOS

Estructura de los sistemas de distribución de radiodifusión sonora y de TV Objetivos

Multimedia Streaming. Memoria del proyecto Streaming Multimedia (audio) Departamento de desarrollo de software. Lexon S.A.

PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.2 UML: Modelado de casos de uso

Práctica 5. Curso

Qué es VoIP?. Por que utilizar VoIP? Telefonía IP vs Telefonía Convencional Por qué la telefonía IP es mas barata? Intercambio de paquetes en la

Codificación de Audio

Capítulo 1. 10I 1.0 Introducción 1.1 Diseño de LAN 1.2 El entorno conmutado. Presentation_ID 2

Necesidad, Ámbito y Aéreas de Aplicación: Clientes Potenciales

Traducción del. Our ref:

LA LOGÍSTICA COMO FUENTE DE VENTAJAS COMPETITIVAS

Operación Microsoft Access 97

Tema 1. Curso 2015/16 Semestre 1. Supuesto 1. Supuesto 2.

Libro blanco. Estándar de compresión de vídeo H.264. Nuevas ventajas para la videovigilancia.

El codec de la palabra es sinónimo de codificación / descodificación.

Tecnologías xdsl. Por. Daniel Vazart P.

Objetos educativos y estandarización en e-learning: Experiencias en el sistema <e-aula>

Área Académica: Ingeniería en Computación. Profesor: M. en C. Evangelina Lezama León

Descarga de archivos. Descargar archivos Formatos y tipos de archivos WinZip - Winrar Sitios de Descargas. Descarga de archivos Diapositiva 1

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS

PRINCIPIOS SOBRE FORMATOS DIGITALES Y HD

1. El proceso de digitalización de la voz consiste en las siguientes etapas:

ÍNDICE DISEÑO DE CONTADORES SÍNCRONOS JESÚS PIZARRO PELÁEZ

Conmutación. Conmutación telefónica. Justificación y definición.

Windows Server 2012: Infraestructura de Escritorio Virtual

UNIDADES FUNCIONALES DEL ORDENADOR TEMA 3

Introducción. Protocolos Asterisk. VoIP. Asterisk. Esteban De La Fuente Rubio L A TEX. Universidad Andrés Bello.

3.1 INGENIERIA DE SOFTWARE ORIENTADO A OBJETOS OOSE (IVAR JACOBSON)

ANEXO 2: REPRESENTACION DE LA INFORMACION EN LOS COMPUTADORES

DISEÑO DE FUNCIONES (TRATAMIENTOS)

Tema 2 : Códigos Binarios

APOLO GESTION INTEGRAL.

Orientación acerca de los requisitos de documentación de la Norma ISO 9001:2000

Laboratorio de Procesamiento Digital de Voz Practica 4 CUANTIZACION ESCALAR, LOGARITMICA, (A)DM y (A)DPCM

El programa Minitab: breve introducción a su funcionamiento. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos

SISTEMA DE GESTION DOCUMENTAL

GENERACIÓN DE ANTICIPOS DE CRÉDITO

Grupo de Trabajo sobre el Servicio de Acceso Digital a los Documentos de Prioridad

TEMA 1 INTRODUCCION AL PROCESAMIENTO DIGITAL DE SEÑALES

Capítulo 12: Indexación y asociación

UNIVERSIDAD TECNICA DEL NORTE

Instituto Tecnológico de Massachussets Departamento de Ingeniería Eléctrica e Informática Circuitos electrónicos Otoño 2000

La principal diferencia entre una cámara digital y una cámara analógica (la cámara

Transporte de audio sobre redes IP

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre.

Última modificación: 1 de agosto de

CLASES DE GUITARRA ONLINE

CONCEPTOS BASICOS DE IMAGEN DIGITAL

Plan de Trabajo en Verano de INFORMÁTICA CUARTO ESO. Departamento de Tecnología curso

V Manual de Portafirmas V.2.3.1

Probabilidades y Estadística (Computación) Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires Ana M. Bianco y Elena J.

1.2 SISTEMAS DE PRODUCCIÓN

Transcripción:

Tema 3 1 Índice Tema 3:. Contenido 3.1 Ventajas de la codificación digital. Alternativas y compromisos en la codificación digital. Técnicas de codificación de voz. 3.3 Técnicas de codificación de audio. 3.4 Técnicas de codificación de imágenes. 3.5 Técnicas de codificación de video. Tema 3 2 Ref Bibliografía Bibliografía básica Weinstein, Stephen. The Multimedia Internet", 2005, Springer. Gibson, Jerry D. Multimedia Communications, 2001, Academic Press. Curso 05 /06 Pág. 1

Tema 3 3 Ref Bibliografía en Internet Otros documentos [SpeechCVoIP] Speech Coders a VoIP perspective. Roar Hagen http://www.itu.int/itudoc/itu-t/workshop/converge/s6am-p4_pp7.ppt Cuadro Resúmen de Codificaodres de Voz. http://www.voipforo.com/codec/codecs.php Tema 3 4 3.1 La información multimedia es actualmente el principal impulsor del desarrollo y diseño de las próximas generaciones de ordenadores y redes de telecomunicación. Todo lo que hay detrás del universo multimedia es un gran negocio que mueve al año cantidades incalculables en inversiones, investigación, implantación de redes, generación de contenidos, diseño de equipos, servicios y aplicaciones, etc En este tema realizaremos un enfoque técnico desde el mundo de las telecomunicaciones a los contenidos multimedia, y más concretamente a como se codifica esa información para posteriormente poder ser transmitida. Curso 05 /06 Pág. 2

Tema 3 5 3.1 La información multimedia surge de la integración de distintos tipos de formatos o fuentes de información heterogéneos, tales como la voz, audio, textos, imágenes, videos. Se hace necesario el uso de la tecnología digital. Puede representar de manera uniforme en un mismo medio de transmisión todo tipo de información. Los métodos y técnicas usados para la codificación de cada uno de los tipos de fuentes de información puede ser completamente distintos unos de otros, pero aún así pueden aunarse y formar un bloque de información más completo y homogéneo. Tema 3 6 3.1 Ventajas de la codificación digital. Compresión: Gracias a la eliminación de redundancias, así como a técnicas de enmascaramiento, los flujos de datos digitales pueden ser enviados con mucho menos ancho de banda. Además, a menores necesidades de almacenamiento, los dispositivos se hacen más económicos. Flexibilidad de reproducción, además de ajuste de velocidad de reproducción, así como el salto a cualquier punto deseado del flujo de información. Copia sin pérdida de calidad: Las copias son exactas a los originales. Curso 05 /06 Pág. 3

Tema 3 7 3.1 Ventajas de la codificación digital. Flexibilidad de manipulación, incluyendo la facilidad del troceado de la información y montaje sin pérdida de calidad, fácil mejora de elementos gráficos y sonoros, mezcla e inserción sin bordes de imágenes infográficas en entornos reales, etc. Facilidad de búsqueda y recuperación: Facilidad de incorporar información de contenido y metadatos que puede ser obtenidos eficientemente y asociados a los objetos multimedia. Posibilidad de buscar en los contenidos por aspectos tales como parecidos entre objetos, patrones de colores, ritmos Tema 3 8 3.1 Ventajas de la codificación digital. Composiciones multimedia: Viabilidad sin deterioro de la calidad de integrar cualquier tipo de medio junto con información textual, de control, etc., todo ello perfectamente sincronizado en tiempo y espacio. Facilidad de intercambio de piezas y composiciones multimedia a través de medios físicos o redes de comunicaciones. Curso 05 /06 Pág. 4

Tema 3 9 Servicios Multidestino 3.1 Tipos de ficheros multimedia más usuales. i Extensión.aac.aif.asf.avi.bmp.gif.jpg.mid Descripción Avanced Audio Compression (Estándar MPEG) Macintosh Audio Interchange Format (sin compresión) Microsoft Avanced Streaming (o System) Format para video y audio comprimido Microsoft Audio Video Interleaved File Microsoft Bit map, sin compresión Graphics Interchange Format (comprimido) Joint PictureExperts Groups image compressive coding MIDI audio synthesis format Dpto. de Ingeniería Electrónica, de Telecomunicación y Automática Tema 3 10 Servicios Multidestino 3.1 Tipos de ficheros multimedia más usuales. i Extensión.mov.mp3.mpg,.mpeg.ra,.rm.smil,.smi.tiff.wav.wma,.wmv Apple Quicktime movie (comprimido) MPEG compressive video coding Descripción MPEG level 3 (Estándar de compresión de audio de MPEG) Real Audio o Real Media auido y/o video comprimido Syncronized Multimedia Integration Language (marcado para lenguajes mulitmedia) Tagged Image File Format (sin compresión o comprimido sin pérdidas) Formato de audio sin compresión (en Microsoft Windows) Windows Media Audio y Video respectivamente (comprimidos) Dpto. de Ingeniería Electrónica, de Telecomunicación y Automática Curso 05 /06 Pág. 5

Tema 3 11 3.1 Alternativas y compromisos en la codificación digital La codificación digital puede tener como entrada, tanto información analógica como digital y en función a la pérdida de calidad en el proceso puede ser: Codificación sin pérdidas: No hay pérdida de información. Se consigue una compresión alrededor de la mitad del tamaño original. Codificación con pérdidas: Se pierde información en el proceso pero se consiguen ratios de compresión mucho más altos.(mpeg-1 comprime alrededor de 15 veces el tamaño). Normalmente se usan conjuntamente, primero con pérdidas y luego sin pérdidas. Tema 3 12 3.1 Alternativas y compromisos en la codificación digital La codificación digital se divide en dos procesos: Codificación de fuente: Convierte la información multimedia en un fichero o flujo de bits comprimido. Codificación de canal: Convierte la información digital transmitir o almacenar a las señales adecuadas al medio usado para la transmisión o almacenaje. Es usual que ambas se implementen conjuntamente para mejorar el comportamiento global. Curso 05 /06 Pág. 6

Tema 3 13 3.1 Alternativas y compromisos en la codificación digital Cuando se agrupa un codificador y un decodificador para proporcionar una comunicación a dos vías se denomina CODEC. Existen gran cantidad de métodos de compresión, ya sean paramétricos o basados en la forma o información de la señal, ya sea en el dominio temporal, espacial o frecuencia. Pero la codificación digital está sujeta a gran número de compromisos, los cuales dependen del valor o rango de diversos parámetros correspondientes a cada método de compresión concreto. Tema 3 14 3.1 Alternativas y compromisos en la codificación digital Eficiencia de codificación: Es la relación entre el número de bits necesario para cada elemento multimedia antes y después de la compresión. Retardo de compresión. Es más delicado en aplicaciones multimedia pero no para la difusión. Complejidad: El coste computacional en operaciones por segundo o también el coste de la circuitería de codificación. Calidad de la información decodificada: Ya sea subjetiva, relativa a capacidades perceptuales humanas u objetiva (SNR). Curso 05 /06 Pág. 7

Tema 3 15 3.1 Alternativas y compromisos en la codificación digital Bit rate constante o bit rate variable: Algunos medios o tipos de información pueden conseguir una mayor eficiencia al utilizar para cada escena o fragmento el bit rate necesario manteniendo la calidad perceptual. Flexibilidad: Es la capacidad de un flujo de bits comprimidos de poder ser accedidos y decodificados en cualquier punto. Tema 3 16 El increíble crecimiento en las redes de comunicaciones y los considerables avances en las tecnologías de integración (VLSI), que han generado gran cantidad de nuevos dispositivos y servicios, han llevado a gran número de gobiernos y empresas a renovar su interés por la codificación de voz (speech coding), dirigiendo sus esfuerzos hacia la estandarización de sus desarrollos. Tanto el ITU-T, el European Telecommunications Standards Institute (ETSI) y la ISO han estado diseñando las guías y patrones que deben seguir estos nuevos estándares. Debido a lo anterior, en los últimos años se han dedicado muchos recursos y esfuerzos al estudio e investigación de técnicas de codificación de la voz. Curso 05 /06 Pág. 8

Tema 3 17 En la codificación de voz se pueden destacar dos grandes líneas de desarrollo e investigación: Modelos de señal basados en Codificación por Predicción Lineal (LPC) Modelos de Análisis-Síntesis en el dominio transformado. La mayoría de los algoritmos que se han estandarizado usan LPC, y en particular los que usan la técnica denominada predicción lineal por análisis/síntesis, los cuales han sido integrados en gran cantidad de estándares de telefonía móvil. Tema 3 18 Por supuesto el auge del Multimedia e Internet ha propiciado también el desarrollo de algoritmos de codificación de voz y audio, principalmente basados en características psico-acústicas. En los casos en los que se desean regímenes binarios muy bajos para la codificación de la voz se usan esquemas de análisis-síntesis. En el proceso de análisis se extraen una serie de parámetros los cuales se codifican y se envían al receptor. En el proceso de síntesis, se decodifican estos parámetros y se usan para generar la voz según gran variedad de mecanismos. Generalmente todos los codificadores de voz son con pérdidas, por lo que el bit rate de la señal original no se mantiene. Curso 05 /06 Pág. 9

Tema 3 19 Medidas de la Calidad La calidad de un codificador se mide de diferentes formas: calidad de la voz, complejidad del algoritmo, retardo y robustez frente al ruido de fondo. Pero debido a que en un canal la voz debe comportarse razonablemente bien frente a ruidos, señales de marcación, música, etc Se hacen necesarias medidas Subjetivas de la calidad de la voz. Algunas de estas medidas son: Mean Opinion Score (MOS) Diagnostic Rhyme Test (DRT) Diagnostic Acceptability Measure (DAM) Tema 3 20 Medidas de la Calidad. Mean Opinion Score (MOS) La MOS es muy común en procesos de estandarización e implica la clasificación de la voz codificada en una escala de 1 a 5. Valores de 4.4.5 son para líneas de telefonía convencionales, 3.5-4 para telefonía móvil y 2.5-3.5 para voz sintética. Clasificación MOS Calidad Subjetiva 5 Excelente 4 Buena 3 Suficiente 2 Pobre 1 Mala El codificador más simple que consigue calidad entre 4-4.5 es el ITU G.711 PCM de 64 Kbits/s con MOS 4.3. Otros como el ITU G.729 lo consiguen con tan sólo 8 Kbits/s Curso 05 /06 Pág. 10

Tema 3 21 Análisis-Síntesis de la Voz y Predicción Lineal Modelos de la Voz La voz humana se genera por la interacción del aire con el tracto bucal, la cuerdas vocales y la glotis. Los modelos de ingeniería asumen el tracto vocal como un filtro variante en el tiempo excitado en función del tipo de sonido por: señales quasi-periódicas cuando las voz es sonora (ejemplo las vocales /a/, /e/, ) o señales aleatorias para sonidos sordos (ejemplo la /s/,/f/, etc.) El filtro del tracto bucal es estimado usando algoritmos de Predicción Lineal Tema 3 22 Codificadores usados por la norma H.323 y SIP para VoIP ITU G.711 PCM de 64 Kbits/s con MOS 4.3 (8 KHz con 8 bit por muestra). ITU G.726 y G.727 ADPCM 16 Kbit/s ITU G.728 Low Delay CELP ITU G.729 y G.729A CS-ACELP ITU G.723.1 MP-MLQ/ACELP ilbc (internet Low Bitrate Codec) Pero primero se verá una introducción a los codificadores CELP ya que la mayoría siguen esta técnica o variaciones de la misma. Curso 05 /06 Pág. 11

Tema 3 23 Servicios Multidestino FS-1016. Algoritmo Code Excited Linear Prediction (CELP) (1/8) i CELP se basa en procedimientos de búsqueda de análisis-por-síntesis, cuantización de vectores con pesos (VQ) y predicción lineal (LP). Se usa un filtro LPC de décimo orden para modelar las formantes de retardo corto de la señal de voz. La periodicidad de retardo largo de la señal se modela con un diccionario adaptativo VQ (también llamado pitch). El error de la predicción lineal de retardo corto y el pitch VQ se cuantifican usando un libro de secuencias estocásticas (son muestras de ruido aleatorio blanco gaussiano). Al receptor sólo se le envía como excitación el índice del diccionario y la ganancia. Dpto. de Ingeniería Electrónica, de Telecomunicación y Automática Tema 3 24 Servicios Multidestino FS-1016. Algoritmo Code Excited Linear Prediction (CELP) CODIFICADOR (2/8) i En la figura 1 se muestra la etapa de análisis de un transmisor CELP ( la figura 2 es la figura 1 en detalle). Este contiene una réplica del sintetizador del receptor (excepto el post-filtro). A la señal de entrada, se le resta la salida del sintetizador CELP, esta diferencia se pasa por un filtro perceptual. El error perceptual se utiliza después para realizar la búsqueda en el diccionario. Dpto. de Ingeniería Electrónica, de Telecomunicación y Automática Curso 05 /06 Pág. 12

Tema 3 25 Servicios Multidestino FS-1016. Algoritmo Code Excited Linear Prediction (CELP) CODIFICADOR (3/8) i El procedimiento de búsqueda encuentra las ganancias de los diccionarios estocásticos y adaptativos que minimizan el error cuadrático medio. El filtro de predicción lineal puede determinarse por técnicas de análisis de retardo corto de la señal de entrada. El objetivo del filtro perceptual es atenuar aquellas frecuencias en las que el oído humano detecta menos los posibles errores y aumentarlas para aquellas en que el oído es más perceptivo. O sea, se lleva a cabo una comparación dando más importancia a aquellas zonas donde el oído aprecia más el ruido. Dpto. de Ingeniería Electrónica, de Telecomunicación y Automática Tema 3 26 Servicios Multidestino FS-1016. Algoritmo Code Excited Linear Prediction (CELP) Figura 1 (4/8) i Sintetizador CELP ŝ - s Entrada de voz Minimizado del del error error e Filtro basado en en pesos perceptuales Dpto. de Ingeniería Electrónica, de Telecomunicación y Automática Curso 05 /06 Pág. 13

Tema 3 27 Servicios Multidestino FS-1016. Algoritmo Code Excited Linear Prediction (CELP) Figura 2 (5/8) i Dpto. de Ingeniería Electrónica, de Telecomunicación y Automática Tema 3 28 Servicios Multidestino FS-1016. Algoritmo Code Excited Linear Prediction (CELP) DECODIFICADOR (6/8) i El sintetizador CELP (figura 3) se basa en el principio del uso de un filtro de predicción lineal cuya ganancia se busca en una tabla. La excitación se genera usando, en paralelo, un diccionario estocástico (de valores aleatorios) fijo y otro diccionario que no es fijo, sino adaptativo. Después, se actualiza el diccionario adaptativo con esta excitación. En el receptor, se puede mejorar la calidad de la voz sintetizada añadiendo una fase de post-filtrado. Dpto. de Ingeniería Electrónica, de Telecomunicación y Automática Curso 05 /06 Pág. 14

Tema 3 29 Servicios Multidestino FS-1016. Algoritmo Code Excited Linear Prediction (CELP) Figura 3 (7/8) i Dpto. de Ingeniería Electrónica, de Telecomunicación y Automática Tema 3 30 Servicios Multidestino FS-1016. Algoritmo Code Excited Linear Prediction (CELP) COMENTARIOS (8/8) i Esta versión del CELP de 4,8 Kbit/s que es usado por el Departamento de Defensa de los EE. UU. para usarlo en la tercera generación de la unidad de telefonía segura (STU- III) y es la que se ha desarrollado junto con AT&T Bell Laboratories y está descrito en el Federal Standard 1016. Dpto. de Ingeniería Electrónica, de Telecomunicación y Automática Curso 05 /06 Pág. 15

Tema 3 31 ITU G.726 y G.727 ADPCM Usa Codificación por Modulación de Pulsos Diferencial Adaptativa (ADPCM). Es uno de los codificadores más simples que usa Predicción Lineal. ADPCM codifica la diferencia entre la muestra actual de voz y la muestra predicha. Los parámetros de la estimación son obtenidos de una estimación hacia atrás, es decir, usa la información cuantificada usando un algoritmo de gradiente. El rango de bit rates va desde los 16 Kbps a los 40 Kbps y el MOS del ADPCM de 32 Kbps es 4.1 y su complejidad 2 MIPS aproximadamente. G.727 fue desarrollado para aplicaciones sobre redes de paquetes. Tiene cuantificadores embebidos que permiten bajar el bit rate fácilmente tirando bits. Tema 3 32 16 Kbit/s ITU G.728 Low Delay CELP Uno de los problemas de las aplicaciones de voz sobre redes de comunicaciones es que la ganancia de codificación se incrementa a expensas del retardo de codificación (Retardo de una vía: sin incluir retardos de canal ni codificación de canal). Así, el ITU G.728 Low Delay CELP consigue su bajo retardo de una vía gracias a: tramas cortas, predicción adaptativa hacia atrás y un conjunto pequeño de vectores de excitación (5 muestras). El retardo conseguido es de 2 ms y la MOS va desde el 3.93 hasta un 4.1, y es considerado equivalente o mejor que el G.726. La complejidad y uso de memoria son: Codificador: 10.6 MIPS 12,4 KBytes Decodificador: 8.06 MIPS y 13,8 KBytes. Curso 05 /06 Pág. 16

Tema 3 33 ITU G.729 y G.729A CS-ACELP (1/2) Está basado en una estructura conjugada algebraica de CELP (CS-ACELP) con bajo retardo de 8 Kbit/s. Se ha diseñado para aplicaciones de redes inalámbricas y multimedia. CS-CELP es un codificador de bajo retardo con tamaños de trama de 10 ms, un lookahead de 5 ms y un retardo total del algoritmo de 15 ms El algoritmo se basa en un esquema CELP de análisis-síntesis con dos libros de códigos. Tema 3 34 ITU G.729 y G.729A CS-ACELP (2/2) Existen dos versiones del algoritmo: La G.729 original con un coste de 20 MIPS y MOS 4,0 Y la G.729 Anexo A, menos compleja, 11 MIPS y MOS 3,76. La norma G.729 Anexo B define un algoritmo de compresión de silencios lo cual permite tanto a al G.729 como a la G.729 A operar a bit rates menores. Hay extensiones planeadas de la G.729 a 6,4 Kbit/s y 12 Kbit/s Curso 05 /06 Pág. 17

Tema 3 35 ITU G.723.1 MP-MLQ/ACELP El codificador G.723.1 es un codificador de voz dual-rate diseñado para audio, videoconferencia y telefonía sobre redes públicas. El G.723.1 es parte de los estándares de conferencias de audio y video ITU H.323 y H.324. Y es recomendado por el Voice over IP Forum como codificador por defecto. El codificador es dual, funcionando a 6,3 y 5,3 Kbit/s y tiene una opción de bit rate variable usando un detector de actividad de voz (compresión de silencios) En la versión de 6,3 Kbit/s obtiene una MOS de 3.98, una duración de trama de 30 ms, look-ahead de 7,5 ms y un retardo de una vía de 37,5 ms. Tema 3 36 ilbc (internet Low Bitrate Codec) Voz muestreada a 8 khz, Usa un algoritmo de predicción lineal (LPC) con independencia de bloques. Ancho de banda de 13.867 kbps (52 bytes por cada 30 ms) Tamaño de trama de 30 ms (soportará 20 ms el la siguiente revisión) Complejidad y requerimientos de memoria similares al ITU G.729A Calidad básica es igual o mejor que G.729. Pero la robustez frente a la pérdida de paquetes es significativamente mejor que G.729. Ocultación de las pérdidas de paquetes. [RFC 3951] Internet Low Bit Rate Codec (ilbc). Experimental. S. Andersen, A. Duric, H. Astrom, R. Hagen, W. Kleijn y J. Linden. December 2004 Curso 05 /06 Pág. 18

Tema 3 37 ilbc (internet Low Bitrate Codec) MOS Results 4.0 G.729A G.723.1 ilbc 3.5 MOS 3.0 2.5 2.0 1.5 0 5 10 15 Packet Loss [%] Tema 3 38 ilbc (internet Low Bitrate Codec) Los codificadores de bajo bit rate actuales: ITU G.729, G.723.1, GSM-EFR, y 3GPP- AMR fueron desarrollados para redes conmutadas y telefonía inalámbrica y están todos basados en el paradigma CELP (Code Excited Linear Prediction). Los codificadores CELP guardan información de estado, es decir, tienen memoria, por lo que existe la posibilidad de la propagación de errores antes la pérdida de resultados. ilbc trata cada paquete individualmente, haciéndolo muy apropiado para las redes de paquetes. Curso 05 /06 Pág. 19

Tema 3 39 3.3 Técnicas de Codificación de Audio. Introducción Con la introducción del CD se provocó una revolución del audio digital que rápidamente desplazó al audio analógico. Sin embargo la muy significante cantidad de información sin comprimir que supone la reproducción de un CD (1,41 Mbits /s) imposibilita el envío por las redes de paquetes convencionales, incluso hoy día. Así, numerosas técnicas de compresión se han desarrollado, siendo algunos de los más conocidos el MP3 fruto de la investigación de la ISO/MPEG (Moving Pictures Experts Group) Tema 3 40 3.3 Técnicas de Codificación de Audio. Estándares de Codificación de Audio ISO/MPEG El Moving Pictures Experts Group (MPEG) ha desarrollado dentro de la ISO una serie de estándares de codificación de audio tanto para almacenamiento como para transmisión. Los estándares ISO informan tan sólo de la sintaxis de los flujos de bits, así como del proceso de decodificación, lo que deja una amplia libertad para la codificación. En esta sección se hará una breve revisión de los estándares MPEG-1 Capa I, II y III, MPEG-2 BC y MPEG-2 AAC y MPEG 4. Curso 05 /06 Pág. 20

Tema 3 41 3.3 Técnicas de Codificación de Audio. Estándares de Codificación de Audio ISO/MPEG MPEG-1 El MPEG-1 consiste en tres capas de esquemas de codificación de audio de complejidad y comportamiento subjetivo creciente. Estándar MPEG-1 Capa I Muestreo del Audio (khz) 32,44.1 y 48 Bit rate comprimido (kbit/s) 32-448 Canales 1-2 Aprobado 1.992 MPEG-1 Capa II 32,44.1 y 48 32-384 1-2 1.992 MPEG-1 Capa III 32,44.1 y 48 32-320 1-2 1.993 Tema 3 42 3.3 Técnicas de Codificación de Audio. Estándares de Codificación de Audio ISO/MPEG MPEG-1 MPEG-1 opera en cada uno de los siguientes modos: Mono. Estéreo Dual Joint Stereo (Estéreo unido): Con esta técnica se consigue aún más compresión gracias al estudio de la correlación entre los canales izquierdo y derecho y la irrelevancia que supone el contemplar la diferencia de fase entre ellos. Curso 05 /06 Pág. 21

Tema 3 43 3.3 Técnicas de Codificación de Audio. Estándares de Codificación de Audio ISO/MPEG MPEG-1. Capas I y II Se basan codificación por sub-bandas de frecuencia. El espectro de la señal de entrada se divide en 32 sub-bandas igualmente espaciadas y se muestrea cada una con una Fs/32. En cada sub-banda se agrupan 12 muestras formando un bloque, haciendo un total de 384 muestras. Todas esta muestras se normalizan para que tengan valores absolutos menores que uno (esta normalización se realiza buscando la muestra con el valor absoluto mayor y eligiéndolo con el más próximo de una lista de 63 valores permitidos) Tema 3 44 3.3 Técnicas de Codificación de Audio. Estándares de Codificación de Audio ISO/MPEG MPEG-1. Capas I y II Esquema de bloques del codificador. Señal de audio Banco Banco de de filtros filtros de de Análisis Análisis Transformación Transformación estéreo estéreo Cuantificación Cuantificación y Codificación Codificación Empaquetado Empaquetado Flujo de bits de salida Modelo Modelo psicoacústico psicoacústico bit bitallocation Curso 05 /06 Pág. 22

Tema 3 45 3.3 Técnicas de Codificación de Audio. Estándares de Codificación de Audio ISO/MPEG MPEG-1. Capas I y II Después de la normalización se cuantifican y codifican siguiendo criterios psicoacústicos. Para el estudio psico-acústico detallado se usa la FFT en paralelo con la descomposición en sub-bandas, con 512 puntos para la Capa I y 1024 para la Capa II. La unidad de alojamiento de bit (bit allocation) determina la resolución del cuantificador de acuerdo con el bit rate deseado y la información perceptual derivada del modelo psico-acústico. Tema 3 46 3.3 Técnicas de Codificación de Audio. Estándares de Codificación de Audio ISO/MPEG MPEG-1. Capas I y II. Mejoras de la Capa II sobre la Capa I La capa II consigue una reducción en el bit rate por tres motivos: Se reduce la redundancia e irrelevancia en los factores de escala de tres bloques de 12 muestras adyacentes. Se mejora la precisión de la tabla de cuantificación. Las inherentes mejoras en el análisis psico-acústico al usar una FFT con 1024 puntos en vez de una con 512. Curso 05 /06 Pág. 23

Tema 3 47 3.3 Técnicas de Codificación de Audio. Estándares de Codificación de Audio ISO/MPEG MPEG-1. Capa III. Es el más conocido de todos ellos por su denominación MP3. Introduce diversas nuevas características sobre los anteriores Un banco de filtros híbrido: Lo forman dos bancos de filtros en cascada. Consigue mayor resolución para cada sub-banda al usar una Transformada Modificada del Coseno Discreta de 18 puntos. Usa cuantificación no lineal y bit rate variable para optimizar el bit rate resultante. Usa un concepto nuevo: La reserva de bits, dejando sin usar bits cuando el audio a comprimir no los necesita y usándolos cuando los fragmentos de audio son demasiado complejos y necesitan más bits. Tema 3 48 3.3 Técnicas de Codificación de Audio. Estándares de Codificación de Audio ISO/MPEG MPEG-2. Difiere con respecto a MPEG-1 en que puede usar hasta 5.1 canales, incluyendo 5 canales con ancho de banda completo del 3/2 estéreo más un canal opcional de mejora de baja frecuencia. Además se extienden por debajo las frecuencias de muestreo a 16, 22.05 y 24 khz. MPEG-2 comprende 2 estándares, MPEG-2 BC para la compatibilidad hacia atrás con MPEG-1, y MPEG-2 AAC que no aporta compatibilidad alguna. Curso 05 /06 Pág. 24

Tema 3 49 3.3 Técnicas de Codificación de Audio. Estándares de Codificación de Audio ISO/MPEG MPEG-2 BC. Las diferencias entre MPEG-1 y MPEG-2 BC son mínimas, salvo en el nuevo campo de frecuencia de muestreo, un índice de bit rate y un modelo psico-acústico usado en la asignación de tablas de bits. Al aportar frecuencias de muestreo menores posibilita la compresión de audio de dos canales a menos de 64 Kbps con buena calidad. La compatibilidad hacia atrás se consigue haciendo que los codificadores MPEG-1 distribuyan dos de los canales MPEG-2 BC, el izquierdo y el derecho codificados en MPEG-1 y la demás información como datos auxiliares de un flujo de bits MPEG-1. Tema 3 50 3.3 Técnicas de Codificación de Audio. Estándares de Codificación de Audio ISO/MPEG MPEG-2 AAC. Permite una mayor calidad donde la compatibilidad hacia atrás no es una limitación. Mientras que MPEG-2 BC proporciona buena calidad a 640-896 Kbits/s para cinco canales completos, AAC proporciona muy buena calidad a menos de la mitad de esos ratios. AAC utiliza una codificación sub-banda usando un modelo perceptual, supresores de redundancia inter trama (algunos aspectos se toman de MPEG- Layer III), y un modelado del ruido en tiempo (TNS). De esta forma proporciona flexibilidad ante diversos perfiles para ajustarse a compromisos de complejidad-calidad. Curso 05 /06 Pág. 25

Tema 3 51 3.3 Técnicas de Codificación de Audio. Estándares de Codificación de Audio ISO/MPEG MPEG-4. El estándar MPEG-4 se terminó en 1.994 e integra un amplio abanico de codificadores de voz y audio de alta fidelidad. El juego de herramientas de MPEG-2 AAC dentro de MPEG-4 soporta la compresión de audio natural desde 2 Kbps a 64 Kbps. MPEG-4 define tres tipos de codificación: Codificación Paramétrica Predicción lineal excitada por código (CELP) Codificación Tiempo/Frecuencia (T/F). Tema 3 52 3.3 Técnicas de Codificación de Audio. Estándares de Codificación de Audio ISO/MPEG MPEG-4. Para las señales de voz muestreadas a 8 KHz se usa codificación paramétrica para conseguir bit rates de 2 Kbps a 6 Kbps. Para señales de audio muestreadas de 8 KHz a 16 KHz, los codificadores CELP ofrecen buena calidad a bit rates medios (6-24 Kbps). La codificación T/F se aplica típicamente a partir de 16 Kbps para señales muestreadas a más de 8 KHz. T/F se desarrolla sobre MPEG-2 AAC con algunos añadidos. Curso 05 /06 Pág. 26

Tema 3 53 3.4 Técnicas de Codificación de Imágenes Estáticas. Introducción Como ya se ha comentado, la compresión de contenidos multimedia es una de las tecnologías que ha posibilitado la revolución multimedia. Si embargo, para que una tecnología sea ampliamente usada es necesario cierto nivel de estandarización, hecho que en el campo de las imágenes estáticas se ha conseguido con un gran éxito por el modelo desarrollado por el Joint Photografic Experts Group (JPEG). El estándar JPEG son realmente dos, uno para codificación con pérdidas y otro para codificación sin pérdidas de imágenes estáticas. Existe un tercer estándar para la compresión de imágenes binarias, el JBIG (Joint Bilevel Image Group), que completa el conjunto de estándares. Tema 3 54 3.4 Técnicas de Codificación de Imágenes Estáticas. Introducción Además de los anteriores existen otros estándares de facto como el Graphics Interchange Format (GIF) y el Portable Network Graphics (PNG) que incluyen compresión de imágenes gráficas. Actualmente JPEG y JBIG son estándares internacionales, aunque existen trabajos orientados a conseguir nuevos estándares, todos ellos pretenden dar cobertura a la codificación sin pérdidas, con pérdidas y binaria, A pesar de todo cada uno tienen un objetivo principal. JPEG LS (Sin pérdidas): Tiene un modo binario y un modo casi sin pérdidas debido a restricciones en el nivel de distorsión de los píxeles. JPEG2000 (Con pérdidas): Incorpora bi-nivel y sin pérdidas. JBIG2 (Binaria): Permite la codificación con pérdidas en imágenes binarias Curso 05 /06 Pág. 27

Tema 3 55 3.4 Técnicas de Codificación de Imágenes Estáticas. JPEG JPEG es un estándar que aglutina una gran variedad de técnicas de compresión. Posee tanto modos de compresión con pérdidas, como sin pérdidas. Además, la codificación de bit del JPEG puede ser Huffman o codificación aritmética binaria. JPEG tiene dos modos de funcionamiento, jerárquico y no jerárquico. Tema 3 56 3.4 Técnicas de Codificación de Imágenes Estáticas. JPEG JPEG no-jerárquico. Dentro de este modo existen otros modos: Sin pérdidas. Secuencial basado en DCT con pérdidas: procesa la imagen de izquierda a derecha y arriba a abajo de manera estricta. Progresivo basado en DCT con pérdidas: Permite varios procesos de refinado sobre la misma imagen incrementando la calidad sucesivamente. Curso 05 /06 Pág. 28

Tema 3 57 3.4 Técnicas de Codificación de Imágenes Estáticas. JPEG JPEG jerárquico. Permite la combinación de los modos no-jerárquicos, codificación progresiva con incremento de la resolución, codificación de diferencia de imágenes y múltiples frames por imágenes (los modos no-jerárquicos sólo permiten un frame por imagen). Tema 3 58 3.5 Técnicas de Codificación de Video. Codificadores MPEG Existen gran número de codificadores de video que han sido utilizados profusamente en los últimos años. En temas posteriores se verán los estándares de sesiones multimedia. En este apartado se mostrará brevemente aquellos descritos dentro de la norma MPEG. El Motion Picture Experts Group es responsable de la estandarización del MPEG-1, MEPG-2, MPEG-4, MPEG-7 y MPEG-21, enfocados al almacenamiento, recuperación de información de audio/video, difusión. Cada uno de estos estándares están encuadrados en un momento histórico y las necesidades que abarcan son muy diferentes. Curso 05 /06 Pág. 29

Tema 3 59 3.5 Técnicas de Codificación de Video. Codificadores MPEG MPEG-1 corresponde a la calidad VCR y está rondando los 1,5 Mbps, apropiado para las pantallas de los ordenadores y dispositivos portátiles. MPEG-2 aporta una calidad de consumo y aproximada a la televisión y necesita 4 Mbps en varios formatos bien definidos. MPEG-4 proporciona una codificación orientada a objetos de secuencias de imágenes de baja calidad para entornos de pocos recursos o poco ancho de banda, llegando incluso a los 10 Kbps. Recientemente, MPEG-4 Parte 10 (también conocido como H.26L o H.264) ha demostrado una gran calidad de codificación de video en un ámplio rango de anchos de banda. Tema 3 60 3.5 Técnicas de Codificación de Video. Codificadores MPEG MPEG-7 es un estándar en desarrollo orientado a la obtención de información en bases de datos multimedia, buscando un Interfaz de Descripción de Contenido Multimedia. Las clasificaciones van desde colores, formas, texturas hasta escenas. MPEG-21. Abunda mucho más en la clasificación incorporando incluso su distribución sobre redes, propiedad intelectual, preferencias de clientes, adaptación a varias redes. Los estándares MPEG han sido usados ampliamente, como en la televisión digital por satélite y televisión por cable (MPEG-2), el video en pequeños dispositivos y cámaras (MPEG-4) y la televisión de alta definición (HDTV) basada extensamente en las normas MPEG Curso 05 /06 Pág. 30