CODIFICACIÓN DE AUDIO

Documentos relacionados
Representación y Codificación de Señales Audiovisuales en Televisión Digital MPEG-2 Audio

Codificación de Audio

Sumario. Presentación... 15

Soportes de almacenamiento digital en vídeo

Descripción de la técnica de compresión MP3 para audio

4. Codificación y compresión de audio.

COMPRESION DE AUDIO Y RADIO DIGITAL

Examen Final Televisión Digital 12 de junio de 2008 TELEVISIÓN DIGITAL 2007/08

Victrola de La Transformada de Fourier

RADIODIFUSION SONORA DIGITAL

Digitalización y compresión de vídeo

DESCRIPCIÓN DE SEÑALES

Compresión de Datos Multimedia

Síntesis digital de frecuencia. Sintonía continua de 5 a 862 MHz y de 900 a 2150 MHz.

Conversión Análoga - Digital

IMPLEMENTACIÓN DE UN CODIFICADOR DE AUDIO SIN PÉRDIDAS

Equipos analizadores de señal. - Introducción - Analizadores de Fourier - Analizadores de espectros heterodinos

Tema 3. Compresión de la información de video. Contenidos

Comunicaciones I. Capítulo 4 CODIFICACIÓN Y MODULACIÓN

Redes y Comunicaciones

decibelios spl Instalaciones de Megafonía y Sonorización. UC0597_2: Montar y mantener instalaciones de megafonía y sonorización de locales.

Redes y Comunicaciones

Comunicaciones en Audio y Vídeo. Curso 2007/2008 PREGUNTAS BÁSICAS. MODULACIONES LINEALES Y ANGULARES

Introducción al procesamiento digital de señales en tiempo real

Modulación. Modulación n AM. Representación n en el Tiempo y en Frecuencia

Redes de Computadores

F. de C. E. F. y N. de la U.N.C. Teoría de las Comunicaciones Departamento de Electrónica GUIA Nº 4

Lote: 67. Denominación: MEDIDOR DE CAMPO TV. Y SAT. DIGITAL. Código: EC78. Año: 2008 DESTINO:

Maestría en Electrónica y Telecomunicaciones II-2011

PRÁCTICA 1 ANÁLISIS DE SEÑALES EN EL DOMINIO DE LA FRECUENCIA: EL ANALIZADOR DE ESPECTROS

Ing. Jorge Enrique Montealegre

1. Introducción a las comunicaciones

Sistemas de Comunicaciones

ESOA Sistemas de Transmisión de Datos

banda, mayor es la distorsión, y mayor es la probabilidad de que se cometan errores en el receptor.

3. Señales. Introducción y outline

Procesamiento de Señales Digitales

Normas ISO de codificación de contenidos audiovisuales. -MPEG 1, MPEG-2, MPEG-4, MPEG 7 y MPEG 21-

5. PLL Y SINTETIZADORES

Transformada Discreta de Fourier (II)

GUÍA DE EJERCICIOS No. 3. Las tres emisoras se encuentran a igual distancia del receptor (igual atenuación de señal recibida).

Aplicaciones del Tratamiento de Señales. Parte 1: Grabación y Reproducción de Señales de Voz

El por qué del procesado de 64 bits

3. En la Figura se aprecia parte del espectro magnitud de un tono puro modulado en FM. A partir de este espectro calcule:

Tema 4. Codificación de Señales de Voz

Procesamiento digital de voz

PRÁCTICA DE CHATTER CHATTER

INTRODUCCION A LA TELEVISION DIGITAL

PRÁCTICA 1 ANÁLISIS DE SEÑALES EN EL DOMINIO DE LA FRECUENCIA: EL ANALIZADOR DE ESPECTROS

EL4005 Principios de Comunicaciones Clase No.3: Modelos de Canales y Modulación de Amplitud I

Contenido 1.- El canal paso banda. 2.- Modulación digital.

SISTEMA DE TRANSPORTE EN TELEVISION DIGITAL

MULTIPLEX PCM DE 4 CANALES CON CODIFICACION DE LINEA AMI/HDB3/CMI Módulo T20F-E/EV

TEMA 5 COMUNICACIONES ANALÓGICAS

IES Abyla. Departamento de Informática. Sonido digital

Comunicación de Datos Escuela Superior de Informática. Tema 1 Fundamentos de la Comunicación de Datos

Editorial Marcombo Prefacio. Agradecimientos. Capítulo 1 Fundamentos de los sistemas de comunicación

Última modificación: 1 de septiembre de

2.5.6 CODIFICACIÓN PARA EL FORMATO DES CARACTERÍSTICAS GENERALES DEL ESTÁNDAR HEVC Ó H Metodología

Sistemas de comunicación

Tema 2: modulaciones analógicas y ruido (sol)

Sistema de conocimientos Definición de sonido y video digital. Formatos de sonido Formatos de video Procesamiento digital de sonido y video.

RECOMENDACIÓN UIT-R F *

EL4005 Principios de Comunicaciones Clase No.18: Ruido en Sistemas de Comunicaciones Analógicas: FM

Unidad 3. Técnicas de Modulación

Síntesis del sonido I

Última modificación: 1 de julio de

Coeficientes Cepstrales en Frecuencia Mel y Dynamic Time Warping para Reconocimiento Automatico del Habla

Que es un modem? MODEMS. Componentes básicos de la transmisión. Que es un modem?

SISTEMAS DE COMUNICACION. Ingeniería en Electrónica Sexto semestre M.C. Maribel Tello Bello 2010-II

Introducción al Diseño de Filtros Digitales

1.7 Perturbaciones. Otras perturbaciones. La atenuación Distorsión de amplitud. El retardo Distorsión de fase. El ruido

TEMA 2: MODULACIONES LINEALES

AUDIO DIGITAL. Diego Cabello Ferrer Dpto. Electrónica y Computación Universidad de Santiago de Compostela

Conversión Analógica a Digital

Transmisión Digital (60123) Fredy Castellanos - UNET -

Sistemas de Modulación derivados de QPSK

Vídeo Digital. 0. Presentación. Objetivos Temario Prácticas Evaluación Introducción

Tratamiento Digital de Señales. Capítulo 2. Muestreo y Reconstrucción de Señales. Septiembre, 2010

ANX-PR/CL/ GUÍA DE APRENDIZAJE. ASIGNATURA Ingenieria de audio II. CURSO ACADÉMICO - SEMESTRE Segundo semestre

Tema 4. Codificación de la voz

Capítulo 1 CAPÍTULO 1-INTRODUCCIÓN-

Capítulo 5 Transmisión analógica 5.1

Señales y Sistemas II

Transcripción:

CODIFICACIÓN DE AUDIO Codificaciones Clásicas Redundancia Escalar, Vectorial En Tiempo PCM, logpcm, APCM, DPCM En Frecuencia SBC, TC Con Modelos Análisis (por) Síntesis Codificaciones Perceptuales Relevancia Modelos Psicoacústicos Parámetros Cuantificación y Codificación 1

CODIFICACIÓN DE AUDIO Codificación de alta calidad, PCM Telefónica, Fs=8KHz, B=8bits, 64 Voz de banda ancha, Fs=16KHz, B=8bits, 128 Audio banda media, Fs=24KHz, B=16bits, 384 Audio banda ancha, Fs=48KHz, B=16bits, 768 CD, Fs=44.1KHz, B=16 bits, estéreo, 1410 Overheads de 49-bits/16-bit, 4320 Analógico, Fs>55KHz, B>20 bits 2

CODIFICACIÓN PERCEPTUAL Principios Psicoacústicos Estructura General Modelo Psicoacústico Análisis Tiempo-Frecuencia Cuantificación y Codificación Estándares 3

PRINCIPIOS PSICOACÚSTICOS Nivel de Presión Sonora (db) Umbral Absoluto de Audición Bandas Críticas Banco de Filtros Paso Banda Solapados y No Uniformes Enmascaramiento Simultáneo TMN, NMT, NMN Temporal Pre, Post 4

PRINCIPIOS PSICOACÚSTICOS Nivel de Presión Sonora (db) Lspl = 20 log10 (P/Po) db Po = 20 µpa = 2*10e-5 N/m2 Normalización, Fondo de escala = 90 db SPL 10 N 1 Pk ( ) = 90.302 + 10log wnxne ( ) ( ) n= 0 1 2 π n s( n) wn ( ) = 1 cos, xn ( ) 2 = N N2 2 j(2 π kn/ N) b 1 5

AUDICIÓN Umbral Absoluto de Audición 0.8 f 4 0.6 3.3 1000 3 f f Tq( f ) = 3.64 6.5e + 10 ( db SPL) 1000 1000 100 80 60 40 2 20 0 10 2 10 3 10 4 6

BANDAS CRÍTICAS Bandas Críticas Aproximaciones Ancho de Banda 0.69 2 f BWc( f ) = 25 + 7 1 + 1.4 ( Hz) 1000 Escala Bark (Bark = 1 banda crítica) 2 f z( f) = 13arctan(0.00076 f) + 3.5arctan ( Bark) 1000 7

BANDAS CRÍTICAS Tabla de Bandas Críticas 1 2 3 4 5 6 7 8 9 10 11 12 13 Nº B. Fi (Hz) 50 150 250 350 450 570 700 840 1000 1175 1370 1600 1850 Bwi (Hz) 0-100 14 100-200 15 200-300 16 300-400 400-510 510-630 630-770 770-920 920-1080 1080-1270 1270-1480 1480-1720 1720-2000 17 18 19 20 21 22 23 24 25 Nº B Fi (Hz) 2150 200 2900 3400 4000 4800 5800 7000 8500 10500 13500 19500 Bwi (Hz) 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000 12000-15500 15500-20000 8

ENMASCARAMIENTO Enmascaramiento Simultáneo SPL (db) Nivel del Enmascarador Relación Señal a Máscara (SMR) Enmascarador Umbral de Enmascaramiento Señales Enmascaradas Banda Crítica 9

ENMASCARAMIENTO Enmascaramiento Simultáneo Ruido Enmascara Tono SMR [-5, 5] db Tono Enmascara Ruido SMR [21, 28] db Ruido Enmascara Ruido SMR 26 db Dispersión fuera de Banda 10

ENMASCARAMIENTO Enmascaramiento Temporal SPL (db) Enmascarador SMR SMR(sim)-25 db 1-2 50-300 Tiempo (ms) Pre-Enmascaramiento Post-Enmascaramiento 11

ENMASCARAMIENTO Aplicaciones No transmisión de lo Inaudible Mantener el ruido bajo lo audible 12

ESTRUCTURA GENERAL Codificador Perceptual de Audio Voz Análisis Tiempo-frecuencia Análisis Psico-Acústico Cuantificación Codificación Distribución De Bits Codificación Sin Pérdidas M U X Bit stream 13

ANÁLISIS PSICOACÚSTICO Análisis Psico-Acústico Análisis de Frecuencia Bancos de filtros, Transformaciones Umbral Global de Enmascaramiento Umbrales Fijos, Dependientes Detección de Tonos, de Ruidos Efectos dentro, fuera de banda Combinación Ejemplo básico 14

ANÁLISIS PSICOACÚSTICO Modelo 1, MPEG 1 Layer 1 Análisis FFT-512 con hanning (12ms) Resolución de 86.13Hz a 44.1KHz Escala Bark por transformación Dispersión fuera de Banda limitada Estimación Tono por máximo local de 7dB entre ±2, ±3 y ±6 en >63, >127 y >256 Estimación Ruido por Banda 15

ANÁLISIS PSICOACÚSTICO Modelo 1 Enmascaradores 1 0.1 P( k+ j) TM ( ) = 10log10 10 ( ) j= 1 P k db Diezmado de Enmascaradores { } P k = db P j P k± 1 ( l u + 1) 0.1 P( j) NM ( ) 10log10 10 ( ), ( ) TM ( k ) j Descarte bajo el umbral absoluto Sustitución en 0.5 Bark por el mayor Diezmado por 2 y 4 en <18 y <22 k u = j j= l 16

ANÁLISIS PSICOACÚSTICO Modelo 1 Umbrales por tipo T ( i, j) = P ( j) 0.275 z( j) + SF( i, j) 6.025 ( db SPL) TM TM T (, i j) = P ( j) 0.175 z( j) + SF(, i j) 2.025( db SPL) NM NM 17 z 0.4 PXM( j) + 11 3 z < 1 (0.4 PXM ( j) + 6) z 1 z < 0 SF(, i j) = ( db SPL) 17 z 0 z < 1 (0.15 P ( j) 17) 0.15 P ( j) 3 < 1 Umbral Global XM z XM z L M 0.1 Tq ( i) 0.1 TTM ( i, l) 0.1 TNM ( i, m) Tg () i = 10log10 10 + 10 + 10 ( db SPL) l= 1 m= 1 17

ANÁLISIS PSICOACÚSTICO Modelo de Entropía Perceptual (Modelo 2, MP3) Análisis FFT-2048, con hanning Espectro Bark por suma espectral en BC Dispersión por convolución Estimación Tono/Ruido por Aplanamiento Espectral en cada Banda, SFM=µ g /µ a Coeficiente de tonalidad para Umbrales SFM min db α =,1 60 18

ANÁLISIS PSICOACÚSTICO Modelo de Entropía Perceptual Ponderación de los umbrales por tipo [ ] THt = En K, K 3,5 db THn = Et 14.5 B, B = Banda Critica O = α(14.5 + i) + (1 α)5.5 db i Umbrales por banda T i = 10 Ci Oi 10 log ( ) ( /10) Umbral Global T = max( T, T ( i)) i i q 19

ANÁLISIS TIEMPO-FRECUENCIA Análisis Tiempo-Frecuencia Bancos de Filtros (baja resolución) Transformadas Unitarias (alta resolución) Esquemas Híbridos Modelos Fuente-Sistema 20

BANCOS DE FILTROS Propiedades M filtros paso banda Contiguos en frecuencia Diezmado crítico en análisis Interpolación en síntesis Aliasing por solapamiento Reconstrucción perfecta sin cuantificación Error de cuantificación a enmascarar 21

BANCOS DE FILTROS Propiedades Reduce redundancias estadísticas Diseño adecuado para evitar Aliasing Uniformes, No Uniformes Resolución frecuencia Resolución tiempo (tipo, adaptación) FIR, IIR 22

BANCOS DE FILTROS Pseudo-QMF M-Modulaciones en coseno de un PPB No alcanza la reconstrucción perfecta Prototipo paso bajo FIR (Fase lineal) Posibilidad de hacerlo con FFT Uniforme Complejidad baja (filtro+modulación) Muestreo crítico 23

BANCOS DE FILTROS Pseudo-QMF Eliminación de la distorsión de fase g ( n) = h ( L 1 n) k k Cancelación del aliasing, (w(n), L),? π L 1 hk( n) = 2 w( n)cos ( k+ 0.5) n + θk M 2 π L 1 gk( n) = 2 w( n)cos ( k+ 0.5) n θk M 2 k π θ k = ( 1) 4 24

BANCOS DE FILTROS Polifase Diseño fácil Complejidad computacional baja Uniforme 25

TRANSFORMACIONES Propiedades Transformación lineal Coeficientes incorrelados Reconstrucción perfecta sin cuantificación Algoritmos basados en FFT Efectos de borde de los bloques 26

TRANSFORMACIONES DCT, DFT Diseño fácil Complejidad computacional baja Evita errores de bloque??? 27

TRANSFORMACIONES MDCT Banco de filtros modulado en coseno L = 2M y w(n) con restricciones Alcanza la reconstrucción perfecta Implementación con transformaciones Solape 50%, Elimina ruido bloque Algoritmos basados en FFT Muestreo crítico (2M muest a M coeff) Ventanas variantes en tiempo 28

TRANSFORMACIONES MDCT Eliminación de la distorsión de fase g ( n) = h (2M 1 n) k k Cancelación del aliasing, 2 (2n+ M + 1)(2k+ 1) π hk ( n) = w( n) cos M 4M 29

TRANSFORMACIONES MDCT Análisis 2M 1 X( k) = x( n) hk ( n) n= 0 Síntesis M 1 P xn ( ) = [ X( kh ) k( n) + X ( kh ) k( n+ M)] k = 0 30

TRANSFORMACIONES MDCT Ventana lineal y condición de Nyquist w(2m 1 n) = w( n) ( ) + ( + ) = 1, 0 1 2 2 w n w n M n M Ventana seno (MLT de Malvar), óptima 1 π wn ( ) = sin n+, 0 n M 1 2 2M 31

HÍBRIDOS Propiedades Combinan Bancos con Transformadas Estructura en cascada Flexibles en resolución de frecuencia Permiten adaptación Complejidad computacional media No alcanza reconstrucción perfecta Ejemplos: QMF+MDCT, PF+MDCT 32

ECOS Pre-eco Señales abruptas en entornos silenciosos Señales muy pitcheadas Dispersión del error de cuantificación Control de pre-ecos Reserva de bits Cambio de tamaño de ventana (64,1024) Enmascaramiento temporal Modificación de la ganancia Modificación temporal del ruido (LP) 33

CODIFICACIÓN Asignación dinámica de bits Enmascaramiento Velocidad Cuantificador Uniforme/No Uniforme Codificador Con/Sin Pérdidas Control??? Directo/Indirecto 34

CODIFICADORES Transformación ASPEC Subbandas MASCAM Sinusoidales Predicción lineal 35

ESTÁNDARES MPEG 1 (1992) Capa I, II y III MPEG 2 (1994, 1997) extensión multicanal Compatibilidad Backward Incompotibilidad Barkward, AAC MPEG 4 (1998) Amplio campo de aplicaciones MPEG 7 Descripción estandarizada de información multimedia (no coding) 36

ESTÁNDARES Normativa Decodificador Bitstream Informativa Ejemplos de modelos psicoacústicos 37

MPEG 1 Características Modos: mono, estéreo, dual, conjunto y M/S Fs= 32 Kb/s, 44.1 Kb/s y 48 Kb/s Capa I, 192 Kb/s (estéreo a 384 Kb/s) Capa II, 128 Kb/s (estéreo a 192 Kb/s) Capa III (MP3), 64 kb/s (estéreo a 128 Kb/s) 38

MPEG 1 Capa I Banco de filtros PseudoQMF con 32 filtros Polifase Uniforme, 750Hz de BW a 48 khz Filtros FIR de orden 512 (con DCT) 39

MPEG 1 Capa I Modelo psicoacústico con FFT-512 Ponderación Hanning Modelo 1 SMR = Nivel max de señal en la subbanda y el Nivel min de enmascaramiento en ella Modelo 2 40

MPEG 1 Capa I Análisis de 12 muestras por banda (384) Asignación dinámica de bits por modelo psicoacústico Incrementa 1 bit el Q con mayor NMR Factor de escala igual a la muestra mayor Información por banda Bits/banda (4), f. escala (6), muestra Síntesis por bloques de 32 muestras 41

MPEG 1 Capa II Modelo psicoacústico con FFT-1024 Análisis de 12x3 muestras por banda (1152) Factor de escala por bloque de 12 muestras Envía 1, 2 o 3 según cambia Q disponibles 3,5,7,9,15,31,..., 65535 para baja fr 3,5, 65535 para alta (nada para [28,32] Palabra común para Q seguidos de 3,5 y 9 42

MPEG 1 Capa III Banco de filtros híbrido Resolución de bandas críticas Polifase de 32 + MDCT de 6 o 18 p Bloques de 12 o 36 muestras BW mínimo de 41.67 Hz a 48 khz MDCT de 18 para resolución en fr MDCT de 6 para prevenir preecos, 4ms Ventanas de comienzo y fin 43

MPEG 1 Capa III Cuantificación No Uniforme Codificación Huffman Reserva de bits (velocidad variable) 44

MPEG 1 Capa III Modelo psicoacústico con FFT-1024 Ponderación Hanning Modelo 2 Tonalidad por predicción Asignación de bits, análisis-por-síntesis 45

MPEG 1 Estructura de trama, capa I y II Encabezamiento 12 syncr, 20 infosys y 16 cycred Bits/banda, factor de escala Información principal (muestras) Datos auxiliares Características Autónomas Tamaño Variable Empaquetamiento en 188 Byte (4B header) 46

MPEG 2 Características Multicanal Fs= 16 Kb/s, 22.05 Kb/s y 24 Kb/s Mayor resolución y mayor ganancia MPEG-2 por debajo de 64kb/s/canal 47

MPEG 2 Multicanal, configuraciones Mono, 1/0 Derecho (R), izquierdo (L), 2/0 + Central adicional (C), 3/0 + Mono surround, 3/1 + Surround derecho (RS), izquierdo (SL), 3/2 + Subwoofer [15,120]Hz, 5.1 Explotación de dependencias entre canales 48

MPEG 2 Compatibilidad Forward, Acepta MPEG 1 mono y estéreo Backward, MPEG 1 acepta MPEG 2 1/0 y 2/0 T1=L0=α(L+βC+δLS), α=1/(1+ 2) T2=R0= α(r+βc+δrs), β=δ= 2 T3=C,T4=LS y T5=RS T3, T4 y T5 en el campo auxiliar MPEG 1 Problemas con enmascaramiento entre canales en el desmatriciado No compatible, MPEG-2 AAC 49

MPEG-2 AAC Módulos, modelos de referencia por interfaces Preprocesado Banco de filtros, MDCT-1024 Modelo perceptual, MPEG-1 modelo 2 Modificación temporal de ruido (preeco) Codificación multicanal Predicción adaptativa backward, 2º, <16kHz Estéreo M/S Cuantificador,Codificador sin pérdidas Multiplexor bitstream 50

MPEG-2 AAC Módulos Asignación de bits MPEG-1 modelo 2 Proceso de análisis-por-síntesis 49 bandas imitan la resolución del oido Reserva de bits para bit-rate variable 51

MPEG-2 AAC Perfiles Alta calidad MDCT 1024 (2048m) = 8x128 (256m) Resolución de 23.43Hz a 48kHz Resolución de 2.6 ms a 48 khz Ventana senoidal para Banda estrech Ventana KBD para fuerte atenuación 52

MPEG-2 AAC Perfiles Baja complejidad Sin predicción Sin modificación temporal de ruido Mínima complejidad Banco de filtros híbrido 53

MPEG-4 Características Aplicaciones desde alta calidad audio-voz a calidad sintética audio-voz Módulos de audio-voz de 2 a 64 kb/s Paramétrica, 2 a 10 kb/s Análisis-por-síntesis, 6 a 16 y 24 kb/s Ej, CELP Frecuencia, menor que 64 kb/s Ej, AAC, Sust. de ruido perceptual 54

MPEG-4 Características Aplicaciones desde alta calidad audio-voz a calidad sintética audio-voz Módulos de audio-voz de 2 a 64 kb/s Paramétrica 2 a 10 kb/s Análisis-por-síntesis, 6 a 16 kb/s Frecuencia, menor que 64 kb/s Módulo de sustitución de ruido perceptual Representación paramétrica de energía 55

APLICACIONES Velocidad Alta fidelidad a menos de 16kb/s/canal WWW, de facto con MP3 Transmisión ISDN (64kb/s) Almacenamiento DCC de philips usa MPEG-1 L1 (384 kb/s) DVD (PAL y NTSC) (384 kb/s) 56

APLICACIONES Radiodifusión radio DAB, DVB, usan MPEG-1 LII (LIII baja vel) Gran overhead FM (88-108MHz) Radiodifusión TV satélite Huges DirectTV, ADR usan MPEG-1 LII Eutelsat SaRa usa MPEG-1 LIII Radiodifusión TV digital terrestre European DVB usa MPEG-2 57