CODIFICACIÓN DE AUDIO Codificaciones Clásicas Redundancia Escalar, Vectorial En Tiempo PCM, logpcm, APCM, DPCM En Frecuencia SBC, TC Con Modelos Análisis (por) Síntesis Codificaciones Perceptuales Relevancia Modelos Psicoacústicos Parámetros Cuantificación y Codificación 1
CODIFICACIÓN DE AUDIO Codificación de alta calidad, PCM Telefónica, Fs=8KHz, B=8bits, 64 Voz de banda ancha, Fs=16KHz, B=8bits, 128 Audio banda media, Fs=24KHz, B=16bits, 384 Audio banda ancha, Fs=48KHz, B=16bits, 768 CD, Fs=44.1KHz, B=16 bits, estéreo, 1410 Overheads de 49-bits/16-bit, 4320 Analógico, Fs>55KHz, B>20 bits 2
CODIFICACIÓN PERCEPTUAL Principios Psicoacústicos Estructura General Modelo Psicoacústico Análisis Tiempo-Frecuencia Cuantificación y Codificación Estándares 3
PRINCIPIOS PSICOACÚSTICOS Nivel de Presión Sonora (db) Umbral Absoluto de Audición Bandas Críticas Banco de Filtros Paso Banda Solapados y No Uniformes Enmascaramiento Simultáneo TMN, NMT, NMN Temporal Pre, Post 4
PRINCIPIOS PSICOACÚSTICOS Nivel de Presión Sonora (db) Lspl = 20 log10 (P/Po) db Po = 20 µpa = 2*10e-5 N/m2 Normalización, Fondo de escala = 90 db SPL 10 N 1 Pk ( ) = 90.302 + 10log wnxne ( ) ( ) n= 0 1 2 π n s( n) wn ( ) = 1 cos, xn ( ) 2 = N N2 2 j(2 π kn/ N) b 1 5
AUDICIÓN Umbral Absoluto de Audición 0.8 f 4 0.6 3.3 1000 3 f f Tq( f ) = 3.64 6.5e + 10 ( db SPL) 1000 1000 100 80 60 40 2 20 0 10 2 10 3 10 4 6
BANDAS CRÍTICAS Bandas Críticas Aproximaciones Ancho de Banda 0.69 2 f BWc( f ) = 25 + 7 1 + 1.4 ( Hz) 1000 Escala Bark (Bark = 1 banda crítica) 2 f z( f) = 13arctan(0.00076 f) + 3.5arctan ( Bark) 1000 7
BANDAS CRÍTICAS Tabla de Bandas Críticas 1 2 3 4 5 6 7 8 9 10 11 12 13 Nº B. Fi (Hz) 50 150 250 350 450 570 700 840 1000 1175 1370 1600 1850 Bwi (Hz) 0-100 14 100-200 15 200-300 16 300-400 400-510 510-630 630-770 770-920 920-1080 1080-1270 1270-1480 1480-1720 1720-2000 17 18 19 20 21 22 23 24 25 Nº B Fi (Hz) 2150 200 2900 3400 4000 4800 5800 7000 8500 10500 13500 19500 Bwi (Hz) 2000-2320 2320-2700 2700-3150 3150-3700 3700-4400 4400-5300 5300-6400 6400-7700 7700-9500 9500-12000 12000-15500 15500-20000 8
ENMASCARAMIENTO Enmascaramiento Simultáneo SPL (db) Nivel del Enmascarador Relación Señal a Máscara (SMR) Enmascarador Umbral de Enmascaramiento Señales Enmascaradas Banda Crítica 9
ENMASCARAMIENTO Enmascaramiento Simultáneo Ruido Enmascara Tono SMR [-5, 5] db Tono Enmascara Ruido SMR [21, 28] db Ruido Enmascara Ruido SMR 26 db Dispersión fuera de Banda 10
ENMASCARAMIENTO Enmascaramiento Temporal SPL (db) Enmascarador SMR SMR(sim)-25 db 1-2 50-300 Tiempo (ms) Pre-Enmascaramiento Post-Enmascaramiento 11
ENMASCARAMIENTO Aplicaciones No transmisión de lo Inaudible Mantener el ruido bajo lo audible 12
ESTRUCTURA GENERAL Codificador Perceptual de Audio Voz Análisis Tiempo-frecuencia Análisis Psico-Acústico Cuantificación Codificación Distribución De Bits Codificación Sin Pérdidas M U X Bit stream 13
ANÁLISIS PSICOACÚSTICO Análisis Psico-Acústico Análisis de Frecuencia Bancos de filtros, Transformaciones Umbral Global de Enmascaramiento Umbrales Fijos, Dependientes Detección de Tonos, de Ruidos Efectos dentro, fuera de banda Combinación Ejemplo básico 14
ANÁLISIS PSICOACÚSTICO Modelo 1, MPEG 1 Layer 1 Análisis FFT-512 con hanning (12ms) Resolución de 86.13Hz a 44.1KHz Escala Bark por transformación Dispersión fuera de Banda limitada Estimación Tono por máximo local de 7dB entre ±2, ±3 y ±6 en >63, >127 y >256 Estimación Ruido por Banda 15
ANÁLISIS PSICOACÚSTICO Modelo 1 Enmascaradores 1 0.1 P( k+ j) TM ( ) = 10log10 10 ( ) j= 1 P k db Diezmado de Enmascaradores { } P k = db P j P k± 1 ( l u + 1) 0.1 P( j) NM ( ) 10log10 10 ( ), ( ) TM ( k ) j Descarte bajo el umbral absoluto Sustitución en 0.5 Bark por el mayor Diezmado por 2 y 4 en <18 y <22 k u = j j= l 16
ANÁLISIS PSICOACÚSTICO Modelo 1 Umbrales por tipo T ( i, j) = P ( j) 0.275 z( j) + SF( i, j) 6.025 ( db SPL) TM TM T (, i j) = P ( j) 0.175 z( j) + SF(, i j) 2.025( db SPL) NM NM 17 z 0.4 PXM( j) + 11 3 z < 1 (0.4 PXM ( j) + 6) z 1 z < 0 SF(, i j) = ( db SPL) 17 z 0 z < 1 (0.15 P ( j) 17) 0.15 P ( j) 3 < 1 Umbral Global XM z XM z L M 0.1 Tq ( i) 0.1 TTM ( i, l) 0.1 TNM ( i, m) Tg () i = 10log10 10 + 10 + 10 ( db SPL) l= 1 m= 1 17
ANÁLISIS PSICOACÚSTICO Modelo de Entropía Perceptual (Modelo 2, MP3) Análisis FFT-2048, con hanning Espectro Bark por suma espectral en BC Dispersión por convolución Estimación Tono/Ruido por Aplanamiento Espectral en cada Banda, SFM=µ g /µ a Coeficiente de tonalidad para Umbrales SFM min db α =,1 60 18
ANÁLISIS PSICOACÚSTICO Modelo de Entropía Perceptual Ponderación de los umbrales por tipo [ ] THt = En K, K 3,5 db THn = Et 14.5 B, B = Banda Critica O = α(14.5 + i) + (1 α)5.5 db i Umbrales por banda T i = 10 Ci Oi 10 log ( ) ( /10) Umbral Global T = max( T, T ( i)) i i q 19
ANÁLISIS TIEMPO-FRECUENCIA Análisis Tiempo-Frecuencia Bancos de Filtros (baja resolución) Transformadas Unitarias (alta resolución) Esquemas Híbridos Modelos Fuente-Sistema 20
BANCOS DE FILTROS Propiedades M filtros paso banda Contiguos en frecuencia Diezmado crítico en análisis Interpolación en síntesis Aliasing por solapamiento Reconstrucción perfecta sin cuantificación Error de cuantificación a enmascarar 21
BANCOS DE FILTROS Propiedades Reduce redundancias estadísticas Diseño adecuado para evitar Aliasing Uniformes, No Uniformes Resolución frecuencia Resolución tiempo (tipo, adaptación) FIR, IIR 22
BANCOS DE FILTROS Pseudo-QMF M-Modulaciones en coseno de un PPB No alcanza la reconstrucción perfecta Prototipo paso bajo FIR (Fase lineal) Posibilidad de hacerlo con FFT Uniforme Complejidad baja (filtro+modulación) Muestreo crítico 23
BANCOS DE FILTROS Pseudo-QMF Eliminación de la distorsión de fase g ( n) = h ( L 1 n) k k Cancelación del aliasing, (w(n), L),? π L 1 hk( n) = 2 w( n)cos ( k+ 0.5) n + θk M 2 π L 1 gk( n) = 2 w( n)cos ( k+ 0.5) n θk M 2 k π θ k = ( 1) 4 24
BANCOS DE FILTROS Polifase Diseño fácil Complejidad computacional baja Uniforme 25
TRANSFORMACIONES Propiedades Transformación lineal Coeficientes incorrelados Reconstrucción perfecta sin cuantificación Algoritmos basados en FFT Efectos de borde de los bloques 26
TRANSFORMACIONES DCT, DFT Diseño fácil Complejidad computacional baja Evita errores de bloque??? 27
TRANSFORMACIONES MDCT Banco de filtros modulado en coseno L = 2M y w(n) con restricciones Alcanza la reconstrucción perfecta Implementación con transformaciones Solape 50%, Elimina ruido bloque Algoritmos basados en FFT Muestreo crítico (2M muest a M coeff) Ventanas variantes en tiempo 28
TRANSFORMACIONES MDCT Eliminación de la distorsión de fase g ( n) = h (2M 1 n) k k Cancelación del aliasing, 2 (2n+ M + 1)(2k+ 1) π hk ( n) = w( n) cos M 4M 29
TRANSFORMACIONES MDCT Análisis 2M 1 X( k) = x( n) hk ( n) n= 0 Síntesis M 1 P xn ( ) = [ X( kh ) k( n) + X ( kh ) k( n+ M)] k = 0 30
TRANSFORMACIONES MDCT Ventana lineal y condición de Nyquist w(2m 1 n) = w( n) ( ) + ( + ) = 1, 0 1 2 2 w n w n M n M Ventana seno (MLT de Malvar), óptima 1 π wn ( ) = sin n+, 0 n M 1 2 2M 31
HÍBRIDOS Propiedades Combinan Bancos con Transformadas Estructura en cascada Flexibles en resolución de frecuencia Permiten adaptación Complejidad computacional media No alcanza reconstrucción perfecta Ejemplos: QMF+MDCT, PF+MDCT 32
ECOS Pre-eco Señales abruptas en entornos silenciosos Señales muy pitcheadas Dispersión del error de cuantificación Control de pre-ecos Reserva de bits Cambio de tamaño de ventana (64,1024) Enmascaramiento temporal Modificación de la ganancia Modificación temporal del ruido (LP) 33
CODIFICACIÓN Asignación dinámica de bits Enmascaramiento Velocidad Cuantificador Uniforme/No Uniforme Codificador Con/Sin Pérdidas Control??? Directo/Indirecto 34
CODIFICADORES Transformación ASPEC Subbandas MASCAM Sinusoidales Predicción lineal 35
ESTÁNDARES MPEG 1 (1992) Capa I, II y III MPEG 2 (1994, 1997) extensión multicanal Compatibilidad Backward Incompotibilidad Barkward, AAC MPEG 4 (1998) Amplio campo de aplicaciones MPEG 7 Descripción estandarizada de información multimedia (no coding) 36
ESTÁNDARES Normativa Decodificador Bitstream Informativa Ejemplos de modelos psicoacústicos 37
MPEG 1 Características Modos: mono, estéreo, dual, conjunto y M/S Fs= 32 Kb/s, 44.1 Kb/s y 48 Kb/s Capa I, 192 Kb/s (estéreo a 384 Kb/s) Capa II, 128 Kb/s (estéreo a 192 Kb/s) Capa III (MP3), 64 kb/s (estéreo a 128 Kb/s) 38
MPEG 1 Capa I Banco de filtros PseudoQMF con 32 filtros Polifase Uniforme, 750Hz de BW a 48 khz Filtros FIR de orden 512 (con DCT) 39
MPEG 1 Capa I Modelo psicoacústico con FFT-512 Ponderación Hanning Modelo 1 SMR = Nivel max de señal en la subbanda y el Nivel min de enmascaramiento en ella Modelo 2 40
MPEG 1 Capa I Análisis de 12 muestras por banda (384) Asignación dinámica de bits por modelo psicoacústico Incrementa 1 bit el Q con mayor NMR Factor de escala igual a la muestra mayor Información por banda Bits/banda (4), f. escala (6), muestra Síntesis por bloques de 32 muestras 41
MPEG 1 Capa II Modelo psicoacústico con FFT-1024 Análisis de 12x3 muestras por banda (1152) Factor de escala por bloque de 12 muestras Envía 1, 2 o 3 según cambia Q disponibles 3,5,7,9,15,31,..., 65535 para baja fr 3,5, 65535 para alta (nada para [28,32] Palabra común para Q seguidos de 3,5 y 9 42
MPEG 1 Capa III Banco de filtros híbrido Resolución de bandas críticas Polifase de 32 + MDCT de 6 o 18 p Bloques de 12 o 36 muestras BW mínimo de 41.67 Hz a 48 khz MDCT de 18 para resolución en fr MDCT de 6 para prevenir preecos, 4ms Ventanas de comienzo y fin 43
MPEG 1 Capa III Cuantificación No Uniforme Codificación Huffman Reserva de bits (velocidad variable) 44
MPEG 1 Capa III Modelo psicoacústico con FFT-1024 Ponderación Hanning Modelo 2 Tonalidad por predicción Asignación de bits, análisis-por-síntesis 45
MPEG 1 Estructura de trama, capa I y II Encabezamiento 12 syncr, 20 infosys y 16 cycred Bits/banda, factor de escala Información principal (muestras) Datos auxiliares Características Autónomas Tamaño Variable Empaquetamiento en 188 Byte (4B header) 46
MPEG 2 Características Multicanal Fs= 16 Kb/s, 22.05 Kb/s y 24 Kb/s Mayor resolución y mayor ganancia MPEG-2 por debajo de 64kb/s/canal 47
MPEG 2 Multicanal, configuraciones Mono, 1/0 Derecho (R), izquierdo (L), 2/0 + Central adicional (C), 3/0 + Mono surround, 3/1 + Surround derecho (RS), izquierdo (SL), 3/2 + Subwoofer [15,120]Hz, 5.1 Explotación de dependencias entre canales 48
MPEG 2 Compatibilidad Forward, Acepta MPEG 1 mono y estéreo Backward, MPEG 1 acepta MPEG 2 1/0 y 2/0 T1=L0=α(L+βC+δLS), α=1/(1+ 2) T2=R0= α(r+βc+δrs), β=δ= 2 T3=C,T4=LS y T5=RS T3, T4 y T5 en el campo auxiliar MPEG 1 Problemas con enmascaramiento entre canales en el desmatriciado No compatible, MPEG-2 AAC 49
MPEG-2 AAC Módulos, modelos de referencia por interfaces Preprocesado Banco de filtros, MDCT-1024 Modelo perceptual, MPEG-1 modelo 2 Modificación temporal de ruido (preeco) Codificación multicanal Predicción adaptativa backward, 2º, <16kHz Estéreo M/S Cuantificador,Codificador sin pérdidas Multiplexor bitstream 50
MPEG-2 AAC Módulos Asignación de bits MPEG-1 modelo 2 Proceso de análisis-por-síntesis 49 bandas imitan la resolución del oido Reserva de bits para bit-rate variable 51
MPEG-2 AAC Perfiles Alta calidad MDCT 1024 (2048m) = 8x128 (256m) Resolución de 23.43Hz a 48kHz Resolución de 2.6 ms a 48 khz Ventana senoidal para Banda estrech Ventana KBD para fuerte atenuación 52
MPEG-2 AAC Perfiles Baja complejidad Sin predicción Sin modificación temporal de ruido Mínima complejidad Banco de filtros híbrido 53
MPEG-4 Características Aplicaciones desde alta calidad audio-voz a calidad sintética audio-voz Módulos de audio-voz de 2 a 64 kb/s Paramétrica, 2 a 10 kb/s Análisis-por-síntesis, 6 a 16 y 24 kb/s Ej, CELP Frecuencia, menor que 64 kb/s Ej, AAC, Sust. de ruido perceptual 54
MPEG-4 Características Aplicaciones desde alta calidad audio-voz a calidad sintética audio-voz Módulos de audio-voz de 2 a 64 kb/s Paramétrica 2 a 10 kb/s Análisis-por-síntesis, 6 a 16 kb/s Frecuencia, menor que 64 kb/s Módulo de sustitución de ruido perceptual Representación paramétrica de energía 55
APLICACIONES Velocidad Alta fidelidad a menos de 16kb/s/canal WWW, de facto con MP3 Transmisión ISDN (64kb/s) Almacenamiento DCC de philips usa MPEG-1 L1 (384 kb/s) DVD (PAL y NTSC) (384 kb/s) 56
APLICACIONES Radiodifusión radio DAB, DVB, usan MPEG-1 LII (LIII baja vel) Gran overhead FM (88-108MHz) Radiodifusión TV satélite Huges DirectTV, ADR usan MPEG-1 LII Eutelsat SaRa usa MPEG-1 LIII Radiodifusión TV digital terrestre European DVB usa MPEG-2 57