Codificación de Audio Fernando Díaz de María Departamento de Tecnologías de las Comunicaciones Universidad Carlos III de Madrid
Índice Introducción Codificación Perceptual Principios Psicoacústicos Umbral absoluto de audición Bandas Críticas Enmascaramiento simultáneo Enmascaramiento temporal Codificación en subbandas Estándares de Codificación de Audio MPEG. Aplicaciones
Introducción (I): Audio y Voz Frecuencias de muestreo superiores Mayor resolución en amplitud Mayor rango dinámico Mayores variaciones de la densidad espectral de potencia Representaciones estéreo y multicanal Mayores espectativas de calidad Ausencia de un modelo de producción
Introducción (II) Codificación de audio Representación digital eficiente de señales de audio de alta fidelidad Mínimo régimen binario y calidad transparente CD (principios de los 80) Puso de manifiesto las ventajas del audio digital Elevadas tasas binarias: f s : 44.1 ó 48 khz; mono: 705.6 ó 768 kb/s; estéreo: 1.42 ó 1.54 Mb/s La segunda generación de aplicaciones del audio digital requieren menor ancho de banda Pero los usuarios esperan calidad CD
Codificación Perceptual Explota: las irrelevancias perceptuales (modelo psicoacústico); y las redundancias estadísticas (cuantificación y codificación) Análisis tiempo/frecuencia Análisis Psicoacústico Cuantificación y Codificación Asignación de bits Codificación sin Pérdidas M U X Estudios entropía perceptual: Puede codificarse audio de forma transparente con 2 bits/muestra
Principios Psicoacúticos Umbral absoluto de audición Bandas Críticas Enmascaramiento simultáneo Enmascaramiento temporal Entropía perceptual Modelo Psicoacústico I del MPEG-1
Umbral Absoluto de Percepción Umbral de audición, T q (f): Energía necesaria para que un tono puro sea detectado Máximo nivel de distorsión permisible (codificación perceptual)
Bandas Críticas Oído interno: transformación frecuencia-espacio bandas críticas regiones cocleares Concepto forjado experimentalmente ancho de banda a partir del cual las repuestas subjetivas cambian abruptamente Ejemplo: Nivel sonoro con el que se percibe un ruido de banda estrecha Ancho de banda crítico: constante hasta los 500 Hz después un 20% de la frecuencia central Bark: una banda crítica Banda Frecuencia Central (Hz) Ancho de Banda (Hz) 1 50-100 2 150 100-200 3 250 200-300 4 350 300-400 5 450 400-510 6 570 510-630 7 700 630-770 8 840 770-920 9 1000 920-1080 10 1170 1080-1270 11 1370 1270-1480 12 1600 1480-1720 13 1850 1720-2000 14 2150 2000-2320 15 2500 2320-2700 16 2900 2700-3150 17 3400 3150-3700 18 4000 3700-4400 19 4800 4400-5300 20 5800 5300-6400 21 7000 6400-7700 22 8500 7700-9500 23 10500 9500-12000 24 13500 12000-15500 25 19500 15500-
Enmascaramiento Simultáneo (I)
Enmascaramiento Temporal
Entropía perceptual Medida de la información perceptualmente relevante contenida en una señal de audio Cálculo Enventanado y transformación al dominio de la frecuencia Obtención del umbral de enmascaramiento y número de bits necesarios Histogramas y selección del caso peor
Distorsión Pre-eco Pre-ecos ( ataques ): la transformada inversa en el decodificador distribuye el error de cuantificación a lo largo del bloque Pre-enmascaramiento útil para bloques cortos bloques cortos ==> más información lateral Solución: modificación adaptativa de la longitud de los bloques
Distorsión Pre-eco: Ejemplo
Modelo Psicoacústico I del MPEG-1 Análisis Espectral Identificación de enmascaradores tonales y ruidosos Diezmado de los enmascaradores Cálculo de los umbrales de enmascaramiento individuales Cálculo del umbral global
Codificación en Subbandas Filtrado Paso-Banda 1 y Traslación a Paso-Bajo Filtrado Paso-Banda N y Traslación a Paso-Bajo Cuantificación y Codificación Cuantificación y Codificación M U X D E M U X Decodificación Decodificación Traslación Paso-Banda 1 Traslación Paso-Banda N
Operaciones básicas por subbanda H hpn (ω) ω n1 ω n2 ω H lpn (ω) ω n ω N Cuantificación y Codificación cos (W 1n t) Decodificación N H n (ω) ω n1 ω n2 ω cos (W 1n t)
Estándares: MPEG MPEG: Moving Pictures Experts Group Grupo de trabajo de un subcomité de ISO/IEC ( International Standards Organisation / International Electrotechnical Commission ) Genera estándares de compresión de audio y vídeo Sólo define la trama y el decodificador Fases y Niveles MPEG trabaja por fases: MPEG-1, MPEG-2, MPEG-4 Dentro de cada fase hay niveles: Layers I, II y III
MPEG-1 MPEG-1 (ISO/UEC 11172-3) (publicado en 1993) Frecuencias de muestreo: 32, 44.1 y 48 khz Modos de funcionamiento: mono, estéreo, dual y estéreo conjunto Tres capas o niveles MP-1: velocidades predefinidas: de 32 a 448 kb/s calidad transparente (estéreo) a 384 kb/s MP-2: velocidades predefinidas: de 32 a 384 kb/s calidad transparente (estéreo) a 256 kb/s (192 kb/s) MP-3: velocidades predefinidas: de 32 a 320 kb/s calidad transparente (estéreo) a 128 kb/s (tasa variable)
MPEG-2 MPEG-2 BC (ISO/IEC 13818-3) (publicado en 1995) Extensión a sonido multicanal compatible con MPEG-1 5 canales principales más uno de baja frecuencia (LFE) Compatibilidad con MPEG-1 peor que Dolby AC-3 MPEG-ACC ( Advanced Audio Coding ) Extensión del MPEG-1 hacia menores regímenes binarios: frecuencias de muestreo:16, 22.05 y 24 khz velocidades: 32-256 kb/s (MP-I) y 8-160 kb/s (MP-2 y 3) MPEG-2 ACC (ISO/IEC 13818-7) (publicado en 1998) 1-48 canales frecuencias de muestreo: de 8 a 96 khz velocidades: desde 8 kb/s mono a más de 160 kb/s por canal
Aplicaciones Audio alta fidelidad, audio profesional, audiodifusión (redes de TV por cable, Internet, ), multimedia DAB: Digital Audio Broadcasting DVD: Digital Versatil - or Video - Disk Soporta audio multicanal y vídeo Europa: MPEG América: AC-3 Cine en Casa
Bibliografía P. Noll, MPEG Digital Audio Coding, IEEE Signal Processing Magazine, Vol. 14, No. 5, pp. 59-81, Sep. 1997 http://www.tnt.uni-hannover.de/project/mpeg/audio/