Grabación digial: DAT o MiniDisc? Federico Miyara El dilema Exisen en el mercado diversas ecnologías para el regisro digial del sonido, y la mayoría de ellas proporciona, a primera visa, resulados acepables. Sin embargo, exisen diferencias imporanes que pueden incidir en la calidad lograda, y por lo ano es preciso conocer los alcances y las limiaciones de cada ecnología, para seleccionar la que mejor se adapa a nuesra ecuación coso-presaciones. Un poco de hisoria La grabación digial del sonido se conoce desde hace varias décadas. De hecho, los primeros grabadores digiales se consruyeron en 1967 uilizando la ecnología de cabezales roaivos de barrido helicoidal desarrollada para la grabación de video analógico. En 1982 aparecen en el mercado los primeros reproducores de discos compacos (CD) con ecnología ópica, cuyo prooipo había sido presenado en Europa en 1979. Eso marca un verdadero hio hisórico: la posibilidad de acercar al consumo masivo el audio digial y sus virudes (inalerabilidad, fidelidad, bajo ruido). Falaba, sin embargo, un medio que permiiera no sólo reproducir sino ambién grabar digialmene. Esa idea se lleva a la prácica en 1986, cuando se consigue adapar y miniaurizar el cabezal roaivo, obeniéndose el formao R-DAT (roary-head digial audio ape), más conocido como DAT. Pese a su porabilidad, la complejidad mecánica de los grabadores DAT (lo cual incide en su coso) y su acceso inherenemene secuencial han dificulado su adopción masiva, resringiéndose a un seleco conjuno de usuarios en el campo profesional o semiprofesional. Ese espacio preendió ser cubiero por dos ecnologías surgidas conemporáneamene en 1991: el Cassee Digial Compaco (DCC) y el MiniDisc (MD). El DCC uilizaba un cabezal fijo mulipolar y grababa en cina magnéica. Nuevamene un formao de acceso secuencial, uvo una vida efímera, pese a las expecaivas de que llegaría a reemplazar al radicional Cassee Compaco (CC) analógico, del cual era sucesor. El MD, en cambio, incorporaba por primera vez un diminuo disco regrabable con ecnología ópica en buena pare heredada del CD. Esa ecnología, además de permiir el acceso aleaorio, permiía opciones avanzadas como la posibilidad de regisrar y ediar información adminisraiva (por ejemplo el íulo de las pisas), una fragmenación similar a la de los discos de compuadora (úil para opimizar el espacio liberado al borrar pisas) y una gran robusez frene a vibraciones o movimienos bruscos merced a la uilización de una memoria buffer. Todo eso se combinaba con una mayor simplicidad mecánica, lo cual permiía un coso muy compeiivo (si bien nunca comparable al del CC). Es ineresane el hecho de que ambas ecnologías requerían el uso de écnicas de compresión de daos, ya que debían almacenar un iempo equivalene al de un CD (74 minuos) en un espacio mucho menor. Para el DCC se desarrolló la compresión PASC (Precision-adapive Sub-band Coding), similar al MPEG-1 nivel 1 (precursor del esquema de compresión MPEG-1 nivel 3, hoy popularizado como MP3), que lograba una 1
compresión 4:1, en ano el MD adopó la compresión ATRAC (Adapive Transform Acousic Coding), con una reducción de daos de 5:1. Ambas compresiones se basan en el fenómeno psicoacúsico del enmascaramieno. Úlimamene se han incorporado al mercado grabadores digiales poráiles en disco rígido que equiparan al DAT en lo que respeca a caracerísicas, pero requieren la descarga a una compuadora (lo cual se logra a ravés de un puero USB) ya que su capacidad de almacenamieno es limiada (por ejemplo, 5 Gb). Rudimenos de la grabación digial Cualquiera sea la ecnología uilizada para la grabación digial, la señal de audio debe someerse primero a varios procesos. En primer lugar, debe ser muesreada, es decir que deben omarse muesras de la señal analógica a inervalos regulares, a razón de f s muesras por segundo, donde f s es la asa (o frecuencia) de muesreo (figura 1). v señal muesreada v señal reconsruída Figura 1. Proceso de muesreo y reconsrucción La canidad de muesras por segundo debe cumplir con una condición llamada Teorema del Muesreo, que esablece que para que la señal muesreada pueda luego recuperarse sin disorsiones la asa de muesreo debe ser por lo menos el doble de la máxima frecuencia conenida en la señal, independienemene de que dicha frecuencia sea úil o sólo ruido. Si no se cumple esa condición, se produce un ipo de disorsión conocido como aliasing (figura 2). Para eviar esa siuación, odos los sisemas de muesreo aplican, anes del muesreo, un filro, conocido como filro anialias, que limia las frecuencias superiores a lo esricamene necesario. Para el caso del audio de ala fidelidad, eso corresponde a un máximo de 20 khz. La asa de muesreo debe ser enonces mayor de 40 khz, y por razones prácicas, se ha adopado una asa de muesreo normalizada de 44,1 khz. 2
v v señal muesreada señal reconsruída Figura 2. Fenómeno de aliasing con reconsrucción disorsionada Una vez realizado el muesreo, se debe proceder a la digialización, es decir, la conversión de la señal analógica en números, expresados con una canidad de dígios binarios o bis denominada resolución (figura 3). v 111 110 101 100 011 010 001 000 100 111 110 010 000 010 110 111 100 001 000 100 Figura 3. Digialización de la onda muesreada La digialización es, de hecho, una aproximación, ya que se reemplazan valores que varían en forma coninua por valores discreos. Así, odos los posibles valores enre el 101 (es decir 5 en noación binaria) y el 110 (6 en noación binaria) se reemplazan por 101. Evidenemene, cuano mayor sea la canidad de bis uilizada, mayor será la exaciud de la represenación. Al ser la señal digializada diferene de la real, podemos inerprear que se ha conaminado con ruido; un ipo de ruido denominado ruido de digialización. Ese ruido es ano menor cuano mayor sea la resolución en bis. El parámero que mide la incidencia del ruido en un sisema es la relación señal/ruido, es decir la diferencia en decibeles enre la máxima señal y el ruido. En el caso del ruido de digialización, la re- 3
lación señal/ruido máxima alcanzable con n bis (suponiendo que el reso del sisema sea perfeco, es decir que no agregue más ruido) puede aproximarse mediane la fórmula S/R máx 6 n [db]. Así, con 16 bis (la resolución esándar del CD, el DAT y el MD) es posible en eoría lograr una relación señal/ruido de alrededor de 96 db. En la prácica esa marca suele no alcanzarse debido a imperfecciones de las diversas eapas análogas (preamplificadores, conversores, filros anialias, ec.). La grabación digial consise simplemene en almacenar los valores de las sucesivas muesras digializadas en alguna forma de memoria masiva (ya que es una gran canidad de muesras). Tano en las cinas como en los discos, dado que la densidad de información es muy ala, exise ciera probabilidad de errores derivados de imperfecciones o deerioros en la superficie. Para prevenir eso, se inroduce un código que permie la deección y corrección de errores (código de Reed-Solomon), lo cual implica incremenar la canidad de daos grabados. Los códigos correcores de errores se basan en la redundancia. La información perdida Todo sisema de muesreo y conversión analógico-digial implica la pérdida de alguna información originalmene exisene en la señal. Así, el muesreo significa que de la variación coninua de la señal se eligen valores o muesras a inervalos regulares, ignorándose lo que sucede enre dos muesras sucesivas. Cuando eso se combina con el filro anialias que precede al proceso de muesreo, el resulado es una pérdida o recore de información de ala frecuencia. Análogamene, la digialización equivale a renunciar al valor exaco de la muesra y a reemplazarlo por un valor apenas aproximado, cuya única virud reside en que se puede represenar con los n bis elegidos (por ejemplo, n = 16). En ese caso, se esán perdiendo las variaciones más pequeñas de la señal, es decir, odas las que quedan comprendidas enre dos escalones o cifras consecuivas. Eso implica una pérdida de rango dinámico. Para que el sisema de muesreo y digialización sea saisfacorio, es preciso que la información perdida sea irrelevane, es decir, inaudible. Ello se logra eligiendo la frecuencia de muesreo de modo al que el ancho de banda resulane incluya odas las señales audibles, y adopando un número de bis que asegure un rango dinámico igual o superior al del oído. Cina de audio digial (DAT) Ese formao consise en un cassee de cina magnéica de 3,81 mm de ancho en el cual se graban delgadas pisas paralelas de 13,6 µm inclinadas unos 6º respeco al borde de la cina que conienen la señal digializada y codificada como PCM (pulse code modulaion). La codificación PCM consise básicamene en una sucesión en el iempo de valores bajos y alos de una señal elécrica (u ópica, o magnéica) represenando los sucesivos 0 s y 1 s de un número binario (en ese caso proveniene de la conversión analógico-digial de una muesra analógica del sonido). Esa codificación no inroduce pérdida de información ninguna respeco a la señal ya muesreada y digializada. 4
MiniDisc (MD) El MiniDisc es un pequeño disco de 64 mm de diámero denro de una cubiera proecora. La grabación se efecúa mediane un haz láser que caliena a 180 ºC una pequeña área del disco, mienras una bobina la magneiza con una u ora polaridad (lo cual sólo es posible a esa emperaura, denominada emperaura de Curie). La lecura se logra mediane un efeco magneo-ópico denominado efeco Kerr, por el cual la presencia de un campo magnéico produce un cambio de la polarización del haz láser. Debido a que la densidad de información (es decir la canidad de daos por unidad de superficie que esá deerminada principalmene por la longiud de onda del láser uilizado, 780 nm ) es igual a la del CD, pero su superficie basane menor, el MD necesia incorporar écnicas de compresión (reducción) de daos. Para comprender las posibles limiaciones de ese sisema, conviene inspeccionar la nauraleza del proceso de compresión, llamado genéricamene ATRAC (Adapive Transform Acousic Coding). La compresión ATRAC El sisema se basa en el fenómeno psicoacúsico de enmascaramieno, consisene en que un sonido puede volverse inaudible en presencia de oro. En ausencia de oros sonidos, cada frecuencia f iene asociado un umbral de audición, es decir, un nivel de presión sonora por debajo del cual el sonido no se percibe (curva roja en la figura 4). Si ahora se hace sonar oro sonido simuláneamene con f (por ejemplo una banda angosa de ruido cenrada en 1 khz), se observa que el umbral de audición correspondiene a la frecuencia f aumena (curva azul en la figura 4), es decir que se requiere mayor nivel para que f se alcance a escuchar. La presencia del oro sonido ha enmascarado a f. En el ejemplo, el umbral para la frecuencia f ha aumenado de 4 db a 28 db, es decir 24 db (el aumeno se indica con la línea verde en la figura 4). Eso significa, en paricular, que puede olerarse un ruido 24 db más inenso, ya que el mismo resulará inaudible. db 100 80 60 40 20 0 Umbral de audición Umbral de audición modificado por enmascaramieno 20 100 1k f 10k Hz Figura 4. Umbral de audición y su modificación por el enmascaramieno producido por una banda de ruido cenrada en 1 khz. 5
El codificador ATRAC aprovecha ese fenómeno del siguiene modo. Dado que el ruido admisible aumenó 24 db, la relación señal/ruido necesaria disminuye 24 db, por lo cual se requieren 24/6 = 4 bis menos. En lugar de 16 bis se requerirán, por lo ano, 12 bis. El ejemplo anerior era un caso simple, en el cual el sonido enmascarane era una banda de ruido muy angosa. En un caso real (por ejemplo un fragmeno musical), endremos generalmene un especro complejo y variable en el iempo. Un especro complejo significa muchos sonidos simuláneos enmascarándose muuamene. El codificador acúa descomponiendo primero la señal en ciero número de bandas por medio de un banco de filros, y luego deerminando el efeco enmascarane sobre cada banda de las oras bandas. Ese efeco enmascarane se manifiesa en general como un imporane aumeno del umbral, lo cual significa la posibilidad de asignar una canidad de bis mucho menor que 16 a cada una de las bandas. Dado que las caracerísicas especrales de la señal son variables en el iempo, la canidad de bis asignada se acualiza cada 11,6 milisegundos, excepo en los sonidos de variación muy rápida (aaques), en que la acualización puede realizarse cada 2,9 milisegundos para las frecuencias bajas y medias, y cada 1,45 milisegundos para las alas frecuencias. El codificador guarda en el propio disco dos parámeros: la longiud de la palabra (es decir la canidad de bis asignados a cada muesra 1 ) y el facor de escala, que indica el amaño que iene cada bi. Una caracerísica ineresane del ATRAC es que el decodificador es independiene del codificador. Eso es, al guardar información suficiene para reconsruir la señal, el decodificador es muy simple y compleamene esándar. No sucede lo mismo con el codificador, cuyo algorimo puede ir evolucionando con el iempo, a medida que se van perfeccionando las écnicas de compresión, o que mejora la precisión ariméica de los procesadores. Ello ha dado origen a sucesivas versiones del codificador ATRAC, que dan resulados cada vez mejores, pero que, sin embargo, pueden ser decodificadas por un mismo decodificador. La versión acual es la 4.5. Efecos residuales de la compresión Al considerar la posibilidad de uilizar el MiniDisc para regisros digiales de sonido, es muy imporane ener en cuena el efeco residual de la compresión. Debido a que el enmascaramieno es un fenómeno especralmene local, es decir que un sonido enmascara primordialmene a las frecuencias vecinas (figura 4), cabe esperar que el peor efeco se produzca en los casos de gran canidad de frecuencias muy cercanas. Para evaluar esos efecos, se ensayó un grabador MiniDisc poráil (el MZ-R70 de Sony). Los ensayos se hicieron uilizando res ipos de señales generadas por compuadora, enviadas desde la salida de línea de la placa de sonido, grabadas en el grabador de MiniDisc, reproducidas por ése y reingresadas a la compuadora a ravés de la enrada de línea de la placa. La primera señal esuvo consiuida por un barrido de onos puros correspondienes a las frecuencias cenrales de las bandas de ercio de ocava desde 20 Hz hasa 20 khz. En ese caso los onos se presenan en forma aislada, por lo cual no exisen efecos de enmascaramieno. El sisema exhibe un énfasis de hasa 5 db en baja frecuencia y una aenuación de casi 7 db en 20 khz (figura 5). Por consiguiene, es necesaria una ecualización, por ejemplo a ravés de un filro FFT, si se desea una respuesa verdaderamene plana. Al parecer, ese énfasis en los graves es para compensar 1 En realidad no se guardan las muesras sino los coeficienes especrales. 6
la pobre respuesa en baja frecuencia de la mayoría de las vías acúsicas de mediana calidad. 10 5 0-5 -10 31,5 63 125 250 500 1000 2000 4000 8000 16000 Figura 5. Respuesa en frecuencia del MiniDisc ane onos puros de frecuencias iguales a los cenros de las bandas de ercio de ocava La segunda señal uilizada fue un ono de 100 Hz y 200 armónicos de igual ampliud, odos en fase. En ese caso se pone a prueba el algorimo de adapación de la precisión según el enmascaramieno, ya que los onos uilizados ienen una endencia a enmascarar a los vecinos, reduciendo el rango dinámico disponible. Se observa en ese caso una reducción brusca de unos 4 db en las proximidades de 15 khz. Hasa donde pudo observarse, los armónicos manienen en general la fase de manera que la forma de onda rescaada es similar a la original. 10 5 0-5 -10 31,5 63 125 250 500 1000 2000 4000 8000 16000 Figura 6. Respuesa en frecuencia del MiniDisc ane un sonido formado por 200 armónicos de 100 Hz en fase La ercera señal correspondió un fondo de ruido blanco al cual se le superpone un ono de 1 khz que va adopando niveles decrecienes de 5 en 5 db, comenzando por un nivel igual al del ruido blanco, hasa quedar sumergido en el ruido. En ese ensayo se preendió verificar hasa cuándo era odavía posible rescaar el ono, eniendo en cuena el enmascaramieno causado por el ruido especralmene vecino. El ensayo se realizó de dos formas diferenes. En la primera, el ruido era perfecamene blanco, y en la segunda 7
se le eliminó, por filrado FFT, una pequeña banda alrededor de 1 khz. En ambos casos se agrega poseriormene el ono de 1 khz de nivel decreciene. En el primer caso, el ono puede ser rescaado por medio de un filro pasabanda angoso alrededor de 1 khz hasa que se vuelve unos 25 db inferior al nivel del ruido blanco. Para valores más bajos, no es posible separar el ruido filrado del ono. En el segundo caso, la reducción llega fácilmene a 43 db por debajo del nivel del ruido blanco. El mismo es, aplicado a la señal digial originalmene generada por la compuadora, arroja valores de 30 db y 59 db, por debajo del nivel del ruido blanco, o blanco con 1 khz suprimido, respecivamene. Resulados similares pueden apreciarse para el DAT, habiéndose uilizado un equipo poráil PCM-M1, ambién de Sony. Conclusión Los ensayos revelan algunas diferencias objeivas enre las respuesas del DAT y del MiniDisc. La respuesa del MiniDisc a señales simples (onos puros) es casi indisinguible de la de un DAT. Para señales especralmene complejas (gran canidad de armónicos o ruidos de bandas), se produce una aleración equivalene a un aumeno del ruido de fondo que resula prácicamene inaudible (por la propia nauraleza psicoacúsica de la compresión), pero que esá presene y podría manifesarse en siuaciones en las que la señal grabada deba ser someida a procesamienos que involucren ecualizaciones complejas o filrados imporanes. En aquellos casos en que se esé grabando una señal que no experimenará modificaciones uleriores muy grandes, la grabación en MiniDisc será perfecamene acepable. Finalmene, cabe acoar que las comparaciones fueron efecuadas sobre equipos poráiles. En los equipos de mesa, los conversores suelen ser de mejor calidad, y debido al proceso de compresión, en algunos casos se anuncian relaciones señal/ruido mayores de 96 db (por ejemplo 100 db), lo cual en el DAT no es posible por ser un formao perfecamene lineal (y como al debe aenerse a los 96 db eóricos). LECTURAS COMPLEMENTARIAS 1. Federico Miyara: Ruido o señal? La ora información. En defensa del regisro digial del ruido urbano. 4a Jornada Regional sobre Ruido Urbano. Monevideo, 14/7/01 2. Wakinson, John: Audio Digial. Ediorial Paraninfo. Madrid, 1996. 3. Kyoya Tsusui, Hiroshi Suzuki, Osamu Shimoyoshi, Mio Sonohara, Kenzo Akagiri, Rober M. Heddle: ATRAC: Adapive Transform Acousic Coding for MiniDisc. Sony Corporae Research Laboraories, 6-7-35 Kiashinagawa, Shinagawa-ku, Tokyo 141 Japan. Reprined from he 93rd Audio Engineering Sociey Convenion in San Fransisco, 1992 Ocober 1-4. Inerne: hp://www.minidisc.org/aes_arac.hml 4. Tadao Yoshida: The Rewriable MiniDisc Sysem. Advanced Developmen Laboraories. Sony Corporaion, Tokyo, Japan. Reprined from he Proceedings of he IEEE,USA vol. 82 no. 10 pp. 1492-1500, OCT 1994. Inerne: hp://www.minidisc.org/ieee_paper.hml 8