TEMA 4. La señal de Audio 4.1 DEFINICIÓN Y CARACTERÍSTICAS DEL SONIDO

Tamaño: px
Comenzar la demostración a partir de la página:

Download "TEMA 4. La señal de Audio 4.1 DEFINICIÓN Y CARACTERÍSTICAS DEL SONIDO"

Transcripción

1 TEMA 4 La señal de Audio 4.1 DEFINICIÓN Y CARACTERÍSTICAS DEL SONIDO Una posible definición de sonido es la sensación auditiva producida por una alteración física en un medio. El elemento generador del sonido se denomina fuente sonora. La generación del sonido tiene lugar cuando dicha fuente entra en vibración y ésta es transmitida a las partículas de aire adyacentes, que a su vez, la transmiten a las partículas contiguas originándose variaciones en la presión del aire (compresiones y descompresiones). Estas variaciones de presión se propagan en el medio originando lo que recibe el nombre de ondas sonoras. El grado de compresión y descompresión del aire es la amplitud de la presión de la onda sonora o presión sonora y está relacionada con el nivel sonoro. La distancia entre dos picos adyacentes de compresión o descompresión conforme la onda sonora viaja en el aire se conoce con el nombre de longitud de onda. En el aire, el sonido se propaga a una velocidad aproximada de 343 m/s (metros por segundo). Esta velocidad puede variar con la densidad del aire, afectada por factores como la temperatura o la humedad relativa. En cualquier caso, para distancias de decenas de metros las variaciones son mínimas. Aunque en este curso nos interesa principalmente la propagación del sonido en el aire, se puede dar en cualquier medio. Cuanto más denso sea el medio, mayor será la velocidad de propagación del sonido en el mismo. Así por ejemplo, en el agua, un valor típico de velocidad del sonido son 1500 m/s (el agua es más densa que el aire). En el agua, la densidad varía mucho en función de factores como la profundidad, la temperatura o la salinidad y sí hay que tenerlos en cuenta. En materiales metálicos, el sonido se propaga a velocidades superiores a las anteriores, por ejemplo, en el acero el sonido se propaga a una velocidad en torno a 5000 m/s. Cuando las ondas sonoras llegan al oído, el cerebro interpreta las variaciones de presión como sonido. La velocidad con que oscila la fuente sonora es la frecuencia de la onda sonora y se mide

2 en Hertzios (Hz) o ciclos por segundo. Para que la vibración sea audible para un ser humano, la fuente debe oscilar a un ritmo de entre 20 y ciclos por segundo. Esto es lo que se denomina frecuencia y se mide en Hertzios (Hz). El periodo es el inverso de la frecuencia y es el tiempo que transcurre desde que una partícula se encuentra en una posición hasta que vuelve a hacerlo. Las características de una onda sonora pueden representarse gráficamente mediante un eje vertical para la amplitud y un eje horizontal para el tiempo. Si dicha representación es una función seno o coseno, diremos que la fuente vibra con un movimiento vibratorio armónico simple y la onda sonora se denomina senoidal. En este caso, la onda representa un sonido puro, puesto que tiene su energía concentrada en una única frecuencia, y se denomina tono puro. El silbido de una persona se aproxima bastante a una onda sinusoidal. La mayoría de los sonidos reales están hechos a base de combinaciones de diferentes modelos vibratorios, de los que resulta una forma de onda más compleja. Cuanto más compleja es una forma de onda, más tiende a parecerse al ruido y cuando la onda presenta un modelo muy aleatorio y poco estructurado se dice que dicho sonido es ruido. No obstante, podemos considerar ruido como sonido no deseado, ya que hay veces en las que precisamente lo que buscamos es generar ruido artificialmente con distintos propósitos. En el apartado de síntesis se da algún ejemplo de este tipo de situaciones. El espectro es la representación de las frecuencias que componen una señal de audio. Se obtiene calculando la energía que aporta cada frecuencia al sonido total. Normalmente la representación no se hace en términos de energía directamente, sino que se calcula el nivel (se definirá en el siguiente apartado) respecto a la energía de referencia. Con esto se obtiene el nivel espectral. La representación espectral (o el espectro) puede resultar muy útil puesto que aporta información sobre cuanto contribuye cada frecuencia o cada banda de frecuencia al sonido total. Esto no es mas que un cambio de representación, es decir se trata de la misma señal pero representada en el dominio de la frecuencia en lugar de hacerlo en el dominio del tiempo que nos resulta más directo y habitual. Sin embargo, el disponer de la señal en el dominio de la frecuencia nos proporciona de forma directa información muy valiosa acerca del contenido frecuencial de la misma. Este aspecto es fundamental a la hora de realizar la digitalización para evitar problemas de aliasing que se comentarán más adelante. El tono de un sonido está directamente relacionado con la frecuencia de la oscilación, pero ambos términos no son sinónimos. De hecho, muchos sonidos como los generados por instrumentos de percusión no tienen un tono definido. Lo que hace que un sonido tenga un tono definido es su periodicidad, es decir la forma de la onda. No importa lo compleja que sea si repite su patrón a intervalos regulares y siempre de la misma manera. Todas estas ondas pueden descomponerse en serie de componentes conocidos como armónicos, mediante un proceso matemático denominado análisis de Fourier. Los sonidos musicales, a excepción de los generados por instrumentos de percusión no temperados están formados por una frecuencia fundamental que es la frecuencia de vibración más grave y es la que determina el tono del sonido (tono o armónico 4.2 Tecnología de los Contenidos Multimedia

3 fundamental) y una serie de armónicos (frecuencias múltiplos enteros de la fundamental). La presencia y número de armónicos confieren al sonido la cualidad subjetiva de timbre. El timbre podría definirse como el color de un sonido y nos permite distinguir y caracterizar distintos tipos de instrumentos o a reconocer a las personas por su voz. Dos instrumentos musicales distintos pueden hacer sonar la misma nota musical, lo que implica que su tono fundamental es el mismo, pero la percepción de las mismas puede ser radicalmente distinta. Esta diferenciación la establece el timbre y es lo que mos permite distinguir una nota generada por un piano de la misma nota generada por una trompeta. Lo que cambia es el timbre, o lo que es lo mismo, el contenido armónico de la señal o para ser más precisos la cantidad de armónicos y las proporciones relativas entre ellos y entre ellos y el fundamental. En general, las ondas asociadas a la frecuencia fundamental tienen amplitud mayor, mientras que las amplitudes de los armónicos disminuyen conforme crece la frecuencia. Esto no siempre se corresponde con la realidad, puesto que muchas formas de onda tienen armónicos de amplitud mayor que la del tono fundamental. También es fácil encontrar espectros en los que desaparecen algunos armónicos. Por último, para un determinado sonido pueden existir frecuencias superiores a la fundamental que no están relacionados con ésta mediante un simple múltiplo entero de ésta. En este caso se habla de sobretonos en lugar de armónicos. Es decir, todo armónico es sobretono pero no todo sobretono es armónico. Por ejemplo, en campanas puede percibirse a veces la presencia de varios sobretonos fuertes. Se dice que dos ondas de la misma frecuencia están en fase cuando sus semiciclos de compresión (positivos) y descompresión (negativos) coinciden exactamente en el tiempo y en el espacio. Si se superponen dos señales en fase y de igual amplitud, se obtiene otra señal de la misma frecuencia y doble amplitud. Se dice que dos señales están en contrafase cuando el semiciclo positivo de una coincide con el semiciclo negativo de la otra. Si se suman estás señales se obtiene ausencia de señal. Estos son dos casos extremos y lo más frecuente es tener sonidos de la misma frecuencia parcialmente desfasados entre sí. Figura 4.1 Gráfica que muestra el rango de sonidos audibles y detectables por el oído humano. En el eje horizontal se muestra la frecuencia y en el vertical el Nivel de Presión Sonora. La curva sombreada inferior indica el umbral de audición, donde se ve que la máxima sensibilidad se presenta sobre los 4kHz. Tecnología de los Contenidos Multimedia 4.3

4 4.2 NIVEL DE PRESIÓN SONORA Y DECIBELIOS Según se ha mencionado con anterioridad, la presión sonora constituye una manera habitual de expresar la magnitud de un sonido. En principio el valor a considerar es la diferencia entre el valor fluctuante de la presión sonora total y su valor de equilibrio correspondiente a la presión atmosférica. Debido a la variación de dicha magnitud con el tiempo, se utiliza como valor representativo su promedio temporal, que recibe el nombre de valor eficaz o RMS (Root Mean Square). Ahora bien, el uso de dicho valor eficaz no resulta muy útil debido por una parte, al amplio rango de presiones que el oído humano es capaz de detectar y, por otra, a la respuesta logarítmica del mismo. En efecto, la gama de presiones que el oído humano es capaz de detectar va desde Pa (valor umbral mínimo de audición) hasta 200 Pa (umbral de dolor), es decir, extraordinariamente amplia (140dB), por lo que la aplicación de una escala lineal no sería nada práctico. Pa es la abreviatura de Pascal que es una unidad de presión que se define como la presión ejercida por una fuerza de un Newton sobre una superficie de un metro cuadrado. Además, el oído humano no responde linealmente a los estímulos que recibe, sino que más bien lo hace de forma logarítmica. Por ejemplo, si la presión de un tono puro de 1kHz se dobla, la sonoridad o sensación subjetiva producida por el mismo, no llegará a ser el doble. De hecho, para obtener una sonoridad doble, es necesario multiplicar la presión sonora por un factor de 3,16. Este comportamiento del oído humano hace conveniente el empleo de una escala logarítmica para representar la presión sonora. Esta escala se expresa en valores relativos a un valor de referencia. Dicho valor de referencia es 2x10-5 Pa (umbral de audibilidad). En este caso se habla de NPS que son las siglas de Nivel de Presión Sonora (SPL = Sound Pressure Level en inglés) y la unidad utilizada es el decibelio (db). La utilización del umbral de audición como referencia tiene como objetivo que todos los sonidos audibles sean representados por valores NPS positivos. El uso de decibelios reduce la gama de presiones sonoras a niveles de presión sonora de 0 a 140dB, donde 0dB representa una presión igual al umbral de audición (no significa, por tanto, ausencia de sonido) y 140dB el umbral aproximado de dolor. De esta manera, las cifras manejadas son mucho más simples y, además, se dan las siguientes relaciones entre cambios de nivel sonoro y su efecto subjetivo: 1dB: mínimo cambio de nivel sonoro perceptible. 5dB: cambio de nivel claramente percibido 10dB: incremento asociado a una sonoridad doble. Además el NPS disminuye aproximadamente 6dB cada vez que se duplica la distancia debido a la relación del cuadrado de la distancia. En la tabla 4.1 se muestran niveles de presión sonora correspondientes a sonidos y ruidos típicos. 4.4 Tecnología de los Contenidos Multimedia

5 Fuente Sonora NPS(dB) Despeque de un reactor 150 Concierto de rock 120 Discoteca 112 Taladradora a 15m 94 Camión pesado a 15m 86 Calle de ciudad 80 Interior de automóvil 74 Aspiradora a 3m 68 Conversación normal a 1m 60 Transformador grande a 15m 54 Oficina, aula 50 Dormitorio (noche) 30 Estudio de grabación 20 Tabla 4.1 Niveles de presión sonora de algunos sonidos cotidianos NIVELES DE LA SEÑAL DE AUDIO Cuando la señal de audio parte de un micrófono, atraviesa una mesa de mezclas, se graba en un multipista y llega a un altavoz, a lo largo de todos esos pasos, sufre varios cambios en el nivel de tensión. El nivel de potencia de una señal se define como: P L = 10log P re donde P re es el valor de referencia que se toma para establecer la escala de niveles y log( ) representa el logaritmo decimal. Puesto que la potencia y la tensión tienen entre sí una relación cuadrática (de la ley de Ohm tenemos: P=V 2 /R), el nivel de tensión L en db se define como: V L = 10log V re donde V re es el valor de la tensión de referencia. Cuando se trabaja con sonido, el valor 0dB es un nivel de referencia nominal empleado para alinear equipos y ajustar niveles de grabación. Su valor corresponde normalmente a una referencia de V (0dBu). El valor 0dB no significa ausencia de señal, significa que la señal a la que se refiere tiene el mismo nivel que la de referencia. Para indicar el estándar de referencia que se emplea en cada caso suele colocarse una letra después de db (por ejemplo, dbm o dbu). A continuación se dan algunos ejemplos de las diferentes abreviaturas empleadas normalmente, que indican el nivel de referencia empleado. No hay que olvidar que los decibelios son una unidad de medida relativa, por lo que no sirven de nada si no se especifica el nivel de referencia. Tecnología de los Contenidos Multimedia 4.5

6 Abreviatura dbv dbu dbv dbw dbm Referencia 1 Voltio 0,775 Voltios (Europa) 0,775 Voltios (EE.UU.) 1 vatio 1 milivatio Tabla 4.2 Tabla de sufijos de db y los correspondientes niveles de referencia. dbv, dbu y dbv son medidas de tensión mientras que dbw y dbm lo son de potencia. El valor de Voltios viene porque es el nivel de tensión que libera un milivatio de potencia sobre una resistencia de 600 Ohmios, que es una resistencia estandar en sistemas de comunicaciones. Según esto tendremos: dbu = dbm sobre una resistencia de 600 Ohmios 0 dbu = Voltios Aunque los niveles utilizados por los dispositivos de audio varían en un rango muy amplio, se suelen distinguir tres tipos diferentes: Nivel de micrófono (mic level). Se consideran de este tipo hasta -20dBu (77.5mV). Se obtienen a la salida de giradiscos, micrófonos, cintas magnéticas, pastillas de guitarras... Nivel de línea (line level). Se consideran de este tipo, niveles entre -20 y 30dBu. Son señales procedentes de mesas de mezclas, procesadores de señal, teclados electrónicos y de la mayoría de aparatos que se encuentran en un estudio de grabación, excepto los amplificadores de potencia. Nivel de altavoz (speaker level) o niveles superiores a 30dBu. Se obtienen a la salida de los amplificadores de potencia y sirven para atacar los altavoces. 4.3 EL SISTEMA AUDITIVO La audición es el resultado de una serie de procesos acústicos, mecánicos, nerviosos y mentales dentro de la combinación oído-cerebro que dan la impresión de sonido. La impresión que un humano recibe no es idéntica a la forma de onda acústica verdadera presente en el canal auditivo porque parte de la entropía de la onda se pierde. La agudeza del oído humano es asombrosa, ya que puede detectar cantidades minúsculas de distorsión y aceptar un enorme rango dinámico. El único criterio de calidad de que se dispone consiste en el hecho de que si el oído es incapaz de detectar distorsión alguna, se dice que el sonido es perfecto. Por tanto, el criterio de calidad es completamente subjetivo y sólo se puede comprobar mediante pruebas de audición. 4.6 Tecnología de los Contenidos Multimedia

7 El oído se divide en tres zonas, llamadas oído externo, oído medio y oído interno, de acuerdo a su ubicación en el cráneo. El oído externo es la parte del aparato auditivo que se encuentra en posición lateral al tímpano. Comprende la oreja y el conducto auditivo externo, que mide unos tres centímetros de longitud, como se puede observar en la figura 4.2. Figura 4.2 Oído externo El oído medio se encuentra situado en la cavidad timpánica llamada caja del tímpano, cuya cara externa está formada por el tímpano, que lo separa del oído externo. Incluye el mecanismo responsable de la conducción de las ondas sonoras hacia el oído interno. Es un conducto estrecho, que se extiende unos quince milímetros verticalmente y otros quince horizontalmente. La impedancia del oído es mucho más alta que la del aire y el oído medio actúa como un transformador adaptador de impedancias que mejora la transferencia de potencia. Hay una cadena formada por tres huesos pequeños y móviles que atraviesa el oído medio. Estos tres huesos reciben los nombres de martillo, yunque y estribo. Los tres conectan acústicamente el tímpano con el oído interno, que contiene un líquido. La figura 4.3 muestra el oído medio. Figura 4.3 Oído medio El oído interno, o laberinto, se encuentra en el interior del hueso temporal que contiene los órganos auditivos y del equilibrio. Está separado del oído medio por la ventana oval. El oído interno Tecnología de los Contenidos Multimedia 4.7

8 consiste en una serie de canales membranosos alojados en una parte densa del hueso temporal, y está dividido en: cóclea (en griego, caracol óseo ), vestíbulo y tres canales semicirculares. La figura 4.4 muestra el oído interno. Estos tres canales se comunican entre sí y contienen un fluido gelatinoso denominado endolinfa. Figura 4.4 Oído interno Los sonidos penetran al oído a través de la oreja y chocan con el tímpano haciéndolo vibrar. Esta vibración es recibida por los tres huesecillos articulados en cadena y controlados por dos pequeños pero poderosos músculos. El final de la cadena lo constituye el estribo que está alojado en un nicho llamado ventana oval que es el lugar por donde ingresa el sonido (oído interno) a la cóclea o caracol. Los movimientos del estribo producen desplazamientos del líquido en el oído interno que estimulan las terminaciones nerviosas o células ciliadas, lugar donde realmente comienza el proceso auditivo. Las células nerviosas estimuladas, envían la señal por el nervio auditivo hasta los centros del cerebro, donde el estimulo eléctrico es procesado. Figura 4.5 Membrana basilar extendida. 4.8 Tecnología de los Contenidos Multimedia

9 Como se observa en la figura 4.5, la membrana basilar se extiende a lo largo de la cóclea. Esta membrana varía en masa y rigidez a lo largo de su longitud. En el extremo más próximo a la ventana oval y al tímpano, la membrana es rígida y ligera, así que su frecuencia de resonancia es alta. En el extremo distante, próximo al ápice, la membrana es pesada y suave, y resuena a baja frecuencia. El rango de frecuencias de resonancia disponible determina el rango de frecuencias de la audición humana, que va desde los 20Hz hasta los 20KHz, sin embargo, en la práctica sólo llega hasta los 16 khz aproximadamente. Frecuencias diferentes en la entrada de sonido causan que diferentes áreas de la membrana basilar vibren. Cada área tiene diferentes terminaciones nerviosas para permitir discriminar el tono. La membrana basilar además tiene músculos diminutos controlados por los nervios que juntos actúan como una especie de sistema de retroalimentación positiva que mejora el factor de resonancia. El comportamiento resonante de la membrana basilar es exactamente el mismo que el de un analizador de espectros; la parte de dicha membrana que resuena como resultado de la aplicación de un sonido es una función de la frecuencia. El oído analiza el sonido con bandas de frecuencia, conocidas como bandas críticas. Los anchos de las bandas críticas dependen de la frecuencia, tal y como se ilustra en la figura 4.6. Por debajo de los 500 Hz, el ancho de banda crítico es aproximadamente constante (alrededor de los 100 Hz), mientras que por encima de los 500 Hz crece en proporción a la frecuencia: el ancho de banda crítico centrado en una frecuencia superior a 500 Hz es de alrededor del 20% de la frecuencia central. Basándose en los valores obtenidos mediante la figura 4.6, es posible subdividir el rango de frecuencias audibles en intervalos adyacentes de anchura igual a una banda crítica y que no se solapan entre sí. Esta subdivisión se presenta en la figura 4.7. En el rango audible de 20 Hz a 20 KHz se encuentran 25 bandas críticas adyacentes, numeradas en forma consecutiva en la figura. Figura 4.6 Ancho de las bandas críticas en función de la frecuencia Tecnología de los Contenidos Multimedia 4.9

10 Figura 4.7 Bandas críticas adyacentes en el rango de frecuencias audibles En la tabla 4.3 se muestran los valores que definen las primeras 24 bandas críticas. Estos valores se han convertido en un estándar de facto para describir la distribución de las bandas críticas en función de la frecuencia. Nº Banda Frec. central Frec. Superior Ancho de banda Tabla 4.3 Distribución de las bandas críticas en función de la frecuencia 4.10 Tecnología de los Contenidos Multimedia

11 4.4 PERCEPCIÓN DEL SONIDO Como ya se ha comentado, la banda de frecuencias audibles va desde los 20Hz (sonidos más graves) hasta los 20kHz (sonidos más agudos) para una persona normal de 18 a 25 años disminuyendo paulatinamente con la edad. El rango dinámico del oído va desde los 0dB hasta los 120dB (umbral de molestia) o hasta 140dB (umbral de dolor). Se comprueba fácilmente que un sonido nos parece más agudo cuanto mayor es su frecuencia. El oído humano interpreta las frecuencias de manera casi logarítmica. La apreciación subjetiva de un oyente cuando se pasa de un tono de 400 Hz a otro de 800, será análoga a la de pasar de un tono de 3000 Hz a otro de 6000 Hz. Es decir, el oído interpreta el mismo cambio de tono cada vez que se duplica la frecuencia. Sin embargo la distancia en frecuencia en el primer caso es de 400 Hz y en el segundo de 3000 Hz. Ahora bien, el oído humano no tiene la misma sensibilidad para todo el margen de frecuencias. La figura 4.1 muestra las variaciones de los umbrales de audición y de dolor en función de la frecuencia. A partir de esta figura podemos concluir que: Para niveles bajos de presión sonora, el oído es muy insensible a bajas frecuencias, es decir, el nivel de presión sonora de un sonido grave tiene que ser mucho más elevado que el correspondiente a un sonido de frecuencias medias para que ambos produzcan la misma sonoridad. Por ejemplo un nivel NPS=70dB a 20Hz produce la misma sonoridad o sensación subjetiva de nivel sonoro que un nivel NPS=5dB a 5kHz. Para dichos niveles bajos, el oído presenta también cierta atenuación a altas frecuencias. A medida que los niveles aumentan, el oído tiende a responder de forma más homogénea en toda la banda de frecuencias audibles, hasta el punto de que cuando son muy elevados, la sonoridad asociada a tonos puros de diferente frecuencia es muy parecida. El oído es menos sensible para frecuencias bajas y altas. Esta característica de menor agudeza para los tonos graves favorece el enmascaramiento de los sonidos que produce el cuerpo humano. Este comportamiento del oído con el nivel de presión sonora explica que se perciben más los graves y agudos si el volumen de un equipo de música es alto. Este es el motivo por el que escuchar la música a niveles altos nos permite apreciarla con mayor brillantez. De hecho, para evitar volúmenes muy elevados, muchos equipos de música incorporan un conmutador (Loudness) para compensar este fenómeno. Cuando activamos el Loudness en estos equipos, se produce un incremento de las bajas y altas frecuencias cuando el volumen es bajo. Este efecto se reduce progresivamente conforme aumentamos el volumen del equipo. Esto nos permite escuchar la música con el mismo nivel subjetivo entre frecuencias, independientemente del volumen de reproducción del equipo. La figura 4.1 muestra claramente este comportamiento donde se ve que la curva de audivilidad se va haciendo más plana cuando el NPS Aumenta. El nivel sonoro depende en gran medida de la naturaleza del sonido. Los sonidos de banda ancha tienden a parecer más fuertes que los de banda estrecha. Por otra parte los sonidos distorsionados parecen, psicológicamente, ser más fuertes que los que no tienen distorsión, debido quizás a que Tecnología de los Contenidos Multimedia 4.11

12 se asocia distorsión con sobrecarga del sistema. Si se reproducen dos sonidos musicales con niveles idénticos, uno de ellos con bastante distorsión y el otra sin ella, el oyente percibirá el primero más fuerte. Otro factor importante es que, para una determinada frecuencia, el umbral de audición se incrementa en presencia de otro sonido de frecuencia similar, o lo que es lo mismo, un sonido puede enmascarar a otro. Para dar la sensación de que se dobla el nivel sonoro que se percibe de un sonido, se necesita un incremento de 9 a 10dB. Aunque 6dB equivalen a multiplicar por 2 la presión sonora real, el mecanismo de la audición parece necesitar un incremento superior en la señal para crear la sensación de que se ha doblado el volumen ENMASCARAMIENTO Un sonido en el rango audible sólo puede ser percibido por una persona, cuando su nivel de presión sobrepasa el límite inferior (umbral de audibilidad). En ausencia de todo ruido, este límite es el umbral absoluto de audibilidad. En presencia de ruido, el mismo sonido debe tener un nivel más alto para que se pueda distinguir. NPS (db) Figura 4.8 Curvas de enmascaramiento para un tono de 1200Hz y distintos Niveles de Presión Sonora. Este fenómeno se conoce con el nombre de enmascaramiento. Se denomina enmascaramiento a la reducción total o parcial de la sensibilidad de un oyente para percibir un determinado sonido, provocado por la presencia simultánea de otro. Cuando un sonido hace que otro sea menos audible, porque ambos se producen al mismo tiempo, se dice que se produjo un fenómeno de enmascaramiento. El sonido cuyo umbral de audibilidad se ha modificado se denomina sonido enmascarado y al otro, sonido enmascarante. El efecto del enmascaramiento debido a un ruido depende del reparto espectral del mismo, ya que se origina no sólo por los sonidos que tienen la misma frecuencia que las componentes del ruido, sino también por otras. Sin embargo, el efecto es máximo para la frecuencia del ruido Tecnología de los Contenidos Multimedia

13 La gráfica de la figura 4.8 muestra el enmascaramiento de un tono o de un ruido de banda estrecha sobre otros adyacentes, donde la línea curva inferior delimita el umbral medio de audición. Algunas características de este enmascaramiento que se pueden observar en dicha figura son: Una banda estrecha de ruido, produce más enmascaramiento que un tono puro de igual frecuencia central y misma intensidad. Cuando el ruido es de bajo nivel, el enmascaramiento se produce en una banda de frecuencia estrecha alrededor de la frecuencia central del ruido. Para niveles superiores del ruido, se incrementa el margen de frecuencias afectadas El efecto de enmascaramiento no es simétrico en torno a la frecuencia central del ruido enmascarante. Las frecuencias superiores sufren más los efectos de enmascaramiento. La gráfica muestra las zonas que estarían bajo los efectos del enmascaramiento, con un ruido de banda estrecha centrado en 1200 Hz, y para distintos niveles de presión sonora del ruido. Para el caso más extremo, el ruido de 110 db (la curva más alta), obtenemos la mayor zona enmascarada. Por ejemplo, en este caso, el oyente no detectaría un tono de 8 khz y 50 db de nivel de presión; tampoco detectaría un sonido de 4 khz y 70 db de nivel de presión. También se produce enmascaramiento parcial entre tonos puros cuando están muy próximos en frecuencia, influenciándose más cuanto más cerca estén sus frecuencias. Si tonos puros muy separados en frecuencia tienen sonoridades similares y suenan simultáneamente, la sonoridad percibida será la suma de las sonoridades asociadas a dichos tonos. En cambio, si los tonos de igual sonoridad están muy próximos en frecuencia, al sonar simultáneamente darán una sonoridad ligeramente superior a la sonoridad de cualquiera de ellos. El enmascaramiento parcial puede llegar a ser total cuando hay además de una gran proximidad en frecuencia, una notable diferencia en cuanto a sonoridad, es decir, un sonido fuerte oculta totalmente a un sonido débil, que no puede percibirse y por tanto, no contribuye a la sonoridad. La rama de la acústica que estudia la percepción humana del sonido se denomina psicoacústica y últimamente ha cobrado importancia al ser la base para algunos de los algoritmos de compresión más eficientes. Este efecto de enmascaramiento es fundamental para la compresión de audio digital ya que los tonos enmascarados se pueden ignorar puesto que no serán percibidos. Esto nos permite conseguir una secuencia digital de audio que ocupe menos espacio de almacenamiento o que requiera menos capacidad de un canal de comunicaciones. Los algoritmos de compresión que utilizan este fenómeno y otros similares, se conocen como codificadores basados en la percepción o métodos psicoacústicos (PAC: Perceptual Audio Coding) y se tratarán en un capítulo posterior. El oído es incapaz de registrar energía en algunas bandas cuando existe más energía en otra banda cercana. La vibración de la membrana en sintonía con una sola frecuencia no puede ser localizada en una zona infinitamente pequeña, por lo que las zonas cercanas se ven obligadas a vibrar a la misma frecuencia con una amplitud que decrece con la distancia. Otras frecuencias Tecnología de los Contenidos Multimedia 4.13

14 son excluidas a menos que la amplitud sea lo bastante alta como para dominar la vibración local de la membrana. En el campo auditivo el rango de frecuencias audibles va de los 20 Hz a los 16 khz (en la práctica), pero el oído no es igualmente sensible a todas estas frecuencias. Las más audibles son las ubicadas en la zona central del espectro, aproximadamente entre 1 khz y 5 khz. Para obtener el nivel de enmascaramiento se procede de la siguiente manera: Supóngase que se tienen dos sonidos, A y B. Se mide el umbral auditivo de A sin B. Luego se pasa el sonido B de fondo y se vuelve a medir el umbral de A. El enmascaramiento es la diferencia, en db, entre el umbral de A en presencia de B y en ausencia de éste. Por ejemplo, si el umbral de A es de 30 db y el umbral de A en presencia de B es de 50 db entonces el enmascaramiento producido es de 20 db. La interacción entre dos estímulos presentados al mismo tiempo depende en gran medida de las características de los sonidos. Seguidamente se describen las características básicas que rigen el enmascaramiento. Un sonido posee mayor poder enmascarante cuando se intenta enmascarar a otro que tenga una frecuencia parecida. En cambio, resulta muy difícil de enmascarar con otro de frecuencia diferente, alejada en el espectro. El enmascaramiento podrá realizarse, pero el nivel de presión sonora necesario tendrá que ser mayor que en el primer caso. Un sonido de determinada frecuencia tiene más poder enmascarante sobre otro de frecuencia más aguda que sobre otro de frecuencia más grave a la misma distancia frecuencial. Por lo tanto, si se está buscando el efecto de enmascaramiento, es más fácil lograrlo con un sonido enmascarante de frecuencia más grave que el enmascarado. La curva de sensibilidad que representa el umbral de audición de una señal en función de su frecuencia en ausencia de señal perturbadora se representa en la figura 4.9, donde la señal A es audible, puesto que sobrepasa el umbral de percepción. Figura 4.9 Umbral de audibilidad en función de la frecuencia 4.14 Tecnología de los Contenidos Multimedia

15 Más recientemente, se ha observado que esta curva se ve afectada en presencia de múltiples señales. Por ejemplo, en el caso de dos señales de frecuencias relativamente cercanas, la señal más fuerte hace subir el umbral de audición en sus proximidades, cuyo efecto es disminuir la sensibilidad del oído alrededor de estas frecuencias. La figura 4.10 representa este caso, donde la señal A, antes audible, es ahora enmascarada por la cercana señal B, más potente que A. Este efecto recibe el nombre de enmascaramiento frecuencial, y se detalla más adelante. En presencia de una entrada de espectro complejo, como la música, el umbral aumenta en casi todas las frecuencias. Una consecuencia de este comportamiento es que el siseo de una cinta de caset de audio analógico es sólo audible durante los pasajes silenciosos de la música. Figura 4.10 Enmascaramiento frecuencial (A enmascarado por B) También existe un efecto de enmascaramiento temporal que básicamente consiste en que un sonido de elevada amplitud enmascara igualmente los sonidos más débiles inmediatamente anteriores o posteriores, tal y como ilustra la figura Este fenómeno se detallará más adelante. Figura 4.11 Enmascaramiento temporal Tecnología de los Contenidos Multimedia 4.15

16 4.5 LOCALIZACIÓN ESPACIAL DE LAS FUENTES En el caso más general, en campo abierto, es decir, en ausencia de reflexiones, el cerebro localiza la fuente de sonido, basándose en la diferencia de nivel entre un oído y otro, y en la diferencia de tiempo (retardo) entre ambos oídos. Como se había dicho, el sonido viaja a una velocidad de 343 m/s y la separación entre oídos es de unos 20 cm, los posibles retardos llegan hasta 600 µs (1 microsegundo = segundo). La diferencia de nivel entre los oídos, es debido principalmente a la sombra acústica que crea la cabeza. Este efecto se acusa más en altas frecuencias ya que estas son más directivas. Las altas frecuencias se localizan principalmente por diferencia de nivel, y las bajas por diferencia de fase (retardo). Para acabar de localizar la fuente del sonido, está el movimiento de la cabeza, que es algo instintivo y colabora de forma determinante a la ubicación de la fuente. En este apartado, nos centraremos en un caso concreto de los posibles: dos fuentes sonoras emitiendo señales coherentes. Se elige este caso porque es el más general. Los dos altavoces de un sistema estéreo emiten, en su mayor parte señal coherente, es decir señal altamente correlacionada y en algunos casos incluso la misma señal. Figura 4.12 Esquema de ubicación de una pareja de altavoces de un sistema estéreo. La posición estéreo por definición, es cuando los altavoces y el oyente forman un triángulo equilátero de tres metros de lado. Además se suelen elevar los altavoces unos pocos grados sobre el plano de audición. Para simular los distintos efectos se suelen añadir retardos entre los dos altavoces, mediante la electrónica. Se puede añadir retardo a toda la señal, o solo a unas frecuencias para crear distintos ambientes. Si el oyente se sitúa a la misma distancia de los dos altavoces, los escucharía al mismo nivel, suponiendo que la señal que entra ambos altavoces es la misma, solo con posibles retardos. Variando solo el retardo entre altavoces, tendríamos los siguientes casos: 1.- Retardos entre 0 y 630 µs: el oyente identifica que hay una única fuente de sonido cuya posición depende del retardo entre las dos señales. El cerebro suma las señales de los dos oídos para determinar la posición de la fuente. Este efecto se denomina localización suma y es la base de los efectos estereofónicos con dos altavoces. 2.- Retardos entre 1 ms y ms: el oyente identifica una única fuente sonora que sitúa en la posición del altavoz cuya señal está llegando primero a sus oídos (el que no está retardado) Tecnología de los Contenidos Multimedia

17 Las componentes de señal que llegan a los oídos en primer lugar son tomadas en consideración y las últimas son suprimidas en el proceso de cálculo. Este es el llamado efecto del Primer Frente de Onda, muy importante a la hora de diseñar sistemas de refuerzo sonoro mediante varios altavoces como sucede, por ejemplo, en salas de cine o en conciertos de Pop/Rock en grandes espacios. 3.- Retardos superiores a 50 ms: el oyente identifica dos fuentes de sonido, cada una en la posición de un altavoz. La segunda fuente de sonido se percibirá como eco de la primera. Los límites de los márgenes de los retardos no son fijos, ya que dependen también de las condiciones ambientales del experimento y también de la percepción subjetiva de cada individuo. Por ejemplo, para retardos entre 630 µs y 1 ms, se tendrá Localización Suma o Ley del Primer Frente de Onda en función del sujeto y de las condiciones del experimento. 4.6 ACÚSTICA MUSICAL Al principio del capítulo se ha definido el sonido en su sentido más general y desde el punto de vista puramente físico, sin embargo, no podemos olvidar que hay un tipo de sonido de especial interés y es el sonido musical. La música emplea el sonido para producir y generar en el oyente distintas emociones y tiene sus propias reglas para conseguir un sonido agradable, aunque esto último depende fuertemente de la obra musical y del oyente, puesto que la componente subjetiva en el campo musical es muy elevada. Sin embargo, gustos musicales aparte, hay un cierto consenso en lo que es agradable de lo que no lo es tanto y esto está recogido en las reglas rítmicas, melódicas y armónicas. En una obra musical tenemos un conjunto de instrumentos que generan distintos sonidos de forma coordinada y perfectamente sincronizada. Además cada instrumento genera habitualmente distintos sonidos o notas musicales. Cada uno de estos sonidos es relativamente simple pues presentan una frecuencia fundamental y un conjunto de armónicos relacionados de forma sencilla con esta frecuencia fundamental tal y como ya se ha explicado. Pero al final lo que percibimos en conjunto, como combinación de todos estos sonidos, es un sonido realmente complejo. Para que este sonido sea agradable deben guardarse unas ciertas reglas rítmicas y armónicas. Estas reglas son fundamentales para que la sensación percibida sea agradable y la composición pueda generar y transmitir ciertas emociones. Toda obra musical está compuesta, tal y como se ha dicho, por un conjunto de sonidos que se reproducen de forma simultánea (varias notas sonando a la vez) y secuencial (orden de reproducción de las notas). Si nosotros alteramos el orden, pasaremos de percibir sensaciones agradables a algo que puede resultar difícilmente digerible. En este curso no entraremos en este tipo de aspectos pues entran de lleno en el campo de la composición e interpretación musical. Pero no podemos olvidar que la música es el gran campo de aplicación del procesamiento de audio sea de forma digital o no debido al gran mercado y elevado interés de conlleva. No en vano, muchos de los elementos procesadores de audio Tecnología de los Contenidos Multimedia 4.17

18 se emplean casi exclusivamente en los entornos de producción musical por lo que resultan convenientes algunas nociones básicas. Al emitir dos o más sonidos simultáneamente se dice que se produce un acorde, que puede ser consonante o disonante según que la sensación experimentada sea agradable o desagradable. La sensación producida en el oído no depende de los valores absolutos de las frecuencias de los sonidos sino de la relación entre ellas. La música se construye a partir de una sucesión de notas que se caracteriza por la relación entre sus frecuencias. La relación fundamental en música es la octava. Una octava se define como un intervalo de frecuencias en el que la frecuencia superior es el doble de la frecuencia inferior y se correspondería con un salto de ocho teclas blancas en el piano. Por ejemplo, un sonido de 200Hz dista una octava de un sonido de 100Hz. Entre un sonido de 1kHz y otro de 250Hz hay una separación de dos octavas ( Hz y Hz). Fue Pitágoras quien descubrió que existía una relación numérica entre tonos que sonaban armónicos y fue el primero en darse cuenta de que la música, siendo uno de los medios esenciales de comunicación y placer, podía ser medida por medio de razones de enteros. Sabemos que el sonido producido al tocar una cuerda depende de la longitud, grosor y tensión de la misma. Entendemos que cualquiera de estas variables afecta la frecuencia de vibración de la cuerda. Lo que Pitágoras descubrió es que al dividir la cuerda en ciertas proporciones era capaz de producir sonidos placenteros al oído. Eso era una maravillosa confirmación de su teoría. Números y belleza eran uno. El mundo físico y el emocional podían ser descritos con números sencillos y existía una relación armónica entre todos los fenómenos perceptibles. Pitágoras encontró que al dividir una cuerda a la mitad producía un sonido que era una octava más agudo que el original (Do al Do superior); que cuando la razón era 2:3 se producía una quinta (la distancia de Do a Sol) y que otras razones sencillas producían sonidos agradables. La razón por la cual encontramos a estos intervalos más agradables que otros tiene que ver con la física de la cuerda tocada. Cuando una cuerda de 36 cm se rasga, no sólo se produce una onda de 36 cm, sino que además se forman dos ondas de 18 cm, tres de 12, cuatro de 9, y así sucesivamente. La cuerda vibra en mitades, tercios, cuartos, etcétera. Y cada vibración subsidiaria produce armónicos, estas longitudes de onda producen una secuencia de armónicos, 1/2, 1/3, 1/4... de la longitud de la cuerda. Los sonidos son más agudos y mucho más suaves que el sonido de la cuerda completa (llamada fundamental) y no se perciben de forma clara precisa y consciente pero son los que hacen que los instrumentos musicales suenen diferentes entre sí (timbre). Ya que Do y Sol, a una distancia de quinta, comparten muchos de los mismos armónicos, estos sonidos se mezclan produciendo un resultado agradable. Sin embargo, Pitágoras no sabía nada de armónicos. Él sólo sabía que la longitud de la cuerda con las razones 1:2 y 2:3 producía unas combinaciones de sonidos agradables y construyó una escala a partir de estas proporciones. En sus experimentos, Pitágoras descubrió tres intervalos que consideraba consonantes: el diapasón, el diapente y el diatesaron. Actualmente los llamamos 4.18 Tecnología de los Contenidos Multimedia

19 la octava, la quinta y la cuarta porque corresponden al octavo, cuarto y quinto sonidos de la que conocemos como escala pitagórica diatónica. La llamamos quinta porque corresponde a la quinta nota de la escala. Los pitagóricos no sabían de ondas sonoras ni de frecuencias ni de cómo la anatomía del oído afecta la altura de un sonido. De hecho, la regla que establece que la frecuencia está relacionada con la longitud de la cuerda no fue formulada sino hasta el siglo XVII, cuando el franciscano fray Marin Mersenne definió algunas reglas sobre la frecuencia de una cuerda vibrando. Una escala es una serie de notas ordenadas de forma ascendente o descendente, a la primera de las notas se le llama tónica. A continuación se describen las escalas musicales que han ido surgiendo a lo largo de la historia. La escala diatónica: Como mínimo desde la Edad Media las escalas que se han utilizado son las escalas diatónicas, que se pueden simbolizar con las teclas blancas del piano. Estas escalas tienen dos intervalos musicales diferentes: el semitono (entre las teclas blancas, Mi-Fa y Si-Do) y tonos completos (entre las otras parejas de notas adyacentes). Tienen siete notas por octava (la octava nota de esta serie es simplemente la repetición de la primera, pero situada una octava más arriba). Un intervalo es la diferencia de tono entre dos notas. Mientras el nombre de la nota expresa su tono o frecuencia de vibración, el intervalo indica la relación entre una nota y otra. La escala cromática: A finales del siglo XIX, y dado el hecho del uso cada vez más frecuente de los sostenidos y los bemoles, la música occidental comenzó a basarse no en la escala diatónica, sino en la cromática: 12 notas en una octava, separadas por un semitono: Do, Do#, Re, Re#, Mi, Fa, Fa#, Sol, Sol#, La, La#, Si (y nuevamente Do). La escala temperada: Los problemas de afinación en instrumentos con intervalos fijos (piano, guitarra), hizo construir una escala en la que el intervalo entre dos notas consecutivas fuese siempre el mismo. Esta es la escala temperada que es la que se emplea en la práctica. Consta también de doce notas, como la cromática, pero la relación de la frecuencia de una nota y la anterior es siempre igual a. En 1939 una conferencia internacional fijó la frecuencia de una nota de referencia, a partir de la cual poder deducir todas las demás. La nota y frecuencia escogidas fueron el La4 (La de la 4ª octava del piano) a 440 Hz. Posteriormente en 1995 fue adoptada por la Organización Internacional de Estandarización (ISO). A esta nota se le llama tono de referencia o tono de cámara y constituye un valor importante dentro del mundo de la música como lo demuestran el nombre de algunos grupos musicales como el que acompaña a Juan Luis Guerra o el grupo de Noko y los hermanos Trevor y Howard Gray (Apollo 440). Esta nota se emplea también para afinar los ins Tecnología de los Contenidos Multimedia 4.19

20 trumentos de una orquesta sinfónica. Tras afinar el primer violín o el oboe solista, éste da la nota de 440 Hz y los demás instrumentos se afinan en consonancia. Cuando el piano forma parte de la orquesta, es éste el que da la nota de referencia. A partir de esta se pueden deducir todas las demás. La Si Do Re Mi Fa Sol La Si Do Re Mi Fa Sol La Si Do Re Mi Fa Sol La Si Do Re Mi Fa Sol La Si Do Re Mi Fa Sol La Si Do Re Mi Fa Sol La Si Do Re Mi Fa Sol La Si Do La# Do# Re# Fa# Sol# La# Do# Re# Fa# Sol# La# Do# Re# Fa# Sol# La# Do# Re# Fa# Sol# La# Do# Re# Fa# Sol# La# Do# Re# Fa# Sol# La# Do# Re# Fa# Sol# La# Figura 4.13 Teclado estándar de piano con 88 teclas; 52 blancas y 36 negras. En la nomenclatura anglo-sajona las notas se designan mediante letra mayúsculas, de acuerdo con la siguiente equivalencia: Do Re Mi Fa Sol La Si C D E F G A B 4.7 DIGITALIZACIÓN DE AUDIO El sonido es un fenómeno analógico; es una onda continua en el tiempo surgida de las diferencias de presión del aire que nos rodea y que viaja a través de éste. Con un micrófono se puede generar una onda eléctrica análoga (o proporcional) a estas diferencias de presión. Esta señal eléctrica analógica no puede ser almacenada de esta forma en un sistema digital; para ello debemos digitalizarla, es decir, convertirla en una secuencia de números. La digitalización de una señal analógica requiere dos procesos. En primer lugar se toman muestras de la amplitud de dicha señal a intervalos regulares de tiempo (muestreo) y seguidamente se asigna a las muestras un valor numérico proporcional (cuantificación). Por ello hay dos aspectos a considerar, con qué frecuencia se debe muestrear la señal y con qué precisión se cuantificará su amplitud. El Teorema de Nyquist establece que para poder reconstruir completamente una señal a partir de sus muestras digitalizadas, la frecuencia de muestreo debe ser, al menos, el doble de su componente de frecuencia más elevada. Por otro lado la precisión depende de varios factores, entre ellos del nivel de ruido que se esté dispuesto a tolerar en la señal reconstruida, ya que la propia cuantificación de la señal es fuente de ruido, conocido como ruido de cuantificación. Los Discos Compactos (CD) de audio contienen información digital de sonidos muestreados a 44,1 khz (el oído humano no puede captar sonidos por encima de los 20 KHz aproximadamente) y cuantificados utilizando un número binario de 16 dígitos binarios (16 bits, 2 16 =65535 valores posibles por cada muestra). Como los canales son dos (izquierdo y derecho), el volumen de infor Tecnología de los Contenidos Multimedia

21 mación que es necesario procesar es de 1,4 Mbits/segundo (44100 muestras por segundo x 16 bits x 2 canales). Esta inmensa cantidad de información es difícil y costosa de manipular, aún para los modernos sistemas digitales actuales. Es necesario, por lo tanto, algún método de reducción o compresión para reducir este volumen de datos. Suponiendo que no se desea reducir la frecuencia de muestreo ni la precisión de la cuantificación, existen dos tipos de métodos para comprimir audio digital: compresión sin pérdida de información (lossless) y compresión con pérdida de información (lossy). Ejemplos de codificadores sin pérdida de información son el ZIP de propósito general y específicos para audio el Monkey Audio y el FLAC (Free Lossless Audio Codec), A finales de la década de los 80 y principios de los 90, un comité internacional denominado MPEG (Moving Pictures Expert Group), trabajando bajo los auspicios de la ISO (International Organization for Standarization) y el IEC (International Engineering Consortium) publicó, bajo la forma de un estándar internacional, un algoritmo para comprimir señales de audio sin pérdidas apreciables en la calidad, pero sí con pérdidas de información. Dicho estándar, el ISO/IEC es la tercera parte de un conjunto más amplio de normas que incluyen la compresión de señales de video (ISO/IEC ) y los sistemas asociados para su sincronización, procesamiento y transmisión (ISO/IEC ) sobre canales de comunicación o medios de almacenamiento con una capacidad máxima de 1,4 Mbits/segundo. El documento propone tres niveles (layers) de compresión, de creciente eficiencia y complejidad, con los que se pueden alcanzar relaciones de compresión de hasta 12:1 en el más elaborado de todos (Layer 3). La norma ha cobrado gran relevancia en el ámbito de Internet; los motivos son dos: la notable calidad de sonido del audio comprimido y su altísima relación de compresión; lo que permite archivos de sonido de poco tamaño, de alta calidad y muy fáciles de trasmitir a lo largo de la Red. Este esquema es el empleado por el célebre formato MP3. De hecho sus siglas provienen de la contración de MPEG-Layer 3. Puede definirse el sonido como una onda continua que viaja a través del aire; dicha onda está constituida por diferencias de presión y tiene las mismas propiedades que una onda normal: reflexión, refracción, difracción, etc.. Los sistemas desarrollados desde la época de Edison hasta finales de la década del '70, aproximadamente, tienen una característica en común: todos son sistemas analógicos. Es decir, el sistema procesa y/o almacena un registro análogo a la onda sonora que se pretende captar. Este registro puede ser mecánico, eléctrico o magnético. Por ejemplo: el surco que recorre una aguja sobre la superficie de un disco de vinilo es análogo a la onda de sonido original. Lo mismo sucede con las cintas magnéticas, la mayor o menor magnetización de la cinta es proporcional y análoga a la onda de sonido que excitó al sistema en primera instancia. Hoy en día prevalece otra forma de registrar y almacenar sonidos: el audio digital. Como ya se ha indicado la digitalización es un proceso mediante el cual una señal analógica (de audio por ejemplo) es representada por una secuencia finita de números. Mediante esta secuencia Tecnología de los Contenidos Multimedia 4.21