CODIFICACION DE VOZ Y VIDEO
|
|
|
- Alejandro Salazar Páez
- hace 9 años
- Vistas:
Transcripción
1 CODIFICACION DE VOZ Y VIDEO Dr. Ing. José Joskowicz [email protected] Instituto de Ingeniería Eléctrica, Facultad de Ingeniería Universidad de la República Montevideo, URUGUAY Agosto 2015 Ing. José Joskowicz Página 1
2 Contenido Contenido Introducción a la codificación de voz Digitalización y codificación de la voz CODECs G Muestreo Cuantificación Codificación G.711 Appendix II G G G G G RTAudio AMR G / AMR-WB SILK OPUS Proceso de digitalización de voz en telefonía Introducción a la codificación de video Digitalización y codificación de video JPEG MPEG-x H Proceso de codificación de video Referencias Ing. José Joskowicz Página 2
3 1 Introducción a la codificación de voz Codificación de voz y video Las centrales telefónicas digitales realizan la conmutación de audio en forma digital. Las centrales IP (IP PBX, Softswitches, etc.) utilizan las redes de datos para realizar el envío de audio entre dispositivos, a través del envío de paquetes de datos. Esto requiere que en algún punto del sistema la señal de voz analógica sea digitalizada, es decir, convertida en una secuencia de número discretos. Este proceso puede realizarse en los propios teléfonos (cómo es el caso en los teléfonos digitales o en los teléfonos IP ), en Gateways (o conversores de medios y señalización) o las placas de abonados entre otros. Las primeras ideas acerca de la digitalización del audio son atribuidas al Ingeniero Alec Reeves, quien desarrolló el primer sistema de audio digital, con fines militares en La inminente segunda guerra mundial hacía necesario disponer de sistemas de transmisión telefónicas más seguros. Si bien la idea fue patentada por Reeves, su popularización debió esperar por varias décadas al desarrollo de nuevas tecnologías, (más específicamente, a la invención del transistor). La tecnología de PCM se popularizó sobre fines de la década de 1960, momento para el cual ya no eran reclamables derechos por la patente. La codificación de la voz ha evolucionado notoriamente desde las primeras ideas de Alec Reeves. En [1] se puede leer una breve y esclarecedora historia de la evolución de la codificación de voz, narrada por uno de sus principales protagonistas, Bishnu S. Atal (quien diseñó las técnicas de codificación conocidas como CELP). Inicialmente, los codecs se basaron en codificar de la manera más eficiente posible la forma de onda de la señal, utilizando características de la voz y el oído (por ejemplo, se ha comprobado que el oído humano es más sensible a ruidos o distorsiones en señales de baja amplitud que a los mismos ruidos o distorsiones en señales de mayor amplitud). Tal es el caso de los codecs del tipo PCM (que serán descritos en detalle más adelante). Posteriormente, a los efectos de poder bajar la tasa de bits necesaria para la transmisión, se comenzaron a utilizar técnicas predictivas. Éstas técnicas están basadas en predecir los valores de las muestras en base a la extrapolación de las muestras anteriores, y codificar únicamente la diferencia entre la predicción y el valor real de la muestra. Esta predicción puede realizarse en forma fija o adaptiva, la que logra mucho mejores resultados. Las técnicas predictivas dieron origen a la tecnología conocida como LPC (Linear Prediction Coding), la que fue desarrollada sobre fines de los años En 1973 fue desarrollado el primer sistema práctico que utilizó técnicas del tipo LPC. Sobre la década de 1980, una nueva idea es introducida en la codificación de la voz. Esta idea consiste en generar voz sintética, simulando la manera en que se produce la voz humana en el conducto vocal. La siguiente figura muestra la anatomía del aparato fonador, desde los pulmones hasta los labios. Ing. José Joskowicz Página 3
4 Es posible realizar un modelo del conducto vocal basado en un generador de impulsos de aire y un conjunto de tubos, de diámetros variables, como se muestra en la siguiente figura. Los tubos en su conjunto se comportan como un filtro que varía lentamente con el tiempo, pero con propiedades estables (cuasiestacionarias) en intervalos cortos (de alguna decena de milisegundos). EPIGLOTIS CAVIDAD NASAL NARIZ CUERDAS VOCALES CAVIDAD FARINGEA LARINGE CAVIDAD ORAL BOCA TRAQUEA PULMONES FUERZA MUSCULAR Ing. José Joskowicz Página 4
5 Un generador de impulsos puede modelar la señal que excita el conducto vocal. En el caso de ser una señal sonora (por ejemplo las vocales), el modelo es un generador de impulsos periódicos, simulando la apertura y cierre periódicos de las cuerdas vocales, a una frecuencia dada por el tono (o pitch ) de la voz. De tratarse de un sonido sordo (por ejemplo la m o la s ), el modelo es más parecido a un generador de "ruido blanco", simulando la señal luego de pasar por un estrechamiento del conducto vocal (la turbulencia del aire luego de pasar por dicho estrechamiento tiene un comportamiento muy aperiódico). El conducto vocal en su conjunto puede ser modelado como un filtro de respuesta variable en el tiempo (pero estacionario en periodos cortos), cuya excitación proviene de un generado de impulsos. Este modelo se esquematiza en la siguiente figura, donde u(n) representa un tren de impulsos, G es una constante relacionada con la ganancia (o el volumen de voz del locutor) y s(n) es la salida sintetizada de la voz. Generado de impulsos variable con el tiempo u(n) Filtro lineal variable con el tiempo s(n) G La forma matemática de la transferencia del filtro lineal, dentro de cada intervalo corto de tiempo, surge del modelo de tubos de la figura anterior, y puede ser expresada como: H ( z) 1 Donde p es el orden del filtro, y a k representan los coeficientes del filtro. El generador de impulsos u(n) está muy relacionado al tono o pitch de la voz para señales sonoras, y consiste en una serie de impulsos separados por un tiempo dado por el tono o pitch de la voz. Para señales sordas, el patrón de pulsos puede ser más complejo, asemejándose más a un ruido blanco. Con esto en mente, el modelo de síntesis de voz consiste en encontrar, para cada período corto de tiempo, los mejores valores de los coeficientes a k, de la ganancia G y del generador de impulsos u(n). Estos valores deben ser tales que minimicen las diferencias entre una onda de sonido real y la sintetizada, como se muestra en la siguiente figura (extraída de [1]). p 1 k 1 a k z k Ing. José Joskowicz Página 5
6 Varios codecs actuales están basados en estas ideas, como se verá en las siguientes secciones. La voz humana puede tener tonos que lleguen hasta los 20 khz, lo que se corresponde con el límite de frecuencias que puede escuchar el oído. Sin embargo, la mayor parte de la energía de la voz se centra en las frecuencias bajas, típicamente por debajo de los 4 khz. En la siguiente figura se muestra un segmento de audio de voz, y su corresponde espectro. Se puede ver como, luego de los 4 khz, la energía de la señal decrece rápidamente. Ing. José Joskowicz Página 6
7 2 Digitalización y codificación de la voz Codificación de voz y video 2.1 CODECs Los codecs son los dispositvos que realizan la codificación y decodificación de la voz. Pueden ser caracterizados por diferentes aspectos, entre las que se encuentran su tasa de bits (bit rates), la calidad resultante del audio codificado, su complejidad, el tipo de tecnología utilizada y el retardo que introducen, entre otros. Originalmente, los primeros codecs fueron diseñados para reproducir la voz en la banda de mayor energía, entre 300 Hz a 3.4 khz. Actualmente este tipo de codecs son caracterizados como de banda angosta (narrowband). En contraste, los codecs que reproducen señales entre 50 Hz y 7 khz se han llamado de banda ancha (wideband). Más recientemente, ITU-T ha estandarizado codecs llamados de banda superancha (superwideband), para el rango de 50 Hz a 14 khz y de banda completa (fullband), para el rango de 50 Hz a 20 khz [2] La siguiente tabla muestra algunos de los Codecs más conocidos. Varios de ellos son detallados en las siguientes secciones. Las recomendaciones de los codecs estandarizados por ITU-T están disponibles en la página de ITU-T [3]. Codecs de banda angosta (narrowband): Codec G.711 G G.728 G.729 AMR Nombre PCM: Pulse Code Modulation Hybrid MPC-MLQ and ACELP LD-CELP: Low-Delay code excited linear prediction CS-ACELP: Conjugate Structure Algebraic Codebook Excited Linear Prediction Adaptive Multi Rate Bit rate (kb/s) Retardo (ms) Comentarios Codec base, utiliza dos posibles leyes de 64, compresión: µ-law y A-law [4] Desarrollado originalmente para video 6.3, conferencias en la PSTN, es actualmente utilizado en sistemas de VoIP [5] 40, 16, 12.8, , 8, a 4.75 Creado para aplicaciones DCME (Digital Circuit Multiplex Encoding) [6] Ampliamente utilizado en aplicaciones de VoIP, a 8 kb/s [7] 20 Utilizado en redes celulares GSM [8] Codecs de banda ancha (wideband): Codec Nombre Bit rate (kb/s) Retardo (ms) G.722 Sub-band ADPCM 48,56,64 3 Comentarios Inicialmente diseñado para audio y videconferencias, actualmente utilizado para servicios de telefonía de banda ancha en VoIP [9] Ing. José Joskowicz Página 7
8 Codec Nombre Bit rate Retardo (kb/s) (ms) Comentarios G Transform Coder 24,32 40 Usado en audio y videoconferencias [10] 6.6, 8.85, G AMR-WB 12.65, Estandar en común con 3GPP (3GPP TS 14.25, ). Los bit rates más altos tienen gran 15.85, inmunidad a los ruidos de fondo en 18.25, ambientes adversos (por ejemplo celulares) 19.85, [11] 23.05, G Wideband G , 80, 96 Amplía el ancho de banda del codec G.711, optimizando su uso para VoIP [12] G Wideband G a 32 kb/s Amplía el ancho de banda del codec G.729, y es compatible hacia atrás con <49 ms este codec. Optimizado su uso para VoIP con audio de alta calidad [13] RtAudio Real Time Audio 8.8, 18 Codec propietario de Microsoft, utilizado en 40 aplicaciones de comunicaciones unificadas (OCS) [14] Codecs de banda super ancha (superwideband): Bit rate Retardo Codec Nombre Comentarios (kb/s) (ms) SILK SILK 8 a Utilizado por Skype [15] Codecs de banda completa (fullband): Codec G.719 Nombre Low-complexity, fullband Bit rate (kb/s) Retardo (ms) 32 a Comentarios Es el primer codec fullband estandarizado por ITU [16] G.711 El codec básico y mas antiguo en telefonía es el estandarizado en la recomendación G.711 de la ITU-T [4], implementando la ley A o ley µ. Mediante esta codificación se obtiene una señal digital de 64 kb/s, como se verá a continuación. El codec G.711 es del tipo de forma de onda. Cada muestra de audio es digitalizada, cuantificada y codificada, según el proceso que se describe a continuación. Ing. José Joskowicz Página 8
9 2.1.2 Muestreo El proceso de muestreo consiste en tomar muestras de la señal vocal a intervalos regulares. Estos intervalos deben ser tales que cumplan con el Teorema del muestreo, que establece: La mínima frecuencia a la que puede ser muestreada una señal y luego reconstruida sin perder información, es el doble de la frecuencia máxima de dicha señal Para establecer cual es ésta frecuencia mínima en el codec G.711 se han tenido en cuenta las siguientes consideraciones de las señales de voz: Si bien el oído humano puede llegar a escuchar sonidos de hasta 18 a 20 khz, la mayor parte de la energía de las señales de voz humana se encuentran por debajo de los 4 khz. El sonido resultante de filtrar la voz humana a 3.4 khz es perfectamente inteligible, y además se puede distinguir sin problemas al locutor. El sistema de telefonía originalmente se ha diseñado para transmitir satisfactoriamente voz humana, minimizando los recursos necesarios para ésta tarea. Por lo expuesto, podemos pensar en un ancho de banda mínimo para las señales de los sistemas de telefonía de 3.4 khz. Según el teorema del muestro, para poder reconstruir una señal de hasta 3.4 khz, debe ser muestreada a más de 6.8 khz. Dado que los filtros reales no pueden realizar cortes abruptos, se ha tomado originalmente en el codec G.711 una frecuencia de muestreo de 8 khz, es decir, tomar una muestra de voz cada 125 microsegundos. Si bien esto es adecuado para reproducir la voz humana, el audio de alta calidad, por ejemplo con contenido de música, requiere de frecuencias de muestro mucho mayores, para que puedan llegar a funcionar con señales de hasta 20 khz. Ing. José Joskowicz Página 9
10 Amplitud T Tiempo Cuantificación El proceso de cuantificación convierte las muestras analógicas en muestras que pueden tomar un conjunto discreto de valores. De esta manera, los valores de las muestras se cuantifican en cantidades discretas. Al pasar de infinitos valores (señal analógica) a un conjunto discreto de valores, se introduce naturalmente una distorsión a la señal original. Esta distorsión se conoce normalmente como Ruido de Cuantificación. Es de hacer notar, que más allá de su nombre, esta distorsión no es un ruido, ya que no proviene de factores externos, sino que es parte del propio proceso de digitalización. Cuántos más valores discretos se utilicen, menor será la distorsión introducida en el proceso. Por otro lado, cuántos más valores discretos se utilicen, mayor será la cantidad de información (bits) que se deben procesar (o transmitir) por cada muestra. Ing. José Joskowicz Página 10
11 Error Amplitud T Tiempo Es importante detenernos a pensar cuál es la menor cantidad de valores discretos aceptables para el tipo de señal que se desea digitalizar. Se ha demostrado que para lograr niveles de ruido aceptables al reconstruir señales de voz cuantificadas, se requieren de unos niveles de cuantificación, utilizando una cuantificación lineal (esto es, dividiendo en intervalos de la misma amplitud el eje y ). Esto requiere de 12 bits por muestra (recordar que con 12 bits se pueden representar 2 12 valores = 4096 valores). Por otro lado, se ha comprobado que el oído humano es más sensible a ruidos o distorsiones en señales de baja amplitud que a los mismos ruidos o distorsiones (en valores absolutos) en señales de mayor amplitud. Esto lleva a pensar en algún tipo de cuantificación no lineal, de manera de disponer de distorsiones pequeñas en las partes de baja amplitud, a costo de distorsiones mayores en las partes de gran amplitud de la señal. El proceso de cuantificación adoptado originalmente en telefonía por la CCITT (y actualmente estandarizado por ITU en la Recomendación G.711) implementa un algoritmo no lineal, de manera de obtener una calidad de voz aceptable, minimizando la cantidad de niveles de cuantificación. Este algoritmo se basa en tener distorsiones pequeñas para las amplitudes pequeñas de la señal, y distorsiones mayores para las amplitudes mayores de la señal. Ing. José Joskowicz Página 11
12 Amplitud Tiempo Ley A ( de 13 segmentos) y=(1+log(ax) / (1 + log(a)) si 1/A < x <1 y = Ax/(1 + log(a)) si 0 < x < 1/A A = 87.6 Ley (de 15 segmentos) y = log(1+x)/log(1+) = 255 Ing. José Joskowicz Página 12
13 Nivel Codificación de voz y video Cuantificacion ley A / Mu Amplitud Estas leyes de cuantificación estandarizan en 256 niveles no lineales la cuantificación y codificación de la voz en telefonía, basadas en las fórmulas descritas. Sin embargo, la implementación real de estos algoritmos utiliza segmentos de recta en lugar de los valores resultantes de las fórmulas. La Ley A utiliza 13 segmentos de recta para aproximarse a la fórmula teórica, mientras que la ley utiliza 15 segmentos de recta. La gráfica de la figura anterior muestra en azul la curva teórica y en amarillo la curva real, implementada con segmentos de recta. Sólo se muestra la parte correspondiente a valores positivos de señales de entrada, estandarizando en 1 la amplitud máxima. Para obtener los valores negativos, basta con simetrizar la curva respecto al origen. Implementación de la Ley A La digitalización de 13 segmentos o de la Ley A se realiza de la siguiente forma: 1. Se divide el eje vertical (eje y ) positivo en 8 niveles iguales, trazando rectas horizontales por cada uno de éstos niveles. Sobre el eje vertical se representarán los Niveles cuantificados. 2. Se fija un valor unitario arbitrario sobre el eje horizontal (eje x ) positivo. Sobre el eje horizontal se representará la amplitud de la señal de entrada. 3. Se marcan sobre el eje x los valores 1, ½, ¼, 1/8, 1/16, 1/32, 1/64 y 1/128, trazando rectas verticales por cada uno de éstos valores. 4. Los segmentos de recta se obtienen de unir las siguientes intersecciones: a. (Nivel 8, 1) (Nivel 7, ½) Ing. José Joskowicz Página 13
14 b. (Nivel 7, 1/2) (Nivel 6, 1/4) c. (Nivel 6, 1/4) (Nivel 5, 1/8) d. (Nivel 5, 1/8) (Nivel 4, 1/16) e. (Nivel 4, 1/16) (Nivel 3, 1/32) f. (Nivel 3, 1/32) (Nivel 2, 1/64) g. (Nivel 2, 1/64) (Nivel 1, 1/128) h. (Nivel 1, 1/128) (Nivel 0, 0) 16 subniveles Nivel 2 Nivel 1 1/32 1/16 1/8 1/4 1/128 1/64 5. Se simetriza respecto al origen, para obtener los valores negativos. 6. De esta manera se obtienen 16 segmentos de recta (8 para los valores positivos y 8 para los valores negativos). Sin embargo, realizando una observación más detallada, los 4 segmentos más cercanos al origen, se convierten en un solo segmento, ya que todos tienen la misma pendiente. Por esto, se llega a un total de 13 segmentos. 7. Cada Nivel vertical, se subdivide en 16 sub-niveles, de igual amplitud. 8. Para obtener el valor digitalizado de cada muestra de la señal: a. Se representa el valor analógico de la muestra de la señal sobre el eje x, y se traza una línea vertical hasta que corte a alguno de los segmentos. b. La representación de la muestra se realiza con 8 bits, de la siguiente manera: Bit 7: Representa el signo de la muestra Bit 6,5,4: Representa el Nivel o Segmento dónde cayó la muestra Ing. José Joskowicz Página 14
15 Bits 3,2,1,0: Representa el sub-nivel o intervalo dentro del Segmento más próximo al valor de la muestra Codificación La codificación establecida en la Ley A de la recomendación G.711, establece un orden de bits como se muestra a continuación. Se presenta cada muestra de voz con 8 bits, donde el primer bit representa el signo de la muestra, los siguientes 3 el segmento y los últimos 4 el intervalo dentro de cada segmento: Bit Signo Segmento (0-7) Intervalo (0-15) G.711 Appendix II El apéndice 2 de la recomendación ITU-T G.711 establece una definición de codificación de ruido de confort para ser utilizado como parte de la codificación G.711 en los sistemas de comunicación multimedia sobre redes de paquetes [17]. El formato de la codificación es genérico y puede también utilizarse con otros códecs vocales. El análisis y la síntesis de ruido de confort, así como los algoritmos de detección de actividad vocal (VAD, voice activity detection) y DTX (Discontinous Transmission) no se especifican y siguen siendo específicos de cada implementación. Sin embargo, se ha aprobado y se describe un ejemplo de solución dentro de la Recomendación La siguiente figura esquematiza el funcionamiento mediante un diagrama de bloques. La función del algoritmo VAD es discriminar entre segmentos de voz activa e inactiva en la señal de entrada. Durante los segmentos de voz inactiva, la función del componente CNG (Comfor Noise Generator) es describir el ruido ambiente, pero reduciendo al mínimo la velocidad de transmisión (o sea, el ancho de banda necesario para su transmisión). El algoritmo DTX determina cuándo se transmite una trama SID (silence insertion descriptor). La trama SID puede enviarse periódicamente o sólo cuando hay un cambio significativo en la característica de ruido de fondo. El algoritmo CNG en el receptor utiliza la información del SID para actualizar su modelo de generación de ruido y producir luego una cantidad apropiada de ruido de confort. Ing. José Joskowicz Página 15
16 . La función del algoritmo VAD es clasificar la señal de entrada en señal vocal activa y señal vocal inactiva o un ruido de fondo. La clasificación incorrecta de señal vocal inactiva como señal vocal activa tiene un efecto adverso en la eficiencia del sistema, al aumentar innecesariamente la velocidad de transmisión. En este caso, la calidad vocal no es afectada. Sin embargo, cuando la señal vocal activa se clasifica indebidamente como inactiva, se recorta la señal vocal y se degrada la calidad vocal. La mayoría de los algoritmos DTX emplean un periodo de retención cuando pasan de señal vocal activa a inactiva a fin de evitar recortar el extremo final de la señal vocal. Durante el periodo de retención, las tramas de señal vocal inactiva se reclasifican como señal vocal activa. El algoritmo DTX determina la frecuencia de la transmisión de tramas SID durante los periodos de señal vocal inactiva. Los esquemas DTX simples se actualizan periódicamente (por ejemplo, entre 5 Hz a 30 Hz). Los algoritmos DTX más complejos analizan la señal de entrada y transmiten sólo cuando se detecta un cambio significativo en el carácter del ruido ambiente. El rol del CNG es describir y reproducir el ruido ambiente. El ruido puede describirse adecuadamente por su energía y contenido espectral. A fin de evitar cambios bruscos en el carácter del ruido de confort, es importante promediar la estimación durante un periodo de tiempo G En marzo de 2008 la ITU-T aprobó un nuevo estándar de codificación de voz de banda ancha (wideband), el codec G [12]. Esta recomendación extiende el codec G.711, el más conocido y usado en aplicaciones de telefonía, a un ancho de Ing. José Joskowicz Página 16
17 banda de 7 khz, optimizado para aplicaciones de VoIP. Una de las características interesantes de este codec es que las muestras codificadas pueden ser convertidas en el conocido G.711 por medio de un simple truncado. El nuevo codec trabaja en 64, 80 y 96 kb/s. Las evaluaciones realizados sobre el codec muestran que cumple apropiadamente con los requerimientos establecidos [18]. Las muestras de entrada son tomadas cada 16 khz, pero tambien está soportada la frecuencia de muestreo de 8 khz. Tomando muestras cada 16 khz, el ancho de banda del codec es de 50 a 7000 Hz y el resultado es de 80 o 96 kb/s. El codec utiliza tramas de 5 ms y tiene un retardo máximo de ms. La siguiente figura (extraída de [12]) muestra un diagrama de bloques del codificador. Un filtro pasa-altos de pre-procesamiento es aplicado a la señal de entrada muestreada a 16 khz s WB (n), para filtrar los componentes menores a 50 Hz. La señal resultante, ~ s WB ( n) es dividida en una componente de baja frecuencia s LB (n) y otra de alta frecuencia s HB (n), utilizando un filtro del tipo QMF (Quadrature Mirror Filterbank). La componente de baja frecuencia es a su vez separada en las señales que entran en la banda de 300 Hz a 3.4 khz y las que quedan fuera de esta banda. Con la primera se implementa una codificación G.711, obteniendo 64 kb/s, indicada como I L0 en el diagrama, o Capa 0 ( Layer 0 ). La señal remanente de baja frecuencia es codificada en 16 kb/s, indicada como I L1 o Capa 1 ( Layer 1 ). La señal de banda alta es transformada utilizando MDCT (Modified Discrete Cosine Transform) y los coeficientes obtenidos son codificados en una señal de 16 kb/s I L2 o Capa 2 ( Layer 2 ). Las tres capas I L0, I L1 y I L2 son multiplexadas en un único flujo de salida, de = 96 kb/s. Ing. José Joskowicz Página 17
18 Wideband Narrowband input signal input signal swb( n) snb( n) ( n 0,...,79) ( n 0,...,39) Pre-processing filter Pre-processing filter swb( n) ( n 0,...,79) Analysis QMF snb( n) ( n 0,...,39) Higher-band signal shb( n) ( n 0,...,39) Lower-band signal slb( n) Core bitstream ( n 0,...,39) Lower-band I L 0 embedded PCM encoders Lower-band enhancement bitstream I L1 MDCT Higher-band MDCT coefficients SHBm( k), HB ( k 0,...,39) Higher-band MDCT encoder Higher-band bitstream I L2 MUX Multiplexed bitstream El decodificador se esquematiza en la figura siguiente (extraída de [12]). Las tramas de entrada son de-multiplexadas en la capa 0, I L0 compatible con G.711, la capa 1 I L1 de mejoras en la banda baja y la capa 2 I L2, correspondiente a la banda alta del espectro de la señal de entrada. Las capas 0 y 1 son enviadas a un decodificador de banda baja. La capa 2 es enviada a un decodificador de banda alta, y luego enviada a un inversor de la transformado MDCT, marcado como imcdt en la figura. Para mejorar la calidad ante pérdidas de tramas debido a errores en la transmisión (por ejemplo pérdida de paquetes), se implementan algoritmos de compensación, indicados como FERC (Frame ERasure Concealment). Finalmente las señalas de ambas bandas sˆ LB ( n) y sˆ HB ( n) son combinadas utilizando un filtro de síntesis QMF, generando la señal de banda completa ˆ ( n). Sobre esta señal se aplica un procesamiento de ruido, para s QMF reducir ruidos de fondo de bajo nivel, terminando finalmente en la señal de 16kHz sˆ WB ( n), o de 8 khz ˆ ( n), según se requiera. s NB Ing. José Joskowicz Página 18
19 Multiplexed bitstream De- MUX Core bitstream Lower-band enhancement bitstream Higher-band bitstream I L2 I L0 I L1 Lower-band embedded PCM decoders Higher-band MDCT decoder sˆ LB( n) ( n 0,...,39) Higher-band MDCT coefficients Sˆ HBm( k), HB ( k 0,...,39) Lower-band pitch lag Lower-band FERC T LB Higher-band FERC imdct Lower-band signal sˆ LB( n) ( n 0,...,39) Higher-band signal sˆ HB( n) ( n 0,...,39) Synthesis QMF sˆ ( n) QMF ( n 0,...,79) Synthesized output signal s ( n) or s ( n) NB Noise gate WB La codificación resultante puede operar en 4 modos, según se muestra en la tabla siguiente, generando tasas de bits de 64,80 o 96 kb/s. En el caso de la trama R2, no se provee información acerca de si contiene información de mejoras de la banda baja o de la banda alta, por lo que esto debe ser especificado en forma explícita al decoder. Mode Sampling rate (khz) Core layer (Layer 0, I L0 ) Lower-band enhancement layer (Layer 1, I L1 ) Higher-band enhancement layer (Layer 2, I L2 ) Overall bit rate (kbit/s) 64 kbit/s 16 kbit/s 16 kbit/s R1 8 x 64 R2a 8 x x 80 R2b 16 x x 80 R3 16 x x x 96 Las tramas de G son de 5 ms y tienen 320 bits de la capa 0 (G.711), correspondientes a 8 bits x 40 muestras, 80 bits de la capa 1 y 80 bits de la capa 2, completando un total de 480 bits por trama. La demora total del algoritmo lleva 5 ms para la información de la trama, 5 ms extras necesarios para el análisis MCDT ( lookahead ) y ms para la implementación del filtro QMF, completando un total de ms Ing. José Joskowicz Página 19
20 2.1.7 G.729 El codec G.729 [7] es un estándar de codificación para señales de audio desarrollado por la ITU, codificando las señales de voz a 8 kbit/s utilizando CS- ACELP (Conjugate-Structure Algebraic-Code-Excited Linear-Prediction). Se basa en el modelo de síntesis de voz presentado en la Introducción (Sección 1). Utiliza un modelo basado en dos generadores de impulsos combinados. Estos generadores de impulsos se seleccionan de una lista predeterminada (llamada libro de códigos o codebook, y se codifica el puntero al generador seleccionado. La técnica es conocida como CELP (Code Excited Linear Prediction), y fue propuesta en 1985 por Schroeder y Atal [19]. Utiliza ventanas de audio de 10 ms correspondientes a una cantidad de 80 muestras (ya que la frecuencia de muestreo es de muestras por segundo). El receptor genera una nueva forma de onda que reproduce la voz en base a una síntesis basada en los parámetros codificados, como se ha descrito en la sección 1. Cada 10 ms se extraen los parámetros del modelo CELP: coeficientes del filtro lineal predictivo (LPC), punteros a la tabla de impulsos adaptativos y fijos (codebooks) y ganancias). A partir de los coeficientes LPC, se obtienen parámetros equivalentes, llamados LSP (Line Spectrum Pairs) y se cuantizan usando vectores predictivos de dos etapas (VQ). Dado que a la salida del codificador la tasa de bits es de 8 kbit/s y se toman cuadros de 10 ms, se usan 80 bits (10 bytes) para representar a cada cuadro o ventana de audio en G.729. La siguiente figura (extraída de [7]) presenta un diagrama de bloques de un codificador G.729 Ing. José Joskowicz Página 20
21 La siguiente figura (extraída de [7]) presenta un diagrama de bloques de un decodificador G.729 Ing. José Joskowicz Página 21
22 En el anexo A de la recomendación G.729 se define una variante de este codec logrando así un codec de menor complejidad llamado G.729A. Este es interoperable con G.729, pudiéndose utilizar un codificador G.729A con un decodificador G.729 y viceversa. Los cambios respecto a la versión original se deben a simplificaciones en los algoritmos empleados. La reducción de la complejidad incluye la sustitución de algunos bloques de procesamiento por otros más sencillos. También incluye el mantener fijos parámetros que en la versión completa del codec varían dependiendo del audio a codificar. El Anexo B de la recomendación G.729 B provee detección de actividad de voz y silencios y modelado y regeneración del ruido de fondo, lo que redunda en una disminución del ancho de banda total utilizando, ya que no se transmiten muestras durante los períodos de silencio. En la siguiente figura (extraída de [7]) se muestra esquemáticamente el proceso de detección de actividad de voz (VAD, Voice Activity Detection) y su transmisión desde el codificador al decodificador G En mayo de 2006 la ITU-T aprobó un nuevo estándar de codificación de voz de banda ancha (wideband), el codec G Este codec fue diseñado para proveer una transición sencilla en el mundo de la telefonía entre sistemas que utilizan banda angosta (300 a 3400 Hz) y nuevos sistemas que soporten banda ancha (50 a 7000 Hz), proveyendo interoperabilidad y compatibilidad con la recomendación G.729 y sus anexos A y B, los que tienen amplia difusión en el mundo de VoIP [20]. Ing. José Joskowicz Página 22
23 La señal codificada tiene una tasa de bits de 8 a 12 kb/s para señales de banda angosta (de 50 a 4000 Hz) y de 14 a 32 kb/s para señales de banda ancha (de 50 a 7000 Hz). La trama de salida consiste en 12 capas, cada una correspondiente a una tasa de bits entre los 8 y los 32 kb/s, como se muestra en la siguiente figura: La capa 1 se corresponde con la codificación basada en CELP, es de 8kb/s y es compatible con G.729. La capa 2 se corresponde con mejoras en las frecuencias de la banda baja (50 a 4000 Hz), y ocupa 4 kb/s. Las capas siguientes agregan progresivas mejoras en la banda alta, cada una de ellas ocupando 2 kb/s adicionales. Esta trama puede ser truncada a la salida del codificador, en el decodificador, o en cualquier punto de la red, si fuera necesario reducir el ancho de banda. Las tramas o cuadros son de 20 ms, y la demora total del algoritmo es de ms, debido a los tiempos necesarios en los filtros utilizados internamente en el proceso de codificación G El codec G [5] es un estándar de codificación para señales de audio desarrollado por la ITU, codificando las señales de voz a 6.4 o 5.3 kbit/s. Utiliza ventanas de audio de 30 ms. Para la codificación a 6.4 kb/s se utiliza un algoritmo MPC-MLQ (Multi-Pulse Maximum Likelihood Quantization), generando 24 bytes por cada ventana de 30 ms. Para la codificación a 5.3 kb/s se utiliza ACELP, generando 20 bytes por cada ventana de 30 ms. El retardo total (latencia) del algoritmo es de 37.5 ms, ya que, una vez recibida la ventana de 30 ms, el algoritmo requiere de 7.5 segundos de muestras adicionales. El Anexo A de la recomendación G provee modelado y regeneración del ruido de fondo, lo que redunda en una disminución del ancho de banda total utilizando, ya que no se transmiten muestras durante los períodos de silencio. Ing. José Joskowicz Página 23
24 G.722 El codec G.722 es un estándar de codificación para señales de audio de banda ancha (50 Hz a 7 khz) desarrollado por la ITU. Separa a la señal de audio en dos bandas, y cada una de ellas la codifica con técnicas ADPCM (Adaptive Differential Pulse Code Modulation). El proceso completo se identifica como SB ADPCM (Sub Band ADPCM). Puede operar en tres modos diferente, generando bit rates de 64, 56 y 48 kbit/s a nivel de la codificación. En los últimos dos casos, junto con la codificación de audio, es posible enviar un canal auxiliar de información de 8 o 16 kbit/s, respectivamente (completando de esta manera el bit rate constante de 64 kbit/s. La siguiente figura ilustra un diagrama de bloques de alto nivel de un codificador y un decodificador G.722: Audio signal input 64 kbit/s (7 khz) audio encoder Transmit audio part x (Note 1) in SB-ADPCM encoder 64 kbit/s output, I Auxiliary data channel input, 0, 8 or 16 kbit/s Data insertion device (Note 2) 64 kbit/s output (Note 3) Audio signal output 64 kbit/s (7 khz) audio decoder Mode indication Receive audio part x (Note 1) out SB-ADPCM decoder 64 kbit/s input, Ir (Note 4) Data extraction device (Note 2) (determines mode) 64 kbit/s input (Note 3) Auxiliary data channel output, 0, 8 or 16 kbit/s G.722(12)_F01 El componente inicial es un digitalizador lineal, de 14 bits y 16 khz, tal como se muestra en la siguiente figura Ing. José Joskowicz Página 24
25 Test point A Transmit audio part Audio A/D Microphone Pre-amplifier Input filter 16 khz 16 khz x in 14 bits uniform, 16 khz sampling towards encoder Audio Loudspeaker Power amplifier Output filter x sin x D/A x out 14 bits uniform, 16 khz sampling from decoder Test point B Receive audio part 16 khz G.722(12)_F02 El codificador SB-ADPCM se ilustra en la siguiente figura: x in Transmit quadrature mirror filters x H x L Higher sub-band ADPCM encoder Lower sub-band ADPCM encoder 16 kbit/s I H 48 kbit/s I L MUX 64 kbit/s I G.722(12)_F03 Consiste en un filtro que separa en dos sub-bandas: Una correspondiente a la banda baja (X L ), entre 0 Hz y 4 khz y otra a la banda alta (X H ), correspondiente frecuencias mayores a 4 khz. La banda baja se codifica a 48 kbit/s y la banda alta a 16 kbit/s. Ambas son luego multiplexadas, para conformar el flujo de salida a 64 kbit/s. Las siguientes figuras muestran los detalles de los bloques codificadores de la banda baja y la banda alta, respectivamente: x L + + e L 60 level adaptive quantizer I L 48 kbit/s Delete the two LSBs D L Quantizer adaptation I Lt 15 level inverse adaptive quantizer s L Adaptive predictor d Lt r Lt G.722(12)_F04 Ing. José Joskowicz Página 25
26 x H + + e H 4 level adaptive quantizer I H 16 kbit/s D H Quantizer adaptation 4 level inverse adaptive quantizer s H Adaptive predictor d H r H G.722(12)_F RTAudio El codec RTAudio, desarrollado por Microsoft, está comenzando a ser utilizado comercial y corporativamente. Utiliza un ancho de banda de 8.8 k bit/s, con técnicas LPC (Linear Prediction Coefficients). RTAudio utiliza técnicas de codificación VBR (Variable Bit Rate), lo que significa que no todas las ventanas o cuadros de voz se codifiquen con la misma cantidad de bytes. El retardo total (latencia) del algoritmo es menor a 40 ms AMR El codec AMR (Adaptive Multi Rate) es utilizado típicamente en redes celulares GSM. Hace uso de tecnologías DTX (Discontinous Transmition), VAD (Voice Activity Detection) para detección de actividad vocal y CNG (Confort Noise Generation). Provee una variedad de opciones en cuanto al ancho de banda que utiliza. Puede trabajar a las siguientes velocidades 12.2, 10.2, 7.95, 7.40, 6.70, 5.90, 5.15 y 4.75 kb/s. De forma similar a G.729, se basa en el modelo CELP, operando con ventanas de audio de 20 ms correspondientes a una cantidad de 160 muestras (ya que la frecuencia de muestreo es de muestras por segundo). Cada ventana de 20 ms es a su vez dividida en 4 sub-ventanas, de 5 ms (40 muestras) cada una. Pora cada ventana se extraen los parámetros LP del modelo CELP (los coeficientes de los filtros LP), y por cada sub-ventana se obtienen los índices de los codebooks fijos y adaptivos y las ganancias. Estos parámetros se cuantizan y Ing. José Joskowicz Página 26
27 se transmiten dentro de una trama con un formato preestablecido en la recomendación del Codec. Según la forma en que se cuanticen estos parámetros (de acuerdo a cuantos bits se utilicen para cada parámetro) se obtienen tramas de 95, 103, 118, 134, 148, 159, 204 o 244 bits, las que corresponden a velocidades de transmisión que varían entre 4.75 y 12.2 kb/s G / AMR-WB El codec AMR-WB (Adaptive Multi Rate Wide Band) fue estandarizado en la Recomendación ITU-T G Es un codec de banda ancha, de uso común con aplicaciones 3GPP (3GPP TS ) y de VoIP. Toma 14 bits por cada muestra y tiene 9 posibles velocidades de codificación, entre 6.6 y kb/s. Está basado en las técnicas CELP, utilizando filtros de 16 polos (orden 16). La siguiente figura, tomada de [11], esquematiza el proceso de codificación SILK SILK es el codec utilizado por Skype. Utiliza un ancho de banda variable, entre 6 a 40 kb/s, trabajando entre las bandas angostas (narrow band), con frecuencias de muestreo de 8 khz y las bandas super anchas (superwideband), con frecuencias de muestreo de 24 khz. Utiliza tramas de 20 ms y tiene un retardo de 25 ms. Desde marzo de 2009 las licencias de uso de SILK son gratuitas. En marzo de 2010 el codec fue enviado como borrador de RFC al IETF. SILK fue reemplazado por el codec OPUS, el que finalmente fue aceptado con el RFC 6716 en setiembre de 2012 Ing. José Joskowicz Página 27
28 OPUS OPUS es la evolución de SILK y puede trabajar tanto con CBR (Constant Bit Rate) como en VBR (Variable Bit Rate). Puede operar en diferentes bandas, llegando a ser un códec del tipo full band. Ancho de banda del audio Bit rate (kb/s) NB (Narrowband) 4 khz 8 12 kb/s WB (Wide Band) 8 khz kb/s FB (Full Band) 20 khz kb/s para voz kb/s para música mono kb/s para música estereo Es posible utilizar ventanas de 2.5, 5, 10, 20, 40, o 60 ms. Típicamente se utiliza 20 ms. Permite combinar múltiples ventanas en paquetes de hasta 120 ms. 2.2 Proceso de digitalización de voz en telefonía Cómo se mencionó anteriormente, el proceso de digitalización puede realizarse en los propios teléfonos (cómo es el caso en los teléfonos digitales o en los teléfonos IP ), en Gateways (o conversores de medios y señalización) o las interfaces de equipo periférico en las PBX o las placas de abonado en las centrales públicas. En la siguiente figura se ejemplifica el proceso de digitalización, para el codec G.711, y a continuación se describen los componentes principales del proceso. Ing. José Joskowicz Página 28
29 8 khz Pasabajo s 3.4 khz Reloj 64kb/s Conversor A/D (Ley A) Paralelo / Serie Híbrida Conversor D/A (Ley A) Serie / Paralelo 64kb/s 8 khz Reloj Híbrida Este dispositivo es el encargado de convertir la señal analógica de 2 a 4 hilos. Separa por canales diferentes el audio entrante del audio saliente, para que sea posible el proceso de digitalización Pasabajos El sistema de digitalización requiere acotar el ancho de banda de la señal de entrada a 3.4 khz, de manera de asegurar el cumplimiento del Teorema del Muestreo. Conversores A/D y D/A Implementan la conversión digital analógica y analógica digital, con Ley A o Ley µ. Para ello se basan en un reloj de 8 khz. Por cada muestra se obtienen 8 bits, los que son serializados. Paralelo/Serie Serie/Paralelo Este proceso obtiene los 8 bits de cada muestra, y los serializa. De esta manera se obtiene un flujo de 8 bits x 8 khz = 64 kbits/s, velocidad de transmisión básica en Telefonía. Ing. José Joskowicz Página 29
30 3 Introducción a la codificación de video Codificación de voz y video Los estudios acerca de la codificación de imágenes y video comenzaron en la década de En 1984 fue introducida la estrategia de codificación utilizando la transformada discreta de coseno (DCT) 21, técnica ampliamente utilizada en los sistemas actuales de codificación. Las técnicas de compensación de movimiento aparecieron también en la década de 1980, dando origen a las tecnologías híbridas MC/DCT (Motion Compensation/Discrete Cosine Transform), utilizadas en los actuales algoritmos MPEG. Por otra parte, las transformadas discretas de Wavelets (DWT) comenzaron también a ser utilizadas en codificación de imágenes en la década de 1980, y fueron adoptadas más recientemente dentro de las tecnologías MPEG-4 y JPEG 2000, para la codificación de imágenes fijas. La complejidad de codificadores y decodificadores ha ido aumentando, logrando un muy alto nivel de compresión, a expensas de requerir decodificadores y, sobre todo, codificadores muy complejos, y que requieren gran capacidad de procesamiento 22. Es de esperar que en el futuro próximo se requiera aún mayor capacidad de procesamiento, reduciendo los requerimientos de ancho de banda y mejorando la calidad percibida. Las técnicas utilizadas para la digitalización del video incluyen los siguientes conceptos: Predicción Mediante este proceso, se trata de predecir el valor de ciertas muestras en función de otras, de manera de poder enviar únicamente como información la diferencia, la que típicamente requiere menor ancho de banda para ser transmitida. En el receptor, la misma predicción es realizada, y se le aplica la diferencia (o el valor residual) que es enviado por el codificador. Dada la alta redundancia de información que tienen típicamente las escenas de video, esta predicción se puede realizar tanto dentro de un mismo cuadro, como entre cuadros. Transformación Los valores relacionados a las muestras pueden ser transformados en otro conjunto de valores equivalentes, que representan la misma información de manera diferente (por ejemplo, una misma señal puede ser representada por su amplitud en el tiempo o en el dominio de la frecuencia). En video se utiliza típicamente la Transformada Discreta del Coseno o DCT por sus siglas en inglés. Ing. José Joskowicz Página 30
31 Cuantización Es el proceso mediante el cual se asigna un valor entero a un número real. En función de la cantidad de enteros utilizados (o la cantidad de bits necesarios para su presentación), el proceso de cuantificación puede introducir más o menos distorsión respecto al valor orignal. Codificación entrópica (Entropy Coding) Se trata de representar los valores cuantizados de manera de tomar ventaja de las frecuencias relativas con las que aparece cada símbolo. Uno de los conocidos mecanismos de codificación entrópica es utilizar códigos de largo variable (o VLC por sus siglas en inglés), de manera de asignarlo a los valores que se repiten con mayor frecuencia los códigos de menor longitud. Una cadena típica de codificación, transmisión y decodificación de video se muestra en la siguiente figura. Las estandarizaciones de ITU-T y ISO/IEC JCT se centran en detallar el proceso de decodificación, resaltado en la figura. Estas recomendaciones establecen sintaxis específicas del flujo de información. El objetivo es que cualquier decodificador que cumpla con la recomendación apropiada, pueda reproducir un flujo de video apropiadamente codificado. Fuente (Señal original) Codificación Transmisión Destino (Señal recibida) Preprocesamiento Postprocesamiento y recuperación de errores Decodificación A continuación se presentan, en forma resumida, las características más destacables de las tecnologías actuales en codificación de imágenes y video, y la manera de codificar video para su transmisión sobre redes IP. No es el objetivo principal de este documento presentar un detalle pormenorizado de estas tecnologías, por lo que sólo se describirán brevemente sus características más resaltables. Ing. José Joskowicz Página 31
32 4 Digitalización y codificación de video 4.1 JPEG Codificación de voz y video JPEG (Joint Photographic Experts Group) 23 es un estándar diseñado para comprimir imágenes fijas, tanto en color como en blanco y negro. El objetivo principal de este estándar fue el de lograr compresiones adecuadas, optimizando el tamaño final de los archivos comprimidos, admitiendo pérdida de calidad en la imagen. El algoritmo utilizado divide a la imagen en bloques de 8 x 8 píxeles, los que son procesados en forma independiente. Dentro de cada uno de estos bloques, se aplica la transformada discreta de coseno (DCT) bidimensional, generando para cada bloque, una matriz de 8 x 8 coeficientes. La gran ventaja de estos coeficientes, es que decrecen rápidamente en valor absoluto, lo que permite despreciar gran parte de ellos (ya que representan información de alta frecuencia espacial). Conceptualmente, puede considerarse que cada bloque de 8 x 8 está compuesto por una suma ponderada de 64 tipos de bloques base, como se muestran en la siguiente figura. En esta figura, cada bloque corresponde con un patrón determinado. El primer bloque (arriba a la izquierda) no tiene textura. El coeficiente asociado a este bloque se corresponde con la componente de luminancia promedio del bloque. Es conocido también como componente de DC, haciendo analogía con la componente de continua de una señal eléctrica. El resto de los bloques presentan patrones bien definidos, con frecuencias espaciales crecientes hacia la parte inferior-derecha de la figura. El estándar JPEG está también basado en la idea de utilizar para la codificación los coeficientes de una transformación, pero en este caso se utilizan transformadas discretas de Wavelets (DWT). Esta transformada permite comprimir aún más las imágenes que la DCT. Una de las principales diferencias entre JPEG y JPEG2000 es que en esta última no es necesario dividir la imagen original en bloques. La transformada DWT se aplica a toda la imagen, lo que elimina el conocido efecto de bloques. Ing. José Joskowicz Página 32
33 4.2 MPEG-x MPEG-1 25 fue originalmente diseñado por el Moving Picture Experts Group (MPEG) de la ISO (International Standards Organization) para el almacenamiento y reproducción digital de aplicaciones multimedia desde dispositivos CD-ROM, hasta velocidades de 1.5 Mb/s. MPEG-2 26 fue el sucesor de MPEG-1, pensado para proveer calidad de video desde la obtenida con NTSC/PAL y hasta HDTV, con velocidades de hasta 19 Mb/s. La codificación en MPEG-1 está basada en la transformada DCT para explotar las redundancias espaciales dentro de cada cuadro, y en técnicas de estimación y compensación de movimiento para explotar las redundancias temporales (entre cuadros). Las secuencias de video son primeramente divididas en grupos de figuras (GOP Group of Pictures). Cada GOP puede incluir tres grupos diferentes de cuadros: I ( Intra ), P ( Predictivos ) y B ( predictivos Bidireccionales ). Los cuadros del tipo I son codificados únicamente con técnicas de compresión espacial (transformada DCT dentro del propio cuadro, por ejemplo). Son utilizados como cuadros de referencia para las predicciones (hacia adelante o hacia atrás) de cuadros P o B. Los cuadros del tipo P son codificados utilizando información previa de cuadros I u otros cuadros P, en base a estimaciones y compensaciones de movimiento. Los cuadros B se predicen en base a información de cuadros anteriores (pasados) y también posteriores (futuros). El tamaño de un GOP está dado por la cantidad de cuadros existentes entre dos cuadros I. Típicamente se utilizan de 12 a 15 cuadros para un GOP, y hasta 3 cuadros entre un I y un P o entre dos P consecutivos (típicamente una señal PAL se codifica con un GOP de tamaño 12 y una NTSC con 15, ambas con no más de 2 cuadros B consecutivos). Un ejemplo tomado de 27 se muestra en la figura (IBBPBBPBBI), donde las flechas indican los cuadros utilizados para las predicciones. Cuando más grande el GOP, mayor compresión se puede obtener, pero a su vez existe menor inmunidad a la propagación de errores. Ing. José Joskowicz Página 33
34 Al igual que en JPEG, en MPEG-1 se divide la imagen de cada cuadro en bloques de 8 x 8 píxeles, los que son procesados en forma independiente. Dentro de cada uno de estos bloques, se aplica la transformada discreta de coseno (DCT) bidimensional, generando para cada bloque, una matriz de 8 x 8 coeficientes. A su vez, cuatro bloques se agrupan en un macro-bloque de 16 x 16 píxeles, el que es utilizado como base para la estimación del movimiento. La estimación de movimiento de un macro-bloque se realiza en el codificador, comparando el macro-bloque de una imagen con todos las posibles secciones de tamaño igual al macro-bloque (dentro de un rango espacial de 512 píxeles en cada dirección) de la(s) imagen(es) siguiente(s). La comparación se realiza generalmente buscando la mínima diferencia (el mínimo valor del error cuadrático medio MSE) entre el macro-bloque y la sección evaluada. Este procedimiento se basa en la hipótesis que todos los píxeles del macro-bloque tendrán por lo general un mismo desplazamiento, y por lo tanto, será más eficiente codificar un vector de movimiento del macro-bloque y las diferencias del macro-bloque predicho respecto del macro-bloque original. Las diferencias entre el macro-bloque predicho y el real también son transformadas mediante la DCT para su codificación. Un flujo de video de MPEG-2 se forma de la manera descrita a continuación. Se utiliza como unidad básica un macro-bloque, compuesto típicamente por 4 bloques Ing. José Joskowicz Página 34
35 de luminancia y 2 de crominancia (ya que la crominancia es sub-muestreada). Los coeficientes DCT de cada uno de estos bloques son serializados, y precedidos por un cabezal de macro-bloque. Varios macrobloques contiguos (en la misma fila, y de izquierda a derecha) son agrupados formando un slice, el que a su vez es precedido de un cabezal de slice, el que contiene la ubicación del slice en la imagen y el factor de cuantización usado. Típicamente puede haber un slice por cada fila de macro-bloques, pero puede también haber slices con parte de una fila. Un grupo de slices forma un cuadro, el que es precedido por un cabezal de cuadro, conteniendo información del mismo, como por ejemplo el tipo de cuadro (I,P,B), y las matrices de cuantización utilizadas. Varios cuadros se juntan, formando el GOP, también precedido de un cabezal de GOP. Finalmente, varios GOPs pueden serializarse en una secuencia (Elementary Stream), con su correspondiente cabezal, el que contiene información general, como el tamaño de los cuadros, y la frecuencia de cuadros. En la siguiente figura (tomada de 27) se muestra un esquema del sistema de capas descrito. MPEG-4 28 es la evolución de MPEG-1 y 2, y provee la tecnología necesaria para la codificación en base a contenidos, y su almacenamiento, transmisión y manipulación. Presenta mejoras interesantes respecto a la eficiencia de la codificación, robustez de transmisión e interactividad. MPGE-4 puede codificar múltiples Objetos de video (MVO Multiple Video Objects), ya que sus Ing. José Joskowicz Página 35
36 contenidos son representados en forma individual. El receptor puede de esta manera recibir diferentes flujos por cada objeto codificado dentro de un mismo video, correspondientes por ejemplo a diferentes planos (VOP Video Object Plane) de la imagen. Cada secuencia de VOPs constituye un objeto de video (VO Video Object) independiente, los que son multiplexados dentro de una transmisión, y demultiplexados y decodificados por el receptor. 4.3 H.264 En 2001, el grupo MPEG de ISO/IEC y el VCEG (Video Coding Expert Group) del ITU-T decidieron unir esfuerzos en un emprendimiento conjunto para estandarizar un nuevo codificador de video, mejor que los anteriores, especialmente para anchos de banda o capacidad de almacenamiento reducidos 29. El grupo se llamó JVT (Joint Video Team), y culminó con la estandarización de la recomendación H.264/MPEG-4 Part 10, también conocida como JVT/H.26L/AVC (Advanced Video Coding) o H.264/AVC en Este nuevo estándar utiliza compensaciones de movimiento más flexibles, permitiendo dividir los macrobloques en diversas áreas rectangulares, y utilizar desplazamientos de hasta un cuarto de píxel. Agrega además los cuadros del tipo SP (Switching P) y SI (Switching I), similares a los P e I, pero con la posibilidad de reconstruir algunos valores específicos de forma exacta. Las técnicas de codificación entrópica que utiliza utiliza H.264 son las conocidas como Context-Adaptive Variable-Length Coding (CAVLC) y Context-Adaptive Binary Arithmetic Coding (CABAC). Esta última (CABAC) es más compleja que la primera (CAVLC), pero a su vez, más eficiente. Con H.264/AVC, para una misma calidad de video, se logran mejoras en el ancho de banda requerido de aproximadamente un 50% respecto estándares anteriores En 2007 fue aprobada una extensión de H.264/AVC incluyendo el Anexo G, llamada Scalable Video Coding o SVC por sus iniciales. Esta modificación permite la construcción de sub-flujos de datos dentro de un flujo principal. El flujo principal o capa base (base layer) puede ser decodificado por cualquier equipo que soporte H.264/AVC, aunque no soporte SVC. Los flujos adicionales pueden contener información adicional del flujo, brindando mayor definición. En 2010 fue agregado el Anexo H, llamado Multiview Video Coding o MVC por sus iniciales. Este agregado está pensado para permitir tener diferentes flujos representando diferentes visiones de la misma escena, y fue desarrollado para aplicaciones de video en 3D, donde son necesarios dos flujos de información para generar el efecto estereoscópico de una misma escena. La recomendación H.264 establece diferentes perfiles y niveles. Los perfiles establecen requerimientos mínimos a cumplir por el codificador y decodificador. Se establecen 12 perfiles para el estándar base AVC, 3 para el SVC y 2 para el Ing. José Joskowicz Página 36
37 MVC, completando un total de 17 perfiles según la versión 2010 de la recomendación 32. A continuación se enumeran los perfiles establecidos en la recomendación H.264: Constrained Baseline Profile (CBP) Diseñado para aplicaciones de bajo costo. Utilizado típicamente en aplicaciones móviles y algunos servicios de video conferencias. Baseline Profile (BP) Similar al CBP, es utilizado primariamente por aplicaciones de video móvil y video conferencias. Incluye las mismas características que el CBP, agregando algunas funciones que le brindan mayor robustez frente a pérdidas de información. Solo admite cuadros del tipo I y P (no se admiten cuadros del tipo B) Main Profile (MP) Pensado para aplicaciones de TV en definición estándar (SDTV). Admite cuadros del tipo I, P y B. Extended Profile (XP) Diseñado para streaming de video. High Profile (HiP) Pensado para TV en alta definición (HDTV) y almacenamiento en discos (por ejemplo, es el utilizado en Blu-ray ). High 10 Profile (Hi10P) Para aplicaciones que requieran mejor calidad que el HiP, soporta hasta 10 bits por muestra. High 4:2:2 Profile (Hi422P) Especial para aplicaciones de video profesional High 4:4:4 Predictive Profile (Hi444PP) Para muy alta calidad, sin compresión, soporta hasta 14 bits por muestra High 10 Intra Profile Similar al Hi10P, pero admitiendo solo cuadros I, usado en aplicaciones profesionales. High 4:2:2 Intra Profile Similar al Hi422P, pero admitiendo solo cuadros I, usado en aplicaciones profesionales. High 4:4:4 Intra Profile Ing. José Joskowicz Página 37
38 Similar al Hi444P, pero admitiendo solo cuadros I, usado en aplicaciones profesionales. CAVLC 4:4:4 Intra Profile Similar al Hi444P, pero admitiendo solo cuadros I y codificación CAVLC. Scalable Baseline Profile Diseñado dentro de la extensión SVC, para aplicaciones de video conferencias y móviles. Scalable High Profile Diseñado dentro de la extensión SVC, para aplicaciones de broadcasting y streaming Scalable High Intra Profile Diseñado dentro de la extensión SVC, utiliza solo cuadros I Stereo High Profile Diseñado dentro de la extensión MVC, para aplicaciones de de video en 3D Multiview High Profile Diseñado dentro de la extensión MVC, soporta dos o más vistas de cada escena. Por otra parte, los niveles establecen un conjunto de restricciones que se aplican a cada perfil. Por ejemplo, para cada perfil, un nivel puede determinar la resolución máxima de pantalla, el máximo frame rate y el máximo bit rate. Un decodificador que soporta cierto nivel, debe ser capaz de decodificar cualquier señal que tenga un nivel igual o inferior. En la siguiente tabla se presenta un resumen comparativo de los diferentes estándares de codificación de video. Como se puede observar en dicha tabla, los codificadores / decodificadores H.264/AVC no son compatibles con los estándares anteriores, lo que supone un punto de quiebre en la evolución del video digital. Característica MPEG-1 MPEG-2 MPEG-4 H.264/MPEG-4 Part 10/AVC Tamaño del macro-bloque 16x16 16x16 (frame mode) 16x8 (field mode) 16x16 16x16 Tamaño del bloque 8x8 8x 8 16x16 8x8, 16x8 8x8, 16x8, 8x16, 16x16, 4x8, 8x4, 4x4 Transformada DCT DCT DCT/DWT 4x4 Integer Tamaño de la muestra para aplicar la transformada transfor 8x8 8x8 8x8 4x4 Codificación VLC VLC VLC VLC, CAVLC, CABAC Ing. José Joskowicz Página 38
39 Característica MPEG-1 MPEG-2 MPEG-4 H.264/MPEG-4 Part 10/AVC Estimación y compensación de movimiento Si Si Si Si, con hasta 16 MV Perfiles No 5 perfiles, varios niveles en cada perfil 8 perfiles, varios niveles en cada perfil 3 perfiles, varios niveles en cada perfil Tipo de cuadros I,P,B,D I,P,B I,P,B I,P,B,SI,SP Ancho de banda Hasta 1.5 Mbps 2 a 15 Mbps 64 kbps a 2 Mbps Complejidad del codificador Baja Media Media Alta Compatibilidad con estándares previos 64 kbps a 150 Mbps Si Si Si No 4.4 Proceso de codificación de video En la siguiente figura, tomada de 33, se muestra en un diagrama de bloques el proceso de codificación de video, en un codificador H.264/AVC. Ing. José Joskowicz Página 39
40 Referencias [1] The History of Linear Prediction Bishnu S Atal IEEE Signal Processing Magazine, March 2006, pp [2] ITU-T Coders for Wideband, Superwideband and Fullband Specch Communication R. V. Cox, S. Ferraz de Campos Neto, C. Lamblin, M. Hashem Sherif IEEE Communications Magazine, October 2009, Vol. 47, No. 10 [3] ITU-T G Series: Transmission systems and media, digital systems and networks [4] Recommendation G.711: Pulse Code Modulation (PCM) of voice frequencies CCITT, [5] Recommendation G.723.1: Dual Rate speech coder for multimedia communications transmitting at 5.3 and 6.3 kbit/s ITU-T, May [6] Recommendation G.728: Coding of speech at 16 kbit/s using Low-delay code excited linear prediction CCITT, [7] Recommendation G.729: Coding of speech at 8 kbits using Conjugate-Structure Algebraic- Code-Excited Linear-Prediction (CS-ACELP) ITU-T, Jan [8] Adaptive Multi-Rate (AMR) speech codec ETSI TS V9.0.0, [9] Recommendation G.722: 7 khz audio-coding within 64 kbit/s CCITT, [10] Recommendation G.722.1: Low-complexity coding at 24 and 32 kbit/s for hands-free operation in systems with low frame loss ITU-T, 05/2005. [11] Recommendation G.722.2: Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB) ITU-T, 07/2003. [12] Recommendation G.711.1: Wideband embedded extension for G.711 pulse code modulation ITU-T, 03/2008. [13] Recommendation G.729.1: G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729 ITU-T, 05/2006. [14] Overview of the Microsoft RTAudio Speech Codec Microsoft, [15] SILK Super Wideband Audio Codec Ing. José Joskowicz Página 40
41 [16] Recommendation G.719: Low-complexity, full-band audio coding for high-quality, conversational applications ITU-T, 06/2008. [17] Recommendation G.711 Appendix II: A Comfort Noise Payload Definition for ITU-T G.711 Use in Packet-Based Multimedia Communications Systems ITU-T, 02/2002. [18] ITU-T G.711.1: Extending G.711 to Higher-Quality Wideband Speech Y Hiwasaki, H. Ohmuro, NTT Corporation. IEEE Communications Magazine, October 2009, Vol. 47, No. 10 [19] Code-excited linear prediction(celp): High-quality speech at very low bit rates Schroeder, M. Atal, B. Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP '85. April 1985, Volume: 10, On page(s): [20] ITU-T G.729.1: Scalable Codec for New Wideband Services I Varga, S Proust, H Taddei. IEEE Communications Magazine, October 2009, Vol. 47, No Discrete Cosine Transform N Ahmed, T Natrajan, K.R. Rao IEEE Trans. Comput. Vol C-23, No 1, pp90-93, Dec 1984 Trends and Perspectives in Image and Video Coding T Sikora IEEE Proceedings, Vol 93, No 1, January 2005 ISO/IEC IS , ITU-T Recommendation T.81 Digital compression and coding of continuous-tone still images: Requirements and guidelines, 1994 ISO/IEC :2004. JPEG2000 Image Coding System: Core coding system ISO/IEC :1993. Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s ISO/IEC :2000. Information technology generic coding of moving pictures and associated audio information: Video. Digital television fundamentals: design and installation of video and audio systems Michel Robin, Michel Poulin ISBN , 1998, McGraw-Hill 28 ISO/IEC :2001. Information technology Coding of audio-visual objects Part 2: Visual 29 The H.264/AVC Advanced Video Coding Standard: Overview and Introduction to the Fidelity Range Extension Gary J. Sullivan, Pankaj Topiwala, and Ajay Luthra SPIE Conference on Applications of Digital Image Processing XXVII Special Session on Advances in the New Emerging Standard: H.264/AVC, August, 2004 Ing. José Joskowicz Página 41
42 Overview of the H.264 / AVC Video Coding Standard Thomas Wiegand, Gary J. Sullivan, Gisle Bjontegaard, and Ajay Luthra IEEE Transactions on Circuits and Systems For Video Technology, Vol 13, July 2003 Report of The Formal Verification Tests on AVC (ISO/IEC ITU-T Rec. H.264) ISO/IEC JTC1/SC29/WG11, MPEG2003/N6231 December 2003 ITU-T Recommendation H.264: Advanced video coding for generic audiovisual services March 2010 Video Compression From Concepts to the H.264/AVC Standard Gary J. Sullivan, Thomas Wiegand Proceedings of the IEEEIssue 1, pp , Jan 2005 Ing. José Joskowicz Página 42
Compresión de Datos Multimedia
Tema 3 Compresión de Datos Multimedia Introducción La compresión es una manipulación o transformación de la información de entrada, que se realiza antes de transmitirla. El objetivo es enviar la información
Representación y Codificación de Señales Audiovisuales en Televisión Digital MPEG-2 Audio
Representación y Codificación de Señales Audiovisuales en Televisión Digital MPEG-2 Audio José M. Martínez, SPAIN [email protected] tel:+34.91.497.22.58 2011-2012 INDICE Representación y Codificación
Comunicaciones I. Capítulo 4 CODIFICACIÓN Y MODULACIÓN
Comunicaciones I Capítulo 4 CODIFICACIÓN Y MODULACIÓN 1 Resumen de lo visto en el Capítulo 4 Se analizó la diferencia entre datos analógicos y digitales, y entre señales analógicas y digitales. A partir
TEMA 2. CODIFICACIÓN DE LA INFORMACIÓN
TEMA 2. CODIFICACIÓN DE LA INFORMACIÓN 1. INTRODUCCIÓN. SISTEMAS DE NUMERACIÓN EN. Sistema binario. Sistema octal. Sistema hexadecimal. 2. REPRESENTACIÓN DE TEXTOS.. Números naturales. Números enteros.
AUDIO DIGITAL. Diego Cabello Ferrer Dpto. Electrónica y Computación Universidad de Santiago de Compostela
AUDIO DIGITAL Diego Cabello Ferrer Dpto. Electrónica y Computación Universidad de Santiago de Compostela 1. Introducción Señal de audio: onda mecánica Transductor: señal eléctrica Las variables físicas
Sumario. Presentación... 15
Sumario Presentación... 15 1. INTRODUCCIÓN A LA TELEVISIÓN... 17 1.0. Introducción... 17 1.1. El contexto de la televisión... 18 1.2. Resumen histórico... 21 1.3. Estructura general del sistema de televisión...
Modelo de producción de la voz
Modelo de producción de la voz Fonética y fonémica Fonema: Unidad teórica básica para describir cómo la voz transporta un significado lingüístico. Sonido: Realización práctica de un fonema Fonémica: Estudio
Última modificación: 1 de julio de
Contenido SEÑALES DIGITALES Y CAPACIDAD DE CANAL 1.- Señales digitales de 2 y más niveles. 2.- Tasa de bit e intervalo de bit. 3.- Ancho de banda de una señal digital. 4.- Límites en la tasa de transmisión.
Normas ISO de codificación de contenidos audiovisuales. -MPEG 1, MPEG-2, MPEG-4, MPEG 7 y MPEG 21-
Normas ISO de codificación de contenidos audiovisuales -MPEG 1, MPEG-2, MPEG-4, MPEG 7 y MPEG 21-1 La familia MPEG MPEG 1 (1992): codificación digital de audio y vídeo hasta 1.5 Mbit/s para almacenamiento
UIT-T I.230 SECTOR DE NORMALIZACIÓN DE LAS TELECOMUNICACIONES DE LA UIT
UNIÓN INTERNACIONAL DE TELECOMUNICACIONES UIT-T I.230 SECTOR DE NORMALIZACIÓN DE LAS TELECOMUNICACIONES DE LA UIT RED DIGITAL DE SERVICIOS INTEGRADOS (RDSI) ESTRUCTURA GENERAL DEFINICIÓN DE LAS CATEGORÍAS
CEDEHP Profesor: Agustín Solís M. CUESTIONARIO NRO. 2
CUESTIONARIO NRO. 2 1.- Represente esquemáticamente en la siguiente figura cada elemento esencial en el proceso de comunicación. 2.- Defina Brevemente Fuente de información. La información o inteligencia
FUNDAMENTOS DE TELECOMUNICACIONES MULTIPLEXACIÓN. Marco Tulio Cerón López
FUNDAMENTOS DE TELECOMUNICACIONES MULTIPLEXACIÓN Marco Tulio Cerón López QUE ES LA MULTIPLEXACIÓN? La multiplexación es la combinación de dos o más canales de información en un solo medio de transmisión
Digitalización y compresión de vídeo
VdoDig 1 Digitalización y compresión de vídeo Principales normas Algoritmos de compresión Formatos de vídeo VdoDig 2 Normas de vídeo digital H-261.- Videoconferencia Formato de poca resolución y pocas
REDES UNIFICADAS. Redes Corporativas
REDES UNIFICADAS Ing. José Joskowicz Instituto de Ingeniería Eléctrica, Facultad de Ingeniería Universidad de la República Montevideo, URUGUAY Setiembre 2008 Versión 7 Redes Unificadas Página 1 1 Temario
Redes y Comunicaciones
Departamento de Sistemas de Comunicación y Control Redes y Comunicaciones Solucionario Tema 3: Datos y señales Tema 3: Datos y señales Resumen La información se debe transformar en señales electromagnéticas
Universidad de Alcalá
Universidad de Alcalá Departamento de Electrónica CONVERSORES ANALÓGICO-DIGITALES Y DIGITALES-ANALÓGICOS Tecnología de Computadores Ingeniería en Informática Sira Palazuelos Manuel Ureña Mayo 2009 Índice
No tienen componente en continua: Lo que implica todas las ventajas mencionadas anteriormente.
No tienen componente en continua: Lo que implica todas las ventajas mencionadas anteriormente. Detección de errores: Se pueden detectar errores si se observa una ausencia de transición esperada en mitad
3. Espacios de color. 3.Espacios de color. El uso del color en el procesamiento de imágenes está principalmente motivado por dos factores:
3. Espacios de color El uso del color en el procesamiento de imágenes está principalmente motivado por dos factores: El color es un poderoso descriptor que, en la mayoría de los casos simplifica la identificación
Tema: Uso del analizador espectral.
Sistemas de Comunicación I. Guía 1 1 I Facultad: Ingeniería Escuela: Electrónica Asignatura: Sistemas de comunicación Tema: Uso del analizador espectral. Objetivos Conocer el funcionamiento de un Analizador
Circuito de Offset
Figura 3.3 Conexión del Amplificador Los cálculos para la ganancia son simples y se muestran en la ecuación (3.), en estas se puede observar que para el cálculo de la ganancia es necesario establecer el
Clasificación de los Convertidores DAC
Clasificación de los Convertidores DAC Sistemas de Adquisición de datos () Según las características de la señal de entrada digital Codificación: Código: Binario Natural BCD Formato: Serie Paralelo Almacenamiento
Tratamiento de imágenes Adquisición y Digitalización
Tratamiento de imágenes Adquisición y Digitalización [email protected] http://scfi.uaemex.mx/hamontes Advertencia No use estas diapositivas como referencia única de estudio durante este curso. La información
Tema 3. Compresión de la información de video. Contenidos
Tema 3 Compresión de la información de video Contenidos Introducción La compresión de la señal de vídeo La redundancia en la información de vídeo Métodos de compresión por transformación: la DCT Algunos
3 SISTEMAS DE PROCESAMIENTO DIGITAL DE SEÑALES. ha desarrollado durante los últimos 30 años gracias a los avances tecnológicos de
3 SISTEMAS DE PROCESAMIENTO DIGITAL DE SEÑALES 3.1 Introducción al procesamiento digital de señales Una alternativa para el procesado analógico de señales es el procesado digital. Esta área se ha desarrollado
Unidad 3. Técnicas de Modulación
Unidad 3. 3.1 Modulación de Onda Continua. 3.2 Modulación por Pulsos. 1 Antes de transmitir una señal con información a través de un canal de comunicación se aplica algun tipo de modulación. Esta operación
2. SEÑALES Y SISTEMAS DISCRETOS EN EL TIEMPO. Una señal puede ser definida como una portadora física de información. Por ejemplo,
2. SEÑALES Y SISTEMAS DISCRETOS EN EL TIEMPO Una señal puede ser definida como una portadora física de información. Por ejemplo, las señales de audio son variaciones en la presión del aire llevando consigo
UNIDAD I.- INTRODUCCIÓN A LA GRAFICACIÓN POR COMPUTADORA
UNIDAD I.- INTRODUCCIÓN A LA GRAFICACIÓN POR COMPUTADORA LECCIÓN 1.3.- Formatos gráficos de almacenamiento 1.3.1.- Formatos de archivos para gráficos Son formas estándarizadas para almacenar imágenes.
TDM Time Division Multiplexing Multiplexación por división en tiempo Trama E1
TDM Time Division Multiplexing Multiplexación por división en tiempo Trama E1 Marzo 2013 José R. Salvador TDM Multiplexaciónpor división en tiempo Trama E1 Indice TDM (Time Division Multiplexing) La trama
PAQUETIZACION DE VOZ Y VIDEO SOBRE REDES IP
PAQUETIZACION DE VOZ Y VIDEO SOBRE REDES IP Dr. Ing. José Joskowicz [email protected] Instituto de Ingeniería Eléctrica, Facultad de Ingeniería Universidad de la República Montevideo, URUGUAY Abril 2015
Última modificación: 1 de mayo de 2010. www.coimbraweb.com
TELEFONÍA IP Contenido 1.- Introducción. 2.- Telefonía tradicional. 3.- Codificación de voz. 4.- Telefonía sobre IP. 5.- Equipamiento VoIP. 6.- Calidad de servicio en VoIP. Última modificación: ió 1 de
VoIP: Una Puerta hacia la Convergencia. Page 1
VoIP: Una Puerta hacia la Convergencia Page 1 Introducción a VoIP La Voz sobre IP, es el envío, en tiempo real, de voz entre dos o más participantes a través de redes, usando protocolos estándares de Internet,
Trabajo opcional tema 3: modulación lineal
Trabajo opcional tema 3: modulación lineal Alberto Mateos Checa I. Telecomunicación 2 Trabajo opcional tema 3: modulación lineal ÍNDICE DE CONTENIDOS: 1. Introducción.... 3 2. Diseño.... 3 2.1. Sistema
TEMA 11 CONMUTACIÓN DE PAQUETES
TEMA 11 CONMUTACIÓN DE PAQUETES La conmutación de circuitos fue diseñada para transmisión de voz o Recursos dedicados a una llamada en particular o Parte considerable del tiempo la conexión de datos no
TRANSMISION DIGITAL. PCM, Modulación por Codificación de Pulsos
MODULACIÓN TRANSMISION DIGITAL La amplia naturaleza de las señales analógicas es evidente, cualquier forma de onda está disponible con toda seguridad en el ámbito analógico, nos encontramos con una onda
UIT-T Q.313 SECTOR DE NORMALIZACIÓN DE LAS TELECOMUNICACIONES DE LA UIT
UNIÓN INTERNACIONAL DE TELECOMUNICACIONES UIT-T Q.313 SECTOR DE NORMALIZACIÓN DE LAS TELECOMUNICACIONES DE LA UIT ESPECIFICACIONES DEL SISTEMA DE SEÑALIZACIÓN R1 SEÑALIZACIÓN DE LÍNEA EQUIPO RECEPTOR DE
Fundamentos de audio digital
Fundamentos de audio digital Seminario de Audio 2005 Ernesto López Martín Rocamora Sistemas de audio digital Pilares de la digitalización: Muestreo Cuantización Tipos fundamentales de distorsión: Presencia
Vídeo Digital. 0. Presentación. Objetivos Temario Prácticas Evaluación Introducción
Vídeo Digital teleco.uclm.es/asignaturas/vd/ RedC@mpus Ángel Belenguer Despacho: 2.15 [email protected] Extensión: 4846 0. Presentación Objetivos Temario Prácticas Evaluación Introducción 1 0.1.
Introducción al procesamiento digital de señales en tiempo real
Introducción al procesamiento digital de señales en tiempo real ELO 385 Laboratorio de Procesamiento Digital de Señales Segundo semestre - 2011 Matías Zañartu, Ph.D. Departamento de Electrónica Universidad
ASÍ FUNCIONA LA CONVERSIÓN ANALÓGICO- DIGITAL DIGITALIZACIÓN DE LA SEÑAL ANALÓGICA
ASÍ FUNCIONA LA CONVERSIÓN ANALÓGICO- DIGITAL DIGITALIZACIÓN DE LA SEÑAL ANALÓGICA En una señal eléctrica analógica, los valores de tensión positivos y negativos pueden mantenerse con un valor constante,
En la figura 1 se observan los cambios de polaridad (positivo y negativo) y las variaciones en amplitud de una onda de ca.
Página 1 de 7 TENSION ALTERNA En la figura 1 se observan los cambios de polaridad (positivo y negativo) y las variaciones en amplitud de una onda de ca. Puede definirse un voltaje alterno como el que varía
Introducción a los Sistemas Digitales. Tema 1
Introducción a los Sistemas Digitales Tema 1 Qué sabrás al final del tema? Diferencia entre analógico y digital Cómo se usan niveles de tensión para representar magnitudes digitales Parámetros de una señal
El IRTP cuenta con dos sistemas satelitales FlyAway en la banda KU para. realizar transmisiones en vivo y en directo de diferentes puntos de nuestro
14.- SISTEMAS SATELITALES FLYAWAY El IRTP cuenta con dos sistemas satelitales FlyAway en la banda KU para realizar transmisiones en vivo y en directo de diferentes puntos de nuestro territorio nacional
CAPITULO I INTRODUCCIÓN. Diseño Digital
CAPITULO I INTRODUCCIÓN Diseño Digital QUE ES DISEÑO DIGITAL? UN SISTEMA DIGITAL ES UN CONJUNTO DE DISPOSITIVOS DESTINADOS A LA GENERACIÓN, TRANSMISIÓN, PROCESAMIENTO O ALMACENAMIENTO DE SEÑALES DIGITALES.
RECOMENDACIÓN UIT-R BT
Rec. UIT-R BT.1366-1 1 RECOMENDACIÓN UIT-R BT.1366-1 Transmisión de códigos de tiempo y control en el espacio de datos auxiliares de un tren binario de televisión digital de conformidad con las Recomendaciones
INTRODUCCIÓN Videoconferencia sobre Frame Relay
INTRODUCCIÓN Videoconferencia sobre Frame Relay Homero Andrango María Fernanda Jerez Patricia Yacelga Se denomina videoconferencia al sistema que permite a un grupo de personas ubicadas en lugares distantes
TV: TeleVisión Plan 2010 Codificación híbrida: Recomendación ITU-T H.261
TV: TeleVisión Plan 2010 Codificación híbrida: Recomendación ITU-T H.261 TV @ ETSIT-UPM (Plan 2010) H.261-1 Contenido 1. Codificador híbrido. 2. Introducción a H.261. 3. Formato de vídeo en H.261. 4. Codificador
Técnicas de codificación en forma de onda
Técnicas de codificación en forma de onda Contenido Introducción prerrequisitos Requisitos Componentes Utilizados Convenciones Modulación de código por impulsos Filtro Muestreo Digitalice la Voz Cuantización
Circuitos Sample & Hold y Conversores. Introducción
Circuitos Sample & Hold y Conversores Introducción Los circuitos de muestreo y retención se utilizan para muestrear una señal analógica en un instante dado y mantener el valor de la muestra durante tanto
Procesamiento digital de voz
Procesamiento digital de voz Seminario de Audio 2005 Ernesto López Martín Rocamora Producción del habla Aparato fonador Corte transversal de la laringe Sonidos sonoros y sordos Sonidos sonoros Forma de
Clasificación de sistemas
Capítulo 2 Clasificación de sistemas 2.1 Clasificación de sistemas La comprensión de la definición de sistema y la clasificación de los diversos sistemas, nos dan indicaciones sobre cual es la herramienta
II Unidad Diagramas en bloque de transmisores /receptores
1 Diagramas en bloque de transmisores /receptores 10-04-2015 2 Amplitud modulada AM Frecuencia modulada FM Diagramas en bloque de transmisores /receptores Amplitud modulada AM En la modulación de amplitud
UNIÓN INTERNACIONAL DE TELECOMUNICACIONES
UNIÓN INTERNACIONAL DE TELECOMUNICACIONES CCITT E.713 COMITÉ CONSULTIVO INTERNACIONAL TELEGRÁFICO Y TELEFÓNICO (11/1988) SERIE E: EXPLOTACIÓN GENERAL DE LA RED, SERVICIO TELEFÓNICO, EXPLOTACIÓN DEL SERVICIO
PRINCIPIOS BASICOS DE AUDIO COMO ESCUCHA EL SER HUMANO
PRINCIPIOS BASICOS DE AUDIO COMO ESCUCHA EL SER HUMANO Septiembre de 2012 PRESENTACION PERSONAL 2007 2006-2008 PRESENTACION PERSONAL 2008 -actual www.lacitaav.com 2008 -actual DEFINICIONES Sonido: ondas
Modelo OSI y TCP/IP. Teleprocesamiento Ing. Zoila Marquez.
Modelo OSI y TCP/IP Teleprocesamiento Ing. Zoila Marquez. Modelo OSI El Modelo OSI divide en 7 capas el proceso de transmisión de la información entre equipo informáticos, donde cada capa se encarga de
Conversión Analógica a Digital
Conversión Analógica a Digital Omar X. Avelar & J. Daniel Mayoral SISTEMAS DE COMUNICACIÓN & TRANSMISIÓN DE DATOS (ESI 043A) Instituto Tecnológico y de Estudios Superiores de Occidente () Departamento
Teoría de Comunicaciones
Teoría de Comunicaciones Ing. Jose Pastor Castillo. [email protected] Transmisión de Datos Un Modelo para las comunicaciones. Modelo de Comunicaciones Fuente: Dispositivo que genera los datos
Resumen de CONVERSORES ANALÓGICO DIGITALES Y DIGITALES ANALÓGICOS
Universidad De Alcalá Departamento de Electrónica Resumen de CONVERSORES ANALÓGICO DIGITALES Y DIGITALES ANALÓGICOS Tecnología de Computadores Almudena López José Luis Martín Sira Palazuelos Manuel Ureña
Ahora veamos algunos de los cables más comunes para conectar los dispositivos a nuestra PC. 1- Cable de power, del toma eléctrico al CPU.
Puertos de una PC Seguimos con la tercer clase de armado de PC s, y hoy vamos a ver en detalle los puertos físicos de una computadora. Y un adicional simple de los cables más comunes que se utilizan para
EL4005 Principios de Comunicaciones Clase No.22: Señalización Ortogonal
EL4005 Principios de Comunicaciones Clase No.22: Señalización Ortogonal Patricio Parada Departamento de Ingeniería Eléctrica Universidad de Chile 29 de Octubre de 2010 1 of 34 Contenidos de la Clase (1)
Fibra óptica (Calculos) Ing. Waldo Panozo
Fibra óptica (Calculos) Ing. Waldo Panozo Cálculos de enlace - Requerimientos Ancho de banda: La fibra óptica proporciona un ancho de banda significativamente mayor que los cables de pares (UTP / STP)
Práctica 1 Transistor BJT Región de Corte Saturación Aplicaciones
Práctica 1 Transistor BJT Región de Corte Saturación Aplicaciones Universidad de San Carlos de Guatemala, Facultad de Ingeniería, Escuela de Mecánica Eléctrica, Laboratorio de Electrónica 1, Segundo Semestre
Teoria de las Telecomunicaciones. TEMA 2 Tècnicas de modulacion. Luis Lujan
Teoria de las Telecomunicaciones TEMA 2 Tècnicas de modulacion Luis Lujan 1 Índice Técnicas de codificación: Datos digitales: Señales digitales. Señales analógicas. Datos analógicos: Señales digitales.
Introducción a circuitos de corriente alterna(2).
Universidad de Chile Facultad de Ciencias Físicas y Matemáticas Departamento de Física FI2003 - Métodos Experimentales Semestre otoño 2009 Profesores: Denise Criado, Claudio Falcón, Nicolás Mujica GUIA
1. Introducción a las comunicaciones
1. Introducción a las comunicaciones Introducción 1.1. Conceptos básicos de transmisión de datos 1.2. Medios de Transmisión. Capacidad de un canal 1.3 Técnicas de transmisión 1.4 Distribución de ancho
Aritmética de Enteros
Aritmética de Enteros La aritmética de los computadores difiere de la aritmética usada por nosotros. La diferencia más importante es que los computadores realizan operaciones con números cuya precisión
Introducción general a la compresión de datos multimedia
Introducción general a la compresión de datos multimedia Necesidad de la compresión La mayoría de las aplicaciones multimedia requieren volúmenes importantes de almacenamiento y transmisión. CD-ROM 640
Teoría de la decisión
1.- Un problema estadístico típico es reflejar la relación entre dos variables, a partir de una serie de Observaciones: Por ejemplo: * peso adulto altura / peso adulto k*altura * relación de la circunferencia
Curso de Redes Computadores 1 Tema 6_5 Métricas de desempeño en redes de computadores
Curso de Redes Computadores 1 Tema 6_5 Métricas de desempeño en redes de computadores Prof. Ricardo Gonzalez Redes de Computadores Tema 6_5 1 Qué medir en una Red Antes de tomar cualquier medición se debe
UD - 6 SISTEMAS DE COMPRENSIÓN DE IMÁGENES
UD - 6 SISTEMAS DE COMPRENSIÓN DE IMÁGENES Eduard Lara 1 1. INTRODUCCIÓN La digitalización de las imágenes de TV genera una alta cantidad de información Tratamiento y distribución complicado. Necesidad
Tema 3: Codificación de Contenidos Multimedia.
Tema 3 1 Índice Tema 3:. Contenido 3.1 Ventajas de la codificación digital. Alternativas y compromisos en la codificación digital. Técnicas de codificación de voz. 3.3 Técnicas de codificación de audio.
Comunicación de Datos I Profesora: Anaylen López Sección IC631 MODELO OSI
Comunicación de Datos I Profesora: Anaylen López Sección IC631 MODELO OSI Arquitectura de Redes Definición Formal: Se define una arquitectura de red como un conjunto de niveles y protocolos que dan una
Codificación de Audio
Codificación de Audio Fernando Díaz de María Departamento de Tecnologías de las Comunicaciones Universidad Carlos III de Madrid Índice Introducción Codificación Perceptual Principios Psicoacústicos Umbral
REDES DE DATOS Modelo OSI. Angélica Flórez Abril, MSc.
REDES DE DATOS Modelo OSI Angélica Flórez Abril, MSc. Jerarquía de protocolos Organización en capas o niveles. El número de capas y sus funciones difieren de red a red. Cada capa ofrece servicios a las
ELECTIVA I PROGRAMA DE FISICA Departamento de Física y Geología Universidad de Pamplona Marzo de 2010 NESTOR A. ARIAS HERNANDEZ - UNIPAMPLONA
ELECTIVA I PROGRAMA DE FISICA Departamento de Física y Geología Universidad de Pamplona Marzo de 2010 PDS Señal Analoga Señal Digital Estabilidad y Repetibilidad condiciones externa) Inmunidad al ruido
A continuación se presenta la información de la altura promedio para el año de 1998 en Holanda de hombres y mujeres jóvenes.
M150: Creciendo A) Presentación del problema LOS JOVENES CRECEN MAS ALTO A continuación se presenta la altura promedio para el año de 1998 en Holanda de hombres y mujeres jóvenes. B) Preguntas del problema
Diagramas de interacción
Tema 6: Diagramas de Interacción Diagramas de interacción Los diagramas de interacción son diagramas que describen cómo grupos de objetos colaboran para conseguir algún fin. Estos diagramas muestran objetos,
COMPRESIÓN DE AUDIO. 1. Introducción. 2. Codificación IMA ADPCM PRÁCTICAS TXÓN. DATOS MULTIMEDIA
PRÁCTICAS TXÓN. DATOS MULTIMEDIA COMPRESIÓN DE AUDIO 1. Introducción En esta práctica vamos a tratar la compresión de audio. En concreto vamos a estudiar la conversión de una serie de muestras de audio
Representación y Codificación de Señales Audiovisuales en Televisión Digital MPEG-2 Sistemas
Audiovisuales en Televisión Digital José M. Martínez, SPAIN [email protected] tel:+34.91.497.22.58 2008-2009 Televisión Digital ([email protected], 2008-2009) Representación y Codificación AV en
Anexo V: Amplificadores operacionales
Anexo V: Amplificadores operacionales 1. Introducción Cada vez más, el procesado de la información y la toma de decisiones se realiza con circuitos digitales. Sin embargo, las señales eléctricas analógicas
Computadores y Comunicaciones. Tema 6: Aplicaciones Multimedia
Computadores y Comunicaciones Tema 6: Aplicaciones Multimedia Febrero, 2011 Jorge Juan Chico , Julián Viejo Cortés Departamento de Tecnología Electrónica Universidad
EL OSCILOSCOPIO Introducción
EL OSCILOSCOPIO Introducción Qué es un osciloscopio? El osciloscopio es basicamente un dispositivo de visualización gráfica que muestra señales electricas variables en el tiempo. El eje vertical, a partir
Última modificación: 1 de septiembre de
Contenido 1.- Analógico y digital. DATOS Y SEÑALES 2.- Señales analógicas periódicas. 3.- Señales compuestas. 4.- Señales digitales. Objetivo.- Al finalizar el tema, el estudiante será capaz de usar representaciones
CAPÍTULO 4: RESULTADOS
CAPÍTULO 4: RESULTADOS En la mayoría de los resultados de medición se utilizó una herramienta del osciloscopio que permite realizar varias mediciones y hace cálculos estadísticos para obtener un promedio
Unidad 5. Aplicaciones
Unidad 5. Aplicaciones 5.1 Comunicaciones por Microondas. 5.2 Sistemas de Telecomunicaciones. 5.3 Comunicaciones Satelitales. 5.4 Comunicaciones Opticas. 5.5 Redes de Comunicación. 1 Sistema Telefónico
Capítulo 7 Modulación de Pulsos
237 Capítulo 7 Modulación de Pulsos Introducción Las modulaciones de amplitud, frecuencia y fase tratadas en los capítulos anteriores se designan genéricamente como modulaciones de onda continua, en que
DEFINICIONES Y CONCEPTOS (SISTEMAS DE PERCEPCIÓN - DTE) Curso
DEFINICIONES Y CONCEPTOS (SISTEMAS DE PERCEPCIÓN - DTE) Curso 2009-10 1. Generalidades Instrumentación: En general la instrumentación comprende todas las técnicas, equipos y metodología relacionados con
Mapeo en el P 8086 de Intel
Mapeo en el P 8086 de Intel Ing. Silvia Domizi Ing. Diego Alegrecci Mapeo Microprocesador 8086 1 Introducción Mapeo Microprocesador 8086 2 Mapeo Mapear un dispositivo, es asignarle un intervalo definido
Bus I 2 C. Introducción
Bus I 2 C Introducción 1980: Philips desarrolla el Bus de 2 alambres I 2 C para la comunicación de circuitos integrados. Se han otorgado licencias a mas de 50 compañías, encontrándonos con más de 1000
Conversión Analógica a Digital
Índice Conversión analógica a digital Señales básicas de tiempo discreto Relación Exponencial Discreta con sinusoides Relación Exponencial discreta con sinusoides Propiedades exponenciales complejas continuas
Servicio de audio. Tema 8 SRI. Vicente Sánchez Patón. I.E.S Gregorio Prieto
Servicio de audio Tema 8 SRI Vicente Sánchez Patón I.E.S Gregorio Prieto Funcionalidad del servicio de audio La función del servicio de audio es transmitir sonido (audio) desde un punto a otro, ya sea
Representación en el espacio de estado. Sistemas Control Embebidos e Instrumentación Electrónica UNIVERSIDAD EAFIT
Representación en el espacio de estado Representación en espacio de estado Control clásico El modelado y control de sistemas basado en la transformada de Laplace, es un enfoque muy sencillo y de fácil
Computación Paralela Móvil
Algoritmos y Programación Paralela Facultad de Informática Universidad de Murcia Copyleft c 2008. Reproducción permitida bajo los términos de la licencia de documentación libre GNU. Contenido 1 Introducción
3. ANÁLISIS DE DATOS DE PRECIPITACIÓN.
3. ANÁLISIS DE DATOS DE PRECIPITACIÓN. Teniendo en cuenta que la mayoría de procesos estadísticos se comportan de forma totalmente aleatoria, es decir, un evento dado no está influenciado por los demás,
