Este estándar nace en 2003, presentando flexibilidad total ante la variedad de redes y tecnologías existentes.

Documentos relacionados
2.5.6 CODIFICACIÓN PARA EL FORMATO DES CARACTERÍSTICAS GENERALES DEL ESTÁNDAR HEVC Ó H Metodología

Compresión de vídeo. Estándares MPEG

Podemos distinguir dos técnicas fundamentales. Ambas se utilizan en estándar MPEG-2.

Compresión de Vídeo. Juan A. Michell Mar>n Gustavo A. Ruiz Robredo. Tema 2.9. Introducción al HEVC/H.265. Departamento de Electrónica y Computadores

Dpto. de Ingeniería de Comunicaciones LA IMAGEN DIGITAL

Compresión de Vídeo. Juan A. Michell Mar=n Gustavo A. Ruiz Robredo. Tema 1.2. Vídeo digital. Departamento de Electrónica y Computadores

VÍDEO DIGITAL. Características generales

CAPITULO 3 DESARROLLO. El codificador básico implementa un algoritmo de compresión con perdidas (no se puede

Digitalización y compresión de vídeo

Compresión de Vídeo. Juan A. Michell MarBn Gustavo A. Ruiz Robredo. Tema 2.2. Estructura jerárquica del H.264

Compresión de Vídeo. Juan A. Michell Mar>n Gustavo A. Ruiz Robredo. Tema 2.8. Otras caracterís/cas. Departamento de Electrónica y Computadores

Estándar MPEG 2. Estándar MPEG-2

UNIVERSIDAD DE SEVILLA

Compresión de Vídeo. Juan A. Michell Mar>n Gustavo A. Ruiz Robredo. Tema 1.5. Codificación entrópica. Departamento de Electrónica y Computadores

y saque conclusiones. Cómo reconstruiría la secuencia original? p j log 2 j p j

Sumario. Presentación... 15

Vídeo Digital Examen de Junio de 2003

Mario Donnángelo. Seminario de Capacitación en Televisión Digital para Radiodifusores

Compresión de imágenes

Tipos de Modulación. PCM Convencional

TEMA 2. CODIFICACIÓN DE LA INFORMACIÓN

Francisco J. Hernández López

(1) Métodos y materiales

Sistemas de Radiodifusión. Máster Universitario en Ingeniería de Telecomunicación Sistemas y servicios de transmisión por radio

7 El formato JPEG. 7.1 Introducción

Rango dinámico - En el mundo digital

Tecnologías de la imagen II

DCT(x[n]) C[u] α(u) x[n] cos (2n 1) π u 2N

3. Espacios de color. 3.Espacios de color. El uso del color en el procesamiento de imágenes está principalmente motivado por dos factores:

RECOMENDACIÓN UIT-R BT.1737

Tema 3. Compresión de Datos Multimedia

Tema 5. Modulación por Código de Pulso (PCM) Materia: Comunicaciones Digitales Semestre: 6to. Carrera: ICE Febrero-Julio 2017

Videoconferencia en video estándar, HD y FullHD

Banda Ancha. Compresión, Almacenamiento y Transmisión Eficiente de Señales de Voz, Video y Datos. MSc. Luis Rojas

Capítulo 5: CONTROL INVERSO ADAPTATIVO

TELEVISIÓN CONVENCIONAL TEMA

Codificación en contenedor MP4 usando Nero Recode

Unidad 3. Técnicas de Modulación

Unidad IV: Tratamiento de Imagen

Práctica 5. Códigos Huffman y Run-Length

Codificación de vídeo 3D: un caso práctico. Antonio Jesús Díaz Honrubia

Vídeo Digital Examen de Junio de 2004

Examen Final Televisión Digital 12 de junio de 2008 TELEVISIÓN DIGITAL 2007/08

CAPÍTULO 4 LOS MEGAPIXELS

Vídeo Digital Examen de Junio de 2002

ENERGÍA. Vibraciones mecánicas. Vibraciones electromagnéticas

Procesamiento Digital de Imágenes. Pablo Roncagliolo B. Nº 16

INTRODUCCION A LA TELEVISION DIGITAL

RECOMENDACIÓN UIT-R BR * Formatos de grabación digital de televisión de alta definición (TVAD)

Programa de Estudio.

Procesamiento Digital de Imágenes

CAPITULO 6. Sistemas de comunicación. Continuar

banda, mayor es la distorsión, y mayor es la probabilidad de que se cometan errores en el receptor.

A veces queremos almacenar algún elemento que es Verdadero o Falso. Este tipo de dato se llama Booleano y su representación es sencilla, para cada

Compresión de Datos Multimedia

Captura y Compresión de Vídeo de alta Definición con DSP

Tema 3. Compresión de la información en televisión digital (formato MPEG-2) Contenidos

Sistemas de comunicación

INGENIERÍA DE SISTEMAS Cursada 2017

Objetivos. Comprender los fundamentos de la representación digital de imágenes y audio

COMPARACIÓN DE TÉCNICAS DE DETECCIÓN DE CAMBIOS DE PLANO SOBRE VÍDEO COMPRIMIDO CAPÍTULO 2: VÍDEO COMPRIMIDO

Tema 3. Compresión de la información de video. Contenidos

Tratamiento probabilístico de la Información. INGENIERÍA DE SISTEMAS Cursada 2017

IES Abyla. Departamento de Informática. Sonido digital

Comunicaciones Digitales

Comunicaciones I. Capítulo 4 CODIFICACIÓN Y MODULACIÓN

Sistema de conocimientos Definición de sonido y video digital. Formatos de sonido Formatos de video Procesamiento digital de sonido y video.

Práctica 2: INTERFACES DE COMUNICACIÓN PARA VÍDEO

Cap 1: Almacenamiento de Datos

Cada frame completo tiene 625 líneas de cada una de las de arriba que se pueden representar todas juntas, una encima de otra.

TEMA 1. IT (UC3M) Comunicaciones Digitales Introducción 2 / 24. Finalidad de un sistema de comunicaciones: transmisión

Sistemas de compresión de la imagen (2ª parte)

PCM MODULACION ANALOGA CON PORTADORA DIGITAL

Orden de las clases...

51 Int. CI.: H04N 7/14 ( ) TRADUCCIÓN DE PATENTE EUROPEA

Tratamiento probabilístico de la Información. INGENIERÍA DE SISTEMAS Cursada 2016

Arquitecturas de conversores AD

RECOMENDACIÓN UIT-R BT * Codificación vídeo para la radiodifusión de televisión terrenal digital

Conversión Analógico/Digital

Profesora Maria Elena Villapol. Comunicación de Datos

SISTEMAS DE COMUNICACION. Ingeniería en Electrónica Sexto semestre M.C. Maribel Tello Bello 2010-II

Universidad Carlos III de Madrid

Transmisión. Transmision de Datos

Redes y Comunicaciones

UNIVERSIDAD NACIONAL AUTÓNOMA

CAPITULO II. Las imágenes en movimiento están formadas por gran cantidad de fotogramas con

RECOMENDACIÓN UIT-R BR * Grabación de televisión de alta definición (TVAD)

REDES DE ALTA VELOCIDAD

Teoría de la Información

TV: TeleVisión Plan 2010 Codificación híbrida: Recomendación ITU-T H.261

Implementación de un sistema inalámbrico de Audio, bajo un esquema de modulación QPSK/8PSK con una codificación convolucional

RECOMENDACIÓN UIT-R BS Condiciones de usuario para sistemas de codificación audio en radiodifusión digital

INFORMATIVO DE SISTEMAS HDCVI

+- S x B +-E. Este estándar presupone una representación normalizada. Es decir, los números a representar obedecen a la siguiente forma:

Tema 2 REPRESENTACIÓN DE LA INFORMACIÓN MULTIMEDIA

RECOMENDACIÓN UIT-R BT *

Un video es una sucesión de imágenes presentadas a una cierta frecuencia.

M É T O D O S D E C O M P R E S I O N Y D E S C O M P R E S I O N.

Vídeo Digital Examen de Junio de 2001

Transcripción:

3 Metodología A continuación se expondrá un estudio en el que se analizarán y se compararán las relaciones de las tasas de bits con respecto a la calidad de la imagen en los diferentes formatos y codificadores explicados en el capítulo anterior. 3.1 ESTUDIO DE LAS TASAS DE BITS Dependiendo del formato elegido y del esquema de codificación, se pueden tener uno o más flujos de bits resultantes como señal de vídeo. En esta sección se analizará la tasa de bits que cada formato genera y una comparación entre ellos. 3.1.1 PARÁMETROS DEL ESTUDIO A continuación se explicarán los parámetros técnicos que se van a emplear para realizar el estudio de las tasas de bits con respecto a las configuraciones empleadas para la codificación. 3.1.1.1 Codificador H.264 La recomendación ITU-T H.264-AVC (Advanced Video Coding) representa una evolución a los estándares existentes para la codificación de vídeo como son H.261. H.262, H.263. Este estándar surge ante la necesidad de procesar grandes cantidades de información digital de vídeo y más específicamente como una solución eficiente al servicio de Televisión Digital, flujo de vídeo por IP y las video comunicaciones. Este estándar nace en 2003, presentando flexibilidad total ante la variedad de redes y tecnologías existentes. En una de las revisiones al estándar, la 2005-03, se incluyen las modificaciones al estándar de codificación para añadir cuatro nuevos perfiles referidos principalmente a las 4:2:2 y 4:4:4, con ello se mejora la calidad del vídeo y se da la posibilidad de que el estándar se extienda hacia un rango más amplio de aplicaciones. Para hacer más fácil la estandarización, H.264 ha establecido desde el inicio, y en cada una de sus enmiendas, niveles y perfiles, los cuales permiten dar una escala y una clasificación de las diferentes tasas de flujos de bits posibles. Se han desarrollado 7 diferentes perfiles para poder cubrir varias aplicaciones existentes, desde redes inalámbricas hasta aplicaciones de cine digital. Cada perfil especifica un subconjunto de velocidades de transmisión, de la sintaxis correspondiente y de los límites a los que se deben acoplar los decodificadores existentes para cada perfil. En la primera versión existen 3 perfiles: Perfil línea base, perfil principal, y perfil extendido. El perfil línea base es aplicable a servicios de vídeo-comunicaciones en tiempo real tales como vídeo conferencias y el vídeo teléfono. 42

El perfil principal está diseñado para el almacenamiento de información digital y para servicios de broadcasting de televisión. El perfil extendido se aplica a los servicios multimedia sobre Internet. Existen además tres perfiles de alto nivel (High-Profile) definidos en las extensiones de los rangos de fidelidad para aplicaciones tales como contenido-contribución, contenidodistribución, y edición de estudio y post-procesamiento, estos perfiles son: Alto (High), Alto 10 (High 10), Alto 4:2:2 (High 4:2:2) y Alto 4:4:4 (High 4:4:4). El High Profile es capaz de soportar cuantización de 8 bits con esquema de muestreo 4:2:0 para aplicaciones de alta resolución. El perfil High 10 se basa en el mismo esquema 4:2:0, pero cuantiza las muestras con 10 o más bits. El perfil High 4:2:2 trabaja en su esquema de muestro para 10 o más bits. En el caso del perfil High 4:4:4 se asignan 12 bits por muestra, y se utiliza la transformada de color residual integral para codificar la señal RGB. Además de los perfiles, se definen también los niveles para cada perfil existente. Los niveles corresponden generalmente al poder de procesamiento y capacidad de memoria del códec, cada nivel soporta una determinada dimensión de la imagen (SDTV, HDTV). Como se observa, los perfiles tienen puntos en común y puntos divergentes, a continuación se hace una descripción más detallada de los mismos para cada perfil. 3.1.1.1.1 Elementos comunes en todos los perfiles Como ya se ha comentado con anterioridad, para todos los perfiles se realiza la predicción de los cuadros de la misma forma, se establecen dos tipos de cuadros, los cuadros I (cuadro intra) y los cuadros P (cuadros predicted), los cuales dependiendo si el formato requiere más tipos de cuadros, conforman el GOP (Group of Pictures). Otro elemento común en todos los perfiles es el CAVLC (Context-based Adaptive Variable Length Coding), es decir una codificación de longitud variable para mejorar la entropía del código. 3.1.1.1.2 Perfil de línea Base Los elementos exclusivos de este perfil son: Orden flexible para los macrobloques: No necesariamente pueden estar estos en orden, existe un mapa el cual asigna los macrobloques a los grupos de cuadros. Orden arbitrario de los cuadros: Puede darse la alternancia en el orden entre bloques precedentes y posteriores. 43

Redundancia de datos: Los datos son procesados en partes, y estas porciones de datos pertenecen a los datos del código redundante obtenido por las diferencias o semejanzas de la tasa de codificación, en comparación con los datos comparados previamente en la misma porción de datos. 3.1.1.1.3 Perfil Principal Para el perfil principal existe otro tipo de cuadros, los cuadros B (cuadros bi-predicted) y se utiliza la predicción ponderada, debido a que se aplica un factor de ponderación a las muestras de datos de predicción de movimiento en el grupo de cuadros P ó B. El código para mejorar la entropía en este caso es CABAC (Context-adaptive binary arithmetic coding), el cual consigue flujos de bits 10 % más pequeños. 3.1.1.1.4 Perfil Extendido Este perfil incluye todas las características del perfil de línea base, y añade otros elementos como: Porciones SP. Porciones SI. Particiones de Datos: Los datos codificados son ubicados en particiones de datos separados, cada partición puede ser ubicada en una capa diferente. Maneja cuadros B. Maneja predicción ponderada. 3.1.1.1.5 Perfiles Altos (High-Profiles) Este perfil incluye todas las características del perfil principal, es decir, cuadros B, predicción ponderada, CABAC; y además tiene las siguientes características: Tamaño del bloque adaptativo: Puede ser 4x4 o 8x8, para muestreo de luminancia. Matrices escaladas de cuantización: Diferentes escalas de acuerdo a frecuencias específicas asociadas con los coeficientes de la transformada en el proceso de cuantización para optimizar la calidad subjetiva. 3.1.1.1.6 Algoritmo de codificación El algoritmo de codificación de H.264 consta de varios procesos, los cuales son descritos de manera detallada en la figura 3.1. 44

Figura 3.1 Diagrama de bloques de la codificación H.264 Como se observa en la figura 3.1 el codificador tiene la posibilidad de escoger entre modos de predicción Intra e Inter para determinada región en las imágenes. La predicción se obtiene al eliminar los bloques y filtrar la señal proveniente de las imágenes reconstruidas. El vector de movimiento y los modos de predicción Intra pueden ser especificados para una variedad de tamaños de bloque en la imagen, dentro del bloque de codificación de entropía H.264 se establecen dos métodos dependiendo del perfil: CAVLC y CABAC. 3.1.1.1.7 Predicción Intra-Frame H.264 usa el método de predicción Intra-código en macrobloques de tipo I, para reducir la gran cantidad de bits codificados que la señal de entrada genera por sí misma. Este tipo de predicción es más eficiente para el caso de secuencias de vídeo con poco movimiento. El método se basa en intentar predecir el bloque actual que se está procesando, extrapolando los píxeles vecinos de bloques adyacentes en una serie de direcciones definidas. Para codificar un bloque o un macro bloque bajo este Intra-codificación, un bloque de predicción se forma en el bloque reconstruido previamente, la señal residual entre el bloque en procesamiento y el de la predicción es codificada. Para las muestras de luminancia el bloque de predicción puede estar formado por sub-bloques de 4x4, bloques de 8x8, o macrobloques de 16x16 en nueve direcciones la predicción; para la crominancia 13 puede darse en bloques de 8x8 para 4:2:0, 8x16 en 4:2:2, y 16x16 en 4:4:4 en cuatro direcciones de predicción; para cada macro-bloque y para cada una de sus componentes de color se determina el modo de predicción a usarse y el conjunto de direcciones de predicción. 13 La crominancia es el componente de la señal de vídeo que contiene las informaciones del color (R,G,B). 45

3.1.1.1.8 Predicción Inter-Frame La predicción Inter-Frame está destinada a reducir la correlación temporal con ayuda de las herramientas de compensación y estimación del movimiento. Como es conocido en este estándar, la imagen puede ser dividida en macrobloques o en bloques más pequeños. Un macrobloque de 16x16 muestras de luminancia se puede dividir en bloques más pequeños de a lo sumo 4x4. Para el modo 16x16 existen cuatro casos: 16x16, 16x8, 8x16 y 8x8. En el modo 8x8, los casos posibles son: 8x8, 8x4, 4x8 o 4x4. El bloque más pequeño requiere una mayor cantidad de bits para la señal, el vector de movimiento y los datos extra del tipo de partición; de ahí que la elección del tamaño de la partición depende de las características de la señal de vídeo de entrada. Por lo general las grandes particiones son apropiadas para áreas homogéneas en un cuadro, y las particiones de tamaño pequeño son apropiadas para áreas muy detalladas. El proceso de predicción Inter de un bloque en muestreo involucra eventualmente también la selección de las imágenes a ser usadas como imágenes de referencia de un conjunto de imágenes decodificadas previamente almacenadas. Las imágenes de referencia para la compensación del movimiento son almacenadas en el buffer de imágenes. En lo que se refiere a la imagen en procesamiento, las imágenes que le preceden y le suceden a la misma se almacenan en ese orden en el Buffer. 3.1.1.1.9 Transformación y cuantificación Sin duda en este aspecto se ha avanzado mucho en relación a los anteriores formatos, en este caso se usa una Transformada entera a diferencia de las DCT que antes se usaban, con ello se reduce, además de con el filtro, el efecto visual de bloque. H.264 utiliza una transformación adaptativa con tamaños de bloque 4x4 y 8x8 (para los perfiles High). Para mejorar la eficiencia en la compresión, el estándar emplea una estructura jerárquica para la transformación, en la cual los coeficientes DC (Direct Cosine), de las transformaciones 4x4 vecinas para las señales de luminancia, están agrupadas en bloques de 4x4 y transformadas nuevamente usando la transformada Hadamard 14, el estándar especifica la transformada Hadamard 4x4 para los coeficientes DC de la luminancia y sólo para el modo Intra 16x16, y la transformada Hadamard 2x2 para los coeficientes DC de la crominancia. Por lo general este proceso de transformación y cuantificación requiere muchas multiplicaciones haciéndolo muy complejo en el momento de la implementación. Para evitar esto, se usa en H.264 la transformada Hadamard con valores enteros haciendo más rápido y eficiente el proceso. 14 Transformada de imágenes sumamente rápida, que consiste en un desarrollo en serie de funciones básicas cuyos valores son +1 o -1, en términos matemáticos la transformada H viene dada por: H u = 1 N N 1 n=0 x n ( 1) t 1 i=0 b i n b i u 46

3.1.1.1.10 Proceso de codificación Este proceso consta de una serie de pasos que establecen el orden de la codificación, con ello también es fácilmente identificable lo que se debe hacer en recepción para decodificar las señales. Paso 1: Se aplica la transformada entera hacia adelante, para DCT de una entrada de luminancia de 4x4 la formula resulta en : H = HFH T con H = a a a a b c c b a a a a c b b c ; siendo las variables a, b, c: a = 1 2 ; b = 1 2 cos π 8 ; c = 1 2 cos 3π 8 Estos valores de a, b, c pueden ser simplificados por simplicidad obteniendo estos nuevos valores: a = 1 2 ; b = 2 5 ; c = 1 2 La multiplicación en el proceso de transformación se evita al integrarla con la cuantización, de esta forma se obtiene: X = HFH T SF H = 1 1 1 1 2 1 1 2 1 1 1 1 1 2 2 1 ; SF = a 2 ab 2 a 2 ab 2 ab 2 b 2 4 ab 2 b 2 4 a 2 ab 2 a 2 ab 2 ab 2 b 2 4 ab 2 b 2 4 La multiplicación indicada en la expresión de X se la hace elemento a elemento en las matrices señaladas. Paso 2: Post-escalamiento y cuantización, la matriz SF (post-escalamiento) permite obtener una señal Y transformada y cuantizada. El tamaño del paso en la cuantización se denomina Qstep. Y ij = X ij entero SF ij Q step H.264 define un total de 52 valores de paso para la cuantización. 47

3.1.1.1.11 Codificación de entropía Anteriormente a este estándar la forma de codificar era usando VLC s (Variable Length Codes), en el cual la longitud de la palabra código tenía que ver con la probabilidad de ocurrencia; para H.264 los VLC s funcionan de forma diferente. Todos los elementos de sintaxis a excepción de los datos residuales, son codificados con el código Golomb Exponencial 15. Para los casos residuales en cambio se usa CAVLC, y para el perfil principal y para los altos perfiles se utiliza el CABAC, el cual presenta mayor eficiencia pero mayor complejidad comparándolo a CAVLC. CAVLC: Código adaptativo de longitud variable basado en el contexto, después de la transformación y la cuantización, la probabilidad de que los coeficientes sean 0, +1 ó -1 es muy alta. CAVLC maneja los 0, +1 ó -1 de diferente modo con los niveles de los coeficientes, el total de número de 0 y +1 ó -1 son codificados, y para otros coeficientes se codifica con su nivel. CABAC: Código adaptativo aritmético binario basado en el contexto, se alcanza un buen nivel de compresión, el modelo de probabilidad para cada símbolo se basa en 3 procedimientos (ver figura 3.2), los cuales son: Binarización, modelo de contexto y Código aritmético binario. 3.1.1.1.12 Tasa de transmisión. Figura 3.2 Procesos de CABAC Con todos los argumentos presentados para cada perfil, la tasa de transmisión original del vídeo digital se reduce en cada etapa y proceso que el códec efectúa, por ejemplo el filtro de suavizado de bloques ya disminuye en 5 a 10% la tasa binaria. Sin duda la eficiencia de este código es superior al de estándares anteriores; y para determinados PSNR 16, se tienen mejores tasas binarias que con tecnologías anteriores, por ejemplo se obtiene una tasa binaria 50% menor a la que se obtiene con MPEG-2, llegando a tasas de compresión de 50:1. Dependiendo del perfil, la tasa de bits es diferente, dado que para diferentes aplicaciones se requiere mayor calidad. Lo que respecta a este trabajo, el ámbito al que se aplica esta 15 Un código exponencial Golomb de orden k es un tipo de código universal, donde el parámetro k es un entero no negativo, para H.264 se utiliza k=0. 16 La relación a señal a ruido pico PSNR, define la relación entre la energía máxima de la señal y la del ruido, es muy usada para medir la calidad de una imagen reconstruida de la codificación. 48

codificación, es en los vídeos SD (Standar Definition) y HD (High Definition), por lo cual los perfiles de interés son el perfil principal y los perfiles High en los niveles correspondientes. Con estas consideraciones, las tasas binarias se encuentran entre los 64 Kbps y 150 Mbps, es posible que existan tasas mayores para servicios como SHDTV, no aplicables a nuestro estudio. Por otra parte, la tasa de transmisión también puede variar de acuerdo a la codificación de entropía realizada. Por ejemplo, para una definición estándar SD las tasas de bits se enmarcan dentro de lo expuesto en la figura 3.3. 3.1.1.2 FACTOR Q Figura 3.3 Tasa de bits en SD El factor de calidad o Factor Q relaciona el bitrate con el tamaño del fotograma y el "framerate" o velocidad de reproducción de fotogramas (normalmente, 25 f.p.s. (fotogramas por segundo)). Este factor permite saber si el flujo con que está comprimido un vídeo en particular es acorde con el tamaño del fotograma (en píxeles) y la velocidad de reproducción en f.p.s. No es lo mismo usar un bitrate de 900kbps para un vídeo de un ipod (con un tamaño de fotograma de 320x240 píxeles) que para un DVD, con un tamaño de 720x576 píxeles. El flujo es el mismo, pero se reparte entre más o menos píxeles, lo que implica que toca más o menos calidad por píxel en cada caso. La fórmula para el cálculo del Factor Q es la siguiente: Q = Bitrate f. p. s. anco (alto) Bitrate en bits por segundo (bps) Ancho del fotograma en píxeles (px) Alto del fotograma en píxeles (px) Según diversas fuentes los valores que debe tener el Factor Q para el códec H.264 tienen que estar comprendidos en el rango de 0,2-0,35. Siendo el valor 0,25 el correspondiente a una calidad de imagen óptima con el códec H.264. 49

Para realizar el estudio de las tasas de bits se usarán 4 valores de Factor Q relacionados con la calidad de imagen resultante: Tabla 3.1 Factor Q Calidad Baja Calidad Normal Calidad Óptima Calidad Alta Factor Q 0.17 0.2193 0.25 0.2741 3.1.1.3 SISTEMA DE CODIFICACIÓN PAL PAL es la sigla de Phase Alternating Line (en español línea alternada en fase). Es el nombre con el que se designa al sistema de codificación empleado en la transmisión de señales de televisión analógica en color en la mayor parte del mundo. Es de origen alemán y se utiliza en la mayoría de los países africanos, asiáticos y europeos, además de Australia y algunos países latinoamericanos. El sistema PAL surgió en el año 1963, de manos del Dr. Walter Bruch en los laboratorios de Telefunken en su intento por mejorar la calidad y reducir los defectos en los tonos de color que presentaba el sistema NTSC 17. No obstante, los conceptos fundamentales de la transmisión de señales han sido adoptados del sistema NTSC. El sistema de color PAL se usa habitualmente con un formato de vídeo de 625 líneas por cuadro (un cuadro es una imagen completa, compuesta de dos campos entrelazados) y una tasa de refresco de pantalla de 25 cuadros por segundo, entrelazadas, como ocurre por ejemplo en las variantes PAL-B, G, H, I y N. Algunos países del Este de Europa que abandonaron el sistema SECAM ahora emplean PAL D o K, adaptaciones para mantener algunos aspectos técnicos de SECAM en PAL. El sistema PAL es más robusto que el sistema NTSC. Este último puede ser técnicamente superior en aquellos casos en los que la señal es transmitida sin variaciones de fase. Pero para eso deberían darse unas condiciones de transmisión ideales (sin obstáculos como montes, estructuras metálicas...) entre el emisor y el receptor. En el caso en el que haya rebotes de señal, el sistema PAL se ha demostrado netamente superior al NTSC (del que, en realidad, es una mejora técnica). Esa fue una razón por la cual la mayoría de los países europeos eligieron el sistema PAL, ya que la orografía europea es mucho más compleja que la norteamericana (todo el medio oeste es prácticamente llano). Otro motivo es que en los EE.UU. son habituales las emisiones de carácter local y en Europa lo son las estaciones nacionales, cuyas emisoras suelen tener un área de cobertura más extensa. En el único aspecto en el que el NTSC es superior al PAL es en evitar la sensación de parpadeo que se puede apreciar en la zona de visión periférica cuando se mira la TV en una pantalla grande (más de 21 pulgadas), porque la velocidad de refresco es superior (30Hz en NTSC frente a 25Hz en PAL). De todas formas este es un argumento relativamente nuevo ya que en los años 50 el tamaño medio de la pantalla de un receptor de televisión era de unas 15 pulgadas, siendo además que esta frecuencia de 17 NTSC: National Television System Committee es un sistema de codificación y transmisión de Televisión en color analógico desarrollado en Estados Unidos. 50

refresco de imagen se adoptó en su origen condicionada por la frecuencia de la corriente alterna en los países europeos, que es 50Hz frente a los 60Hz de los EE.UU. Por todo esto hay que tener en cuenta que el formato de vídeo cambia según el sistema que uses. En el sistema PAL se utiliza 720 x 576 píxeles y 25 fotogramas por segundo, mientras que en el sistema NTSC se utilizan 720 x 480 píxeles y 29,9 fotogramas por segundo. Otras diferencias que podemos encontrar entre los dos sistemas pueden ser: Los televisores y DVD europeos con el sistema PAL son capaz de reproducir DVD o discos con el sistema NTSC, lo que no se puede hacer a la inversa. En el sistema PAL la imagen de un vídeo cuenta con una resolución mucho mejor. El sistema NTSC puede producir menos fatiga en los ojos después de exponer nuestra vista durante mucho tiempo delante de una película. 3.1.1.4 RESOLUCIONES En la actualidad existen numerosas resoluciones o tamaño del fotograma asociados al vídeo digital que dependen entre otras cosas del sistema de reproducción en el que se visualice el vídeo. En la figura 3.4 se puede observar la relación de aspecto existente entre las distintas resoluciones más empleadas en la actualidad. Figura 3.4 Comparación de resoluciones estándar de vídeo En este estudio nos centraremos en las siguientes cuatro resoluciones de vídeo digital configuradas en el sistema de codificación PAL: Resolución estándar ó SD: El tamaño del fotograma es de 720x576 píxeles con una velocidad de 25 f.p.s. para el formato PAL. Esta resolución es la empleada en los DVD s y los canales estándar de TDT (SDTV). 51

Resolución HD -TDT: El tamaño del fotograma es 1024x768 píxeles con una velocidad de 25 f.p.s. para el formato PAL. Esta resolución es la empleada en los canales HD de las cadenas privadas de la TDT en España (como son MEDIASET y A3MEDIA), aunque esta resolución no está considerada alta definición. Resolución HD ó 720p: El tamaño del fotograma es 1280x720 píxeles con una velocidad de 25 f.p.s. para el formato PAL. Esta resolución está considerada como alta resolución y se considera la frontera entre el HD y el SD. Resolución FULL HD ó 1080i: El tamaño del fotograma es 1920x1080 píxeles con una velocidad de 25 f.p.s. para el formato PAL. Esta resolución es la empleada en los canales de TDT de alta resolución (HDTV), en los Blu-Ray y en los HD DVD. 3.1.1.5 PSNR La relación pico a pico de señal a ruido PSNR, define la relación entre la energía máxima de la señal y la del ruido, es muy usada para medir la calidad de una imagen reconstruida de la codificación; la PSNR de una imagen viene dada por: PSNR = 10log 10 MAXERR i 2 MSE donde MAXERR denota el máximo valor absoluto de la diferencia de la componente de color y MSE es el error cuadrático medio. En esta medida, al comparar dos imágenes, el valor del PSNR varía según la similitud que hay entre las dos imágenes, por esto, si el valor del PSNR es alto, la diferencia entre las dos imágenes es menor y viceversa. En la figura 3.5 se observa el valor del PSNR al comparar dos imágenes. Los colores reflejan el valor del PSNR en cada píxel de la imagen, valores de orden creciente: rojo, amarillo, verde, azul, negro. Siendo el rojo el valor más pequeño de PSNR, por tanto la diferencia más grande entra las dos imágenes y el negro el valor más alto del PSNR, donde existe menor diferencia. Figura 3.5 Valores PSNR de la comparación entre dos imágenes 52

PSNR (Y) (db) 3.2 TASA DE BITS PARA OCA En este formato se genera un solo flujo de vídeo proveniente del DSP, que fusiona dos imágenes en una del tipo cromático anaglífico, por lo tanto el flujo de bits resultantes estará dentro de lo normal para vídeos de calidad SD o HD, es decir en un máximo de 4Mbps para definición estándar y 14 Mbps para alta definición. En la figura 3.6 se muestran cuatro fotogramas del vídeo en formato cromático anaglífico sobre el que se ha realizado el estudio de la tasa de bits. Figura 3.6 Fotogramas vídeo formato cromático anaglífico A continuación se muestra el resultado del estudio de las tasas de bits asociadas a las diferentes resoluciones: Resolución 720x576: 52 51,5 51 50,5 50 49,5 49 48,5 720x576 48 1500 2000 2500 3000 Bitrate (kbps) Figura 3.7 Tasa de bits para un vídeo OCA de resolución SD 53

PSNR (Y) (db) PSNR (Y) (db) Resolución 1024x768: 53 52,5 52 51,5 51 1024x768 50,5 3000 3500 4000 4500 5000 5500 Bitrate (kbps) Resolución 1280x720: Figura 3.8 Tasa de bits para un vídeo OCA de resolución HD-TDT 53,5 53 52,5 52 51,5 51 50,5 1280x720 3500 4000 4500 5000 5500 6000 6500 Bitrate (kbps) Figura 3.9 Tasa de bits para un vídeo OCA de resolución 720p 54

PSNR (Y) (db) Resolución 1920x1080: 54,4 54,2 54 53,8 53,6 53,4 53,2 1920x1080 53 8000 9000 10000 11000 12000 13000 14000 15000 Bitrate (kbps) Figura 3.10 Tasa de bits para un vídeo OCA de resolución 1080i 3.3 TASA DE BITS PARA CSV Si bien es cierto que para este formato existen dos posibilidades, ambas generan 2 flujos de datos que serán transportados y transmitidos de diferente manera, por ello en este sistema se demandan muchos recursos respecto a la tasa de bits, es decir se genera un flujo doble al convencional, lo cual significa que para definición estándar se genera alrededor de 6 Mbps y en alta definición 28 Mbps. 3.4 TASA DE BITS PARA CFC+ Como se estudió en el estándar de compresión, existen varios perfiles y modos de codificación para imágenes de alta definición. En el caso de este estudio, se realiza el análisis de la tasa bits tomando en cuenta una resolución de vídeo 720p (1280x720) y 1080i (1920x1080), el perfil High y una configuración SbS (Side by Side). En la figura 3.11 se muestra un fotograma del vídeo analizado. Figura 3.11 Fotograma de vídeo en configuración SbS 55

PSNR (Y) (db) PSNR (Y) (db) La tasa de bits resultante correspondientes a 720p y 1080i se exponen a continuación en las figuras 3.12 y 3.13 respectivamente. 49 48,5 48 47,5 47 46,5 46 45,5 1280x720 45 3500 4000 4500 5000 5500 6000 6500 Bitrate (kbps) Figura 3.12 Tasa de bits en 720p 52,5 52 51,5 51 50,5 50 49,5 49 8000 9000 10000 11000 12000 13000 14000 15000 3.5 TASA DE BITS PARA V+D Figura 3.13 Tasa de bits en 1080i El análisis en este caso se realiza para las dos posibilidades expuestas en 2.5.2.1 y 2.5.2.2. Es importante señalar que para este y todos los formatos que incluyan profundidad (MVD, LDV, DES), la eficiencia de las tasas de transmisión será mayor mientras los mapas de profundidad sean mejor estimados y más exactos. 3.5.1 TASA DE BITS PARA MPEG-C PARTE 3 Bitrate (kbps) 1920x1080 En este caso, el codificador trabaja en dos partes la primera obedece a una imagen normal en 2D que puede tener relación con los bitrate expuestos anteriormente dependiendo si esta tiene alta definición o definición estándar. Y la segunda parte trabaja sobre el mapa de profundidad asociado a la imagen normal. 56

Suponiendo una señal de vídeo de definición estándar promedio de entre 3 y 4 Mbps para la señal 2D, el codificar su mapa de profundidad requeriría las tasas que detalla la figura 3.14. Figura 3.14 Tasa de bits al codificar el mapa de profundidad En la figura 3.14 se muestran tasas para diferentes codificaciones, incluyendo algunas versiones del MPEG-4, si se toma en cuenta la versión más reciente se observa que para un valor de PSNR de 46.29 db se requieren alrededor de 105 Kbps, apenas un 3.5% de la señal 2D. En general se observa que esta información se codifica por debajo del 20% de la información de color, vale recalcar que se puede aplicar a vídeos en HD, obviamente sabiendo que se tendrá mayor tasa de bits para el mapa de profundidad. Estimando las tasas de bits para un vídeo SD, que en promedio puede tener 3.5 Mbps, y considerando una PSNR de 42 db (5% de la información de color), para una buena calidad: R V+D SD = R V + R D = 3500Kbps + 125Kbps = 3625Kbps Estimando las tasas de bits para un vídeo HD, que en promedio puede tener 12 Mbps, y considerando una PSNR de 40 db (8% de la información de color), para una buena calidad: R V+D HD = R V + R D = 12000Kbps + 960Kbps = 12960Kbps 3.5.2 TASA DE BITS PARA VÍDEO AUXILIAR - H.264 En este caso se genera un solo flujo de datos, la relación entre las tasas de bits del vídeo 2D y de la profundidad tiene una proporción similar al caso anterior, por debajo del 15%, no obstante al usar un solo codificador, representa una optimización y un ahorro para los sistemas de recepción. Las pruebas realizadas para este esquema se han hecho bajo la LDTV (Low Definition TV), usando el one-seg, es decir, vídeos de tasas que van desde 250 Kbps hasta 1500 Kbps aproximadamente, con una resolución de 480x272 píxeles a 30 f.p.s., las pruebas se han realizado variando algunos parámetros del codificador como el GOP (ver figura 3.16). 57

Figura 3.15 Vista izquierda y su correspondiente mapa de profundidad En la figura 3.15 se representan la señal de vídeo de la vista izquierda (V_L) y el mapa de profundidad de la vista izquierda (D_L), dependiendo del valor del parámetro GOP (Group of Picture) asignado: Figura 3.16 Tasa de bits al codificar el mapa de profundidad En este caso se cuenta con un vídeo LDTV, que a 37 db de PSNR, tiene una tasa de 1500 Kbps, y cuyo mapa de profundidad se codifica alrededor de los 100 Kbps Con esto, se obtiene una señal fácilmente manejable dentro de los rangos de vídeos convencionales, en general se observa que la tasa de transmisión en este formato crecerá entre un 5 y un 10%. Para una señal SD estimando que la profundidad toma un 7% de la información de color, la tasa oscilaría entre los 3.21 Mbps y 4.28 Mbps. Si bien es cierto no se presentan resultados en los casos de HD y SD, la relación de las tasas de bits es proporcional de acuerdo al incremento de la calidad. Es necesario señalar que es posible utilizar la extensión MVC de H.264, para codificar profundidad, es decir haciendo que MVC trabaje con dos vistas y una de ellas sea la información de profundidad; y por otro lado codificar la profundidad basándose en Platelet 18. En todos los casos se genera un solo flujo de bits ya que la información de color y la de profundidad se procesan en el mismo códec H.264. 18 Algoritmo Platelet: se basa en el modelamiento de las superficies de los mapas de profundidad como funciones matemáticas definidas por intervalos. 58

3.6 TASA DE BITS PARA MVC A continuación se detallará el uso de MVC en multivista con al menos información L+R (ver figura 3.17), donde las exigencias son mayores pero de igual forma la calidad es superior. Como se comentó anteriormente, el MVC es adaptable a n vistas (n>2). La mayor cantidad de pruebas se han realizado para n=2. A continuación en la figura 3.18 se presenta los resultados para n=2. Para el caso de 2 vistas los parámetros de prueba han sido: 480x272 de resolución, se presentaron 235 frames a 30 f.p.s., CABAC y GOP =16. Figura 3.17 Vista izquierda y derecha de una imagen estéreo Figura 3.18 Tasa de bits al codificar con MVC y n=2 La figura anterior muestra tanto el resultado para MVC como para AVC Simulcast y AVC Stereo SEI, debido a que MVC surge como una mejora para codificar 2 vistas que anteriormente se codificaron independientemente. De la Figura 3.18 se puede observar que a 34 db, MVC codifica dicha secuencia a 1500 Kbps, entonces a partir de estos datos se obtiene el Factor Q: 480x272 = 130560 píxeles frame 130560 píxeles frame píxeles 30 = 3916800 frame segundo segundo 59

Factor Q = 1500 Kbits segundo 1 segundo 3916800 píxeles = 0.357434 bits píxeles Con dicho Factor Q se estima la tasa de bits para una señal SD (720x576): 720x576 = 414720 píxeles frame 414720 píxeles frame píxeles 30 = 12441600 frame segundo segundo R SD = 12441600 píxeles segundo 0.357434 bits píxeles = 4.447Mbps De igual forma, con el mismo Factor Q se estima la tasa de bits para una señal 1080i (1920x1080): 1920x1080 = 2073600 píxeles frame 2073600 píxeles frame píxeles 30 = 62208000 frame segundo segundo R 1080i = 62208000 píxeles segundo 0.357434 bits píxeles = 22.23Mbps Las tasas de bits obtenidas corresponden a un nivel muy alto de calidad de imagen debido a que el valor del Factor Q obtenido está muy por encima del valor correspondiente a una calidad de imagen óptima (Q=0,25). Por estas razones los valores de las tasas de bits resultan muy elevados para las resoluciones 720p y 1080i. Tomando en cuenta otros datos experimentales, la figura 3.20 muestra las tasas en las siguientes condiciones: n=8 vistas, 640x480, 320 cuadros presentados a 30 f.p.s., GOP=16 y CABAC. Figura 3.19 Imagen grabada con 8 cámaras espaciadas 20cm entre ellas 60

PSNR (Y) (db) 38 37 36 35 34 33 32 31 MVC n=8 400 600 800 1000 1200 1400 1600 Bitrate (Kbps) Figura 3.20 Tasa de bits al codificar con MVC y n=8 Por lo tanto aplicando el mismo análisis para n=8, la estimación de la tasa de bits en SD y en HD 1080i a 37dB es: 640x480 = 307200 píxeles frame 307200 píxeles frame píxeles 30 = 9216000 frame segundo segundo Factor Q = 1500 Kbits segundo 1 segundo 9216000 píxeles = 0.1628 bits píxeles R SD = 12441600 píxeles segundo 0.1628 bits píxeles = 2.025Mbps R 1080i = 62208000 píxeles segundo 0.1628 bits píxeles = 10.13Mbps 3.7 TASA DE BITS PARA MVD El análisis aquí se basa en que se obtendría una tasa superior a la del MVC en un 5% por vista de profundidad existente, sin embargo al considerar a la profundidad como una vista más en el codificador y contando con algoritmos y métodos de inter-correlación más eficientes la tasa de bits requerida no es excesiva. La figura 3.22 muestra resultados experimentales considerando un vídeo de 1024x768, un GOP=15, CABAC, 30 cuadros por segundo, con 100 cuadros presentados. 61

PSNR (Y) (db) Figura 3.21 Fotograma de la vista izquierda con su correspondiente mapa de profundidad 40 39,8 39,6 39,4 39,2 39 38,8 38,6 38,4 MVD 38,2 1500 1700 1900 2100 2300 2500 Bitrate (Kbps) 3.8 TASA DE BITS PARA LDV Figura 3.22 Tasa de bis al codificar con MVD LDV muestra un ahorro respecto a MVD debido a que la información adicional al vídeo de color no requiere de grandes tasas de bits, y pueden no representar un exceso sobre las tasas hasta ahora estudiadas; LDV resulta una mejora y las pruebas realizadas siempre hacen referencia a la comparación de los formatos MVD y LDV. 62

Figura 3.23 Vistas izquierda y derecha con sus mapas de profundidad asociados En la figura 3.24 se representan los resultados experimentales para LDV. Con los datos de la figura 3.24, estimando la tasa de bits para un vídeo de 1024x768 a 16.67 f.p.s. a 38 db con la señal SD se tiene: R LDV = Color de la vista base + Profundidad + Ocl. Color + Ocl Profundidad R SD = 12441600 píxeles bits 0.05 + 0.039 + 0.025 + 0.02 segundo píxeles = 1.67Mbps 3.9 TASA DE BITS PARA DES Figura 3.24 Tasa de bits al codificar con LDV Dado que este formato se codifica mayormente con Platelet, no se realiza un estudio de sus tasas de bits, no obstante al codificarlo con MVC; el orden de sus tasas de bits es superior al de V+D en un 5 ó 10%. 63