Figura 2.1 Creación de sensación de profundidad

Documentos relacionados
2.5.6 CODIFICACIÓN PARA EL FORMATO DES CARACTERÍSTICAS GENERALES DEL ESTÁNDAR HEVC Ó H Metodología

ANÁLISIS Y EVALUACIÓN DE LAS TÉCNICAS UTILIZADAS PARA LA TRANSMISIÓN DE VÍDEO EN 3D

Codificación de vídeo 3D: un caso práctico. Antonio Jesús Díaz Honrubia

Pantallas de visualización de datos 3D. Avances en Ergonomía Visual. Enero 2011 Neus Burguera Giménez Javier Martínez Barra Vicent Sanchis Jurado

Televisión 3D: Aspectos básicos y tendencias. José Manuel Menéndez, Juan Pedro López,

3. Espacios de color. 3.Espacios de color. El uso del color en el procesamiento de imágenes está principalmente motivado por dos factores:

51 Int. CI.: H04N 7/14 ( ) TRADUCCIÓN DE PATENTE EUROPEA

Tecnologías de comunicación Análogas y Digitales

banda, mayor es la distorsión, y mayor es la probabilidad de que se cometan errores en el receptor.

SISTEMAS DE COMUNICACION. Ingeniería en Electrónica Sexto semestre M.C. Maribel Tello Bello 2010-II

RECOMENDACIÓN UIT-R BT * Codificación vídeo para la radiodifusión de televisión terrenal digital

CAPÍTULO 4 LOS MEGAPIXELS

Compresión de vídeo. Estándares MPEG

Examen Final Televisión Digital 12 de junio de 2008 TELEVISIÓN DIGITAL 2007/08

Normas ISO de codificación de contenidos audiovisuales. -MPEG 1, MPEG-2, MPEG-4, MPEG 7 y MPEG 21-

RECOMENDACIÓN UIT-R BT Especificaciones y procedimientos de ajuste para establecer el brillo y el contraste en las pantallas

Transmisión y Comunicación de Datos. Luis Aldana

so de Photoshop Cur Copyleft - Jorge Sánchez 2006

El modo de color expresa la cantidad máxima de datos de color que se pueden almacenar en un determinado formato de archivo gráfico.

Tecnologías de la imagen II

Juan Cruz Aznarez ELEMENTOS DE LA CAMARA: CUERPOS/OBJETIVOS/FILM 1-

LAS LENTES PROGRESIVAS

RECOMENDACIÓN UIT-R BT *

Ahora veamos algunos de los cables más comunes para conectar los dispositivos a nuestra PC. 1- Cable de power, del toma eléctrico al CPU.

Tema / La capa de enlace de datos: entramado y detección de errores

Estándar MPEG 2. Estándar MPEG-2

Para mezcla de vídeo, conmutación, emisiones en directo y grabación

Tutorial de ENVI Parte 1 Familiarización con el manejo de imágenes en el programa. Raúl Aguilera H.

ADQUIERA UNA NUEVA PERSPECTIVA. El único sistema 3D HD de dirección visual totalmente flexible.

Sumario. Presentación... 15

TEMA 2. CODIFICACIÓN DE LA INFORMACIÓN

Practicar el manejo del estereoscopio de bolsillo. Estereoscopio de bolsillo, Modelos estereoscópicos predefinidos, fotografías aéreas...

Tema 1. Elementos de un sistema de Visión por Computador. Esquema general de un sistema de visión por computador

A continuación se presentan 7 experimentos con diferentes condiciones y parámetros para

Propiedades y Limitaciones del Kinect

El pipeline de visualización es el conjunto de

Píxel. Un píxel ( picture element ) es la menor unidad homogénea en color que forma parte de una. fotograma de video, gráfico)

DMNG: Video Profesional en Movilidad

Transición a Compressor 4.1. Libro blanco diciembre de 2013

Tratamiento de imágenes Adquisición y Digitalización

Sony lanza la serie BRAVIA Z, el televisor HDR 4K definitivo

a) Funcionalidad del servicio de vídeo. La funcionalidad de los servicios de vídeo, está estrictamente vinculado a los formatos de este.

Fibra óptica Cables. Ing. Waldo Panozo

Tecnologías de pantallas de visualización

FUNDAMENTOS DE TELECOMUNICACIONES MULTIPLEXACIÓN. Marco Tulio Cerón López

Radiodifusión de la 2ª Generación de 3DTV.

Detectores de Intrusión

Recomendación UIT-R BT (02/2014)

1 Análisis espectral. 2 Espectrograma. Figura 1. Espectrograma y Merograma

Procesamiento Digital de Imágenes

MULTIPLEX PCM DE 4 CANALES CON CODIFICACION DE LINEA AMI/HDB3/CMI Módulo T20F-E/EV

Fundamentos de Animación Digital

1. Análisis Teórico Microscopio Óptico Teoría de Formación de Imágenes de Abbe. Resolución. Laboratorio de Ondas y Óptica.

En algunas ocasiones se utiliza una cuarta parte de la imagen CIF, que se conoce por la abreviatura QCIF (Quarter CIF: cuarta parte de CIF).

Sistema de conocimientos Definición de sonido y video digital. Formatos de sonido Formatos de video Procesamiento digital de sonido y video.

DOCUMENTACIÓN SENCILLA, RÁPIDA Y EN RED

RECOMENDACIÓN UIT-R BS.1286 * Métodos para la evaluación subjetiva de los sistemas de audio con acompañamiento de imagen

Sistemas de Interconexión entre Redes LAN

Lenguaje audiovisual: El cine digital y las nuevas tecnologías como soporte para el discurso cinematográfico (Parte 2) Juan Pedro López Velasco

Blackmagic Micro Studio Camera 4K. Blackmagic Micro Studio Camera 4K 1.251,00 SIN IVA INCLUIDO. Diseño revolucionario

RADAR DE SUPERFICIE GESTIÓN DE TRÁFICO AÉREO. Suministrando Sistemas de Gestión de Tráfico Aéreo en todo el mundo desde hace más de 30 años.

Vídeo Digital. 0. Presentación. Objetivos Temario Prácticas Evaluación Introducción

Serie FL32. Proyector LED DLP de estado sólido. ReaLED para un coste total de propiedad reducido

DECONVOLUCIÓN criterio de Nyquist

CAPITULO II. Las imágenes en movimiento están formadas por gran cantidad de fotogramas con

JAIRO PÉREZ ALONSO 4º GRADO TEORÍA DE LA IMAGEN

Salida HDMI derivada 1 x HDMI 2.0 con conector tipo A. Salida HDMI 1 x HDMI 2.0 con conector tipo A.

Análisis de la imagen y visión 3D. Áreas de investigación y tecnologías:

TEMA V SISTEMAS DE NUMERACIÓN

UIT-T I.230 SECTOR DE NORMALIZACIÓN DE LAS TELECOMUNICACIONES DE LA UIT

Taller 2 Representación 3D

UNIVERSIDAD DE LAS FUERZAS ARMADAS-ESPE EXTENSIÓN LATACUNGA CARRERA DE INGENIERÍA ELECTRÓNICA E INSTRUMENTACIÓN

Normas de Vídeo Digital actuales

Evolución Calidad Continuidad


ENERGÍA. Vibraciones mecánicas. Vibraciones electromagnéticas

TEMA 2: TRATAMIENTO DE IMAGEN Y SONIDO

RECOMENDACIÓN UIT-R BT

ASÍ FUNCIONA LA CONVERSIÓN ANALÓGICO- DIGITAL DIGITALIZACIÓN DE LA SEÑAL ANALÓGICA

HVO-3000MT. Grabador de vídeo 3D HD. Descripción general

Práctica 2: INTERFACES DE COMUNICACIÓN PARA VÍDEO

B.0. Introducción y unidades de medida

Consejos para el correcto funcionamiento de la tecnología de reconocimiento facial. FacePhi Beyond Biometrics

Sencilla conectividad y rápida transferencia de imágenes gracias a la interfaz USB 2.0.

Explorando concepciones acerca de la luz y la visión

Aspectos Básicos de Networking

CAPÍTULO 5 ARREGLO EXPERIMENTAL 5.1 INTRODUCCIÓN 5.2 GENERACIÓN DE MICROONDAS

Taller de Matlab: Codificación de canal. Introducción. Descripción. Consideraciones generales. Consideraciones sobre Matlab

Tratamiento inteligente de imágenes para la manipulación de un mundo virtual

INFORMÁTICA UD. IMAGEN DIGITAL

EL MANEJO DE LA CÁMARA ANÁLOGA Manejo, partes y formas de trabajar con la cámara

Motherboard. Daniel Rúa Madrid

Según su naturaleza existen dos tipos de gráficos con los que puedes trabajar: mapas de bits (píxeles) y vectores.

Tutor: Ing. Eddie Galarza. Autores: Edison Xavier Sánchez Quevedo Edison Saúl Gallardo Calvopiña

PROCESOS PSICOLÓGICOS BÁSICOS

UNIVERSIDAD NACIONAL DEL SANTA. Práctica N 01. Interferencia y Difracción

Intensimetría acústica aplicada al aislamiento sonoro

NORMAL ANGULAR TELE ZOOM

Preguntas del capítulo Ondas electromagnéticas

VISIÓN POR COMPUTADOR

Transcripción:

2 Conceptos básicos En el siguiente capítulo se realiza un estudio del arte de las diferentes tecnologías involucradas en un sistema de vídeo 3D. Primeramente para entender el concepto de visión 3D se introduce al lector en el concepto de visión estereoscópica y se explica brevemente la historia de la visión estereoscópica hasta la actualidad. Una vez definidos los conceptos básicos, se mostrarán las diferentes tecnologías que existen para la representación de contenidos estereoscópicos tanto sistemas que actualmente están en fase de investigación como sistemas comerciales. Seguidamente se explicarán las diferentes formas que existen en la actualidad de generar contenidos 3D explicando la problemática y beneficios de cada uno. Entre la generación y la representación, típicamente, se utilizan codificadores que proporcionan la información del transmisor al receptor con el número mínimo de bits y sin que el espectador pueda observar que se ha realizado dicho proceso. En este caso se explicarán las diferentes soluciones existentes para la codificación de contenidos 3D. 2.1 VISIÓN 3D Antes de profundizar en la explicación del desarrollo de las técnicas utilizadas para analizar los diferentes formatos de codificación 3D, se hace necesario explicar en qué principios físicos se basa la visión 3D. 2.1.1 PRINCIPIOS FÍSICOS DE LA VISIÓN 3D El sistema visual humano es un sistema binocular, disponemos de dos ojos en los que, debido a su separación horizontal, se reciben dos imágenes, de una misma escena, con puntos de vista diferentes. Mediante estas dos vistas el cerebro crea una sensación espacial. A este tipo de visión se le denomina visión estereoscópica y al proceso en si mismo estereopsis. Figura 2.1 Creación de sensación de profundidad En la estereopsis intervienen diversos mecanismos. Cuando observamos objetos muy lejanos, los ejes ópticos de nuestros ojos son paralelos. Cuando observamos un objeto cercano, nuestros ojos giran para que los ejes ópticos estén alineados sobre él, es decir, convergen. A su 10

vez se produce la acomodación o enfoque para ver nítidamente el objeto. Este proceso conjunto se denomina fusión. No todo el mundo tiene la misma capacidad de fusionar un par de imágenes en una sola tridimensional. Alrededor de un 5% de la población tiene problemas de fusión 2. La agudeza estereoscópica es la capacidad de discernir, mediante la estereopsis, detalles situados en planos diferentes y a una distancia mínima. Hay una distancia límite a partir de la cual no somos capaces de apreciar la separación de planos, y que varía de unas personas a otras. Así, la distancia límite a la que dejamos de percibir la sensación estereoscópica puede variar desde unos 60 metros hasta cientos de metros 3. Un factor que interviene directamente en esta capacidad es la separación interocular. A mayor separación entre los ojos, mayor es la distancia a la que apreciamos el efecto de relieve. Las cámaras convencionales son monoculares (un solo objetivo) con lo que al realizar la reproducción de un contenido grabado con una de estas cámaras los ojos reciben la misma imagen desde el mismo punto de vista a los dos ojos. En el caso de realizar la grabación con una cámara estereoscópica se observaría como los objetos salen o se adentran sobre el marco donde se representan, dotando a la reproducción de un mayor realismo. En estas dos imágenes (Figura 2.2) se puede apreciar la disparidad, es decir, las diferencias en la dirección horizontal entre los elementos de la imagen. Figura 2.2 Imagen estereoscópica El mecanismo sobre el que se produce la estereopsis es extremadamente preciso. Pese a esto, como se ha comentado anteriormente, no todo el mundo es capaz de realizar el proceso de fusión. Desordenes visuales en la niñez, aunque fueran temporales, pueden dar resultado a estereoceguera, se calcula que afecta al 5% de la población. La causa más común es el estrabismo (desalineación de los ojos), aunque en caso de ser corregido a tiempo la visión estéreo puede desarrollarse normalmente. También se hace necesario comentar que las capacidades de visualización estereoscópica varían con la edad, siendo los jóvenes son más sensibles a esta, sobre todo cuando la disparidad de la imagen es mayor. A parte de los problemas físicos que puedan impedir una correcta visualización, también se hace necesario que la reproducción se realice siguiendo una serie de requisitos, unos comunes 2 Howard, I.; Rogers, B. (1995). Binocular Vision and Stereopsis. 3 "Principles of Stereoscopy", Herbert McCay's 11

a contenidos 2D y otros exclusivos de contenidos estereoscópicos. Por la parte de 2D se hace necesaria: una correcta definición, resolución y evitar el parpadeo de la imagen, esto último se consigue asegurando una frecuencia de refresco mínima de 50Hz. Por la parte de 3D se hacen necesarios los siguientes requisitos: La sensación de mareo no debe existir. El usuario no debe tener que realizar un esfuerzo para adaptarse a la sensación 3D, sino que esta sensación sea natural. La sensación 3D debe ser nítida y constante a lo largo de todas las figuras y especialmente en los bordes de los objetos. El sistema debe ser lo más independiente posible del ángulo de visión del usuario. De cumplirse todos estos requisitos estaremos ante un sistema 3D que será de gran aceptación por parte del público. Este tipo de visión debe ser algo natural y no ha de suponer ningún esfuerzo o molestia adicional. 2.2 TECNOLOGÍAS PARA LA VISUALIZACIÓN DE IMÁGENES ESTEREOSCÓPICAS Los Displays 3D que se utilizan para realizar la representación de los contenidos 3D pueden ser divididos según la técnica usada para dirigir las vistas izquierda y derecha al ojo apropiado: unos necesitan dispositivos ópticos cerca de los ojos, y por el contrario, otros tienen este proceso integrado en el display mismo. Estos últimos, de visión libre (free-viewing), son llamados autoestereoscópicos. El hecho de que el usuario no necesite incorporar ningún elemento hace que este último tipo sea de alto interés. 2.2.1 AIDED-VIEWING En los monitores que sí necesitan de elementos en el usuario (aided-viewing), dos perspectivas diferentes son generadas (casi) simultáneamente. Los rayos de luz son generados en un plano fijo de visión mediante diversos métodos de multiplexado que dirigen las imágenes al ojo apropiado: 1) Multiplexado de colores (Anaglyph): Este sistema propone ubicar en un mismo cuadro las dos imágenes de dos capas de color, superpuestas pero desplazadas ligeramente una respecto a la otra para producir el efecto de profundidad. Cada imagen, para ser vista debe ser filtrada por lentes especiales en cada ojo que separa y hace que los ojos tengan esa diferencia de percepción de la imagen, estos filtros son óptimos al usar colores complementarios en la imagen y en las gafas, la imagen presentada por ejemplo en rojo no es vista por el ojo que tiene un filtro del mismo color, pero sí que ve la otra imagen en azul o verde. Es muy común utilizar el par rojo/cian ya que esta combinación tiene características simples de longitudes de onda paso bajo/paso alto. 12

Figura 2.3 La imagen izquierda y derecha son filtradas con colores complementarios (rojo y verde) y el usuario debe llevar incorporadas unas gafas con los respectivos filtros de colores para obtener la visualización en 3D. 2) Multiplexado mediante polarización: Este sistema propone algo similar al multiplexado de colores, la diferencia se basa en usar la naturaleza de la luz polarizada para separar las imágenes izquierda y derecha, dicha separación de las imágenes se basa en la polarización de la luz a +45º para el ojo derecho y a 45º para el ojo izquierdo, se desea al igual que en el sistema anterior diferenciar cada imagen, pero si esta imagen se muestra como luz polarizada tiene componentes determinadas de campo eléctrico y magnético, las cuales pueden ser filtradas en recepción por gafas especiales. Este sistema posee varias ventajas como el ser pasivo, y mantener todo el espectro de colores de una imagen, haciendo que sea una técnica muy sencilla. 13

Figura 2.4 Lente con polarización horizontal solo permite el paso de las ondas con polarización vertical El funcionamiento básico consiste en la utilización de dos proyectores con filtros (uno vertical y el otro horizontal). La proyección se ha de realizar sobre una pantalla que refleje los rayos sin modificar su polarización. El usuario deberá incorporar unas gafas con filtros polarizados para realizar la separación de las imágenes. Figura 2.5 Las lentes polarizadas permiten que solo una de las imágenes llegue a cada ojo 3) Multiplexado en tiempo: Este procedimiento propone que las imágenes correspondientes a cada ojo se presenten en forma sucesiva una después de otra, en este sistema la información L+R 4 no está contenida en la misma imagen, hay un par de cuadros independientes que se muestran en rápida sucesión. Es necesario separar estas imágenes ante el espectador, y esto se logra con obturadores de alta velocidad alternados y sincronizados, los cuales se montan en gafas especiales (shutter glasses), estos obturadores son usualmente del tipo LCD (Liquid Crystal Display). El sistema visual humano es capaz de mezclar imágenes estereoscópicas separadas por un retraso en el tiempo de hasta 50ms. La velocidad a la cual se alternan las imágenes es conocida como velocidad de renovación, y por ello se pueden producir imágenes con parpadeo, sin embargo se ha mejorado y se han determinado ciertos valores donde se tiene buena calidad de visualización (12 imágenes/seg. para el cine tradicional y 12,5-15 imágenes/seg. para la televisión con exploración entrelazada). Este sistema funciona mucho mejor a velocidades de renovación más elevadas con exploración progresiva. 4 Información estereoscópica de los canales visuales Izquierdo + Derecho, llamado I+D ó L+R. 14

Figura 2.6 Funcionamiento de los lentes "shutter" La ventaja de este sistema radica en que se pueden utilizar monitores 2D para la reproducción de los contenidos 3D siempre y cuando la frecuencia de refresco de pantalla sea de al menos 100Hz y tengan un bajo tiempo de respuesta. 4) Multiplexado en espacio: En este sistema las dos vistas son creadas en lugares distintos y redirigidas al ojo correcto mediante canales independientes. Este sistema es el utilizado por los Head Mounted Displays (HMD) 5. Con estos sistemas se puede llegar a tener una percepción de hasta 140º en horizontal y 90º en vertical. 2.2.2 FREE-VIEWING En este sistema, las dos imágenes (L+R) se presentan simultáneamente en tiras verticales intercaladas. Un sistema lenticular de lentes cilíndricas situado en la pantalla enfoca ambas imágenes en forma separada aproximadamente a una distancia interocular cercana a los 65mm. Este sistema exige que el espectador no mueva su cabeza bruscamente, y restringe el perfil multivisión de una pantalla de televisión, es decir un cambio de posición del espectador afecta a la imagen que éste observa. Existe la sensación de que la escena gira con el movimiento del observador, este fenómeno se conoce como Free viewpoint (punto de vista libre), y hoy en día la tecnología ha desarrollado 8 de estos puntos. Cada Free Viewpoint requiere dos imágenes (una por cada ojo) lo que hace que la pantalla tenga una resolución mucho mayor que la HDTV (High Definition Television). Con esto se desarrolla en algo la técnica que permita que existan múltiples espectadores, ya que no es necesario localizarlos en posiciones fijas. El principal cambio es la utilización de micro-lentes que permiten controlar la difracción de los haces de luz. Como no se necesitan gafas especiales, se lo conoce como sistema autoestereoscópico. Algunos de los métodos más destacados son: 5 HMD: es un dispositivo de visualización similar a un casco, que permite reproducir imágenes creadas por ordenador sobre un "display" muy cercano a los ojos o directamente sobre la retina de los ojos. 15

Electroholográficos: Estos displays, actualmente en fase de investigación, pueden grabar y reproducir las propiedades de las ondas de luz (amplitud, longitud de onda y fase). Este proceso, en caso de realizarse de forma perfecta, sería el ideal para sistemas de visión libre 3D. Volumétricos: Estos displays crean la sensación de inmersión proyectando la información 3D dentro de un volumen. Estos sistemas típicamente presentan problemas de resolución además de necesitar mucho ancho de banda. Este tipo de displays se encuentran actualmente en fase de investigación. Multiplexado por direccionamiento: Se aplican efectos ópticos como la difracción, refracción, reflexión y oclusión para redirigir la luz emitida por los píxeles de distintas vistas al ojo apropiado. Existen diversos tipos, pero los más destacados (debido a que están más desarrollados tecnológicamente) son los basados en la refracción y en oclusión: 1) Oclusión: Debido al efecto parallax (paralaje), partes de la imagen son ocultadas a un ojo y visibles para el otro. Existen diversos tipos dependiendo del número de hendiduras y de la posición de colocación de la barrera, que puede estar enfrente o detrás de la pantalla. Las pantallas con barrera de parallax detrás del display ya se pueden encontrar en el mercado en monitores tanto de PC como de portátiles. Como se observa en la figura 2.7, la barrera de parallax es la encargada que redirigir los haces de luz (y no la imagen en sí), al ojo adecuado. El problema que tiene este tipo de displays es que la posición de visualización es muy estricta siendo posible su uso sólo para una persona. Figura 2.7 Tecnología de barrera de parallax 2) Refracción: Como en el caso anterior existen diversos tipos de display, siendo Integral Imaging el más prometedor. En este tipo de displays la imagen se compone de múltiples pequeñas imágenes 2D capturas con un amplio número de grupos de pequeñas lentes convexas. Cada grupo de lentes captura la escena desde un punto de vista distinto. De esta manera el usuario percibe diferentes imágenes para diferentes puntos de vista. El problema radica en que los grupos 16

lentes deben de ser muy pequeños, debido a que cada píxel debe contener un grupo de lentes. Por este motivo, el display debe de tener una resolución muy alta. Como solución alternativa existen las pantallas lenticulares que usan lentes cilíndricas que pueden ser consideradas como una versión unidimensional de las pantallas Integral Imaging. Debido a la orientación vertical de las lentes, los rayos de luz de cada imagen son emitidos en direcciones específicas en el plano horizontal. Figura 2.8 Funcionamiento monitor lenticular En la figura anterior se muestra precisamente este funcionamiento. Se observa como el usuario tendrá la posibilidad de colocarse en distintos lugares donde podrá percibir correctamente la sensación 3D, al contrario que con la barrera de parallax donde sólo existe un lugar donde es posible observar correctamente el contenido. 2.3 ADQUISICIÓN / GENERACIÓN DE CONTENIDOS 3D Existen diferentes tecnologías de creación de contenidos 3D y también existen diferentes formas de visualización estereoscópica, esto hace que existan multitud de formatos con los que codificar, almacenar y transmitir los contenidos. Cada formato de representación depende de un formato de codificación concreto. La adquisición es la primera etapa en el proceso de crear y transmitir señales de 3D; la cadena a la que el vídeo estereoscópico debe someterse se describe en la figura 2.9. Figura 2.9 Cadena de transmisión del vídeo estéreo Los diferentes formatos para la codificación, transmisión y visualización hacen que existan muchas formas de adquirir vídeo 3D y de procesarlo. De los puntos anteriores del capítulo se desprende la conclusión de que para crear una imagen estereoscópica es necesario al menos tener información de imágenes L+R, lo que supone que se necesitan dos lentes para captar estas informaciones; sin embargo los nuevos métodos proponen algunas otras soluciones. 17

2.3.1 ADQUISICIÓN A TRAVÉS DE 2 LENTES (CÁMARA ESTEREOSCÓPICA) Este método se presenta como la solución elemental al problema de la adquisición, debido a que es la manera más próxima de emular el sistema de visión humano. La idea principal es asemejar las lentes a la visión humana, es por ello que la separación interlenticular debe ser de 65 mm. y tener un ángulo de convergencia igual al humano. Un requerimiento elemental para el diseño de un sistema de adquisición estereoscópico es la comprensión total del espacio real (espacio donde se encuentra el objeto) para reproducir el espacio del vídeo estereoscópico. La tecnología de cada lente para captar la imagen es igual a la tradicional de los sistemas de vídeo monoscópico, es decir cámaras CCD. Cada lente trabaja bajo sus principios para capturar la imagen independientemente. Figura 2.10 Adquisición mediante 2 lentes con configuración en paralelo 2.3.2 ADQUISICIÓN A TRAVÉS DE MÚLTIPLES CÁMARAS (SISTEMA MULTIVISTA) Para la implementación de estos sistemas se utilizan lentes monoculares tradicionales dispuestos de tal forma que permitan obtener los detalles que proporcionen información de profundidad para una escena. Estos sistemas, al ser complicados, quedan reservados para aplicaciones muy específicas y determinadas, tales como espectáculos deportivos y culturales, donde al espectador se le puede incluso brindar mayores posibilidades de interactividad. En estos sistemas la producción de imágenes es más compleja y robusta que en otros casos, ya que con muchas informaciones visuales los sistemas deben ser capaces de procesar gran flujo de datos, tener altas tasas de compresión y obtener variables útiles para el desarrollo. La etapa de captura se desarrolla mediante adquisición sincronizada en el tiempo la cual se logra para todas las cámaras dispuestas, esta sincronización utiliza Genlock 6. Estas imágenes 6 Genlock: Técnica común en vídeo donde una referencia de vídeo específica sirve para sincronizar todas las fuentes de vídeo que se dispongan. 18

captadas por la cámara son almacenadas directamente sin compresión en el sistema de almacenamiento, para un procesamiento offline (fuera del proceso). El hecho de obtener mucha más información de imagen permite tener algunos resultados como vídeo estéreo y vídeo con libre punto de vista, el cual se da cuando una escena puede verse desde cualquier ángulo por la persona y esta percibirá una visión volumétrica de la respectiva vista elegida. 2.3.3 ADQUISICIÓN A TRAVÉS CÁMARA 2D + Z-CAM (TOF) Este método es muy útil en algunos casos, dado que la información de profundidad permitiría generar el vídeo estereoscópico. Se propone un sistema en el cual se capte el plano 2D con un lente normal y por otro lado se capte la información de profundidad de cada píxel 7 de este plano, eso se hace a través de las conocidas Z-Cam o también llamadas TOF (Time of Flight), que permiten generar información para dar profundidad a cada píxel. La Z-Cam genera pulsos de luz infrarroja con diodos láser que son reflejados por los objetos que la cámara capta, al capturar esta reflexión el dispositivo calcula para cada píxel la distancia exacta a la que se encuentra y genera un mapa de profundidad, el cual no es más que el vídeo original en escala de grises, en donde el blanco representa los píxeles más cercanos y el negro los píxeles con mayor componente de profundidad Z. 2.3.4 ADQUISICIÓN A TRAVÉS CÁMARA 2D (Conversión 2D-3D) Esta técnica aunque resulte la que más se acopla a los sistemas que están en vigencia, requiere un procesamiento digital de la señal muy rigurosa y compleja. Al no contar con la información real de profundidad, el emular o crear esta información disminuye calidad y precisión. A pesar de todo ello, este es el método más usado en la actualidad, dado que permite una compatibilidad total con los sistemas existentes, que lo único que deben incorporar es la etapa de conversión a 3D. Esta conversión se puede hacer a dos niveles, en la producción y en la recepción; el último caso es lo que actualmente se tiene como 3DTV, la cual toma el cuadro en 2D, lo convierte a 3D y lo presenta en anáglifo polarizado o multiplexado en el tiempo, sin embargo cuando este proceso se realiza en la producción se puede tener mayor calidad. 2.4 FORMATOS DE VÍDEO PARA 3D Los formatos establecidos para el vídeo 3D han ido evolucionando desde los más simples hasta aquellos con procesos exclusivos y complejos. Un formato se puede definir como la descripción de la información que se adquiera y se procesa. 2.4.1 FORMATO ANÁGLIFO CROMÁTICO OPTIMIZADO (OCA) Este formato de vídeo 3D está considerado como uno de los más antiguos y con mayores restricciones por su baja calidad; es notorio que este formato tiene completa compatibilidad 7 Pixel: La menor unidad homogénea en parte de una imagen digital. 19

ya que este se reproduce en las pantallas convencionales y el procesamiento para generar 3D - OCA es sencillo. El formato OCA (Anáglifo Cromático Optimizado) se le puede considerar como un sistema admisible ya que ha sido optimizado para no perder calidad en el color ni sufrir grandes alteraciones en el vídeo original, es de fácil manipulación y de bajo costo. 2.4.2 PROCESAMIENTO INDEPENDIENTE DE LAS SEÑALES DE VÍDEO (CSV) En este formato se tratan y procesan las señales para 3D que puedan existir de manera independiente, es así que si se tienen señales izquierda y derecha, cada una de ellas se someterá a su estándar de compresión, a su codificación y será incluso transmitida considerando que es una señal 2D, esto supone efectivamente el gasto del doble de recursos para una información 3D, por lo tanto el sistema se limita a la existencia de dos imágenes. Dentro de este formato podemos encontrar la técnica de Dual-Stream y de Simulcast. En ambas técnicas las señales se adquieren independientemente, tienen su línea de procesamiento independiente dentro del sistema y son transmitidas bien sincronizadamente multiplexadas o de manera simultánea, ocupando el doble de recursos técnicos. En la recepción se utilizan dos plataformas independientes para cada señal. Este formato representa la solución natural a la producción y transmisión de señales estéreo de vídeo, el formato es conveniente y aplicable para 2 vistas, izquierda y derecha. A cada una de las vistas se le aplicarán codificadores que se usan actualmente. La desventaja principal de este formato es que no se utiliza la relación y la dependencia entre las vistas, que para otros formatos representa un elemento vital para reducir los recursos técnicos utilizados. Por otro lado la ventaja existente es la fácil recuperación de una de las vistas para la compatibilidad 2D. Dado que no se utilizan técnicas avanzadas para la codificación de este vídeo se conoce a este como CSV, o vídeo estéreo convencional. 2.4.2.1 Concepto de Dual Stream En este caso se generan dos flujos de las señales y posteriormente se someten a una etapa de multiplexación donde se estructura una secuencia de transmisión para que así se genere el par de cuadros de vídeo de manera ordenada, este formato es compatible con 2D debido a que si solo ese desea un cuadro, es fácil descartar el otro y diferenciar cuál es el que se desea ver. Inicialmente se contempla el Dual Streaming como el enviar los mismos flujos para dos fines diferentes, pero si se trata de señales estereoscópicas, se aprovecha esta condición para enviar en dos flujos ligeramente distintos y que estos sean procesados de manera independiente. Este formato es bastante aplicable con técnicas de compresión y transmisión actuales, ya que se maneja cada señal de manera independiente. 2.4.2.2 Transmisión Simultánea (Simulcast) Aunque el procesar las señales independientemente es lo más simple, es recomendable simplificar el sistema, el esquema de transmisión simultánea plantea la existencia de dos señales individuales L y R que serán transmitidas en diferentes canales, es decir como dos señales diferentes; sin duda los recursos necesarios son elevados pero la infraestructura para vídeo monoscópico no se altera, solo se aumenta. 20

2.4.3 FORMATO COMPATIBLE CON EL CUADRO HD (CFC) El formato que se expone a continuación, ha tenido una evolución significativa, y comenzó por la idea más sencilla, que fue enviar los cuadros izquierdo y derecho por separado de manera alternada es decir como una transmisión doble de las escenas. Después siguió evolucionando hasta obtener mayor eficiencia ubicando a las dos imágenes en el mismo campo. Dado que la base de este formato es el cuadro HD, el estándar HDMI propuso la idea de implementarlo y definió formatos bases y formatos alternativos, dejando muchas opciones para realizar la producción de imágenes 3D. Además se propone una efectiva solución a la compatibilidad, el fundamento básico dice que estos formatos se basan en la existencia de 2 vistas (izquierda y derecha) que aprovechando el número de líneas del cuadro, se ubican dentro del mismo plano. El hecho de que se ubiquen dos imágenes en el lugar que ocuparía una supone una pérdida de calidad, sin embargo la evolución de las técnicas de compresión ha permitido que se mantenga la buena calidad y se comprima con estándares avanzados. Entre los formatos avanzados HDMI, la versión 1.4a establece que se puede sustituir la información de uno de los cuadros por información de profundidad, haciendo que la adquisición de esta información pueda ser aprovechada. Este formato se presenta como una solución sencilla a la compatibilidad, ya que se aprovecha las cualidades del canal de alta definición para ubicar en él, el máximo de información posible. HDMI 1.4 establece las normas para la comunicación de imágenes HD a través de la interfaz con el mismo nombre, y en su versión ampliada 1.4a establece los formatos para ubicar imágenes L+R en el cuadro HD. Para el estándar DVB-T se puede considerar que un canal HDTV ocupa la mitad del ancho de banda de un múltiplex, y por lo tanto el canal de 3DTV ocuparía los mismos recursos. El hecho de introducir dos imágenes en un cuadro HD implica la pérdida de resolución, lo cual es una desventaja; por otro lado la gran ventaja de este formato es la elevada compatibilidad que se obtiene. De igual forma se definen los tipos de barrido de línea para cada estructura 3D, ya sea progresivo o entrelazado, manteniendo los principios de cada uno de estos métodos. Las estructuras 3D en HDMI 1.4a deberían procurar transmitir dos señales de vídeo en completa resolución 1080p, una para cada ojo, es así que se establecen nuevas dimensiones del cuadro HD para 3D, todas ellas se basan en imágenes L+R, sin embargo también es válido para las estructuras actuales de 1920x1080p, claro que reduciendo su resolución. Estas nuevas dimensiones del cuadro HD establecen los siguientes conceptos: Full HD 2D (FHD2D) / Half HD 3D (HHD3D): Es la de menor calidad para reproducción 3D, mantiene las dimensiones convencionales del FHD2D es decir 1920x1080p. Full HD 3D (FHD3D): Es la que conserva la calidad de cada cuadro, por lo tanto las dimensiones del cuadro, aumentan de acuerdo a la configuración. A continuación se presentan todas las configuraciones posibles y para cada dimensión del cuadro HD: 21

2.4.3.1 Formato de Empaquetamiento de Cuadro Para este formato se ubica el cuadro izquierdo en la parte superior, posteriormente un espacio en blanco y luego el cuadro derecho, se establece una nueva dimensión del cuadro HD (ver figura 2.11), este espacio en blanco viene dado por el pulso de borrado que el cuadro tiene originalmente y que es de 45 líneas. Es muy similar, por la disposición de los cuadros, al formato Top and Bottom, pero se diferencia por la estructura detallada del cuadro. Figura 2.11 Empaquetamiento de cuadro para formato progresivo 2.4.3.2 Configuración Side by Side Half (SbS) En esta configuración se propone ubicar los cuadros izquierdo y derecho uno a continuación de otro horizontalmente (ver figura 2.12). En este caso el SbS del tipo Half (HHD3D) los cuadros originales HD reducen su resolución a la mitad en el eje horizontal, para al final obtener un cuadro HD de dimensiones normales, en este caso el cuadro derecho se ubica a la derecha y el izquierdo en la izquierda. La señalización para detectar este tipo de cuadros se realiza mediante el estándar HDMI 1.4a. Figura 2.12 Side by Side (SbS) 2.4.3.3 Configuración Top and Bottom (TaB) En este caso las imágenes izquierda y derecha son submuestreadas a la mitad de su resolución en el eje vertical y posteriormente ubicadas como muestra la figura 2.13. 22

Figura 2.13 Top and Bottom (TaB) 2.4.3.4 Configuración quincunx matrix (Tablero de ajedrez) Este formato forma parte del grupo de formatos extendidos de HDMI 1.4a, es decir no son muy utilizados, pero también proponen una solución para la disposición de la información estereoscópica, en este caso se propone dividir a la imagen en todos sus píxeles e ir alternando en forma de tablero de ajedrez entre el píxel del cuadro derecho y el píxel del cuadro izquierdo (ver figura 2.14), en este caso cada imagen también se submuestrea a la mitad de su resolución para poder ocupar un cuadro HD de dimensiones convencionales. Figura 2.14 Configuración Tablero de ajedrez En este formato se mantiene el número de líneas originales, es poco usado para la estructuración de las imágenes antes de la transmisión. Por ello no se requiere un estudio minucioso; existen dos posibilidades para estos cuadros, cualquiera de las vistas, izquierda o derecha, puede ocupar el primer píxel del cuadro HD. 2.4.3.5 Configuración campos alternados Este es uno más de los formatos extendidos de 3d_Structure para HDMI, es una configuración que se basa en el formato entrelazado, dado que intercala en la disposición del cuadro HD (ver Figura 2.15) los campos pares e impares para información estereoscópica izquierda y derecha. Para este caso se mantiene el número de píxeles por línea, el número de líneas efectivas se duplica al igual que la frecuencia. 23

Figura 2.15 Configuración de Campos alternados 2.4.4 FORMATO VÍDEO + PROFUNDIDAD (V+D) La herramienta que representa la información de la profundidad es el mapa de profundidad. La normativa ISO/IEC 23002-3 (MPEG-C Parte 3) define a este como un formato válido para los sistemas de 3D y establece los modos de producción y compresión para estas imágenes. Para obtener un mapa de profundidad existen varias técnicas; a continuación se describen los procesos en el lado transmisor de este tipo de señales. Existen 3 formas de obtener las señales necesarias para este formato, de todas estas se desprende el mapa de profundidad que luego será codificado independientemente y se estructura junto con el vídeo en el conjunto de bits a ser transmitido. 2.4.4.1 El mapa de profundidad Figura 2.16 Imagen con su mapa de profundidad asociado El mapa de profundidad es una representación visual de las escenas de vídeo, la cual contiene valores discretos que representan la profundidad de cada píxel del cuadro original. Las imágenes son representadas por cuadros en escalas de grises donde cada gris representa una distancia Z, y se ha establecido que para los objetos cercanos se asigne el color blanco y para el 24

más alejado el color negro. Para el vídeo, la profundidad se representa por una señal de vídeo monocromática de 8 bits, con estos 255 valores se obtienen buena calidad para la posterior interpretación de la profundidad de una escena. El mapa de profundidad consta simplemente de una matriz que contienen N valores asociados a los píxeles individuales del flujo de vídeo regular. Esta señal puede ser procesada con técnicas específicas para señales de luminancia 8, o más modernamente con las técnicas de codificación que el vídeo de la televisión digital utiliza. Esta al ser una señal auxiliar de vídeo requiere ser señalizada, para lo cual se introduce un byte que determina que la señal es de este tipo. 2.4.4.2 Generación del mapa de profundidad a partir de 2D La generación de este tipo de información, forma parte del formato de conversión 2D a 3D, es decir aquí se genera un mapa de profundidad utilizando algún algoritmo que estime el valor de la componente Z de cada píxel. Algunas técnicas crean un mapa de profundidad a través de la estimación de la segunda vista, y posteriormente emplean la técnica como si se hubiera obtenido la imagen desde dos cámaras. Existen una gran variedad de propuestas para obtener este mapa de profundidad, y todos estiman la componente Z de diferente manera, incluso existen técnicas para realizar transformación en tiempo real. Para la generación de este mapa, algunas técnicas parten del análisis del vector del movimiento el cual se obtiene fácilmente a través del H.264 (MPEG-4), y con este vector construyen el mapa de profundidad. 2.4.4.3 Generación del mapa de profundidad a través de Cámara infrarroja Las Zcam funcionan a partir de la luz infrarroja que detecta la posición de los objetos, por lo que también se denominan cámaras infrarrojas. Estas cámaras obtienen dos señales de vídeo, el plano 2D y el mapa de profundidad, este tipo de cámaras generan pulsos infrarrojos que se reflejan por los objetos y dependiendo de dicha reflexión se obtiene el valor de profundidad de cada objeto de la imagen. Estas cámaras constan de un CCD ultra rápido y una fuente de luz infrarroja. Los sistemas de creación de mapa de profundidad por rayos infrarrojos procuran generar imágenes de alta calidad y no solo es la adquisición sino el proceso para generar el mapa en sí. Después de la adquisición, es clave en el proceso corregir y poner a punto factores como brillo, textura y segmentación de la imagen. En primera instancia la cámara emite y recibe pulsos de luz infrarroja, los cuales viajan junto con la luz que representa el plano, es por ello que cada información debe ir a su correspondiente módulo de procesamiento. 2.4.4.4 Generación del mapa de profundidad a través de Cámara Estéreo Si bien es cierto la técnica más adecuada para generar un mapa de profundidad es a través de un transductor diseñado para ello; se han desarrollado diversos algoritmos que parten de que la mayoría de sistemas de 3D trabajan con cámaras estéreo, por la facilidad y porque las cámaras con dos lentes son más populares que las cámaras infrarrojas para profundidad. Por lo tanto la atención ya no está en los lentes ni en el proceso de adquisición, sino mas bien en la 8 La luminancia Y es la componente del vídeo que tiene la información de luminosidad (luz o brillo) de la imagen. 25

línea base del procesamiento de las señales izquierda y derecha para generar la información V+D. En esta técnica se identifican dos etapas para la generación del mapa, la primera consiste básicamente en preparar a la imagen para que se pueda extraer el mapa a partir de la disparidad. Los 5 procesos que la primera etapa comprende, procuran corregir los errores de los píxeles de la imagen para que posteriormente en la segunda etapa, la detección de la disparidad sea correcta. 2.4.5 FORMATO MULTI-VIEW VIDEO CODING (MVC) Este formato es robusto debido a que posee su propio estándar de compresión y codificación, el Multi-view Video Coding es una extensión que se hizo para H.264 (MPEG-4), y en este ya se contempla la posibilidad de que desde la adquisición se obtengan no sólo dos, sino múltiples vistas de una escena, y que estas sean comprimidas y transmitidas como un perfil multivista Con la aparición de esta extensión a la norma, no solo se fortalece el concepto del 3D basado en la existencia de dos imágenes como en el sistema visual, sino también surge el concepto de FVV (Free View-point Video), en el cual se adquieren n vistas, y se presentan al espectador n vistas de las escenas. Para el caso particular en el que n=2 vistas es el que se usa en la actualidad en los sistemas Blu-Ray 3D. 2.4.6 FORMATO MVD (MVC+D) La búsqueda de cada vez más calidad ha llevado a extender formatos ya existentes, es así que al MVC, a pesar de que en su concepción requiere n vistas lo que lo haría de gran calidad, se le añade una información importante que ya ha sido estudiada, la profundidad. Este formato es considerado dentro de la categoría de los formatos avanzados para producción de vídeo 3D y se establece la existencia de n vistas, cada una de ellas con su respectivo mapa de profundidad. Al igual que para MVC, la particularización de este formato en n=2 significa un estéreo de alta calidad. Figura 2.17 Formato MVC + Profundidad La gran ventaja de este formato es que al existir múltiples vistas y reforzadas con la información de profundidad, la presentación del vídeo al espectador tiene más calidad; incluso 26

el espectador podrá observar cada una de las n vistas de manera independiente en 3D. Debido a que cada una tiene su mapa de profundidad. Además el procesamiento digital de la señal se simplifica al evitar el cálculo de algunos parámetros de profundidad. 2.4.7 FORMATO LAYERED DEPTH VIDEO (LDV) Este al igual que MVD, está dentro de los llamados formatos avanzados para vídeo 3D. Para este formato se generan más informaciones de profundidad para la imagen que se adquiera; al igual que el anterior es un formato multivista por lo que puede existir n informaciones visuales por señal de vídeo. Como es de imaginarse la cantidad de datos que se obtienen es bastante grande por lo cual la compresión que se realice es fundamental y determinante. El método nace con LDI (Layered Depth Image) y se expande hasta aplicarlo no sólo a imágenes sino en vídeo también. La información que se asocia por cada vista de la imagen es: la imagen de vídeo monoscópica, el mapa de profundidad asociado, una capa para representar el fondo del vídeo (se obtiene de la oclusión del vídeo original), y una capa de fondo para la profundidad. Figura 2.18 Formato LDV De todas las técnicas de reconstrucción de imágenes 3D, LDV es una de las más eficientes en el momento de sintetizar las vistas en escenas 3D complejas. 2.4.8 FORMATO DEPTH ENHANCED VIDEO (DES) En este formato se establece que se pueden generar 2 o más vistas (n 2) acompañadas de información de profundidad y capas de oclusión; la información es similar a LDV sin embargo la diferencia es que LDV transmite una vista completa y crea el resto, en este caso cada una de las cámaras capta el vídeo de color con su respectiva extensión de la información. En general todos los formatos, en los cuales se utilice a la profundidad como información para crear el 3D dan flexibilidad para que se pueda manejar de mejor forma toda la información, por lo tanto se vuelve un poco más sencillo el manejar conceptos como movilidad, efectos de profundidad, etc. 27

Este formato extiende al estéreo convencional ya que genera una serie de datos extras a las originales izquierda y derecha de un sistema estereoscópico tradicional, al extender el estéreo tiene como ventaja, dejar la posibilidad de que los formatos y esquemas anteriores puedan adaptarse. Dentro de las informaciones adicionales se manejan señales de profundidad adicionales y capas de oclusión, lo cual brinda una funcionalidad mayor por ejemplo se crean facilidades para la post producción, además se puede sintetizar varias vistas así como adaptar la línea base con el fin de presentar en una pantalla de TV o ser proyectado en el cine. DES (Depth Enhanced Video) establece que existan 2 flujos de vídeo, con un mapa de profundidad y dos capas de oclusión cada uno. Se dice que este es un formato genérico porque el sistema genérico de adquisición brinda todas las señales necesarias de manera precisa y sencilla. 2.4.9 RESUMEN DE FORMATOS MVD, LDV y DES fueron presentados como formatos avanzados para esquemas multivista y se mencionó como ventaja sobresaliente la viabilidad para que se usen en recepción pantallas autoestereoscópicas al usuario. En definitiva no importa cuál formato se utilice para transmitir la información 3D, el desarrollo de la tecnología de displays permite convertir esa información a dos o más cuadros que se pueden visualizar por cualquier método que el fabricante elija. Lo más importante es encontrar un formato óptimo. 2.5 CODIFICACIÓN Y COMPRESIÓN DE LAS SEÑALES DE VÍDEO ESTEREOSCÓPICO Existen diversos organismos de estandarización que están trabajando en un modelo estándar de codificación. Los tres más importantes que han colaborado en el desarrollo de estándares sobre tecnologías 3D son la Internacional Organization for Standardization (ISO), la International Electrotechnical Commission (IEC) y la International Telecommunication Union (ITU). ITU conjuntamente con MPEG (grupo de expertos en vídeo del ISO/IEC), trabajan en la estandarización del H.264 (MPEG-4 parte 10 de ISO/IEC), este estándar conjunto trata aspectos de codificación multi-vista: MVC ( Multi-View Coding ). Mediante este tipo de codificación se pretende conseguir la compresión de diferentes vistas para poder realizar transmisiones de Vídeo 3D con tasas de compresión adecuadas. MVC al estar amparado por los tres grandes cuerpos de estandarización (ITU, ISO e IEC) se puede estimar que será el formato más extendido en un futuro y evitará multiplicidad de formatos de codificación multi-vista. Por su parte MPEG también trabaja en otros aspectos, por ejemplo, la parte 16 del MPEG-4, denominada AFX ( Animation Framework extensión ), define una colección de herramientas que permiten producir contenidos sintéticos animados en tres dimensiones. También se está trabajando en el MPEG-C, que define los algoritmos avanzados de codificación de vídeos. Entre las partes del estándar, la parte 3 define la manera de añadir uno o más flujos de datos auxiliares (como por ejemplo mapas de profundidad) que están asociados con los 28

píxeles del flujo de vídeo principal. De este modo, se puede utilizar este estándar para codificar de forma universal la información estereoscópica para aplicaciones de 3D. A continuación se explicarán algunas de las formas más habituales en las que se codifican este tipo de contenidos. 2.5.1 CODIFICACIÓN ESTEREOSCÓPICA La recomendación ITU-T H.264, o más conocida como MPEG-4, tiene grandes ventajas y buen desempeño; si bien es cierto H.264 tiene varias extensiones aplicables a 3D, el MPEG-4 convencional también se puede aplicar a los formatos de vídeo 3D, porque el vídeo que se transmite se le trata como vídeo 2D de características especiales. MPEG-4 tiene una gran versatilidad y calidad de codificación, si bien es cierto MPEG-2 llegó a desarrollar una extensión para perfil multivisión, en el cual se contempla el caso de múltiples vistas y de cómo explotar la relación entre ellas para codificar y comprimir, no llegó a ser el estándar de vanguardia y llegó a su máximo desarrollo en dicha extensión. Las ventajas de MPEG-4 hacen que este sirva de base para desarrollar modelos más eficientes ante la gran cantidad de información que los formatos de 3DTV requieren. A continuación se realiza una descripción de MPEG-4 y de cómo este se adapta a los diferentes formatos, dependiendo la clase y cantidad de información necesarias. 2.5.1.1 Características generales del estándar H.264, MPEG-4 Parte 10 El procedimiento seguido se basa principalmente en aplicar JPEG sobre las imágenes de referencia y a partir de esta, y mediante técnicas de compensación de movimiento (aplicadas sobre macrobloques 8x8, 16x16 etc.), aprovechar la redundancia temporal entre imágenes consecutivas pertenecientes a la misma escena. Únicamente se codifican las diferencias. Estas diferencias se describen mediante los vectores de movimiento, que especifican, si se ha movido un macrobloque, cual es la nueva posición dentro de la imagen del macrobloque y de esta manera poder hacer una predicción de la imagen. Sobre esta imagen diferencia también se aplica JPEG. El estándar define cinco tipos de imágenes en la codificación: Imágenes Intra (I): Sólo contienen macrobloques intra. Son imágenes codificadas teniendo en cuenta únicamente la propia imagen (son imágenes de referencia). Las imágenes I suelen ser codificadas de manera similar a la codificación JPEG. Las imágenes I son las que más ocupan y se utilizan como puntos de acceso aleatorio ya que sólo dependen de sí mismas en la descodificación. Imágenes Predicted (P): Contienen macrobloques P y/o macrobloques I. Este tipo corresponde a las imágenes predichas que hacen referencia a una imagen de tipo I o P anteriores en tiempo. Ocupan entre un 30% y un 50% menos que una imagen I. 29

Imágenes Bi-Predicted (B): Contienen macrobloques B y/o macrobloques I. Son imágenes predichas con referencia a la imagen I anterior y a la P posterior. Es necesario que el descodificador tenga las dos referencias, anterior y posterior, para poder descodificarlas correctamente. Suelen ser aproximadamente un 50% más pequeñas que las imágenes P. Imágenes Switching Predicted (SP): Contienen macrobloques P y/o I. Facilita el cambio entre secuencias codificadas. Sólo se utilizan en versiones extendidas del estándar. Imágenes Switching Intra (SI): Son iguales que las SP pero contienen macrobloques SI, que son un tipo especial de macrobloques intra. Sólo se utilizan en versiones extendidas del estándar. Cuando una imagen es codificada esta puede ser almacenada en un contenedor de bytes o directamente transmitida. La transmisión seguirá un patrón fijo que consistirá en el envío de una imagen I seguida de imágenes P y/o imágenes B. En la figura 2.19 podemos ver un posible patrón de transmisión. Figura 2.19 Estructura típica de transmisión de H.264 Es importante tener en cuenta que el descodificador necesitará una imagen de referencia (imagen I) para empezar a descodificar, debido a que las demás imágenes (hasta la siguiente imagen I) hacen referencia a ella. 2.5.1.2 H.264 AVC en OCA (Optimized Chromatic Anagliph) En este caso la naturaleza de la señal de vídeo es similar a las señales convencionales de vídeo 2D, por lo tanto el estándar es fácilmente aplicable sin ninguna restricción, tal como lo muestra la figura 2.20. Figura 2.20 Codificación para OCA Cabe mencionar que se debe procurar mantener la calidad, por lo que trabajar en HD sería una idea conveniente en este formato. Para OCA, no existen señales auxiliares ni información extra para el vídeo 3D. 30

2.5.1.3 H.264 AVC para CSV (Conventional Video Stereo) Esta es la aplicación natural a la parte estéreo, considerando que aquí las señales de vídeo son monoscópicas e independientes. Dentro de CSV, podemos considerar 2 casos como los formatos antes estudiados, el caso del Dual-Streaming y del Simulcast; con esto H.264 trabaja normalmente sobre cada uno bajo la estructura expuesta en las figuras 2.21 y 2.22 respectivamente: Figura 2.21 Aplicación de H.264 en Dual-Streaming Figura 2.22 Aplicación de H.264 en Simulcast En los dos casos la codificación es totalmente independiente, por lo que el codificador trabaja con señales completamente convencionales. Las desventajas que se presentan son: Dual-Streaming: se debe tener en consideración que la estructura de transmisión soporte el video-out proveniente de la codificación de dos señales. Simulcast: la estructura de transmisión si soporta la salida del codificador, se debe considerar que el uso del canal de transmisión en este esquema de transmisión se duplica. Al ser informaciones completamente independientes estos esquemas se pueden ajustar a los formatos V+D, utilizando en lugar del vídeo derecho a la información de profundidad. 31

2.5.1.4 H.264 AVC para CFC+ (Conventional HD Frame Compatible +) CFC+ es el formato en el cual la información tiene una naturaleza propia para 3DTV, por lo cual la cantidad de información ya crece; como se estudió en el formato, aquí se manejan al menos las dimensiones del cuadro HD y para casos de mayor calidad, dimensiones superiores. Dado que MPEG-4 si establece algunos niveles y perfiles en los cuales encajen estos vídeos, la codificación si sería aplicable. Dado que en este formato se manejan los cuadros L+R bajo algún empaquetamiento, es necesario utilizar la extensión de H.264 que define un SEI (Supplemental enhancement information), es decir un señalizador de información adicional. En este SEI se indica bajo que formato se empaqueta la información, y que tipo de información existe. Para mejorar la calidad en la codificación a esta información de vídeo 3D se le aplica el SVC (Scalable Video Coding), el cual no es más que un anexo del H.264 para señales de mayor calidad y por supuesto compatible con los parámetros de codificación antes estudiados. En la figura 2.23 se ilustra como actuaría el codificador para casos de empaquetamiento en un cuadro HD. Cabe señalar que el tipo de empaquetamiento es totalmente independiente, ya que mientras se ocupe las dimensiones normadas para los cuadros HD, el vídeo estereoscópico se codifica como señales normales, aún cuando estas lleven información estereoscópica. Figura 2.23 Aplicación de H.264 en CFC+ Debido al uso del cuadro HD, es necesario utilizar la señalización correspondiente, dicha señalización se encuentra en la norma HDMI 1.4a en la sección correspondiente a 3D. 2.5.2 CODIFICACIÓN PARA EL FORMATO V+D La idea inicial de establecer el mapa de profundidad surge del proyecto ATTEST 9, y se basa en que una señal monocromática ahorraría muchos recursos de transmisión y facilidad en codificación. Existen algunas técnicas que resulta una solución viable en este formato, 9 Advanced Three-dimensional Television System Technologies (ATTEST), proyecto para la investigación de un sistema de difusión eficiente de televisión 3D. 32

procurando siempre el uso eficiente de los recursos y evitar en lo posible que se demanden tasas de bits excesivamente altas. El desarrollo de estas técnicas ha permitido que este formato sea eficiente e incluso sea aplicable a la televisión móvil 3D. Es posible también aplicar la extensión MVC de H.264 tomando en cuenta que una de las vistas puede ser el mapa de profundidad. 2.5.2.1 MPEG-C parte 3 Este estándar conocido también como el ISO/IEC 23002-3, establece el procesamiento separado e independiente de las señales de vídeo y de la señal de profundidad, tomando en cuenta que codificar una señal de profundidad monocromática requiere menos tasa de bits y que en recepción se debe contar con dos decodificadores para separar la reconstrucción de ambas señales. Cabe señalar que el estándar no establece técnicas de compresión o transmisión, sólo establece la metodología que puede ser aplicada para nuestro estudio con técnicas H.264/AVC. Se considera que el codificador para la profundidad tendrá como salida una tasa de bits de entre el 5 y 10% de la tasa del vídeo 2D, siendo así la tasa total de bits un 110% en V+D usando codificación para cada señal, un valor que puede resultar cuestionable para servicios donde el uso del canal sea realmente limitado. La cadena de transmisión para este formato se representa en la figura 2.24. Figura 2.24 Cadena de Transmisión para MPEG-C parte 3 El esquema de la figura 2.24 muestra la codificación independiente de las 2 señales, de lo cual resultarán dos flujos de bits; para la transmisión de dichos flujos, estos deben ser multiplexados cuadro a cuadro generando un único transport-stream, el cual puede 33

eventualmente contener parámetros adicionales del mapa de profundidad como información auxiliar. 2.5.2.2 H.264 - Imágenes auxiliares H.264 sostiene la posibilidad de codificar señales auxiliares de vídeo, teniendo las mismas características de macro-bloques, de semántica y sintaxis en la codificación. Se pueden adicionar señales de vídeo redundantes o señales no especificadas en la norma H.264, de esto se vale el 3D para poder transmitir sobre MPEG-4 la señal auxiliar del mapa de profundidad (ver figura 2.25). Esta señal debe estar debidamente señalizada según lo establece el estándar, a este tipo de señales el estándar, las denominadas como Auxiliary Coded Picture, y se definen como imágenes que suplementan a la señal primaria, normalmente esta señal se usa como redundancia y el estándar restringe a que esta sea monocromática. Figura 2.25 Aplicación del codificador H.264 a las señales de imágenes auxiliares Esta solución permite aprovechar al máximo las ventajas de H.264 y además se brinda un gran nivel de compatibilidad con los sistemas anteriores, además de un uso eficiente en la transmisión. 2.5.3 CODIFICACIÓN PARA EL FORMATO MVC Esta enmienda a H.264/AVC crea la posibilidad de explotar al máximo la dependencia entre las vistas de una señal de vídeo estereoscópico, haciendo uso de una predicción tomando en cuenta los n cuadros presentes. Para este formato se pueden especificar dos casos, el primero en el cual se generaliza la predicción para n vistas, y el segundo que se ha mencionado como estéreo de alto desempeño si n=2. Según H.264 se añade un nuevo SEI para indicar el uso de la predicción y codificación multivista. Un codificador MVC consiste básicamente en N codificadores simples en paralelo, cada uno de ellos utiliza estructuras de predicción temporal, donde una secuencia de imágenes 34

sucesivas es codificada como Intra (I), Predictiva (P) o Bi-predictiva (B). Para mejorar aún más la eficiencia de la codificación, se tiende a utilizar Imágenes B jerárquicas, donde la jerarquía de una imagen B es creada por la sucesión de imágenes B que resultan referencias para otras imágenes B. En MVC los conceptos de predicción para una imagen se extienden a tal punto que una imagen que está en el proceso de codificación, puede tener tanto referencias temporales como referencias intervista para la predicción. En la figura 2.26 se explica esta predicción MVC considerando n=5 y un GOP de tamaño 8. Figura 2.26 Predicción Multivista para n=5 y GOP=8 (IPP) 10 Para la cámara 1, el procedimiento de predicción es idéntico al caso de una sola vista, manteniendo así una compatibilidad con sistemas anteriores, pero para el resto de vistas se hace uso de la referencia intervista (flechas rojas) para la predicción. Con el fin de mejorar la eficiencia existen varias estructuras de predicción desarrolladas, dos de las más importantes son IPP (inter-view prediction at key picture) y HBP (Hierarchical B Pictures), IPP funciona bajo lo expuesto en la figura 2.26. HBP explota aún más la relación inter-vista, no solo utilizando las vistas n+1 para la predicción sino también las n+2. La figura 2.27 muestra el proceso de predicción de las diferentes imágenes para un GOP = 8 y n=8 vistas. 10 Fuente: 3D Video Formats and Coding Methods ; Karsten Müller, Philipp Merkle, Gerhard Tech, and Thomas Wiegand; HHI; 2006 Berlín Alemania. 35

Figura 2.27 Estructura de predicción espacio temporal para MVC (HBP) 11 En la figura anterior, la S indica la cámara, mientras que la T indica el tiempo. Como en estándares anteriores, las tres maneras de codificar una imagen son: intracodificado (I cuadro), predecible posterior (P cuadro) y predecible bi-direccional (B cuadro). La diferencia principal es que en este nuevo estándar hay dos dimensiones: el tiempo y la vista, tal y como se puede ver en la figura. En la imagen se puede observar que sólo en la cámara S0 se codifica una imagen como intra. Esto se realiza cada 8 tramas. En las cámaras S2, S4, S6 y S7 se codifican las imágenes de predicción a partir de la vista S0, también cada 8 tramas. Finalmente, el resto de imágenes se predicen bidireccionalmente a partir de las imágenes próximas en tiempo y espacio (entre vistas). En realidad, el esquema de predicción puede llegar a ser mucho más complejo que el que muestra la figura y por eso se han propuesto nuevas herramientas de predicción que se puedan combinar con cualquier estructura de predicción. 2.5.4 CODIFICACIÓN PARA EL FORMATO MVD Para formatos avanzados como este, la codificación se vuelve compleja debido a la cantidad de información que se genera, MVD resulta una combinación de V+D y MVC. La codificación es en principio basada en la técnica MVC original, no obstante en términos prácticos se puede hablar de una codificación MVD. La codificación en MVD funciona, dentro de un esquema global, de acuerdo a lo expuesto en la figura 2.28. 11 Karsten Müller; Representation and Coding Formats for 3D Video ; Conference Session 3DTV Content; IEEE Broadcast Technology Society; 2009 Alemania. 36

Figura 2.28 Cadena de transmisión en MVD 12 Se observa que el codificador genera una única señal para la transmisión, la cual contiene la información de las n vistas y su respectiva profundidad. El modo de predicción en este caso varía ya que toma, adicionalmente, la información de profundidad. Este proceso de predicción se detalla en la Figura 2.29. Figura 2.29 Modo de predicción de imágenes para MVD La codificación y predicción son basadas en MVC, tomando en cuenta que se van a generar más señales del vídeo, el diagrama de bloques del codificador es más complejo. 12 Compression for 3DTV - with special focus on MPEG standards ; Dr.-Ing. Aljoscha Smolid Fraunhofer HHI Image Processing Department; Alemania 2007. 37

2.5.5 CODIFICACIÓN PARA EL FORMATO LDV Este formato es sin duda más preciso y de mayor calidad que los anteriores, y por ello su codificación también resulta más compleja. Se puede aplicar el mismo MVC a estas señales, haciendo un proceso similar al de MVD, donde las informaciones adicionales entran como vistas extras al codificador MVC. Bajo esta premisa se puede aplicar el H.264 sin problema. Es notorio que se puede recurrir en una complejidad mayor para los codificadores y en un flujo de bits mucho mayor al que se pueda manejar para broadcasting. Por ello la compañía 3DTV Solutions en pro de la calidad ha propuesto todo un esquema para este formato basándose en su propio esquema de codificación LDV, donde se explota al máximo la relación entre todas las capas y las vistas permitiendo posteriormente una efectiva reconstrucción a tasas de bits más accesibles. Sin embargo una desventaja de esta propuesta es que requiere una gran exactitud en los mapas de profundidad, de no ser así se generarán resultados erróneos. 2.5.6 CODIFICACIÓN PARA EL FORMATO DES No cabe duda que para este formato se debe manejar el mismo criterio que para LDV y MVD; a tal cantidad de información si bien es cierto MVC no se puede aplicar, ya que resultaría de gran complejidad su implementación. 2.5.7 CARACTERÍSTICAS GENERALES DEL ESTÁNDAR HEVC Ó H.265 Se espera que el más reciente estándar de compresión, el códec de vídeo de alta eficiencia (HEVC, por sus siglas en inglés), también conocido como H.265, se convierta en el estándar de vídeo preferido en la próxima década. Igual que todas las generaciones anteriores de tecnología de compresión de vídeo, el estándar HEVC promete reducir el costo global de difusión y almacenamiento de activos de vídeo y al mismo tiempo mantener o incrementar la calidad de la experiencia del espectador. Sin sacrificar la calidad del vídeo, el HEVC puede reducir el tamaño de un archivo de vídeo o flujo de bits hasta en un 50%, en comparación con el estándar AVC/H.264 o hasta en 75%, en comparación con los estándares MPEG-2. El resultado es una reducción en los costos de almacenamiento y transmisión de vídeo. De igual manera, el nuevo códec prepara el camino para difundir contenido de más alta definición a fin de ofrecer al consumidor una experiencia de más alta calidad. El HEVC, diseñado para el avance de la industria de compresión de vídeo, tiene el propósito de: Proporcionar un promedio de reducción de la tasa de bits de 50% para obtener una calidad de vídeo fija, en comparación con el H.264. Proporcionar mayor calidad con la misma tasa de bits. Definir una sintaxis estándar para simplificar la implementación y maximizar la interoperabilidad. Seguir propiciando el trabajo en red, es decir, en flujos de transporte MPEG. 38

Figura 2.30 Compresión de tasa de bits esperada en el momento de la estandarización Mientras que el H.264 tiene siete perfiles (conjuntos definidos de herramientas de codificación empleados para crear un flujo de bits que cumpla con los estándares), el HEVC define actualmente tres: Main, Main 10 y Main Still Picture. Se espera que futuras extensiones del códec HEVC incluyan un aumento de la profundidad de bits, muestreos de color 4:2:2 y 4:4:4, MVC (codificación de vídeo multivista) y SVC (codificación de vídeo escalable). El perfil Main del HEVC permite una profundidad de bits de 8 bits por color, mientras que Main 10 permite 8 bits o 10 bits por color. Debido a la opción adicional de profundidad de bits, el perfil Main 10 tiene la capacidad de ofrecer una mejor calidad de vídeo que el Main. Finalmente, el perfil Main Still Picture permite codificar una sola imagen fija con las mismas exigencias del perfil Main. La especificación HEVC también define 13 niveles, que son conjuntos de restricciones que indican el rendimiento requerido del decodificador para reproducir un flujo de bits del perfil especificado. Los niveles están, a su vez, divididos en dos niveles: el Main, que incluye los niveles 1-3.1, y el High, que incluye los niveles 4-6.2 y está diseñado para aplicaciones muy exigentes. Los niveles del HEVC comparten ciertas similitudes con los del H.264, con la diferencia fundamental de la adición de los niveles 6, 6.1 y 6.2, que definen los requerimientos para vídeo con resolución 8K. El principal objetivo del nuevo estándar HEVC es proporcionar las herramientas necesarias para transmitir la cantidad más pequeña de información requerida para un determinado nivel de calidad de vídeo. 39

Figura 2.31 Modos/macrobloque Aunque hay varias diferencias entre los estándares H.264 y HEVC para codificar cada macrobloque, vale la pena mencionar dos de ellas: el aumento de los modos de intra predicción y una partición refinada para la inter predicción. Intra predicción y codificación: En el estándar H.264 existen nueve modos de predicción en un bloque de 4 x 4 para la intra predicción dentro de un determinado cuadro y nueve modos de predicción en el nivel de 8 x 8. Es menor en el nivel del bloque de 16 x 16, donde se reduce a solo cuatro modos de predicción. La intra predicción busca calcular el estado de los bloques adyacentes en una dirección que minimiza el error del cálculo. En el HEVC existe una técnica similar, pero el número de modos posibles es 35 (acorde con la complejidad adicional del códec). Esto implica la participación de un número enormemente alto de puntos de decisión en el análisis, ya que hay casi dos veces el número de tamaños de intra predicción espacial en el HEVC, en comparación con el H.264, y casi cuatro veces el número de direcciones de intrapredicción espacial. Inter predicción y codificación: El H.264 usa compensación de movimiento a partir de bloques, el tamaño y la forma de los bloques es ajustable para buscar redundancia temporal en los cuadros de un vídeo. La compensación de movimiento suele ser considerada la porción más exigente del proceso de codificación. La habilidad para implementarla de forma inteligente dentro del espacio de decisión tiene una gran incidencia en la eficiencia del códec. El HEVC lleva esta capacidad a otro nivel. El HEVC reemplaza la estructura de macrobloque del H.264 por un conjunto de bloques en estructura de árbol más eficientes, pero también complejos. Cada bloque puede ser más grande (hasta 64 x 64) que el macrobloque estándar de 16 x 16, y puede ser dividido de forma eficiente usando un quadtree. Este sistema permite al codificador una gran flexibilidad para usar grandes particiones cuando predicen bien y particiones pequeñas cuando se necesitan predicciones más detalladas. Esto permite una mayor eficiencia en la codificación, ya que se pueden codificar a bajo costo grandes unidades de predicción (incluido el tamaño del bloque en estructura de árbol) cuando se adaptan al contenido. Del mismo modo, cuando algunas partes del bloque necesitan predicciones más detalladas, estas también pueden describirse de forma eficiente. 40