Capítulo 4 Imágenes Color El empleo del color en el procesamiento de imágenes es importante por dos razones fundamentales, primero, en el análisis automático de imágenes, el color representa un potente descriptor que a menudo simplifica la identificación de un objeto y su extracción de una escena. Segundo, en al análisis de imágenes realizado por los seres humanos, el interés por el color reside en que nuestro ojo es capaz de discernir miles de matices e intensidades de color en comparación con solo algunos pocos niveles de gris (30).El procesamiento de imágenes color se puede dividir en dos áreas fundamentales, el procesamiento en color verdadero o todo color y en falso o pseudo color. En la primera categoría las imágenes son adquiridas a través de un sensor color, como una cámara de televisión o un scanner color. En la segunda categoría el problema consiste en asignar un nivel de color a una determinada intensidad o grupo de intensidades monocromáticas. Aunque el proceso seguido por el cerebro humano para percibir el color es un fenómeno psicofisiológico que todavía no se ha llegado a comprender totalmente, la naturaleza física del color se puede expresar por los resultados teóricos y corroborar por los resultados experimentales. En 1666 Isaac Newton descubrió que cuando un haz de rayos solares atraviesa un prisma de vidrio el haz emergente no es blanco, sino que consiste en un espectro continuo de colores que van desde el violeta en un extremo hasta el rojo en el extremo opuesto, figura 4.1. Los colores que los seres humanos percibimos en un objeto están caracterizados por la naturaleza de la luz reflejada por el objeto. La luz visible esta formada por una banda de frecuencias relativamente Figura 4.1: 143
144 CAPÍTULO 4. IMÁGENES COLOR Figura 4.2: Mezcla de Colores. estrecha del espectro electromagnético, figura 4.2. Un cuerpo que refleje luz que este relativamente equilibrada en todas las longitudes de onda aparecerá como blanco para el observador. Sin embargo, un cuerpo con una mayor reflectancia en una banda del espectro visible aparece como coloreado. Por ejemplo, los cuerpos de color verde reflejan luz con longitudes de onda en la banda 500 a 570 nm mientras que absorben casi toda la energía en las restantes longitudes. La caracterización de la luz es un aspecto central de la ciencia del color. Si la luz es acromática, su único atributo es la intensidad o cantidad de luz (TV Blanco y negro, procesamiento de imágenes visto hasta aquí). La luz visible abarca la región del espectro electromagnético comprendido entre los 400nm a 700nm aproximadamente. Para describir las características de una fuente cromática de luz se emplean tres magnitudes básicas: La radiancia, es la cantidad total de energía emitida por la fuente de luz (Watts). La luminancia, medida de la cantidad de energía que un observador percibe procedente de una fuente luminosa (lúmenes). El brillo, incluye la noción acromática de intensidad y es fundamental para describir las sensaciones del color. Debido a la estructura del ojo todos los colores se ven como combinaciones variables de los denominados colores primarios, rojo, verde y azul (RGB). En 1931, la CIE (Comisión Internacional de Iluminación) especifico la longitud de onda para estos tres colores resultando, azul = 435.8nm, verde=546.1nm, rojo=700nm. Sin embargo de la figura 4.3 se puede concluir que no existe un único color para los primarios. De esta manera al especificar las longitudes de onda de cada color no significa que estas tres componentes fijas puedan generar ellas solas todos los colores del espectro. Los colores primarios se pueden sumar para obtener los colores secundarios: magenta (M) (rojo + azul), cián (C) (verde + azul) y amarillo (Y)(rojo + verde). La mezcla de los tres primarios, o un secundario con su primario opuesto en proporciones adecuadas produce luz blanca. Es importante distinguir entre 1. Colores primarios de luz 2. Colores primarios de pigmentos
145 Figura 4.3: Para los colores primarios de pigmentos, un color primario se define como algo que absorbe o sustrae un color primario de luz y transmite o refleja los otros dos. Por lo tanto los colores primarios de este tipo son (CMY) y los secundarios (RGB). Ver figura anterior. La mezcla de estos tres primarios en proporciones adecuadas produce el negro. Las características generales empleadas para distinguir un color de otro son, El brillo, como vimos se relaciona con la noción cromática de intensidad. El tono, es un atributo asociado con la longitud de onda dominante en una mezcla de ondas luminosas. La saturación, se refiere a la pureza relativa o cantidad de luz blanca mezclada con un tono. Los colores puros están completamente saturados. Tono y saturación consideradas juntas constituyen la cromaticidad y por lo tanto un color se puede especificar por su brillo y cromaticidad. Las cantidades de rojo, verde y azul necesarias para formar un color particular se denominan los valores triestímulo y se indican por X, Y, Z. Así, un color queda especificado por sus coeficientes tricromáticos (x, y, z), definidos por, x = X Y Z (X+Y +Z) y = (X+Y +Z) z = (X+Y +Z) y evidentemente de estas ecuaciones se desprende que,
146 CAPÍTULO 4. IMÁGENES COLOR Figura 4.4: Diagrama de Cromaticidad. x + y + z = 1. Otra aproximación para especificar los colores es el diagrama de cromaticidad que muestra la composicion cromática como una función de x (rojo) e y (verde), figura 4.4. Para cada valor de x e y el correspondiente valor de z (azul) se obtiene por z = 1 (x + y). 4.0.1 Fundamentos del Color Analizar Los colores puros están indicados en el contorno del diagrama. Los puntos dentro del contorno del diagrama representan una determinada mezcla de colores. El punto de igual energía corresponde al estándar CIE para la luz blanca. Si se traza una recta desde un color puro (borde - saturado) hasta el punto de igual energía, se puede medir sobre el diagrama la saturación de un color. Una línea trazada entre dos colores cualquiera define todas las variaciones cromáticas que pueden obtenerse combinando aditivamente estos dos colores.
147 Si se unen con líneas los tres colores primarios se obtiene un triángulo. Cualquier punto en su interior se puede generar a partir de la mezcla de estos. Como se observa, hay parte del diagrama que queda fuera del triángulo. Esto significa que con esa definición (CIE) de colores primarios no se pueden representar los colores que quedan fuera del triángulo. El objetivo de un modelo es facilitar la especificación de los colores en forma normalizada y aceptada genéricamente. En esencia es la especificación de un sistema de coordenadas tridimensional y de un subespacio de este sistema en el que cada color queda representado por un único punto. Los modelos mas utilizados en la actualidad orientados al hardware son, RGB, para monitores o cámaras de video color. CMY, para impresoras a color. YIQ, estándar en emisiones de televisión color. (luminancia, fase y cuadratura). Los modelos orientados a la manipulación de imágenes son, HSI, hue - tono, saturation - saturación, intensity - intensidad. HSV, hue - tono, saturation - saturación, value - valor. Los modelos mas utilizados para el procesamiento de imágenes color son RGB, YIQ, HSI. El Modelo RGB Este modelo esta basado en un sistema de coordenadas cartesiano. El subespacio de color de interés es el cubo que se muestra en la figura 4.5. Por conveniencia se ha supuesto que los valores de color están normalizados de forma tal que el cubo es unitario. Las imágenes en esta modelo consisten de tres planos de imágenes independientes, uno por cada color primario. A nivel de hardware la mayoría de la cámaras de video empleadas para la adquisición de imágenes color utilizan este modelo de color.uno de los mejores ejemplos de utilidad del modelo RGB es en imágenes satelitales, fotogramas. Un fotograma consiste de cuatro imágenes digitales. Cada uno corresponde a la misma escena, pero captada a través de una ventana espectral distinta. Dos de estas corresponden al rojo y al verde, las dos restantes están en la región infrarroja del espectro.supongamos que se desea mejorar la imagen color de un rostro que presenta mala distribución de colores. En teoría se podría aplicar a cada imagen RGB a la técnica de ecualización de histograma. Si bien podrían existir partes en donde se obtiene mejoras, debemos considerar que como cada plano es ecualizado en forma independiente cada uno se modificara de forma diferente, perturbando el aspecto total de la imagen.
148 CAPÍTULO 4. IMÁGENES COLOR Figura 4.5: Cubo RGB. El Modelo CMY Estos tres son los colores secundarios de luz o los colores primarios de pigmento. La mayoría de los dispositivos que depositan pigmentos coloreados sobre papel, impresoras, fotocopiadoras, necesitan de una entrada en el modelo CMY o bien de una conversión de RGB a CMY. Esta conversión se obtiene a través de, C M Y = 1 1 1 R G B El Modelo YIQ Este modelo es el que se utiliza en las emisiones comerciales de televisión, motivado principalmente por su eficacia en la transmisión y para mantener la compatibilidad con los estándares de televisión blanco y negro. La conversión de RGB a YIQ se hace a través de la formula, Y I Q = 0.299 0.587 0.114 0.596 0.275 0.321 0.212 0.523 0.311 La conversión inversa se hace a través de la matriz inversa de la anterior. R G B
4.1. PROCESAMIENTO EN FALSO COLOR 149 El Modelo HSI Este modelo debe su utilidad principalmente a dos hechos básicos. El primero a que la componente de intensidad esta desacoplada de la información cromática contenida en la imagen. Segundo, las componentes de tono y saturación están íntimamente relacionadas con la forma en que los seres humanos percibimos el color.los ejemplos de utilidad de este modelo de representación de color van desde el diseño automático para determinar el grado de maduración de frutas hasta sistemas para comparar muestras de color o inspeccionar la calidad de productos coloreados.las formulas de conversión entre HSI y RGB y viceversa son mas complejas que en los modelos anteriores (ver en Gonzalez - Woods). 4.1 Procesamiento en Falso Color Se presentaran varios métodos para asignar color a imágenes monocromas basándose en propiedades de su contenido de nivel de gris. 4.1.1 División de intensidad Esta técnica es una de las mas sencillas del procesamiento de imágenes en falso color. Si una imagen se presenta como una función bidimensional de la intensidad, el método consiste en colocar planos paralelos al de coordenadas de la imagen, así cada plano, divide a la función en el área de intersección. Si se asigna un color diferente a cada lado del plano, cualquier pixel cuyo nivel de gris esté por encima del plano se codificará con un color, y cualquier pixel inferior al plano se codificará con otro color. El resultado es una imagen bicoloreada cuya apariencia relativa se puede controlar moviendo el plano de división hacia arriba y abajo sobre el eje del nivel de gris. En general la técnica se puede resumir de la siguiente forma. Se supone que se han definido M planos en los niveles l 1, l 2,..., l M y se hace que l0 represente al negro f(x, y) = 0 y l L al blanco f(x, y) = L 1. Entonces suponiendo que 0 < M < L 1, los M planos dividen la escala de gris en M + 1 regiones y las asignaciones de color se hacen de acuerdo con la relación, f(x, y) = c k si f(x, y)ɛ a R k donde c k es el color asociado a la región R k definidas por los planos de partición. 4.1.2 Transformaciones de color del nivel de gris Un método mas atractivo que el anterior se basa en llevar a cabo tres transformaciones independientes del nivel de gris de cualquier pixel de entrada, figura 4.6. A continuación los tres resultados alimentan separadamente las entradas rojo, verde y azul de un monitor. Este método produce una imagen compuesta cuyo contenido de color está modulado por la naturaleza de las funciones de
150 CAPÍTULO 4. IMÁGENES COLOR Figura 4.6: Figura 4.7: Codificación de color basado en el dominio de la frecuencia transformación. Observar que estas son transformaciones de los valores del nivel de gris de una imagen y no de la posición de las funciones. La figura 4.7 muestra un esquema de codificación de color basado en operaciones en el dominio de la frecuencia. La idea es la misma que la utilizada para filtrar imágenes excepto que la transformada de Fourier de la imagen se ha modificado de forma independiente por cada una de las tres funciones de filtro para generar tres imágenes que puedan alimentar las entradas R, G, B de un monitor. Supongamos entonces que tomamos un filtro pasa bajo para representar las frecuencias bajas en rojo, un filtro pasa banda para representar este rango de frecuencias en verde y finalmente un filtro pasa alto para representarlas en azul. Posteriormente de producido el filtrado se antitransforma y se hace algún tipo de pos procesado, por ejemplo una ecualización de histograma, y se alimenta el monitor.
4.2. TRANSFORMACIONES GEOMÉTRICAS 151 4.1.3 Procesamiento en Color Real Mejora utilizado el Modelo HSI Como se indicó anteriormente, el modelo HSI es ideal para la mejora de imágenes en color real puesto que posee la componente de intensidad completamente desacoplada de la información del color de la imagen. Por esta razón cualquiera de las técnicas de mejora estudiadas se puede utilizar como herramienta para mejorar estas imágenes. 4.2 Transformaciones Geométricas Las transformadas geométricas generalmente modifican las relaciones espaciales entre pixeles de una imagen. Estas transformaciones se denominan de hoja elástica por su parecido con estas. Las transformaciones geométricas se componen de dos operaciones básicas, 1. Transformación espacial 2. Interpolación de niveles de gris. 4.2.1 Transformaciones Espaciales Supongase que una imagen f(x, y) sufre una distorsión geométrica produciendo una imagen g(x d, y d ). Es decir, x d = r(x, y) y d = s(x, y) donde r(x, y) y s(x, y) representan las transformaciones espaciales que producen la imagen geométricamente distorsionada. Si se conociesen analíticamente estas dos funciones, entonces en teoría sería posible la restauración de f(x, y) a partir de g(x d, y d ). En la practica, sin embargo no es posible formular analíticamente un único grupo de funciones que describan el proceso de distorsión completo. El método mas utilizado para obviar esta dificultad es formular la traslación espacial de pixeles utilizando puntos enlazados, es decir un subconjunto de pixeles cuya posición en las imágenes de entrada (distorsionada) y salida (corregida) se conoce con precisión. Los vértices de los cuadriláteros son los correspondientes puntos enlazados. distorsiones geométricas se modela por ecuaciones, es decir, Supongase que las x d = r(x, y) = c 1 x + c 2 y + c 3 xy + c 4 y d = s(x, y) = c 5 x + c 6 y + c 7 xy + c 8 Puesto que existen un total de 8 puntos enlazados conocidos, estas ecuaciones se pueden resolver fácilmente para los 8 coeficientes. Los coeficientes constituyen el modelo de la distorsión y sirven
152 CAPÍTULO 4. IMÁGENES COLOR Figura 4.8: Figura 4.9: para transformar cada pixel de la imagen. El procedimiento es sencillo, por ejemplo para generar f(0, 0) se sustituye (x, y) = (0, 0) en las ecuaciones anteriores y se obtiene las coordenadas (x d, y d ). Luego se hace f(0, 0) = g(x d, y d ). 4.2.2 Interpolación de Nivel de Gris El método anterior utiliza valores enteros de (x, y) para obtener la imagen corregida f(x, y). Sin embargo, dependiendo de los coeficientes c i las ecuaciones pueden proporcionar valores no enteros de x d e y d. Debido a que la imagen distorsionada g(x d, y d ) es digital, sus valores de pixeles están definidos para valores enteros de (x d, y d ). Por lo tanto se generan puntos de g para los cuales no están definidos niveles de gris. Es necesario entonces deducir que valores de nivel de gris debería haber en estos puntos. La técnica utilizada para este propósito se denomina interpolación de los niveles de gris. El método de interpolación mas simple que se utiliza es la interpolación de orden cero. La idea básica es colocar el nivel de gris del vecino mas próximo. Uno de los problemas que causa este tipo de interpolación es la distorsión de bordes rectos. Se obtiene resultados mas uniformes con una interpolación por convolución cúbica que trata de ajustar una curva del tipo (sin x)/x. Otra interpolación utilizada que es menos costosa computacionalmente es la interpolación bilineal. La idea es conocer el nivel de gris de cada uno de los 4 vecinos mas próximos de las coordenadas no enteras (x d, y d ). El valor del nivel de gris de (x d, y d ) denominado v(x d, y d ) se obtiene por la
4.2. TRANSFORMACIONES GEOMÉTRICAS 153 relación, v(x d, y d ) = ax d + by d + cx d y d + d donde los valores de a, b, c y d se determinan a través de las 4 ecuaciones con 4 incógnitas que se pueden escribir utilizando los 4 vecinos mas conocidos de (x d, y d ).