Universidad de Costa Rica Facultad de Ingeniería Escuela de Ingeniería Eléctrica

Transcripción

1 Universidad de Costa Rica Facultad de Ingeniería Escuela de Ingeniería Eléctrica IE 050 Proecto Eléctrico Diseño, implementación prueba de un algoritmo de estimación de los 8 parámetros de la transformación proectiva (homografía) entre dos imágenes a partir del rastreo de esquinas Por: Juan Francisco Chacón Chavarría Ciudad Universitaria Rodrigo Facio Enero del 013

2 Diseño, implementación prueba de un algoritmo de estimación de los 8 parámetros de la transformación proectiva (homografía) entre dos imágenes a partir del rastreo de esquinas Por: Juan Francisco Chacón Chavarría Sometido a la Escuela de Ingeniería Eléctrica de la Facultad de Ingeniería de la Universidad de Costa Rica como requisito parcial para optar por el grado de: BACHILLER EN INGENIERÍA ELÉCRICA Aprobado por el ribunal: Dr. Geovanni Martínez Castillo Profesor Guía MSc. Francisco Siles Canales Profesor lector Ing. Peter De Ford González Profesor lector ii

3 DEDICAORIA Este trabajo se lo dedico a mi familia en especial a mis padres Roxinia Carlos. Muchas gracias por todo su apoo. iii

4 RECONOCIMIENOS Me gustaría expresar mi gratitud a mi profesor guía, Dr.-Ing. Geovanni Martínez Castillo, por toda su auda en el desarrollo este proecto: debo dar las gracias por las útiles discusiones que hemos tenido acerca de este otros temas a través de la última parte de mi bachillerato; por dirigirme hacia muchos útiles recursos relacionados con la elaboración del proecto. Por último, quisiera dar las gracias a los asistentes e investigadores del Laboratorio de Investigación en Procesamiento Digital de Imágenes Visión por Computador (IPCV-LAB) de la Universidad de Costa Rica por su auda durante las sesiones de programación en el laboratorio por generar un ambiente de trabajo grato. iv

5 ÍNDICE GENERAL CAPÍULO 1: INRODUCCIÓN La geometría proectiva omnipresente Proecciones de cámara Que es una homografía Situaciones en las que surge la estimación de una homografía Calibración de cámara Reconstrucción 3D Metrología visual Visión estereoscópica (Stereo vision) Objetivos Objetivo general Objetivos específicos Metodología CAPÍULO : DESARROLLO EÓRICO Algunas operaciones básicas de procesamiento digital de imágenes Geometría proectiva trasformaciones del plano D El plano proectivo D Puntos líneas Puntos ideales la línea en el infinito rasformaciones proectivas rasformación de líneas v

6 ..3 Una jerarquía de las transformaciones Clase I: Isometrías Clase II: rasformaciones de similaridad Clase III: rasformaciones afines Clase IV: rasformaciones proectivas Resumen comparación Descomposición de una transformación proectiva Estimación robusta utilizando RANSAC RANSAC Estimación robusta... 7 CAPÍULO 3: ESIMACIÓN DE CORRESPONDENCIAS DE PUNOS Detección de puntos característicos Esquinas como puntos característicos Algoritmos de detección de puntos característicos El detector de puntos característicos Shi-omasi El tensor de estructura local D Detección de puntos característicos con precisión subpíxel Rastreo de puntos característicos Implementación piramidal del rastreador Lucas-Kanade-omasi Descripción del algoritmo de rastreo Representación piramidal de una imagen Rastreo de características piramidal Cálculo iterativo de flujo óptico (Rastreo Lucas-Kanade Iterativo) Resumen del algoritmo de rastreo piramidal vi

7 3...5 Cálculos subpíxel Selección de puntos para rastrear (Rastreo Lucas-Kanade-omasi) CAPÍULO 4: ESIMACIÓN DE UNA HOMOGRAFÍA D Número de mediciones requeridas Configuraciones degeneradas Soluciones aproximadas Distancia geométrica considerando error en una imagen Invariancia de la transformación Métodos iterativos de minimización Cálculo automático de una homografía D implementado CAPÍULO 5: RESULADOS EXPERIMENALES Parámetros del cálculo automático de la homografía D empleados en las pruebas Pruebas sobre imágenes sintéticas Generación sintética de una homografía Evaluación de la homografía estimada Evaluación de la imagen de predicción Pruebas sobre imágenes reales Evaluación de la homografía estimada Evaluación de la imagen de predicción CAPÍULO 6: CONCLUSIONES Y RECOMENDACIONES Resumen Conclusiones Recomendaciones vii

8 ÍNDICE DE FIGURAS Figura 1. 1 El centro de la cámara es la esencia [1] Figura 1. Diagrama de bloques del algoritmo de cálculo automático de una homografía D diseñado, implementado probado Figura 1. 3 Ilustración de correspondencias de puntos x x entre imágenes Figura. 1 Diagrama de bloques del algoritmo de cálculo automático de una homografía D diseñado, implementado probado Figura. Un modelo para el plano proectivo [1] i i Figura. 3 La proección central mapea puntos x en un plano hacia puntos x en otro plano [1] Figura. 4 Removiendo la distorsión proectiva [1] Figura. 5 Ejemplos de trasformaciones proectivas, x Hx, surgiendo en imágenes perspectivas [1] Figura. 6 Distorsiones que surgen bajo la proección central [1] Figura. 7 Distorsiones que surgen bajo una transformación afín plana [1] Figura. 8 Estimación robusta de línea. Los puntos sólidos son inliers, los puntos abiertos son outliers [1] Figura. 9 Estimación robusta de línea. Los puntos sólidos son inliers, los puntos abiertos son outliers [1] viii

9 Figura 3. 1 Figura 3. Diagrama de bloques del algoritmo de cálculo automático de una homografía D diseñado, implementado probado Diagrama de flujo para los algoritmos de los detectores de puntos característicos [6] Figura 3. 3 Ejemplo de los pasos de un típico detector de puntos característicos [6] Figura 3. 4 Dos puntos característicos típicos: una esquina de un cuadrado (izquierda) un punto de ensilladura (derecha) Figura 3. 5 El punto característicos p varios ejemplos de puntos arbitrarios q k en la imagen I para los ejemplos de la Figura Figura 3. 6 Ilustración de cuadratura entre el gradiente I[ q k ] el vector pq k Figura 3. 7 Ilustración del rastreo de características piramidal Figura 4. 1 Figura 5. 1 Figura 5. Diagrama de bloques del algoritmo de cálculo automático de una homografía D diseñado, implementado probado Varios ejemplos de imágenes resultantes de aplicar una transformación proectiva esencial H P a la imagen de la Figura Varios ejemplos de imágenes resultantes de aplicar una transformación afín esencial H A a la imagen de la Figura Figura 5. 3 Varios ejemplos de imágenes resultantes de aplicar una transformación Euclídea H E a la imagen de la Figura Figura 5. 4 Imagen sintética generada a mediante la aplicación de una homografía aleatoria controlada a una imagen semilla real ix

10 Figura 5. 5 Imagen aérea de un suburbio proporcionada por el N, utilizada como imagen semilla I (tamaño original ) Figura 5. 6 Curvas de MAE( h ) normalizado versus varianza del ruido AGWN ij inectado en las imágenes Figura 5. 7 Curvas de Avg MSE( Jˆ ) de las imágenes de predicción Ĵ versus varianza del ruido AWGN agregado a las imágenes Figura 5. 8 Primeras cuatro imágenes (tamaño ) de la secuencia 500m_personen.uv facilitadas por el N (La numeración indica la posición del cuadro dentro de la secuencia) Figura 5. 9 MSE( I ˆ r 1) MSE( Ir 1) para cada par de imágenes consecutivas dentro de la secuencia 500m_personen.uv Figura MSE( I ˆ r 1) MSE( Ir 1) para cada par de imágenes consecutivas dentro de la secuencia 500m_personen.uv x

11 ÍNDICE DE ABLAS abla. 1 Propiedades geométricas invariantes a transformaciones planas que ocurren comúnmente [1] abla. El número N de muestras requeridas para asegurar, con una probabilidad p 0.99, que al menos una muestra no tiene outliers, al calcular una homografía D ( s 4 )... 7 abla 4. 1 MAE( h ) para las homografías estimadas Ĥ ij r (hacia adelante) Ĥ r (hacia atrás) para cada par de imágenes consecutivas dentro de la secuencia 500m_personen.uv xi

12 NOMENCLAURA RGB Modelo de color utilizado en las imágenes, en el que se representan todos los colores como una combinación lineal de los colores siguientes: R -rojo, G -verde B -azul. YUV Modelo de color utilizado en las imágenes, en el que se representan todos los colores como una combinación lineal de los siguientes parámetros: Y -luminancia U V -crominancias. I J Imagen de intensidad, primera imagen. Imagen de intensidad, segunda imagen. p ( x, ) Píxel o punto bidimensional en una imagen ubicado en la posición especificada por la coordenadas x. I( p ) I( x, ) Intensidad de la imagen estática en el píxel p ( x, ). I t Imagen I umbralizada. I nms Imagen I con supresión de no máximos. d( pp ) Distancia Euclídea entre los puntos p p. d min Distancia mínima entre dos máximos locales dentro de la imagen I nms. I ( ) x p Aproximación de la derivada en la dirección del eje x de la imagen de intensidad I en el punto p. I ( p ) Aproximación de la derivada en la dirección del eje de la imagen de xii

13 intensidad I en el punto p. I[ p ] Gradiente de la imagen I en el punto p. Sw p ensor de estructura local D en el punto p. w 1 Ventana cuadrada m m Menor autovalor del tensor S p. utilizada para estimar el tensor S p. Maor autovalor del tensor e Autovector de 1 e Autovector de w S p. w. Sw p correspondiente al autovalor 1. Sw p correspondiente al autovalor M ( ) c p Operador de esquinidad de un detector de puntos característicos. w q k n x n w x w Puntos en el vecindario de un punto característico p estimado. Número de columnas de una imagen, ancho de una imagen. Número de filas de una imagen, alto de una imagen. Ancho de la ventana de integración utilizada en el rastreo KL. Alto de la ventana de integración utilizada en el rastreo KL L I Nivel piramidal L de la imagen I. L n x Ancho del nivel piramidal L de la imagen I. L n Alto del nivel piramidal L de la imagen I. L m Altura de la pirámide: Nivel piramidal L máximo. L L L g ( gx, gx) Estimación inicial del flujo óptico en el nivel L utilizada en el rastreo KL. xiii

14 L L L d ( dx, d) Flujo óptico residual en el nivel L utilizado en el rastreo KL. L Función de error en el nivel piramidal L utilizada en el rastreo KL. x o Parte entera de x. x Valor remanente de x ( x x xo ). Plano real. x x, Vector de coordenadas no homogéneas. P Plano proectivo. l abc,, Representación homogénea de la línea ax b c 0. x x, x, x Representación homogénea del punto x x x, x x l Línea en el infinito. H Inversa de la transpuesta de la matriz H, transpuesta de la inversa de la 1 matriz H ( H H H -1 ). H Matriz de homografía Plana, homografía D que realiza el mapeo H: I J. x i Punto en la primera imagen I. x i Punto en la segunda imagen J. x x Correspondencia de puntos entre las imágenes I J ( x = Hx ). i i i i x ˆx x Valor medido de un punto. Valor estimado de un punto. Valor verdadero de un punto. xiv

15 RESUMEN En este trabajo se diseña, implementa prueba un algoritmo de estimación de la homografía D entre dos imágenes. El algoritmo implementado se basa en la estimación robusta (usando RANSAC) de la homografía D partiendo de correspondencias de puntos entre las dos imágenes. Las correspondencias de puntos entre las dos imágenes se estiman mediante un rastreo KL, dentro de la segunda imagen, de los puntos característicos encontrados en la primera imagen. El conjunto de correspondencias obtenidas constitue un conjunto de mediciones, la homografía D estimada es el modelo de mejor ajuste a dichas mediciones considerando la presencia de mediciones atípicas (outliers). La frase mejor ajuste evoca al hecho de que la homografía es estimada mediante la minimización de una función de costo que refleja el desajuste entre las mediciones el modelo estimado. El algoritmo implementado se aplicó a imágenes sintéticas e imágenes reales. Las pruebas sobre imágenes sintéticas determinan que el rendimiento del algoritmo, medido desde el punto de vista del error por entrada de la matriz de homografía estimada, no tiene sensibilidad al ruido AWGN dentro de las imágenes procesadas cuando su varianza no es maor a 10. Las pruebas sobre imágenes reales comparan el rendimiento del algoritmo implementado con respecto a otras implementaciones existentes, demuestran un maor error de estimación en los componentes proectivos de la transformación estimada.equation Chapter 1 Section 1 xv

16 CAPÍULO 1: Introducción 1. CAPÍULO 1: Introducción Este capítulo es una introducción a las ideas principales tratadas en este trabajo. Se da un tratamiento informal de estos temas. Definiciones precisas no ambiguas, álgebra cuidadosa, la descripción bien afinada de algoritmos se pospone hasta los capítulos siguientes del trabajo. 1.1 La geometría proectiva omnipresente odos estamos familiarizados con las transformaciones proectivas. Cuando miramos una imagen, vemos cuadrados que no son cuadrados o círculos que no son círculos. La transformación que mapea estos objetos planos hacia la imagen es un ejemplo de una transformación proectiva. Entonces, qué propiedades de la geometría se conservan bajo las transformaciones proectivas? Ciertamente, la forma no es una de ellas, dado que un círculo puede aparecer como una elipse. ampoco lo son las longitudes dado que dos radios perpendiculares de un círculo son estirados en proporciones diferentes bajo la transformación proectiva. Los ángulos, distancias, proporciones de distancias, ninguno de ellos son conservados puede parecer que mu poca geometría es preservada por una transformación proectiva. Sin embargo, una propiedad que se conserva es la de rectitud. Resulta que este es el requisito más general de una transformación proectiva, que se puede definir una transformación 1

17 proectiva de un plano como cualquier mapeo de los puntos en el plano que conserve las líneas rectas como líneas rectas. Para ver por qué se requiere la geometría proectiva partimos de la familiar geometría Euclidiana. Esta es la geometría que describe los ángulos formas de los objetos. La geometría Euclidiana es problemática en un aspecto importante: se tiene que hacer una excepción al razonar sobre algunos de los conceptos básicos de la geometría, como la intersección de las líneas. Dos líneas (en geometría bidimensional) casi siempre se encuentran en un punto, pero ha algunos pares de líneas que no lo hacen, esas que llamamos líneas paralelas. Un dispositivo lingüístico que se emplea para evadir esto es decir que las líneas paralelas se encuentran en el infinito. Sin embargo, esto no es del todo convincente, entra en conflicto con otra sentencia: que el infinito no existe, es sólo una ficción conveniente. Podemos evitar esto, mejorando el plano Euclidiano mediante la adición de estos puntos en el infinito donde las líneas paralelas se encuentran, resolver la dificultad con el infinito llamándolos puntos ideales. Mediante la adición de estos puntos en el infinito, el familiar espacio Euclidiano se transforma en un nuevo tipo de objeto geométrico, el espacio proectivo. Esta es una manera mu útil de pensar, a que estamos familiarizados con las propiedades del espacio Euclidiano, involucrando conceptos tales como distancias, ángulos, puntos, líneas la incidencia. No ha nada mu misterioso sobre el espacio proectivo, es sólo una extensión

18 del espacio Euclidiano en el que dos líneas siempre se reúnen en un punto, aunque a veces en misteriosos puntos en el infinito [1]. Coordenadas. Un punto en el espacio Euclidiano D es representado por un par ordenado de números reales, ( x, ). Podemos añadir una coordenada adicional a este par, dando un triplete ( x,,1), que declaramos como representante del mismo punto. Esto parece bastante inofensivo, a que podemos ir hacia atrás hacia delante desde una representación del punto hacia la otra, simplemente añadiendo o quitando la última coordenada. Ahora tomamos el importante paso conceptual de preguntarse por qué la última coordenada debe ser 1, después de todo, las otras dos coordenadas ( x ) no están tan limitadas. Qué pasa con un triplete de coordenadas ( x,, )? Es aquí donde se hace una definición decimos que ( x,,1) ( x,, ) representan el mismo punto,, ( kx, k, k) también representa el mismo punto, para cualquier valor k no nulo. Formalmente, los puntos se representan mediante clases de equivalencia de tripletes de coordenadas, donde dos tripletes son equivalentes cuando difieren en un múltiplo común. Éstas son llamadas las coordenadas homogéneas del punto. Dado un triplete de coordenadas ( kx, k, k), podemos obtener las coordenadas originales de vuelta al dividir por k para obtener ( x, ). El lector observará que aunque ( x,,1) representa el mismo punto que el par de coordenadas ( x, ), no ha ningún punto que corresponda al triplete ( x,, 0). Si tratamos 3

19 de dividir por la última coordenada, obtenemos el punto ( x 0, 0) que es infinito. Es así como los puntos en el infinito surgen. Son los puntos representados por coordenadas homogéneas en que la última coordenada es cero. Resulta que los puntos en el infinito dentro del espacio proectivo forman una línea, llamada la línea en el infinito [1]. Homogeneidad. En la geometría Euclidiana clásica todos los puntos son lo mismo. No ha puntos distinguidos. La totalidad del espacio es homogéneo. Cuando un sistema de coordenadas es establecido, un punto es elegido como el origen. Sin embargo, es importante darse cuenta de que esto es sólo un accidente del sistema de coordenadas particular elegido. Bien podríamos encontrar una forma diferente de darle coordenadas al plano, en la que se considere un punto diferente como el origen. De hecho, se puede considerar un cambio de coordenadas del espacio Euclidiano ( ) en el que los ejes se desplacen giren hasta una posición diferente. Podemos pensar en esto de otra manera: como que el propio espacio se desplaza gira a una posición diferente. La operación resultante se conoce como una transformación Euclidiana [1]. Un tipo más general de transformación es la de aplicar una transformación lineal a, seguido por una transformación Euclidiana moviendo el origen del espacio. Se puede pensar en esta transformación resultante como un desplazamiento, una rotación finalmente un estiramiento lineal del espacio (no necesariamente isotrópico). La transformación resultante es conocida como una transformación afín [1]. 4

20 Desde el punto de vista de la geometría proectiva, los puntos en el infinito no son diferentes de otros puntos. Así como el espacio euclidiano es uniforme, así lo es el espacio proectivo. La propiedad de que los puntos en el infinito tienen la última coordenada cero en una representación de coordenadas homogénea no es otra cosa que un accidente de la elección del sistema de coordenadas [1]. Por analogía con las transformaciones Euclidianas o afines, podemos definir una transformación proectiva del espacio proectivo. Una transformación lineal de un espacio euclidiano es representada por aplicar, a las coordenadas del punto, la multiplicación por una matriz. De exactamente el mismo modo, una transformación proectiva del espacio proectivo P es un mapeo de coordenadas homogéneas (un vector de 3 coordenadas) que representan un punto, en el que el vector de coordenadas se multiplica por una matriz no singular [1]. Bajo tal mapeo, los puntos en el infinito (con última coordenada cero) son mapeados arbitrariamente hacia otros puntos. Los puntos en el infinito no se conservan. Entonces, una transformación proectiva del espacio proectivo P está representada por una transformación lineal de las coordenadas homogéneas X H X. (1.1-1) 33 En los problemas de visión por computador, las imágenes formadas por lo general mediante la proección del mundo real en una representación bidimensional, son -por conveniencia- extendidas para ser pensadas como tendidas en el espacio proectivo P [1]. En realidad, las imágenes del mundo real no contienen puntos en el infinito, tenemos que 5

21 mantener la atención sobre cuáles son los puntos ficticios, es decir, la línea en el infinito en la imagen. Por esta razón, a pesar de que por lo general se trabaja con los espacios proectivos, se es consciente de que la línea en el infinito es de alguna manera especial. Esto va en contra del espíritu de la geometría proectiva pura, pero la hace útil para nuestros problemas prácticos. Por lo general se busca entenderlo de ambas formas al tratar todos los puntos en el espacio proectivo como iguales cuando nos conviene, señalar a la recta en el infinito en la imagen cuando llega a ser necesario [1].Equation Section (Next) 1. Proecciones de cámara El descenso desde el mundo tridimensional hasta una imagen de bidimensional es un proceso de proección en el cual se pierde una dimensión. La manera habitual de modelar este proceso es por proección central en la que se dibuja un rao desde un punto en el mundo 3D a través de un punto fijo en el espacio, el centro de la proección. Este rao se cruzará un plano específico en el espacio elegido como el plano de la imagen. La intersección del rao con el plano de la imagen representa la imagen de dicho punto. Si la estructura 3D se encuentra en un plano (es una estructura D), entonces no ha descenso de la dimensión. Este modelo concuerda con un modelo simple de una cámara, en la que un rao de luz de un punto en el mundo pasa a través de la lente de una cámara e incide sobre una película o dispositivo digital, produciendo una imagen del punto. Ignorando los efectos 6

22 tales como el enfoque espesor de la lente, una aproximación razonable es que todos los raos pasan a través de un único punto, el centro de la lente [1]. En la aplicación de la geometría proectiva al proceso de formar imágenes, es 3 habitual modelar el mundo como un espacio proectivo 3D ( P ), igual a 3 junto con puntos en el infinito. Asimismo, el modelo para una imagen es el plano proectivo D ( P ) [1]. La proección central es simplemente un mapeo de 3 P a P. Si consideramos los puntos de 3 P escritos en términos de coordenadas homogéneas (X, Y, Z, ) dejamos que el centro de la proección sea el origen (0,,, ), entonces podemos ver que el conjunto de todos los puntos (X, Y, Z, ) para X, Y Z fijos, pero variables forman un solo rao que pasa por el punto centro de proección, por lo tanto todos son mapeados a un mismo punto. Así, la coordenada final del punto (X, Y, Z, ) es irrelevante en cuanto al punto donde se proectará en la imagen. De hecho, el punto de imagen al que es proectado es el punto en P con coordenadas homogéneas (X, Y, Z). Por lo tanto, el mapeo puede ser representado por un mapeo de coordenadas homogéneas 3D, representada por una matriz P 3 4 con la estructura de bloque P= I , donde I33 es la matriz identidad un vector nulo 3D ( 0 ) [1]. Permitiéndose un centro de 3 (0, 0, 0) proección diferente, un marco de coordenadas proectivas de la imagen diferente, resulta que la proección de imagen más general es representada por una matriz 3 4 arbitraria de rango 3, que actúa sobre las coordenadas homogéneas de un punto en 7 3 P

23 mapeándolo hacia el punto proectado en la imagen en P. Esta matriz P es conocida como la matriz de cámara [1]. En resumen, la acción de una cámara proectiva en un punto en el espacio se puede expresar en términos de un mapeo lineal de coordenadas homogéneas como X x Y P 34. Z w (1.-1) Además, si todos los puntos se encuentran en un plano (se puede elegir este plano como el plano Z= 0), entonces el mapeo lineal se reduce a [1] x X H33 Y, w (1.-) lo cual es una transformación proectiva, también conocida como homografía D (o simplemente homografía). La matriz H 3 3 (en (1.-)) es conocida como la matriz de homografía es el objetivo de estimación del algoritmo de cálculo automático de homografía D implementado en este proecto. Cámaras como puntos. En una proección central, los puntos en 3 P son mapeados a puntos en P, todos los puntos dentro de un rao que pasa por el centro de proección son 8

24 proectados al mismo punto en una imagen. Para efectos del proceso de formación de la imagen, es posible considerar todos los puntos a lo largo de tal rao como equivalentes. Podemos ir un paso más allá pensar en el rao que pasa por el centro de proección como una representación del punto de la imagen. Así, el conjunto de todos los puntos de la imagen es lo mismo que el conjunto de los raos a través del centro de la cámara (el centro de proección). Si se representa al rao que va desde (X, Y, Z, ) a través del punto (0,,, ), por sus primeras tres coordenadas (X, Y, Z), se ve fácilmente que para cualquier constante k, el rao k(x, Y, Z) representa el mismo rao. Así, los raos se están representados por coordenadas homogéneas. De hecho, crean un espacio bidimensional de raos. El conjunto de los raos por sí mismo se puede considerar como una representación del espacio de la imagen P [1]. En esta representación de la imagen, todo lo que es importante es el centro de la cámara, únicamente con este punto se determina el conjunto de los raos que forman la imagen. Diferentes matrices de cámara que representen la formación de una imagen a partir del mismo centro de proección sólo reflejan marcos de coordenadas diferentes para el conjunto de los raos que forman la imagen [1]. Así, dos imágenes tomadas desde el mismo punto en el espacio son proectivamente equivalentes. Sólo cuando empezamos a medir puntos en una imagen, es que debe ser especificado un sistema de coordenadas particular para la imagen. Sólo entonces se hace necesario especificar una matriz de cámara en particular. En resumen, todas las imágenes adquiridas con el mismo centro de cámara son equivalentes: cada una 9

25 puede ser mapeadas a otra por medio de una transformación proectiva sin ningún tipo de información acerca de los puntos 3D o de la posición del centro de la cámara [1]. Estas cuestiones se ilustran en la Figura 1. 1: (a) Formación de la imagen: los puntos de la imagen x i son la intersección de un plano con los raos que van desde los puntos espaciales X i a través del centro de la cámara C. (b) Si los puntos espaciales son coplanares, entonces ha una transformación proectiva (homografía D) entre el plano en el mundo el plano de la imagen, xi H33 X i [1]. (c) odas las imágenes con el mismo centro de cámara están relacionadas por una homografía D, xi H33 x i [1]. Compare (b) (c): en ambos casos los planos son mapeados de uno hacia el otro mediante raos a través de un centro. En (b) el mapeo es entre una escena (plana) el plano de la imagen, en (c) el mapeo es entre dos planos de imagen. (d) Si se mueve el centro de la cámara, entonces las imágenes en general no están relacionadas por una homografía D; a menos que, como en (e), todos los puntos espaciales sean coplanares, en cuo caso las imágenes si están relacionadas por una homografía D, xi H 33 x i [1].Equation Section (Next) 10

26 (a) (b) (c) (d) (e) Figura 1. 1 El centro de la cámara es la esencia [1]. 11

27 1.3 Que es una homografía Se acaba de ver que una imagen de una escena plana en el mundo, formada por proección central, está relacionada con dicha escena plana a través de una homografía D. Además, que varias imágenes de una misma escena general, formadas -por proección central- a partir de la misma posición del centro de cámara, están relacionadas por una homografía D,, que varias imágenes de una misma escena plana, formadas -por proección central- a partir de distintas posiciones del centro de cámara, también están relacionadas por una homografía D (ver Figura 1. 1). El objetivo del algoritmo de cálculo automático de homografía D implementado en este proecto es estimar la -matriz dehomografía D H que relaciona un par de este tipo de imágenes. Algebraicamente, una homografía D es un mapeo invertible de puntos líneas en el plano proectivo P. Otros términos para esta transformación incluen colineación, proectividad, transformación proectiva plana. Hartle Zisserman [1] proporcionan la definición específica de que una homografía es un mapeo invertible desde P hacia sí mismo tal que tres puntos están en la misma línea si sólo si sus puntos mapeados también son colineales. ambién dan una definición algebraica de homografía probando el siguiente teorema: Un mapeo de P P es una proectividad si solo si existe una matriz no singular 3 3 H tal que para cualquier punto en P representado por el vector x es cierto 1

28 que su punto mapeado x es igual a Hx. Esto dice que, para calcular la homografía que mapea cada x i a su correspondiente x i es suficiente calcular la matriz de homografía H. Cabe señalar que H puede ser cambiada mediante la multiplicación por una constante no nula arbitraria sin alterar la transformación proectiva. Por lo tanto H se considera como una matriz homogénea tiene sólo 8 grados de libertad, aunque contiene 9 elementos. Esto significa que ha 8 incógnitas que se necesitan resolver si se busca calcular una matriz de homografía H. Por lo general, se estiman las homografías entre imágenes mediante la búsqueda de correspondencias de puntos en las imágenes calculando la estimación de la matriz de homografía haciendo uso de dichas correspondencias de puntos [].Equation Section (Next) 1.4 Situaciones en las que surge la estimación de una homografía Dado que una homografía puede relacionar una imagen de una escena plana en el mundo con dicha escena plana, puede relacionar varias imágenes de una misma escena plana formadas a partir de distintas posiciones del centro de cámara, entonces ha muchas situaciones en visión por computador donde la estimación de una homografía puede ser requerida. Esta sección explora algunas de estas situaciones muestra ejemplos de como las homografías se han utilizado en la práctica para resolver algunos de estos problemas. 13

29 1.4.1 Calibración de cámara La calibración de la cámara es el proceso de determinar los parámetros intrínsecos extrínsecos de la configuración de una cámara. Los parámetros intrínsecos son aquellos específicos a la cámara, tal como la longitud focal, el punto principal la distorsión de la lente. Los parámetros extrínsecos se refieren a la posición en 3D la orientación de la cámara. La calibración es a menudo el primer paso de muchas aplicaciones de visión por computador, a que le permite a los sistemas determinar una relación entre lo que aparece en una imagen lo que se encuentra en el mundo. El conocimiento de la matriz de calibración de la cámara, a menudo referida como K, se requiere para el procesamiento de muchas operaciones básicas de procesamiento digital de imágenes tales como la eliminación de la distorsión radial. Zhang Chuan et. al., ambos por aparte, han presentado métodos para resolver los parámetros intrínsecos extrínsecos utilizando una homografía estimada a partir imágenes del mismo patrón plano tomadas de diferentes perspectivas. Para ello se aprovechan del hecho de que H = K[ Rt ] donde H es la matriz de homografía, K es la matriz de parámetros intrínsecos, R es la matriz de rotación t es el vector de traslación []. 14

30 1.4. Reconstrucción 3D La reconstrucción 3D es un problema en la visión por computador, donde el objetivo es reconstruir las estructuras de escena posiciones de cámara a partir de imágenes de la escena. Un dominio en el que esto es extremadamente útil es en el tratamiento de imágenes médicas, donde múltiples imágenes de una parte del cuerpo, como el cerebro, pueden utilizarse para crear un modelo 3D de la parte que se analiza []. Google Earth recientemente ha lanzado una nueva actualización capaz de reconstruir ciudades enteras simplemente a partir de imágenes. Resolver homografías es un paso clave en la reconstrucción 3D, a que se requiere a menudo obtener mapeos entre las imágenes de la escena []. Wright et. al. usan correspondencias de cónicas para reconstruir el punto fuente de salpicaduras de sangre en una escena del crimen. Señalan que la forma de una mancha de sangre en una pared es típicamente una elipse que depende del ángulo entre la traectoria de la gota de sangre la superficie. Al estimar homografías a partir de correspondencias de elipses coplanares, son capaces de reconstruir la escena e inferir el punto de fuente desde el cual la sangre salpicó []. 15

31 1.4.3 Metrología visual El objetivo en metrología visual es el de estimar distancias entre tamaños de objetos a partir de imágenes de esos objetos. Metrología significa literalmente el estudio científico de la medición, algoritmos de metrología visual aspiran automatizar el proceso. Este es un problema mu importante porque a veces importantes mediciones son necesarias pero sería demasiado difícil, costoso o consumiría mucho tiempo tomarlas manualmente. La estimación de homografía es crucial en este dominio a que permite que múltiples imágenes de un plano sean transformadas a un plano común donde las mediciones se pueden adquirir []. Liang et. al. tratan de resolver el problema de la metrología de dos vistas donde las imágenes son de cámaras no calibradas. Ellos estiman la homografía entre dos vistas primero mediante la extracción de correspondencias de puntos luego usando la relación entre la homografía plana la geometría epipolar de la escena. Un algoritmo RANSAC se utiliza entonces para eliminar los valores atípicos del conjunto de correspondencias de puntos. La eliminación de valores atípicos (outliers) se discutirá con más detalle en la sección.3.1. La homografía estimada se utiliza para calcular la altura de objetos respecto al plano de referencia para el que la homografía se estimó []. 16

32 1.4.4 Visión estereoscópica (Stereo vision) La visión estéreo es el proceso en la percepción visual de detectar la profundidad a partir de múltiples vistas de una escena. Estas múltiples vistas de una escena son comúnmente tomadas a partir de diferentes posiciones de la cámara, pero también pueden ser adquiridos de una cámara fija utilizando fotometría estéreo. La visión estéreo es un problema ampliamente investigado en la visión por computador numerosos algoritmos han sido propuestos para resolver las propiedades estéreo de una escena representada por imágenes []. Un paso clave en la maoría de los algoritmos estéreo es buscar correspondencias de puntos en las imágenes. Utilizando la geometría epipolar, la búsqueda de un punto correspondiente se puede reducir de la búsqueda sobre una imagen completa a sólo la búsqueda sobre una línea de la imagen, llamada línea epipolar. Loop Zhang calculan homografías de rectificación entre las imágenes con el fin de hacer que sus líneas epipolar se alineen con el eje sean paralelas, con lo que la búsqueda de los puntos correspondientes es mu eficiente [].Equation Section (Next) 17

33 1.5 Objetivos Objetivo general Diseñar, implementar probar un algoritmo para estimar los 8 parámetros de la transformación proectiva (homografía) entre dos imágenes basado en un rastreo de esquinas (puntos característicos) Objetivos específicos Estudiar la teoría de la geometría proectiva. Estudiar el algoritmo de detección de puntos característicos según Shi omasi. Estudiar el algoritmo de rastreo de puntos característicos según Kanade -Lucas- omasi (algoritmo de rastreo KL). Diseñar un algoritmo de estimación de la homografía entre dos imágenes a partir de un rastreo KL de los puntos característicos detectados según Shi omasi. Implementar un algoritmo de estimación de la homografía entre dos imágenes a partir de un rastreo KL de los puntos característicos detectados según Shi omasi. Probar un algoritmo de estimación de la homografía entre dos imágenes a partir de un rastreo KL de los puntos característicos detectados según Shi omasi. Equation Section (Next) 18

34 1.6 Metodología Dadas un par de las imágenes I J de tamaño nx n, imágenes de una misma escena plana en el mundo pero obtenidas -por proección central- a partir de distintas posiciones del centro de cámara respecto a la escena plana, o simplemente por rotación de la cámara alrededor del centro de cámara. Entonces existe una homografía que relaciona las imágenes I J : que mapea desde los puntos de la imagen I hasta los puntos de la imagen J. Sea la matriz H I J de la homografía que relaciona ambas imágenes I J, si I( x ) J( x ) representan, respectivamente, el valor de intensidad de I J en el punto x perteneciente a la región de intensidad definida [0, n 1] [0, n 1], entonces la matriz homogénea 3 3 H I J verifica que: x donde los puntos x x, x [0, nx 1] [0, n 1] x H x I J J( x ) I( x ) (1.6-1) de manera breve como H I J I = J. x se expresan en coordenadas homogéneas. Lo anterior se denotará La Figura 1. contiene un diagrama de bloques esencial del algoritmo de cálculo automático de una homografía D implementado en este proecto. Utilizando como entrada las mismas imágenes I J, el resultado del algoritmo implementado, la matriz de 19

35 homografía Ĥ I J, es una estimación de la matriz H I J que verifica (1.6-1). Esto se denotará como ĤI J I J. Figura 1. Diagrama de bloques del algoritmo de cálculo automático de una homografía D diseñado, implementado probado. Pese a que en la Figura 1. el diagrama del algoritmo muestra tres bloques esenciales, el algoritmo se puede separar en dos etapas fundamentales. En primer lugar se tiene el superbloque de Estimación de Correspondencias de Puntos, este superbloque tiene por entradas -esencialmente- las dos imágenes I J estima correspondencias de puntos i i x x entre dichas imágenes. Dado que las imágenes I J son imágenes distintas de una misma escena plana en el mundo, el problema de la correspondencia de puntos consiste en averiguar qué puntos de la imagen I corresponden a qué puntos de la imagen J. En la Figura 1. 3 se ilustran las correspondencias de puntos entre dos imágenes. 0

36 Figura 1. 3 Ilustración de correspondencias de puntos x x entre imágenes. i i El superbloque de Estimación de Correspondencias de Puntos se divide en dos subbloques: el bloque de Detección de Puntos Característicos el bloque de Rastreo de Puntos Característicos (ver Figura 1. ). El bloque de Detección de Puntos Característicos tiene por entrada -esencialmente- la imagen I detecta los puntos característicos x i de esta imagen: puntos que son óptimos -debido al criterio de detección- para ser rastreados. Y el bloque de Rastreo de Puntos Característicos tiene por entrada -esencialmente- la imagen I con sus puntos característicos detectados la imagen J, se encarga de rastrear en la imagen J los puntos característicos x i detectados en la imagen I : para cada punto característico x i de la imagen I busca su posición respectiva x i dentro de la imagen 1 J. Siendo H I J la matriz de la homografía que relaciona ambas imágenes I J (

37 H I J I = J ), a partir de (1.6-1) se conclue que la posición respectiva x i dentro de la imagen J del punto característico de x i en la imagen I está dada por x H x. i I J i Entonces este bloque da por resultado una estimación, i x, de dicha posición respectiva i x, constituendo una correspondencia estimada x x i i entre el punto -característico- x i de la imagen I el punto x i de la imagen J. La segunda etapa del algoritmo es la Estimación robusta de Homografía D (ver Figura 1. ), este bloque tiene por entradas -esencialmente- las correspondencias de puntos i i x x estimadas entre las imágenes I J. Suponga que las correspondencias de puntos x x estimadas son correspondencias perfectas (libres de error, i.e: x i x i), i i entonces se conclue a partir de (1.6-1) que se verifica la matriz H I J de la homografía que relaciona ambas imágenes I J ( H I J I = J ) cumple que: x i, x i x i H x I J i. (1.6-) donde los puntos x i x i se expresan en coordenadas homogéneas. El algoritmo implementado se basa en lo anterior para estimar la matriz desconocida H I En la práctica, las correspondencias de puntos x x estimadas por el superbloque i i J. Estimación de Correspondencias de Puntos no son perfectas, la estimación Ĥ I J ( Ĥ I J I J) obtenida por el algoritmo es la matriz de homografía que satisface las

38 igualdades en (1.6-) de manera óptima para el conjunto de correspondencias de puntos i i x x imperfectas. El algoritmo de cálculo automático de una homografía D se implementará en un computador utilizando el lenguaje de programación C/C++ la librería de OpenCV (OpenCV es un popular paquete de visión por computador de código abierto escrito en C/C++ que fue patrocinado originalmente por Intel), bajo el sistema operativo Windows XP El bloque de Detección de Puntos Característicos se implementa con la función goodfeaturesorack la función cornersubpix de la librería de OpenCV. La teoría involucrada algoritmo utilizado por dichas funciones se describen en el Capítulo 3, Sección 3.1. El bloque de Rastreo de Puntos Característicos se implementa con la función calcopticalflowprlk de la librería de OpenCV. El algoritmo utilizado por dicha función se describe en el Capítulo 3, Sección 3.. El bloque de Estimación robusta de Homografía D se implementa con la función FindHomograph de la librería de OpenCV. La teoría involucrada algoritmo utilizado por dicha función se describe en el Capítulo 4. El algoritmo de cálculo automático de una homografía D implementado se aplicará a una secuencia de imágenes aéreas de un suburbio particular capturadas desde un aeroplano en movimiento, disponibles en el Laboratorio de Investigación en Procesamiento 3

39 Digital de Imágenes Visión por Computador (IPCV-LAB) de la Universidad de Costa Rica proporcionadas por el Institut für Informationsverarbeitung (N) de la Universidad de Hannover. Los resultados obtenidos para dicha secuencia serán comparados con los resultados obtenidos en el N de la Universidad de Hannover para la misma secuencia de imágenes, así se establecerá una comparación para el desempeño del algoritmo implementado en este proecto. Adicionalmente, el algoritmo implementado se aplicará a imágenes sintéticas generadas en computador a partir de homografías aleatorias controladas una imagen semilla. Las homografías estimadas por el algoritmo al procesar dichas imágenes sintéticas se compararán con las homografías generadoras originales.equation Chapter (Next) Section 1 4

40 CAPÍULO : Desarrollo teórico CAPÍULO : Desarrollo teórico En la Figura. 1 se repite el diagrama de bloques del algoritmo de cálculo automático de una homografía D implementado en este proecto descrito en el Capítulo 1, Sección 1.6. En este Capítulo se presentan las bases teóricas para el desarrollo del proecto. Se inicia con una breve descripción de algunos operadores básicos de procesamiento digital de imágenes que son necesarios en el bloque de Detección de Puntos Característicos. Luego continúa con una introducción a la geometría proectiva a las transformaciones proectivas, contenidos necesarios para comprender el fundamental concepto de homografía D. Finalmente se presenta el algoritmo de estimación robusta RANSAC (RANdom SAmple Consensus) el cual se emplea en el bloque de Estimación robusta de Homografía D. Figura. 1 Diagrama de bloques del algoritmo de cálculo automático de una homografía D diseñado, implementado probado. 5

41 .1 Algunas operaciones básicas de procesamiento digital de imágenes.1.1 Imágenes digitales Una imagen digital corresponde a una imagen óptica transformada en una señal eléctrica. Por consiguiente, se trata de una señal bidimensional, la cual en el caso digital es discreta en ambas direcciones ( x ) tiene amplitudes también discretas. En el caso más sencillo para cada par ordenado p ( x, ) se asigna un valor binario (uno o cero) que puede ser almacenado en un bit. A este tipo de imágenes se le denomina imágenes binarias. El valor correspondiente a cada par ordenado p ( x, ) obtiene también el nombre de píxel. Así, otra posible manera de definir una imagen digital es como un arreglo bidimensional de píxeles [3]. En orden de complejidad después de la imagen binaria se encuentra las imágenes digitales de intensidad. En este caso cada píxel puede tomar un valor entre 0 55, el cual se almacena entonces con ocho bits (un bte). Este valor representa usualmente la intensidad de la luz capturada en esa posición. Estas imágenes también reciben comúnmente el nombre de imagen a escala de grises [3]. Finalmente se tienen las imágenes digitales de color. En este caso, para representar los colores es necesario asignar tres valores entre 0 55 para cada píxel, los cuales se almacenan cada uno en un bte, es decir se tienen tres btes por píxel. Existen distintos modelos para crear los colores en la imagen, pero el más simple consiste en el modelo 6

42 RGB. En este caso un bte indica la cantidad de rojo, otro indica la cantidad de verde el tercero la cantidad de azul para ese píxel. En otros modelos de color, por el ejemplo el modelo YUV, un bte representa la luminancia ( Y ) los otros dos ofrecen información sobre la crominancia ( U V ) en ese píxel. La transformación del modelo RGB al modelo YUV es una transformación lineal bastante utilizada, a que el componente de la luminancia representa la imagen de intensidad. Esta transformación está dada por [3]: Y R U G. V B (.1-1) En este punto es adecuado hacer una aclaración que aplica a la completitud de este trabajo, al referirse a una imagen digital simplemente como imagen I, en general se estará refiriendo implícitamente a una imagen de intensidad I en específico..1. Umbralización supresión de no máximos (Non maximum suppression) La umbralización es uno de los métodos más importantes de segmentación de imágenes digitales. La umbralización, en su forma más sencilla, permita binarizar una imagen de intensidad realizando una separación entre lo que se conoce como el fondo (background) el objeto a separar (foreground), donde las definiciones de fondo objeto son dependientes de la aplicación: se selecciona un umbral o valor de referencia que 7

43 permite hacer una distinción particular, que al compararlo con cada píxel determina si se trata de parte de los objetos o del fondo. En general, sea I una imagen de intensidad cualquiera con I( p ) el valor de intensidad en el píxel p ( x, ). Entonces si escogemos un umbral t podemos generar una imagen umbralizada I t que clasifica los píxeles de la siguiente manera: l( p) sii ( p) t It ( p) e( p) sii ( p) t, g( p) sii ( p) t (.1-) donde las selecciones particulares de las funciones escalares l, e g, determinan los diferentes prototipos de umbralización. Por ejemplo, si se selecciona l( p) e( p ) 0 g( p) I( p ) entonces se determina la umbralización: 0 sii ( p) t It ( p), I( p) sii ( p) t (.1-3) la imagen umbralizada I t obtenida de esta forma es una imagen donde se conservan los valores de intensidad de la imagen I que superan el umbral t se anulan los valores de intensidad valores de intensidad de la imagen I que no lo superan. Dentro de los algoritmos de detección de puntos característicos (sección 3.1.) se discrimina entre potenciales puntos característicos puntos regulares (puntos no 8

44 característicos) dentro de una imagen empleando este tipo de umbralización (.1-3). Y posteriormente aplican una supresión de no máximos. La supresión de no máximos se aplica para identificar máximos locales dentro de una imagen de intensidad. Para cada punto p ( x, ) en una imagen de intensidad, la supresión de no máximos establece su valor de intensidad I( p ) a cero (i.e: I( p ) 0 ) si valor de intensidad I( p ) no es maor que el valor de intensidad de todos los puntos dentro de un cierto vecindario alrededor de dicho punto p ( x, ). Específicamente, la imagen con supresión de no máximos I nms se puede obtener a partir de la imagen de intensidad I como sigue ( p ( x, ) ): 0 sii ( p) I( p) Inms ( p), dp p p p dmin, I( p) sii ( p) I( p) (.1-4) la imagen I nms obtenida de esta forma es una imagen donde se suprimen los valores de intensidad I( p ) (i.e: I( p ) 0 ), si el valor I( p ) no es maor que la medida de intensidad de todos los puntos dentro de una distancia d min, asegurando así que la distancia entre dos máximos locales dentro de la imagen I nms no sea menor a la distancia d min. 9

45 .1.3 Gradiente de una imagen El gradiente de una imagen de intensidad es el cambio direccional en la intensidad de la imagen. Los gradientes de la imagen pueden ser usados para extraer información de las imágenes. Matemáticamente, el gradiente de una función de dos variables (aquí la función de intensidad de la imagen I x I : p (, ) ( ) p ) en cada punto de imagen es un vector bidimensional con los componentes dados por los derivadas en las direcciones horizontal vertical. En cada punto de imagen, el vector de gradiente apunta en la dirección del aumento maor de intensidad posible, la longitud del vector de gradiente corresponde a la tasa de cambio en esa dirección [4]. Dado que la función de intensidad I( p ) de una imagen digital sólo es conocida en puntos discretos, las derivadas de esta función no pueden ser definidas a menos que supongamos que existe una función intensidad continua I c subacente que se ha sido muestreada en todos los puntos p de la imagen I. Con algunos supuestos adicionales, la derivada de la función de intensidad continua I c puede ser calculada a partir de la función de intensidad muestreada I, es decir, la imagen digital I. Resulta que las derivadas en cualquier punto particular p, son funciones de los valores de intensidad en prácticamente todos los puntos de la imagen. Sin embargo, aproximaciones de estas funciones de las derivadas se pueden definir en maor o menor grado de precisión [4]. 30

46 El operador de Sobel representa una aproximación bastante inexacta del gradiente de la imagen, pero todavía es de calidad suficiente para ser de uso práctico en muchas aplicaciones. Más precisamente, se utilizan los valores de intensidad sólo en una ventana 3 3 alrededor de cada punto de la imagen para aproximar el gradiente de la imagen correspondiente, utiliza sólo valores enteros para los coeficientes que ponderan los valores de intensidad de la imagen para producir la aproximación de las derivadas. Específicamente, las derivadas en el punto p se aproximan así [5]: I ( p) 1 I( p (1,1) ) I( p (1, ) ) I( p (1, 1) ) I x( p ), (.1-5) dx 8 I( p ( 1, 1) ) I( p ( 1, ) ) I( p ( 1, 1) ) I ( p) 1 I( p ( 1, 1) ) I( p (0, ) ) I( p (1, 1) ) I ( p ), (.1-6) d 8 I( p ( 1,1) ) I( p (0, ) ) I( p (1,1) ) así, la aproximación del vector de gradiente dada por el operador Sobel es I( p ) Ix( p ), I ( p ).Equation Section (Next) 31

47 . Geometría proectiva trasformaciones del plano D En particular, este apartado trata de la geometría de las transformaciones proectivas del plano. Estas transformaciones modelan la distorsión geométrica que surge cuando un plano en el mundo es fotografiado por una cámara de perspectiva. Bajo dicha proección determinadas propiedades geométricas se conservan, como la colinealidad (una línea recta es proectada en el plano de la cámara como una línea recta), mientras que otros no lo son, por ejemplo, las líneas paralelas no se proectan en el plano de la cámara como líneas paralelas en general. La geometría proectiva modela dicha proección también proporciona una representación matemática adecuada para los cálculos [1]...1 El plano proectivo D Como todos saben, un punto en el plano puede ser representado por el par de coordenadas x, en. Por lo tanto, es común para identificar el plano con. Considerando como un espacio vectorial, el par de coordenadas x, es un vector, un punto se identifica como un vector. En esta sección se introduce la notación homogénea para puntos líneas sobre un plano. Vectores fila vectores columna. Más tarde, se tendrá que considerar las transformaciones lineales entre espacios vectoriales, representar dichas aplicaciones como matrices. En la forma habitual, el producto de una matriz un vector es otro vector, la imagen del primer vector bajo el mapeo. Esto nos lleva a la distinción entre vectores 3

48 columna vectores fila, dado que una matriz puede ser multiplicada por la derecha por un vector columna por la izquierda por un vector fila. Las entidades geométricas estarán representadas por vectores columna por defecto. Un símbolo en negrita, como x representa siempre un vector columna, su transpuesto es el vector fila x. De acuerdo con esta convención, un punto en el plano estará representado por el vector columna x, lugar de su transpuesto, el vector fila x,. Se escribe x x,, ambos lados de esta ecuación representan vectores columna., en..1.1 Puntos líneas Representación homogénea de líneas. Una línea en el plano se representa por una ecuación tal como ax b c 0, diferentes opciones de a, b c dan lugar a líneas diferentes. Así, una línea, naturalmente, puede ser representada por el vector abc,, correspondencia entre las líneas vectores abc,, no es uno a uno, a que las líneas ax b c 0 ka x kb kc 0son la misma línea, para cualquier constante k no nula. Así, los vectores abc,, k a, b, c representan la misma línea, para cualquier k distinto de cero. De hecho, dos de tales vectores relacionados por un factor de escala en general se consideran como equivalentes. Una clase de equivalencia de vectores bajo esta relación de equivalencia es conocida como un vector homogéneo. Cualquier vector. La 33

49 particular abc,, es un representante de la clase de equivalencia. El conjunto de clases de equivalencia de vectores en 3 0, 0, 0 constitue el espacio proectivo P. La notación 0, 0, 0 indica que el vector 0, 0, 0, que no corresponde a alguna línea, se exclue. Representación homogénea de puntos. Un punto x x, se encuentra en la línea l abc,, si sólo si ax b c 0. Esto puede ser escrito en términos de un producto escalar de vectores representando el punto como x,,1 a, b, c x,,1 l 0, es decir el punto x, en se representa como un vector de tres coordenadas mediante la adición de una coordenada final de 1. enga en cuenta que para cualquier k constante distinto de cero la línea l se verifica la ecuación kx, k, k l 0 si sólo si x,,1 l 0. Es natural, por tanto, considerar el conjunto de vectores kx, k, k para diferentes valores de k como una representación del punto x, en. Así, igual que con las líneas, los puntos están representados por vectores homogéneos. Un vector homogéneo arbitrario representante de un punto es de la forma x x, x, x, representa el punto 1 3 x x x, x x en Los puntos, entonces, como vectores homogéneos son también elementos de P. Uno tiene una ecuación simple para determinar cuando un punto está sobre una línea: 34

50 Resultado.1 El punto x está en la línea l si sólo xl 0. éngase en cuenta que la expresión xl es sólo el producto escalar de los dos vectores l x. Se trata del producto escalar x l l x xl. Se distingue entre las coordenadas homogéneas x x, x, x de un punto, que es un vector de tres 1 3 coordenadas, las coordenadas no homogéneas x, coordenadas., que es un vector de dos Ejemplo. 1 Considérese el problema simple de determinar si el punto (, 3) está en la línea 7 x. La recta 7 x es equivalente a ax b c x 1 7 0, por tanto, tiene una representación homogénea l ( abc,, ) (,1, 7). La representación homogénea del punto ( x, ) (, 3) es cualquier vector x ( xk, k, k) ( k, k, k) con una constante k 0, escogiendo k 0.5 se obtiene la representación homogénea particular x (1,, ). Para determinar si el punto x (1,, ) ( ( x, ) (, 3) ) está en la línea l (,1, 7) ( 7 x) se calcula xl: 7 xl (1,, ) , (.-1) entonces xl 0, por tanto el punto (, 3) si pertenece a la línea 7 x, tal como se requiere. Note que xl 0 si solo si kxl 0 ( k 0 ), entonces la conclusión alcanzada es 35

51 independiente de la representación homogénea del punto x ( k, k, k) seleccionada (independiente de la constante k 0 seleccionada). Intersección de líneas. Dadas dos líneas l abc,, l a, b, c, se desea encontrar su intersección. Defina el vector x ll, donde el operador representa el producto vectorial. De la identidad producto triple escalar l ll lll 0, se observa que l x l x 0. Por lo tanto, si x se considera como representante un punto, entonces x se encuentra en ambas líneas l l, por tanto es la intersección de las dos líneas. Esto muestra que: Resultado. Las intersección de dos líneas l l es el punto x ll. Ejemplo. Considérese el problema simple de determinar la intersección de las líneas x 1. La recta es equivalente 1 0, por tanto, tiene una representación homogénea l (0,1, ). La recta x 1 es equivalente a x11 0, por lo tanto tiene una representación homogénea l (, 1, ). Según el Resultado. el punto de intersección es: i j k 1 x l l 0 1 4, (.-)

52 que en coordenadas no homogéneas es el punto ( 1, 4 ) (0.5, ) tal como se requiere...1. Puntos ideales la línea en el infinito Intersección de líneas paralelas. Considere un par de líneas ax b c 0 ax b c 0. Estas están representadas por los vectores l abc,, l abc,, para los cuales las dos primeras coordenadas son las mismas. El cálculo de la intersección de estas líneas no brinda dificultad alguna, utilizando el Resultado.. La intersección es ll c cb, a,, e ignorando el factor de escala c c, este es el punto b, a,. Ahora bien, si se trata de encontrar la representación no homogénea de este punto, se obtiene b, a, que no tiene sentido, excepto para sugerir que el punto de intersección tiene coordenadas infinitamente grandes. En general, los puntos de coordenadas homogéneas x,, no corresponden a algún punto finito en. Esta observación concuerda con la idea habitual de que las líneas paralelas se encuentran en el infinito [1]. Puntos ideales la línea en el infinito. Vectores homogéneos x x, x, x tal que 1 3 x 0 corresponden a puntos finitos en 3. Uno puede aumentar 37 mediante la adición

53 de puntos con la última coordinada x 0. El espacio resultante es el conjunto de todos los 3 vectores homogéneos de 3 coordenadas, a saber, el espacio proectivo P. Los puntos con última coordenada x 0 son conocidos como puntos ideales, o puntos en el infinito. El 3 conjunto de todos los puntos ideales se puede escribir x, x, con un punto particular especificado por la proporción x : x. éngase en cuenta que este conjunto se encuentra en 1 una sola línea, la línea en el infinito, denotada por el vector l 0, 0,. En efecto, se verifica que 0, 0, x, x, 0 (ver Resultado.1). 1 1, Usando el Resultado. se encuentra que una línea l abc,, cruza l en el punto ideal b, a, a (pues b, a, l 0). Una línea l abc,, paralela a l interseca l en el mismo punto ideal b, a,, independientemente del valor de c. enga en cuenta como la introducción del concepto de puntos en el infinito sirve para simplificar las propiedades de puntos líneas. En el plano proectivo P, se puede afirmar sin reservas que dos líneas distintas se intersecan en un solo punto dos puntos distintos se encuentran en una sola línea. Esto no es cierto en la geometría Euclidiana estándar de, en el que las líneas paralelas forman un caso especial [1]. 38

54 Un modelo para el plano proectivo. Una manera fructífera de pensar P es como un conjunto de raos en 3. El conjunto de todos los vectores k x, x, x conforme k varía 1 3 forma un rao que pasa por el origen. al rao puede pensarse como representando un único punto en P. En este modelo, las líneas en P son planos que pasan por el origen. Una verifica que dos raos no idénticos se hallan en un sólo plano, cualesquiera dos planos se intersecan en un solo rao. Este es el análogo de que dos puntos distintos definen una única línea, dos líneas siempre se cortan en un solo punto. Puntos líneas particulares se pueden obtener por la intersección de este conjunto de raos planos con, por ejemplo, el plano x 1. Como se ilustra en la Figura. los 3 raos que representan los puntos ideales (pertenecen al plano xx ) el plano que 1 representa l (plano xx ) son paralelos al plano x Figura. Un modelo para el plano proectivo [1]. 39

55 .. rasformaciones proectivas Una proectividad es un mapeo invertible desde puntos en P (que son vectores homogéneos de 3 coordenadas) hacia puntos en precisamente, P, que mapea las líneas hacia líneas. Más Definición.1 Un proectividad es un mapeo invertible h desde P hacia sí mismo de tal manera que tres puntos x 1, x x son colineales, si sólo si los tres puntos hx, 3 1 hx hx son colineales [1]. 3 La inversa de una proectividad también es una proectividad, también la composición de dos proectividades es una proectividad. Una proectividad también es llamada una colineación (un nombre de gran auda), una transformación proectiva o una homografía: los términos son sinónimos [1]. En la Definición.1, una proectividad se define en términos de un concepto geométrico libre de coordenadas. Una definición algebraica equivalente de una proectividad es posible, basándose en el resultado siguiente. Resultado.3 Un mapeo hp : P es una proectividad si sólo si existe una matriz 3 3 no singular H tal que para cualquier punto en cierto que hx Hx [1]. P representado por un vector x es Para interpretar este teorema, cualquier punto en 40 P se representa como un vector homogéneo de 3 coordenadas x, Hx es una transformación lineal de coordenadas

56 homogéneas. El teorema afirma que cualquier proectividad surge como una transformación lineal en coordenadas homogéneas, que, a la inversa, toda transformación lineal en coordenadas homogéneas es una proectividad. Como resultado de este teorema, se puede dar una definición alternativa de una transformación proectiva como sigue. Definición. ransformación proectiva. Una transformación proectiva plana es una transformación lineal sobre vectores homogéneos de tres coordenadas representada por una matriz 3 3 no singular: x 1 h11 h1 h13 x1 x h h h x 1 3 x 3 h31 h3 h 33 x 3 (.-3) o, más brevemente, x Hx [1]. La matriz H es conocida como matriz de homografía. enga en cuenta que la matriz de homografía H que se encuentra en esta ecuación puede ser cambiada por la multiplicación por un factor de escala arbitrario distinto de cero, sin alterar la transformación proectiva a que los vectores involucrados son vectores homogéneos. Por consiguiente se dice que la matriz de homografía H es una matriz homogénea, a que, como en la representación homogénea de un punto, sólo la proporción de los elementos de matriz es significativa. Ha ocho proporciones independientes entre los nueve elementos de H, de ahí se deduce que una transformación proectiva tiene ocho grados de libertad. 41

57 Dado un par de las imágenes I J de tamaño nx n, imágenes de una misma escena plana en el mundo pero obtenidas por proección central- a partir de distintas posiciones del centro de cámara respecto a la escena plana, o simplemente por rotación de la cámara alrededor del centro de cámara. Entonces existe una homografía (transformación proectiva) que mapea desde los puntos de la imagen I hasta los puntos de la imagen J. Sea la matriz H I J de la transformación proectiva que relaciona ambas imágenes I J, si I( x ) J( x ) representan, respectivamente, el valor de intensidad de I J en el punto x perteneciente a la región de intensidad definida [0, n 1] [0, n 1], entonces la matriz homogénea 3 3 H I J verifica que: x donde los puntos x x, x [0, nx 1] [0, n 1] x H x I J J( x ) I( x ) (.-4) x se expresan en coordenadas homogéneas. Lo anterior se denota como H I J I = J. El algoritmo de cálculo automático de homografía D implementado en este proecto, utilizando como entrada las mismas imágenes I J, obtiene una estimación de dicha matriz H I J de la transformación proectiva que mapea desde los puntos de la imagen I hasta los puntos de la imagen J. 4

58 Una transformación proectiva proecta cada figura en una figura proectivamente equivalente, dejando todas sus propiedades proectivas invariantes. En el modelo de rao de la Figura. una transformación proectiva es simplemente una transformación lineal de 3. Figura. 3 La proección central mapea puntos x en un plano hacia puntos x en otro plano [1]. Mapeos entre planos. Como un ejemplo de cómo el Resultado.3 se puede aplicar, considere la Figura. 3. La proección a lo largo de raos a través de un punto común (el centro de proección) define un mapeo desde un plano hacia otro. Es evidente que esta correspondencia de punto a punto conserva las líneas dado el hecho de que una línea en un plano es mapeada (proectada) a una línea en otro plano: considérese un plano a través del centro de proección que interseque los dos planos. Si un sistema de coordenadas 43

59 se define en cada plano los puntos están representados en coordenadas homogéneas, entonces el mapeo de proección central puede ser expresado por matriz 3 3 no singular (ver sección 1.). x Hx donde H es una (a) (b) Figura. 4 Removiendo la distorsión proectiva [1]. Ejemplo. 3 Removiendo la distorsión proectiva de una imagen en perspectiva de un plano. La forma es distorsionada bajo la formación en perspectiva de imágenes. Por ejemplo, en la Figura. 4a las ventanas no son rectangulares en la imagen, aunque las ventanas originales lo son. En general las líneas paralelas en una escena de un plano no son paralelas en la imagen sino que convergen en un punto finito. Hemos visto que una imagen de un plano (o la sección de un plano) formada por proección central está relacionada con el plano original a través de una transformación proectiva, por tanto la imagen es una distorsión proectiva de la imagen original. Es posible deshacer esta transformación 44

60 proectiva mediante el cálculo de la transformación inversa su aplicación a la imagen. El resultado será una nueva imagen sintetizada en la que los objetos en el plano se muestran con su forma geométrica correcta. Esto se ilustra aquí para la parte delantera del edificio de la Figura. 4a. enga en cuenta que, dado que el suelo la parte delantera del edificio no están en el mismo plano, la transformación proectiva que debe aplicarse para rectificar la parte delantera del edificio no es la mismo que la que se debería utilizar para rectificar para el suelo. El cálculo de una transformación proectiva a partir de correspondencias de punto a punto se considerará en gran detalle en el capítulo 4. Por ahora, un método para calcular la transformación se indica brevemente. Se inicia mediante la selección de una sección de la imagen correspondiente a una sección plana del mundo. La imagen local D las coordenadas en el mundo son seleccionadas como se muestra en la Figura. 4. Sean las coordenadas no homogéneas de un par de puntos correspondientes x x en el mundo en el plano de la imagen ( x, ) ( x, ) respectivamente. Usamos coordenadas homogéneas aquí en lugar de las coordenadas homogéneas de los puntos, porque son estas coordenadas no homogéneas las que se miden directamente desde la imagen desde el plano en el mundo. La transformación proectiva de (.-3) puede ser escrita en forma no homogénea como x h x h h x h x h h x = = = = x h x h h x h x h h (.-5) 45

61 Cada correspondencia de puntos genera dos ecuaciones para los elementos de H, que después de retirar los denominadores son x( h x h h ) = h x h h ( h x h h ) = h x h h (.-6) Estas ecuaciones son lineales en los elementos de H. Cuatro correspondencias de puntos llevan a ocho de tales ecuaciones lineales en las entradas de H, que son suficientes para resolver H hasta un factor multiplicativo insignificante. La única restricción es que los cuatro puntos deben estar en posición general, lo que significa que no se incluan tres puntos colineales. La inversa de la transformación H calculada de esta manera se aplica entonces a toda la imagen para deshacer el efecto de distorsión perspectiva en el plano seleccionado. Los resultados se muestran en la Figura. 4b: (a) la imagen original con la distorsión de perspectiva, las líneas de las ventanas claramente convergen en un punto finito, (b) Vista frontal ortogonal sintetizada de la pared frontal. La imagen (a) de la pared se relaciona a través de una transformación proectiva con la geometría real de la pared. La transformación inversa se calcula mediante el mapeo de las cuatro esquinas de la imagen de la ventana hacia las esquinas de un rectángulo de tamaño adecuado. Las cuatro correspondencias de puntos determinan la transformación. La transformación se aplica entonces a toda la imagen. enga en cuenta que las secciones de la imagen del suelo están 46

62 sujetas a una distorsión proectiva adicional. Esta también puede ser eliminada mediante una transformación proectiva. Figura. 5 Ejemplos de trasformaciones proectivas, x Hx, surgiendo en imágenes perspectivas [1]. Las transformaciones proectivas son mapeos importantes que representan a muchas más situaciones que la imagen en perspectiva de un plano en el mundo. Un número de otros ejemplos se ilustran en la figura Figura. 5: (a) La transformación proectiva entre dos planos inducida por otro plano (La concatenación de dos trasformaciones proectivas en una transformación proectiva), (b) La transformación proectiva entre dos imágenes con el mismo centro de cámara (i.e: una cámara rotando alrededor de su centro o una cámara variando su distancia focal), (c) La transformación proectiva entre una imagen 47

63 de un plano (el extremo de un edificio) la imagen de su sombra sobre otro plano (el plano del suelo). Para un tratamiento extendido acerca del surgimiento de las transformaciones proectivas durante el proceso de formación de imágenes refiérase a la sección rasformación de líneas Sean x, x x puntos pertenecientes a una línea l una matriz 3 3 no singular 1 3 H. Entonces lx para 1,, 3 i 0 i, de donde se verifica que l 1 1 H H x H H 0 i i l x. Entonces, los puntos transformados bajo la trasformación proectiva 1 x Hx pertenecen a la línea H l. De esta forma, la incidencia de los i i puntos sobre las líneas es preservada. Considerando la demostración anterior (la colinealidad es preservada por una transformación proectiva) se obtiene la regla de transformación para líneas: Bajo la transformación de punto x Hx, una línea se transforma como: l H l, (.-7) 1 donde H H H -1. Alternativamente uno puede escribir 1 l l H. 48

64 ..3 Una jerarquía de las transformaciones Se va a introducir las transformaciones partiendo de las más especializadas, las isometrías, generalizando progresivamente hasta que las transformaciones proectivas sean alcanzadas. Esto define una jerarquía de transformaciones. Los efectos de distorsión de diversas transformaciones en esta jerarquía se muestran en la Figura. 6 se muestran tres imágenes distintas de un piso de azulejos. La Figura. 6a constitue una similaridad: el patrón circular es proectado como un círculo. Un azulejo cuadrado es proectado como un cuadrado. Las líneas que son paralelas o perpendiculares tiene la misma orientación relativa en la imagen. La Figura. 6b constitue una afinidad: El círculo es proectado como una elipse. Las líneas ortogonales en el mundo (en el plano del piso de azulejos) no son proectadas como líneas ortogonales. Sin embargo, los lados de los azulejos cuadrados, los cuales son paralelos en el mundo son paralelos en la imagen también. La Figura. 6c constitue una proectividad: Las líneas paralelas son proectadas como líneas convergentes. Los azulejos más cercanos a la cámara tienen una imagen más grande que la de aquellos más lejanos. 49

65 (a) (b) (c) Figura. 6 Distorsiones que surgen bajo la proección central [1]. Invariantes. Una alternativa a la descripción de la transformación algebraicamente, es decir, como una matriz que actúa sobre las coordenadas de un punto o una curva, es describir la transformación en términos de los elementos o las cantidades que son conservados o invariantes. Un invariante (escalar) de una configuración geométrica es una función de dicha configuración cuo valor no es modificado por una transformación particular. Por ejemplo, la separación de los dos puntos no es modificada por una transformación Euclidiana (traslación rotación), pero si es modificada por una similaridad (por ejemplo traslación, rotación escalamiento isotrópico). La distancia es por lo tanto una invariante de la transformación Euclidiana, pero no una invariante de la similaridad. El ángulo entre dos líneas es a la vez invariante a la transformación Euclidiana e invariante a la similaridad [1]. 50

66 ..3.1 Clase I: Isometrías Las isometrías son transformaciones del plano que preservan la distancia Euclidiana (de iso = misma, metria = medida). Una isometría se representa como: x cos sin tx x sin cos t, (.-8) donde 1. Si 1 entonces la isometría preserva la orientación es una transformación Euclidiana (una composición de una traslación rotación). Si 1, entonces la isometría invierte la orientación [1]. Un ejemplo es la composición de un reflejo, representado por la matriz diag 1,1,1, con una transformación Euclidiana [1]. Una transformación Euclidiana plana se puede escribir de forma más concisa en forma de bloques como R t x H x, E 1x 0 (.-9) donde R es una matriz de rotación (una matriz ortogonal tal que R R = RR = I ), t es un vector de traslación de coordenadas, 0 un vector nulo de coordenadas. Los casos especiales son una rotación pura (cuando t 0) una traslación pura (cuando R = I ). Una transformación Euclidiana plana tiene tres grados de libertad, uno para la rotación dos para la traslación. 51

67 Invariantes. Las invariantes son mu familiares, por ejemplo: longitud (la distancia entre dos puntos), el ángulo (el ángulo entre dos líneas), el área [1]...3. Clase II: rasformaciones de similaridad Una transformación de similaridad (o simplemente una similaridad) es una isometría compuesta con un escalamiento isotrópico. En el caso de una transformación Euclidiana compuesta con una escalamiento (es decir, sin reflexión) la similaridad tiene representación matricial x s cos ssin tx x ssin s cos t (.-10) Esto se puede escribir de forma más concisa en forma de bloques como sr t x H x, S 1x 0 (.-11) donde el escalar s representa el escalamiento isotrópico. Una transformación de similaridad también se conoce como una transformación equiforma, a que conserva la forma. Una transformación de similaridad plana tiene cuatro grados de libertad, el escalamiento contando para un grado de libertad más que una transformación Euclidiana. Invariantes. Los ángulos entre las líneas no se ven afectados por rotación, traslación o escalamiento isotrópico, por ende son invariantes de la similaridad. En particular, las 5

68 líneas paralelas son mapeadas a líneas paralelas. La longitud entre dos puntos no es una invariante de la similaridad, pero la proporción entre dos longitudes si es una invariante de la similaridad, a que el escalamiento de las longitudes se anula. Del mismo modo una proporción entre áreas es una invariante de la similaridad porque el escalamiento (al cuadrado) se anula [1] Clase III: rasformaciones afines Una transformación afín (o más simplemente una afinidad) es una transformación lineal no singular seguida de una traslación. iene la representación de matricial x a a t 11 1 x x a a t , 1 (.-1) o en forma de bloques A t x H x, A 1x 0 (.-13) con A una matriz no singular. Una transformación afín plana tiene seis grados de libertad correspondientes a los seis elementos de la matriz. Una forma útil de entender los efectos geométricos de la componente lineal A de una transformación afín es como la composición de dos transformaciones fundamentales, a 53

69 saber, las rotaciones los escalamientos no isotrópicos. La matriz afín A siempre se puede descomponer como [1] A R R DR, (.-14) donde R, R R son rotaciones por, respectivamente, D es una matriz diagonal [1]: 0 0 (.-15) 1 D. Por lo tanto se ve que la matriz afín A es la concatenación de una rotación (por ); un escalamiento por, respectivamente, en las direcciones (rotadas) x ; una 1 rotación hacia atrás (por ), finalmente otra rotación (por ). La única "nueva" geometría, en comparación con una similaridad, es el escalamiento no isotrópico. Esto explica los dos grados de libertad adicionales que posee una afinidad más de una similaridad. Ellos son el ángulo que especifica la dirección de escalamiento, la proporción de los parámetros de escalamiento :. La esencia de una afinidad es este 1 escalamiento en direcciones ortogonales, orientados en un ángulo particular. Ejemplos esquemáticos de las dos distorsiones que surgen bajo una transformación afín plana se dan en la Figura. 7: (a) una deformación R DR ; note que las direcciones de escalamiento en la deformación son ortogonales (b) una rotación por R. 54

70 (a) (b) Figura. 7 Distorsiones que surgen bajo una transformación afín plana [1]. Invariantes. Debido a que una transformación afín inclue un escalamiento no isotrópico, las invariantes de la similaridad: los ángulos entre líneas las proporciones entre longitudes, no son preservadas bajo una afinidad. res invariantes importantes son: (i) Líneas paralelas. Considere dos líneas paralelas. Estas se intersecan en un punto x, x en el infinito. Bajo una transformación afín este punto se mapea a otro 1, punto en el infinito. Por consiguiente, dicho par de líneas paralelas se mapean a un par de líneas que siguen intersecándose en el infinito, por lo tanto son un par de líneas paralelas después de la transformación [1]. (ii) Proporción entre longitudes de segmentos lineales paralelos. El escalamiento de longitud de un segmento de línea depende sólo del ángulo entre la dirección de la 55

71 línea las direcciones de escalamiento. Supongamos que la línea está en ángulo respecto al eje x de la dirección ortogonal escalamiento, entonces la magnitud de escalamiento para el segmento lineal es cos sin 1. Note que éste escalamiento es común a todas las líneas con la misma dirección, así se anula en una proporción entre longitudes de los segmentos lineales paralelos [1]. (iii) Proporción entre áreas. Esta invariante se puede deducir directamente a partir de la descomposición (.-14). Las rotaciones traslaciones no afectan el área, por lo que sólo el escalamiento de importa aquí. El efecto es que el área es 1 escalada por el factor 1 que es igual a det(a). Así, el área de cualquier forma es escalada por el factor det(a), entonces el escalamiento se anula en una proporción entre áreas. Se verá que esto no se cumple para una transformación proectiva [1]. Una afinidad conserva o invierte la orientación dependiendo de si det(a) es positivo o negativo respectivamente. Dado que det(a) 1 la propiedad sólo depende del signo de los escalamientos: la afinidad conserva (invierte) la orientación si tienen 1 mismo (distinto) signo [1]. 56

72 ..3.4 Clase IV: rasformaciones proectivas Una transformación proectiva (o más simplemente una proectividad) se definió en (.-3). Es una transformación lineal no singular de coordenadas homogéneas general. Esto generaliza una transformación afín, que es la composición de una transformación lineal no singular general de coordenadas no homogéneas de una traslación. Se ha visto anteriormente la acción de una transformación proectiva (en la sección anterior). Aquí se examina su forma de bloque A t x H x, P vx v (.-16) donde el vector v v, v 1. La matriz tiene nueve elementos siendo significativa únicamente su proporción, por lo que la transformación se especifica por ocho parámetros. enga en cuenta que no siempre es posible escalar la matriz tal que v sea la unidad, a que v puede ser cero. Una transformación proectiva entre dos planos puede ser calculada a partir de cuatro correspondencias entre puntos, sin que tres de los puntos en cada plano sean colineales. Dadas un par de las imágenes I J de tamaño nx n, imágenes de una misma escena plana en el mundo pero obtenidas por proección central- a partir de distintas posiciones del centro de cámara respecto a la escena plana, o simplemente por rotación de 57

73 la cámara alrededor del centro de cámara. En general existe una transformación proectiva (homografía) que mapea desde los puntos de la imagen I hasta los puntos de la imagen J. Sea la matriz 3 3 AI J ti J H IJ, IJ v v IJ (.-17) la matriz de la transformación proectiva que relaciona ambas imágenes I J, si I( x ) J( x ) representan, respectivamente, el valor de intensidad de I J en el punto x perteneciente a la región de intensidad definida [0, n 1] [0, n 1], entonces la matriz homogénea 3 3 H I J verifica que: x donde los puntos x x, x [0, nx 1] [0, n 1] x H x I J J( x ) I( x ) (.-18) x se expresan en coordenadas homogéneas. Lo anterior se denota como H I J I = J. El algoritmo de cálculo automático de homografía D implementado en este proecto, utilizando como entrada las mismas imágenes I J, obtiene una estimación de dicha matriz H I J de la transformación proectiva que mapea desde los puntos de la imagen I hasta los puntos de la imagen J. Invariantes. La invariante de la proectividad más fundamental, además de la colinealidad, es la razón cruzada de cuatro puntos colineales: una razón entre longitudes sobre una 58

74 misma línea es invariante bajo las afinidades, pero no bajo las proectividades. Sin embargo, una razón de proporciones o razón cruzada entre longitudes sobre una línea es una invariante de la proectividad [1] Resumen comparación Las afinidades (6 gdl) ocupan el terreno intermedio entre las similaridades (4 gdl) las proectividades (8 gdl). Las afinidades generalizan a las similaridades en que los ángulos no se conservan, de modo que las formas son sesgadas bajo la transformación. Por otra parte, su acción es homogénea a lo largo del plano: para una afinidad dada el escalamiento en el área de un objeto por el factor det A (por ejemplo, un cuadrado) es el mismo en cualquier lugar en el plano, la orientación de una línea transformada depende sólo de su orientación inicial, no de su posición en el plano. En contraste, para una transformación proectiva dada, el escalamiento en el área de un objeto varía con la posición del objeto en el plano (por ejemplo, bajo una perspectividad un cuadrado más distante en el plano tiene una imagen más pequeña que uno que está más cerca, como en la Figura. 6); la orientación de una línea transformada depende tanto la orientación como de la posición de la línea original (sin embargo, el punto de fuga de una línea depende sólo de la orientación de la línea, no la posición). La diferencia clave entre una transformación proectiva una transformación afín es que el vector v no es nulo para una proectividad. Esto es responsable de los efectos no 59

75 lineales de la proectividad. Compare el mapeo de un punto ideal x, x bajo una 1, afinidad bajo una proectividad: En primer lugar, bajo la transformación afín x1 x1 A t A x x. 0 1 (.-19) En segundo lugar, bajo la transformación proectiva x1 x1 A t A x x. 1 v v x v x 1 1 (.-0) En el primer caso, el punto ideal se mapea a un punto ideal: el punto ideal sigue siendo ideal (es decir, en el infinito). En el segundo caso, el punto ideal se mapea a un punto finito. Es esta capacidad la que la permite a una transformación proectiva modelar puntos de fuga. La abla. 1 resume los grupos de transformaciones D (planas) sus propiedades invariantes. Una transformación en la tabla es una especialización de la transformación de arriba (superior) en la tabla. Una transformación en la tabla hereda las invariantes de todas las transformaciones de arriba en la tabla. En la abla. 1, la matriz A a ij es una matriz invertible, R r ij es una matriz de rotación D, tx, t 60 es una traslación D. La columna Distorsión muestra efectos típicos de la transformación sobre un cuadrado. Una transformación en la tabla puede producir todas las acciones de las transformaciones

76 inferiores a ésta en la tabla. Estas van desde transformaciones Euclidianas, donde sólo traslaciones rotaciones ocurren, hasta transformaciones proectivas donde el cuadrado puede transformarse en cualquier cuadrilátero arbitrario. abla. 1 Propiedades geométricas invariantes a transformaciones planas que ocurren comúnmente [1]. Grupo Matriz Distorsión Propiedades invariantes Proectividad 8 gdl h h h h h h 1 3 h h h Concurrencia, colinealidad, razón cruzada (razón de proporciones entre longitudes). Afinidad 6 gdl a a t 11 1 x a a t Paralelismo, proporción entre áreas, proporción entre longitudes de los segmentos lineales paralelos (i.e. puntos medios), combinaciones lineales de vectores (i.e. centroides). La línea en el infinito l. Similaridad 4 gdl sr sr t 11 1 x sr sr t Proporción entre longitudes. Euclidiana 3 gdl r r t 11 1 x r r t Longitud, área. 61

77 ..3.6 Descomposición de una transformación proectiva Una transformación proectiva se puede descomponer en una cadena de transformaciones, donde cada matriz en la cadena representa una transformación más alta en la jerarquía que la matriz anterior [1]. sr t K 0 I 0 A t H H H H, S A P 1 1 v v 0 0 v v (.-1) con A una matriz no singular dada por A srk + tv, K una matriz triangular superior normalizada con det(k) =1. Esta descomposición es válida siempre que v 0, es única si s es elegido positivo [1]. Cada una de las matrices H, S H, A H es la esencia" de una transformación de ese P tipo (como indican los subíndices S, A, P ). Considere el proceso de rectificación de la imagen en perspectiva de un plano: H ( gdl) mueve la línea en el infinito; P H A ( gdl) afecta a las propiedades afines, pero no mueve la línea en el infinito, por último H, es S una transformación de similaridad general (4 gdl) que no afecta a las propiedades afines o proectivas omando el inverso de H en (.-1) da H H H H. Puesto que H, P A S P 1 H 1 H A S siguen siendo una transformación proectiva, de afinidad de similaridad, respectivamente, entonces una transformación proectiva general también puede ser descompuesta en la forma [1] 6

78 I 0 K 0 sr t H H H H. P A S v 1 1 v 0 0 (.-) enga en cuenta que los valores reales de K, R, t v serán diferentes de aquellos presentes en la descomposición (.-1) [1].Equation Section (Next) 63

79 .3 Estimación robusta utilizando RANSAC En muchas situaciones prácticas, al estimar un conjunto de correspondencias de puntos { x x } entre dos imágenes, la fuente de error en no está únicamente en la i i medición de la posición de los puntos (la cual sigue una distribución Gaussiana), sino que dentro del conjunto { x x } ha pares de puntos en que constituen una correspondencia i i pero que realmente no coinciden. Los puntos no coincidentes son valores atípicos (outliers) a la distribución de error de Gaussiana. Estos valores atípicos pueden perturbar severamente la homografía estimada a partir del conjunto { x x }, por lo tanto deben ser identificados. El objetivo, entonces, es determinar un conjunto de inliers (conjunto ausente de outliers) dentro de las correspondencias { x x } presentadas de modo que i i i i la homografía se pueda estimar de una manera óptima a partir de estos inliers. Esto es estimación robusta a que la estimación es robusta (tolerante) a los valores atípicos (mediciones que siguen una distribución de error diferente, posiblemente no modelada). En este apartado se describe en detalle un estimador robusto en general mu exitoso, el algoritmo RANSAC (RANdom SAmple Consensus) de Fischler Bolles. El algoritmo RANSAC es capaz de hacer frente a una gran proporción de outliers [1]. 64

80 .3.1 RANSAC Empezamos con un ejemplo sencillo que puede ser fácilmente visualizado: estimar una línea recta de ajuste para un conjunto de puntos bidimensionales. Esto puede ser pensado como estimar una transformación afín unidimensional, x ax b, entre los puntos correspondientes ubicados sobre dos líneas. El problema, que se ilustra en la Figura. 8, es el siguiente: dado un conjunto de puntos D de datos, busque la línea que minimiza la suma de los cuadrados de las distancias perpendiculares (regresión ortogonal), sujeto a la condición de que ninguno de los puntos válidos se desvía de esta línea por más de t unidades. Esto es en realidad dos problemas: una línea de ajuste a los datos; una clasificación de los datos en inliers (puntos válidos) ouliers. El umbral es establecido de acuerdo con el ruido de la medición (por ejemplo t 3 ), se discute más adelante. En la Figura. 8a, un ajuste por mínimos cuadrados (regresión ortogonal) a los puntos de datos se ve gravemente afectado por los outliers. Figura. 8 (a) Estimación robusta de línea. Los puntos sólidos son inliers, los puntos (b) abiertos son outliers [1]. 65

81 La idea es mu simple: dos de los puntos son seleccionados aleatoriamente, estos puntos definen una línea. El respaldo para esta línea se mide por el número de puntos que se encuentran dentro de un umbral de distancia. Esta selección aleatoria se repite un número de veces la línea con más apoo se considera el ajuste robusto. Los puntos dentro de la distancia umbral son los inliers ( constituen el conjunto de consenso). La intuición es que si uno de los puntos es un outlier entonces la línea no va a ganar mucho respaldo, ver Figura. 8b: en el algoritmo RANSAC el respaldo para líneas a través de pares de puntos seleccionados al azar se mide por el número de puntos dentro de un umbral de distancia desde las líneas. Las líneas punteadas indican el umbral de distancia. Para las líneas que se muestran el respaldo es 10 para la línea ab, (donde ambos puntos a b son inliers); para la línea cd, donde el punto c es un outlier. Además, el calificar una línea por su respaldo tiene la ventaja adicional de favorecer mejores ajustes. Por ejemplo, la línea ab, en la Figura. 8b tiene un soporte de 10, mientras que la línea ad,, donde los puntos de muestra son vecinos, tiene un respaldo de sólo 4. Por consiguiente, a pesar de que ambas muestras no contienen valores atípicos, la línea ab, se selecciona. Más en general, se desea ajustar un modelo, en este caso una línea, a los datos, la muestra aleatoria se compone de un subconjunto mínimo de los datos, en este caso dos puntos, suficiente para determinar el modelo. Si el modelo es una homografía plana, los 66

82 datos un conjunto de correspondencias de punto D, entonces el subconjunto mínimo consta de cuatro correspondencias. La aplicación de RANSAC para la estimación de una homografía se describe a continuación. Como han indicado Fischler Bolles El procedimiento RANSAC es contrario a la de las técnicas de suavizado convencionales: En lugar de utilizar tantos datos como sea posible para obtener una solución inicial luego intentar eliminar los datos no válidos, RANSAC utiliza un conjunto de datos inicial tan pequeño como sea posible amplía este conjunto con datos consistentes cuando sea posible [1]. Algoritmo. 1 El algoritmo de estimación robusta RANSAC [1]. Objetivo Ajuste robusto de un modelo a un conjunto de datos S que contiene outliers. Algoritmo (i) Seleccionar al azar una muestra de s puntos de datos de S e instanciar el modelo a partir de este subconjunto, (ii) Determinar el conjunto de puntos de datos S, que están dentro de un umbral de i distancia t del modelo. El conjunto S es el conjunto de consenso de la muestra s i define los inliers de S. (iii) Si el tamaño de S, (el número de inliers) es maor que un cierto umbral i, reestimar el modelo utilizando todos los puntos en S, dar por terminado, i (iv) Si el tamaño de S, es menor que i, seleccionar un subconjunto nuevo repetir lo anterior, (v) Después de N ensaos el conjunto más grande de consenso S i, se selecciona, el modelo es reestimado utilizando todos los puntos en el subconjunto S i. 67

83 El algoritmo RANSAC se resume en el Algoritmo. 1. Un mínimo de s puntos de datos se requieren para instanciar los parámetros libres del modelo. Los tres umbrales del algoritmo t,, N se discuten en el texto. res preguntas surgen de inmediato: 1. Cuál es el umbral de distancia? Nos gustaría elegir el umbral de distancia, t, de tal manera que se tenga una probabilidad de que un punto sea un inlier. Este cálculo requiere la distribución de probabilidad para la distancia de un inlier al modelo. En la práctica el umbral de distancia suele ser elegido empíricamente. Sin embargo, si se supone que el error de medición es Gaussiano con media cero desviación estándar, entonces un valor de t se puede calcular. En este caso, el cuadrado de la distancia del punto, d, es una suma de variables Gaussianas al cuadrado sigue una distribución m con m grados de libertad, donde m es igual a la codimensión del modelo [1]. Para una línea la codimensión es 1, sólo la distancia perpendicular a la línea se mide. Si el modelo es una homografía la codimensión es, el cuadrado de la distancia es la suma del cuadrado de los errores de medición en las coordenadas x de un punto[1]. La probabilidad de que el valor de una variable aleatoria m sea menor que k está dada por la distribución acumulativo chi-cuadrado, k 0 m F ( k ) ( ) d. De la m distribución acumulativa [1]: 68

84 inlierd t outlierd con 1 ( ) t F. m t (.3-1) Por lo general se elige como un 0.95, de modo que ha 95% de probabilidad que el punto es un inlier. Esto significa que un inlier sólo se rechaza incorrectamente el 5% de las veces. El valor de t para 0.95 para el modelo de una homografía D (codimensión m ) es [1]: t (.3-). Cuántas muestras? A menudo es computacionalmente imposible e innecesario probar cada muestra posible. En cambio, el número de muestras N se elige suficientemente alto para asegurar con una probabilidad, p, que al menos una de las muestras aleatorias de s puntos está libre de outliers. Por lo general, se elige al p en Supongamos que w es la probabilidad de que cualquier dato seleccionado sea un inlier, por lo tanto 1 w es la probabilidad de que sea un valor atípico. Entonces, al menos N muestras (cada una de s puntos) son necesarias, donde (1 s N w ) 1 p, de modo que [1] s N log 1 p log 1 1. (.3-3) 69

85 3. Qué tan grande es un conjunto de consenso aceptable? Una regla de pulgar es terminar si el tamaño del conjunto de consenso es similar al número de inliers que se cree se encuentran en el conjunto de datos, dada la proporción asumido de outliers, es decir, para n puntos de datos (1 ) n [1]. Determinación del número de muestras de forma adaptativa. A menudo se da el caso de que, la fracción de datos que consiste de outliers, es desconocida. En tales casos, el algoritmo es inicializa utilizando una estimación del peor caso de, esta estimación puede ser actualizada conforme grandes conjuntos de datos consistentes son encontrados. Por ejemplo, si la estimación del peor caso es 0.5 es encontrado un conjunto de consenso con 80% de los datos como inliers, entonces la estimación actualizada será 0. [1]. Esta idea de sondeo de los datos a través de los conjuntos de consenso se puede aplicar repetidamente con el fin de determinar adaptativamente el número de muestras, N. Para continuar con el ejemplo anterior, la estimación del peor caso de 0.5 determina un N inicial de acuerdo con (.3-3). Cuando se encuentra un conjunto de consenso que contiene más de 50% de los datos, entonces sabemos que ha por lo menos ésa proporción de inliers. Esta estimación actualizada de determina un N reducido a partir de (.3-3). Esta actualización se repite en cada muestra, cada vez que se encuentra un conjunto de 70

86 consenso con inferior a la estimación actual, entonces N se reduce de nuevo. El algoritmo termina tan pronto como N muestras se han realizado. Puede ocurrir que se encuentra una muestra para la cual determina un N menor que el número de muestras que a se han realizado. En tal caso suficientes muestras se han realizado el algoritmo termina [1]. El cálculo adaptativo de N en pseudo-código se resume en el Algoritmo.. Algoritmo. Algoritmo adaptativo para determinar el número de muestras RANSAC [1]. N, sample count 0. Mientras N sample count Repita Seleccionar una muestra contar el número de inliers. Establecer 1 (number of inliers) (total number of points) Establecer N a partir de (.3-3) con p Incrementar el sample count en 1. erminar. Este enfoque adaptativo funciona mu bien en la práctica cubre las preguntas sobre el número de muestras sobre cuando se conclue el algoritmo. El inicial puede ser elegido como 1.0, en cuo caso el N inicial será infinito. Es aconsejable utilizar una probabilidad p conservadora como de 0.99 en (.3-3). La abla. da ejemplos de N al calcular un homografía D. 71

87 abla. El número N de muestras requeridas para asegurar, con una probabilidad p 0.99, que al menos una muestra no tiene outliers, al calcular una homografía D ( s 4 ). Número de muestras N Proporción de outliers 5% 10% 0% 5% 30% 40% 50% Estimación robusta El algoritmo RANSAC particiona el conjunto de datos en inliers (el conjunto de consenso más grande) outliers ( el resto del conjunto de datos), también proporciona una estimación del modelo, M 0, calculada a partir del conjunto mínimo con el máximo respaldo. El paso final de la RANSAC algoritmo es volver a estimar el modelo utilizando todos los inliers. Esta reestimación debe ser óptima supondrá la minimización de la función de costo. En general, la estimación implica minimización iterativa, la estimación proporcionada por el conjunto mínimo, M 0, constitue el punto de partida. El único inconveniente con este procedimiento, que es a menudo es el adoptado, es que la clasificación inlier-outlier es irrevocable. Después de que el modelo ha sido óptimamente ajustado al conjunto de consenso, bien puede haber puntos adicionales (outliers) que ahora se clasificarían como inliers si el umbral de distancia se aplicara al nuevo modelo. Por ejemplo, supongamos la línea AB, en la Figura. 9a fue seleccionada por RANSAC. Esta línea cuenta con un respaldo de cuatro puntos (el conjunto 7

88 de puntos { A, B, C, D }), todos inliers (ilustrados como puntos vacíos). Después del ajuste óptimo a estos cuatro puntos, ahora ha un total 10 puntos que correctamente serían clasificados como inliers (ilustrados como puntos vacíos). En la Figura. 9b se muestra la línea de ajuste óptimo a estos 10 puntos ahora clasificados como inliers, la cual es un ajuste mucho mejor que el definido por la línea AB., Estos dos pasos: ajuste óptimo a los inliers; reclasificar inliers utilizando (.3-1), puede luego repetirse hasta que el número de inliers llegue a converger. Figura. 9 (a) (b) Estimación robusta de línea. Los puntos sólidos son inliers, los puntos abiertos son outliers [1]. Equation Chapter (Next) Section 1 73

89 CAPÍULO 3: Estimación de correspondencias de puntos 3. CAPÍULO 3: Estimación de correspondencias En la Figura 3. 1 se repite el diagrama de bloques del algoritmo de cálculo automático de una homografía D implementado en este proecto descrito en el Capítulo 1, Sección 1.6. En este Capítulo 3 se presentan las bases teóricas para el superbloque de Estimación de correspondencias. Figura 3. 1 Diagrama de bloques del algoritmo de cálculo automático de una homografía D diseñado, implementado probado. La primera parte del capítulo, Sección 3.1, inicia con una introducción a la detección de puntos característicos, luego describe el detector de puntos característicos Shi- omasi: detector de puntos característicos utilizado dentro del bloque de Detección de Puntos Característicos e implementado con la función goodfeaturesorack de OpenCV. Se culmina la primera parte del capítulo detallando una técnica para refinar hasta precisión subpíxel los resultados de un detector de puntos característicos: técnica utilizada 74

90 para refinar los resultados del detector de puntos característicos Shi-omasi utilizado dentro del bloque de Detección de Puntos Característicos e implementado con la función cornersubpix de OpenCV. La segunda parte del capítulo, Sección 3., describe una implementación piramidal del rastreo de puntos característicos KL: rastreador de puntos característicos que constitue el bloque de Rastreo de Puntos Característicos e implementado con la función calcopticalflowprlk de OpenCV. 3.1 Detección de puntos característicos Cualquier algoritmo de estimación de homografía D requiere relacionar dos imágenes con el fin de extraer información acerca de la homografía que las relaciona, a partir de esa muestra de información extrapolar estimar dicha homografía. El método de fuerza bruta de la comparación de cada píxel de las dos imágenes es computacionalmente prohibitivo para la maoría de aplicaciones. Intuitivamente, se puede relacionar dos imágenes haciendo coincidir únicamente lugares en la imagen que de alguna manera son interesantes. Entonces, la tarea de estimar la homografía que relaciona las imágenes se realiza procesando sólo estos puntos de interés. Esto reduce drásticamente el tiempo de cálculo requerido [6]. 75

91 El concepto de detección de puntos característicos o detección de puntos de interés se refiere a los métodos que tienen como objetivo la aplicación de operadores sobre la información de la imagen para cada punto de la imagen decidir si se trata o no de un punto característico (punto de interés) de algún tipo determinado. Los puntos característicos resultantes serán subconjuntos del dominio de la imagen, a menudo en forma de puntos aislados [7] Esquinas como puntos característicos Los términos esquina, punto de esquina, punto característico punto de interés se utilizan como sinónimos en la literatura [7], lo cual puede causar confusión. El nombre de esquina surgió dado que los primeros algoritmos de detección de puntos característicos eran detectores de esquinas: detectaban esquinas realizando detección de bordes, luego analizando los bordes para detectar cambios rápidos de dirección [7] (esquinas en el sentido tradicional). Una esquina (en el sentido tradicional) se puede definir como la intersección de dos bordes, también se puede definir como un punto para el cual ha dos direcciones de bordes dominantes diferentes en el vecindario local del punto. Los puntos de esquina fueron atractivos a que se forman a partir de dos o más bordes los bordes generalmente definen la frontera entre dos objetos diferentes o partes del mismo objeto: constituen puntos robustos, estables bien definidos. 76

92 Luego esos primeros algoritmos de detección de esquinas se desarrollaron de modo que la detección de bordes explícita a no era necesaria para la detección final de las esquinas, por ejemplo, se detectan las esquinas mediante la búsqueda de altos niveles de curvatura en el gradiente de la imagen. Entonces se observó que también estaban siendo detectados puntos en partes de la imagen que no eran esquinas en el sentido tradicional [7], por ejemplo un punto aislado que es un máximo o mínimo de intensidad local, los finales de un segmento de línea, o un punto en sobre una curva donde la curvatura es máxima localmente. En la práctica, la maoría de los llamados detectores de esquinas detectan puntos característicos en general, en lugar de esquinas en particular [7]. Así, los puntos resultantes de la detección de puntos característicos en general son conocidos como puntos de característicos o puntos de interés, pero el término esquina o punto de esquina es utilizado por la tradición [7]. Igualmente, los términos detector de puntos característicos (o detector de puntos de interés) detector de esquinas se utilizan como sinónimos Algoritmos de detección de puntos característicos La maoría de los detectores de puntos característicos asignan una medida de esquinidad a todos los píxeles de una imagen, aunque la manera de calcular la medida de esquinidad varía significativamente [6]. 77

93 Figura 3. Diagrama de flujo para los algoritmos de los detectores de puntos característicos [6]. La maoría de los algoritmos siguen los mismos pasos para la detección de puntos característicos [6], incluido el detector de puntos característicos de Shi-omasi. La Figura 3. muestra un diagrama de flujo de estos pasos [6]: 1. Aplicación del operador de esquinas (operador de puntos característicos): Este paso tiene como entrada la imagen por lo general unos pocos parámetros requeridos por el operador de esquinas. Para cada píxel en la imagen de entrada, el operador de esquinas se aplica para obtener una medida de la esquinidad para este pixel. La medida de esquinidad es simplemente un número que indica el grado en que el operador de esquinas cree que este píxel contiene una esquina (punto característico). Los algoritmos de detección de puntos característicos difieren en cómo el operador de esquinas hace esta medición, pero todos los algoritmos 78

94 consideran sólo los píxeles dentro de una pequeña ventana centrada en el píxel para el cual se hace la medición. La salida de este paso es un mapa de esquinidad. Dado que para cada píxel de la imagen de entrada se aplica el operador de esquinas para obtener una medida de esquinidad, el mapa de esquinidad tiene las mismas dimensiones que la imagen de entrada puede considerarse como una versión procesada de la imagen de entrada.. Umbralización del mapa de esquinidad: Los detectores de puntos característicos definen las esquinas (puntos característicos) como los máximos locales en el mapa de esquinidad. Sin embargo, hasta este momento el mapa de esquinidad contendrá muchos máximos locales que tienen una medida de esquinidad relativamente pequeña no son verdaderas esquinas. Para evitar reportar estos puntos como esquinas, el mapa de esquinidad suele umbralizarse. odos los valores en el mapa de esquinidad por debajo del umbral se establecen en cero. La elección del umbral depende de la aplicación, a menudo requiere experimentación de ensao error. El umbral debe ser lo suficientemente alto para eliminar los máximos locales que no son verdaderas esquinas, pero lo suficientemente bajo para conservar los máximos locales correspondientes a esquinas verdaderas. En la práctica, rara vez ha un valor de umbral que eliminará todas las esquinas falsas retendrá todas las esquinas verdaderas así que un acuerdo debe hacerse dependiendo de los requisitos de la aplicación. 79

95 3. Supresión de no máximos: El mapa de esquinidad umbralizado sólo contiene valores distintos de cero alrededor de los máximos locales que necesitan ser marcados como esquinas (puntos característicos). Para localizar los máximos locales, se aplica la supresión de no máximos. Para cada punto en el mapa de esquinidad umbralizado, la supresión de no máximos establece la medida de esquinidad del punto a cero si su medida de esquinidad no es maor que la medida de esquinidad de todos los puntos dentro de una cierta distancia d min, asegurando así que la distancia entre dos máximos no sea menor a d min. Después de que la supresión de no máximos se aplica, las esquinas son simplemente los puntos distintos de cero que quedan en el mapa de esquinidad. Los resultados de la aplicación de cada uno de estos pasos sobre una imagen se ilustran en la Figura

96 Figura 3. 3 Ejemplo de los pasos de un típico detector de puntos característicos [6]. 81

97 3.1.3 El detector de puntos característicos Shi-omasi El detector de puntos característicos Shi-omasi constitue la primera operación del bloque de Detección de Puntos Característicos del algoritmo de cálculo automático de una homografía D de este proecto (ver Figura 3. 1), los puntos característicos x i detectados con el detector de Shi-omasi- en la imagen I ( posteriormente refinados hasta precisión subpíxel), la imagen I misma la imagen J constituen -en esencia- las entradas del bloque de Rastreo de Puntos Característicos que rastrea dichos puntos característicos x i dentro de la imagen J con el fin de estimar correspondencias de puntos en las imágenes. Independientemente del método utilizado para el rastreo de puntos entre dos imágenes, no todas las partes de una imagen contienen información completa del movimiento (el problema de la abertura): por ejemplo, sólo la componente vertical del movimiento puede ser determinada para un borde de intensidad horizontal. Para superar esta dificultad, los investigadores han propuesto el rastreo de puntos característicos. Sin embargo, ha un problema con los operadores de esquinidad propuestos. A menudo se basan en una idea preconcebida arbitraria de como debe lucir un punto característico. En otras palabras, están basados en la suposición de que buenos puntos característicos se pueden definir independientemente del método usado para rastrearlos. Los puntos característicos resultantes pueden ser intuitivos, pero no tiene garantía de ser los mejores puntos para que el algoritmo de rastreo produzca buenos resultados [8]. 8

98 Shi omasi proponen una definición de la calidad un punto característico más fundamentada. En lugar de introducir una noción a priori, ellos basan su definición sobre el método usado para rastrear puntos: un buen punto característico es aquel que puede ser rastreado con confiabilidad. Con este enfoque, un punto característico es escogido para rastrearse si solo si es suficientemente bueno para dicho propósito, de modo que el criterio de selección es óptimo por construcción [8]. Como se verá en la sección 3., es posible rastrear un punto característico de cuadro a cuadro si el sistema G[ p] v b, (3.1-1) opt representa buenas mediciones, si se puede resolver con confiabilidad. (En (3.1-1) G[ p ] es una matriz conocida como tensor de estructura local D (ver definición en la Sección 0) del píxel p por rastrear, b es un vector de mediciones conocido v opt es el vector de desplazamiento desconocido). Para que el sistema (3.1-1) represente buenas mediciones se pueda resolver con confiabilidad, la matriz G[ p ] debe estar por encima del nivel de ruido de la imagen también debe estar bien acondicionada. El requisito de nivel de ruido implica que ambos autovalores 1, de G[ p ] deben ser grandes, mientras que el requisito de acondicionamiento significa que los autovalores 1, de G[ p ] no pueden diferir en varios órdenes de magnitud. Dos autovalores pequeños (i.e: 1 0 ) significan un 83

99 perfil de intensidad aproximadamente constante dentro de una ventana. Un autovalor grande un autovalor pequeño (i.e: 1 0 ) corresponden a un patrón de textura unidireccional. Dos autovalores grandes (i.e: 1 0 ) puede representar esquinas, texturas sal pimienta, o cualquier otro patrón que se puede rastrear con confiabilidad [8]. En la práctica, cuando el autovalor más pequeño 1 es suficientemente grande para cumplir el criterio de ruido, la matriz G[ p ] por lo general está también bien acondicionada. Esto debido al hecho de que las variaciones de intensidad en una ventana están delimitadas por el máximo valor de píxel permitido, de modo que el maor autovalor no puede ser arbitrariamente grande [8]. Dado lo anterior, Shi omasi definen el operador de esquinidad M c( p ) como [8]: c c 1 autovalores de p M ( p) min G[ ] min, M ( p) 1 (3.1-) Y durante la umbralización del mapa de esquinidad, se acepta que el píxel p contiene un punto característico si M p (3.1-3) ( ) c, 1 donde es un umbral predefinido [8]. En la práctica para determinar el umbral primero se calcula el tensor de estructura local G[ p ] de todos los píxeles p dentro de la imagen I se determina el conjunto de autovalores menores 1 correspondientes a cada 84

100 G[ p ] calculado (i.e: el conjunto menor autovalor deg[ p ] p I). El umbral se determina como un porcentaje del máximo autovalor dentro de dicho conjunto de autovalores menores 1 hallados dentro de la imagen I de entrada, así k max menor autovalor deg[ p] p I k k 1. (3.1-4) 1max En la práctica, un umbral escogido a medio camino entre factor crítico [8]. 1max cero no constitue un continuación: El detector de puntos característicos Shi-omasi se expone formalmente a 85

101 Algoritmo 3. 1 Algoritmo del detector de puntos característicos Shi-omasi Entrada: Imagen de intensidad I, el tamaño wx w de la ventana w (ver sección 0), el Salida: Algoritmo: 1. Para cada píxel usando: valor de la constante k (ver (3.1-4)). Mapa que indica la posición, en coordenadas de píxel, de cada punto característico detectado. p ( p, p ) en la imagen x I calcular el tensor de estructura local D pxw pw x I ( x, ) I ( x, ) I ( x, ) x x G[ p ], x px wx p w I ( x, ) I ( x, ) I ( x, ) x Nota: El tensor de estructura local no se define para píxeles en los extremos de la imagen I.. Construir el mapa de esquinidad mediante el cálculo de la medida de esquinidad M ( p ) para cada píxel p en la imagen c I : 1 M ( p) min autovalores deg[ p ]. c 3. Construir el mapa de esquinidad umbralizado: Umbralizar el mapa de esquinidad restableciendo a cero todas las medidas de esquinidad M ( p ) menores al umbral k (ver (3.1-4)). 1max 4. Realizar supresión de no máximos para encontrar máximos locales en el mapa de esquinidad umbralizado de modo que la distancia entre dos máximos no es menor que d min (ver sección 3.1.). c odos los píxeles distintos de cero que quedan en el mapa de esquinidad umbralizado contienen un punto característico. 86

102 El tensor de estructura local D Dada una imagen de intensidad bidimensional, esta imagen es una matriz discreta de muestras que será denotada por I, sea I( x, ) el valor de intensidad de la imagen I en el pixel p p ( px, p), donde x p son el par de índices enteros del píxel. Entonces el tensor de estructura D para un píxel p ( px, p) particular se define como x x pxw pw x I ( x, ) I ( x, ) I ( x, ) G[ p ], x px wx p w I x( x, ) I ( x, ) I ( x, ) (3.1-5) donde w x w se interpretan como el ancho el alto, respectivamente, de la ventana w centrada en el píxel p donde es calculado el tensor de estructura local D. Los valores I (, ) x x, I ( x, ) son las derivadas parciales muestreadas en el píxel ( x, ) dentro de la ventana w ; que, por ejemplo, pueden ser estimadas a partir de I mediante fórmulas de diferencias finitas (el operador de Sobel por ejemplo) Detección de puntos característicos con precisión subpíxel. La refinación a precisión subpíxel de los puntos característicos obtenidos con el detector Shi-omasi constitue la segunda última operación del bloque de Detección de Puntos Característicos del algoritmo de cálculo automático de una homografía D (ver Figura 3. 1). 87

103 La necesidad de coordenadas subpíxel para los puntos característicos se debe a que la Detección de Puntos Característicos es una operación de bajo nivel dentro del algoritmo de cálculo automático de una homografía D implementado: de la precisión de esta operación depende la precisión del algoritmo completo. Los puntos característicos detectados con el detector de Shi-omasi en el Algoritmo 3. 1 son puntos característicos en coordenadas de píxel: coordenadas enteras. Sin embargo, se requiere una ubicación con coordenadas decimales hasta cierta precisión. Esta es la precisión subpíxel. No se puede acceder al pixel con coordenadas decimales de la imagen, sin embargo se determina que el punto característico se encuentra precisamente en este punto con coordenadas decimales de la imagen: se supone la existencia una función intensidad continua subacente a la imagen. Figura 3. 4 Dos puntos característicos típicos: una esquina de un cuadrado (izquierda) un punto de ensilladura (derecha). Dado un punto característico detectado por el Detector de puntos característicos Shi-omasi, el algoritmo de refinación crea un sistema de ecuaciones para dicho punto 88

104 característico, la solución del sistema de ecuaciones constitue una refinación, en precisión, del punto característico inicial. En la Figura 3. 4 se muestra dos ejemplos de puntos característicos típicos: una esquina de un cuadrado un punto de ensilladura, pero que se han aumentado mucho, al punto de observarse los píxeles individuales. Se puede ver que ni la esquina ni el punto de ensilladura se ubican en un solo píxel. La esquina el punto de ensilladura está esparcidos (de hecho, en la práctica es casi imposible que los puntos característicos se ubiquen exactamente en coordenadas de píxeles). Considere un punto q k arbitrario en el vecindario del punto característico p ( x, ) estimado inicialmente (que tiene coordenadas enteras). En el caso de los ejemplos de puntos característicos mostrados en la Figura 3. 4, algunos puntos q k en el vecindario del punto característico p sin refinar se verían como en la Figura 3. 5: Figura 3. 5 El punto característicos p varios ejemplos de puntos arbitrarios q k en la imagen I para los ejemplos de la Figura

105 El algoritmo se basa en la observación de que para cada punto q k situado dentro del vecindario del punto p se verifica que el producto escalar I[ ] q p q es aproximadamente cero, sujeto al ruido de la imagen de la medición [9]. Veamos, dado que el punto q k se encuentra mu cerca del punto característico p (en la figura el punto q k se dibuja no tan cercano por motivos de ilustración), entonces el punto en sólo una de las dos situaciones siguientes: k q k puede ubicarse k del punto 1. Sobre una región plana (aproximadamente).. Sobre un borde (aproximadamente). En los ejemplos de la Figura 3. 5 anterior, si se repasan todas las posibles posiciones q k dentro del vecindario del punto característico p se puede verificar lo anterior. En el caso de la primera posibilidad: el punto q k se ubica en una región aproximadamente plana (ver los ejemplos de los puntos q, q 3 en la Figura 3. 5). Esto significa que el gradiente en q es aproximadamente cero ( I[ q ] 0). Por lo tanto, el producto escalar k k siguiente será aproximadamente cero (cualquiera que sea la posición de ubique en una región plana): q k siempre que se 0. I q p q (3.1-6) k k En el caso de la segunda posibilidad: el punto 90 q k se ubica aproximadamente sobre un borde (ver el ejemplo del punto q 1 en la Figura 3. 5), el gradiente I[ q k ] será algún

106 vector no nulo (debido a que los valores de píxeles están cambiando en el vecindario de ) aproximadamente perpendicular al borde. Y el vector pq k será un vector aproximadamente paralelo al borde. Entonces en este caso, los vectores I[ q k ] p q k serán aproximadamente perpendiculares. En la Figura 3. 6 se ilustran estos hechos para el caso del punto de ensilladura: qk Figura 3. 6 Ilustración de cuadratura entre el gradiente I[ q k ] el vector pq k. Así que de nuevo, el producto escalar entre I[ q k ] el vector pq k será aproximadamente cero (cualquiera que sea la posición de q k siempre que se ubique aproximadamente sobre un borde): 0. I q p q (3.1-7) k k Usando varios puntos q k en el vecindario del punto característico p se pueden obtener varias ecuaciones de la forma (3.1-6) ((3.1-7)) formar un sistema de ecuaciones para el punto característico p. 91

107 La formación de dicho sistema de ecuaciones procede como sigue. Sean q 1,, los puntos arbitrarios escogidos en el vecindario del punto característico p sin refinar, entonces el punto característico refinado, p, es un punto que minimiza todos los productos escalares: q n q p q I I n n q p q n Se puede expresar de manera equivalente, que el punto característico refinado (3.1-8) p es un punto que minimiza todas las funciones residuales: I I q q p q ε Iqn Iqn p qn εn (3.1-9) El problema de optimización multiobjetivo (3.1-9) se convierte en un problema de optimización escalar utilizando la combinación lineal uniforme de los objetivos: el punto característico refinado p es un punto que minimiza la suma de las funciones residuales: ε ε I q I q p q I q I q p q I k I k k q q p q k 1 n n n n. (3.1-10) 9

108 Si el punto característico refinado p minimiza dicha suma de las funciones residuales ε ε, entonces es razonable construir un sistema de ecuaciones, para resolver p, 1 n estableciendo la suma vectorial ε 1 ε en (3.1-10) al vector cero: n k k I I q k qk p qk 0 I qk I qk p I qk I q k qk k I k I k I k I k q q p q q q k. (3.1-11) k k Una solución exacta para el punto característico refinado p no siempre es alcanzable qk q k (en (3.1-11)) no es en general invertible. En cambio el k porque la matriz I I punto característico refinado p se obtiene como una solución aproximada al sistema en (3.1-11). en general contiene maor precisión que el punto característico p sin refinar. Una vez obtenido la refinación ahora el centro de la ventana de búsqueda de puntos arbitrarios p del punto característico, el algoritmo establece q k en el vecindario de este nuevo punto característico refinado p, e itera de esta manera hasta que la refinación obtenida respecto a la iteración anterior es menor que un umbral de precisión definido o, hasta que se alcanza un máximo número de iteraciones [9]. Equation Section (Next) 93

109 3. Rastreo de puntos característicos El rastreador de puntos KL, en su implementación piramidal, constitue el bloque de Rastreo de Puntos Característicos del algoritmo de cálculo automático de una homografía D de este proecto (ver Figura 3. 1), los puntos característicos x i detectados en la imagen I, hasta precisión subpíxel, la imagen I misma la imagen J constituen - en esencia- las entradas del bloque de Rastreo de Puntos Característicos. En este bloque, para cada punto característico x i detectado en la imagen I se obtiene una estimación, de su posición respectiva dentro de la imagen J (se rastrea en la imagen J ). Así se constitue una correspondencia estimada x x i i entre el punto -característico- x i de la imagen I el punto x i de la imagen J. x, i El rastreador Kanade-Lucas-omasi (KL) se propuso inicialmente, en 1981, por Bruce d. Lucas akeo Kanade (rastreador KL), principalmente con el propósito de tratar con el problema de que las técnicas tradicionales de registro de imágenes son generalmente costosas. En 1991 Carlo omasi Kanade mejoran la técnica al procesar puntos de la imagen que son adecuados para el algoritmo de rastreo [10]. El rastreador KL hace uso de la información de la intensidad espacial para dirigir la búsqueda de las mejores correspondencias entre los puntos de las imágenes. Es más rápido que las técnicas tradicionales al examinar muchas menos posibles correspondencias entre las imágenes [10]. A través de las secciones siguientes se expone el algoritmo del 94

110 rastreador Kanade-Lucas-omasi (KL), así como la implementación piramidal del mismo propuesta por Jean-Yves Bouguet Implementación piramidal del rastreador Lucas-Kanade-omasi Sean I J dos imágenes bidimensionales en escala de grises. Las dos cantidades I( x ) I( x, ) J( x ) J( x, ) son entonces el valor de intensidad de las dos imágenes en la ubicación x ( x, ), donde x son las dos coordenadas de píxel de un punto un genérico de la imagen. La imagen I algunas veces se referencia como la primera imagen, la imagen J como la segunda imagen. Por cuestiones prácticas, las imágenes I J son funciones discretas (o matrices), el vector de coordenadas del píxel de la esquina superior izquierda es (0, 0). Sean n x n el ancho el alto de las dos imágenes. Entonces el vector de coordenadas del píxel de la esquina inferior derecha es ( n 1, 1) x n. Considere un punto u ( ux, u) en la primera imagen I. El objetivo del rastreo de características es encontrar la ubicación v u d ( ux dx, u d ) en la segunda imagen J de modo que I( u ) J( v ) son similares. El vector d ( dx, d) es la velocidad de la imagen en x, también conocido como el flujo óptico en x. Debido al problema de la apertura, es esencial definir la noción de similitud en el sentido de 95

111 vecindario bidimensional. Sean w x w dos enteros. Se define la velocidad de imagen d como el vector que minimiza la función residual definida como sigue [11]: uxwx uw ( d ) ( dx, d ) I( x, ) J( x dx, d ). (3.-1) xux wx u w Obsérvese que siguiendo esa definición, la función de similitud se mide en un vecindario de la imagen de tamaño (w 1) (w 1). Este vecindario también se llamará ventana de integración. Los valores típicos para x w x w son, 3, 4, 5, 6, 7 pixeles [11]. 3.. Descripción del algoritmo de rastreo Los dos componentes clave para cualquier rastreador de características son la precisión robustez. El componente de precisión se refiere a la precisión de subpíxel local del rastreo. Intuitivamente, una ventana de integración pequeña sería preferible con el fin no suavizar los detalles contenidos en las imágenes (i.e: valores pequeños de w x w ). Esto es especialmente necesario en áreas con oclusión dentro de las imágenes donde posiblemente dos subcuadros de imagen se mueven con velocidades mu diferentes [11]. El componente de robustez se refiere a la sensibilidad del rastreo con respecto a los cambios de iluminación, el tamaño del movimiento de la imagen,... En particular, con el objetivo de manejar movimientos grandes, es intuitivamente preferible escoger una ventana de integración grande. En efecto, considerando sólo la ecuación (3.-1), es preferible tener 96

112 d x w d w (a menos que se disponga de alguna información previa al rastreo). Por x tanto, existe un compromiso natural entre la precisión local la robustez al elegir el tamaño de la ventana de integración. Para proporcionar una solución a ese problema, se propone una implementación piramidal del clásico algoritmo Lucas-Kanade. Una implementación iterativa del cálculo del flujo óptico Lucas-Kanade provee suficiente precisión de rastreo local [11] Representación piramidal de una imagen Se definirá la representación piramidal de una imagen genérica I de tamaño nx n. Sea 0 I I la imagen nivel cero th. Esta imagen es esencialmente la imagen de maor resolución (la imagen en bruto o sin procesar). El ancho el alto de la imagen en ése nivel se define como n 0 x n x n 0 n. La representación piramidal se construe entonces de manera recursiva: se calcula 1 I a partir de 0 I, a continuación se calcula I a partir de 1 I, así sucesivamente... Sea L 1,, un nivel piramidal genérico, sea L 1 I la imagen en el nivel L 1. Se denota por L 1 n x L 1 n al ancho al alto de la imagen L 1 I, respectivamente. La imagen L I es entonces definida como sigue [11]: 97

113 L 1 L1 I ( x, ) I ( x, ) (3.-) 1 16 ( 1, 1) ( 1, 1) ( 1, 1) ( 1, 1). L1 L1 L1 L1 I (x 1, ) I (x 1, ) I ( x, 1) I ( x, 1) L1 L1 L1 L1 I x I x I x I x Para que la definición de los valores de intensidad de L I según (3.-) sea válida para L L todos los píxeles ( x, ) [0, n ] [0, n ] (el ancho el alto de x L I son L n x L n respectivamente), es necesario definir valores de intensidad de L 1 I en los píxeles de la forma ( 1, ), ( x, 1), L 1 ( nx, ) 1 ( xn, L ) con 1 x L 1 n x 1. L 1 n Específicamente [11]: Para x n n L1 L1 1 x 1 se definen L1 L1 I ( 1, ) I (0, ), L1 L1 I ( x, 1) I ( x, ), L1 L1 L1 L1 I ( nx, ) I ( nx 1, ), L1 L1 L1 L1 I ( x, n ) I ( x, n 1). (3.-3) Dadas estas definiciones, entonces la ecuación (3.-) sólo está bien definida para valores de x tales que L 1 0 x n x 1 L 1 0 n 1. Por lo tanto, el ancho L n x el alto L n de [11]: L I son los maores números enteros que satisfacen las dos condiciones siguientes L 1 L n x 1 nx, (3.-4) 98

114 n L L 1 n 1. (3.-5) Las ecuaciones (3.-), (3.-4) (3.-5) se utilizan para construir de forma recursiva las L L representaciones piramidales de las dos imágenes I J : { I } L0,, L { J } L0,, L. El valor L m es la altura de la pirámide (heurísticamente elegido). Valores prácticos de m m L m son, 3, 4 [11]. Para los tamaños de imagen típicos, no tiene sentido ir por encima de un nivel 4. Por ejemplo, para una imagen I de tamaño de , las imágenes I 1, I, 3 I son de los tamaños respectivos 30 40, , Ir más allá del nivel 4 no tiene mucho sentido en la maoría de los casos [11]. La motivación central detrás de representación piramidal es ser capaz de manejar grandes movimientos de píxeles 4 I (maores que los tamaños de la ventana de integración w x w ). Por lo tanto la altura de la pirámide ( L m ) deben ser escogida también de acuerdo al máximo flujo óptico previsto en la imagen [11]. La siguiente sección describe la operación de rastreo en detalle que permite comprender mejor este concepto Rastreo de características piramidal Recordando el objetivo del rastreo de características: para un punto u dado en la imagen I, encontrar su correspondiente ubicación v u d en la imagen J, o alternativamente encontrar su vector de desplazamiento d (véase la ecuación (3.-1)). 99

115 Para L 0,, Lm, defina L L L u ( ux, ux) como las coordenadas correspondientes del punto u en las imágenes piramidales L I. Siguiendo la definición de las ecuaciones de representación piramidal (3.-), (3.-4) (3.-5), los vectores L u se calculan como sigue: L u u. (3.-6) L La operación de división en la ecuación (3.-6) se aplica a las dos coordenadas de forma independiente ( así será en las operaciones de multiplicación que aparecen en las ecuaciones subsiguientes). Observe que, en particular, u 0 u. El algoritmo general de rastreo piramidal procede de la siguiente manera: en primer lugar, el flujo óptico se calcula en el nivel de pirámide más profundo L m. Luego, el resultado del cálculo se propaga al nivel superior Lm 1 en forma de una estimación inicial para el flujo óptico (en el nivel Lm 1). Dada la estimación inicial, el flujo óptico refinado es calculado en el nivel Lm 1, el resultado se propaga al nivel Lm así sucesivamente hasta el nivel 0 (la imagen original). Pasemos ahora a describir la operación recursiva entre dos niveles genéricos L 1 L en los detalles matemáticos. Suponga que una estimación inicial del flujo óptico en el nivel L, denotada por g ( g, g ) L L L x x, está disponible a partir de los cálculos realizados desde el nivel L m hasta el nivel L 1. Entonces, con el fin de calcular el flujo óptico en el 100

116 nivel L, es necesario encontrar el vector de desplazamiento de píxel residual L L L d ( dx, d) que minimiza la función de error de la nueva imagen [11]: L ux wx L ux w L L L L L L L L L L L ( d ) ( dx, d ) I ( x, ) J ( x gx dx, g d ). (3.-7) L L xux wx u w Observe que la ventana de integración es de tamaño constante (w 1) (w 1) para todos los valores de L. Note que la estimación inicial del vector de flujo x L g se utiliza para pre-trasladar el parche de imagen en la segunda imagen J. De esta forma, el vector de flujo residual L L L d ( dx, d) es pequeño por lo tanto es fácil de calcular a través de un rastreo estándar Lucas Kanade [11]. Los detalles del cálculo del flujo óptico residual L d se describirán en la siguiente sección Por el momento, se va a asumir que este vector es calculado (para cerrar el bucle principal del algoritmo). Entonces, el resultado de este cálculo se propaga al siguiente nivel L 1 al pasar la nueva estimación inicial L1 g, obtenida de la expresión: 1 g L ( g L d L ). (3.-8) El vector residual de flujo óptico del siguiente nivel, 101 L1 d, se calcula entonces a través del mismo procedimiento. Este vector, obtenido por medio del cálculo flujo óptico (descrito en la sección 3...3), minimiza el funcional L 1 L 1 ( d ) (como el de la ecuación (3.-7)). Este procedimiento continúa hasta que la resolución de imagen más fina se alcanza ( L 0.). El

117 algoritmo se inicializa estableciendo a cero la estimación inicial para el nivel L m (no se dispone de estimación inicial en el nivel más profundo de la pirámide) [11]: L g m (0, 0). (3.-9) Figura 3. 7 Ilustración del rastreo de características piramidal. La solución de flujo óptico final d (refiérase a la ecuación (3.-1)) está entonces disponible después del cálculo más fino del flujo óptico más fino: 0 d g d 0. (3.-10) Note que esta solución puede expresarse en la forma extendida siguiente: L m L L d d. (3.-11) L0 10