Detección Jerárquica de Móviles sobre Geometrías de Fóvea Adaptativa



Documentos relacionados
EL MODELO DE DATOS RASTER

Movimiento a través de una. José San Martín

El objetivo principal del presente curso es proporcionar a sus alumnos los conocimientos y las herramientas básicas para la gestión de proyectos.

Gestión de proyectos

El Outsourcing como Opción Estratégica

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

IMPLANTACIONES DE ERP. CÓMO CONSEGUIR EL ÉXITO? MasEmpresa

CASO PRÁCTICO. ANÁLISIS DE DATOS EN TABLAS DINÁMICAS

Medias Móviles: Señales para invertir en la Bolsa

Práctica 5. Curso

e-netcamanpr INDICE: Manual de Instalación

Accesibilidad web GUÍA FUNCIONAL

Operación Microsoft Access 97

1.1 EL ESTUDIO TÉCNICO

MÓDULO 2: TRATAMIENTO DE DATOS CON HOJA DE CÁLCULO. Tema 1: Gestión de listas de datos y tablas dinámicas. Leire Aldaz, Begoña Eguía y Leire Urcola

Robótica y visión artificial. Miguel Cazorla Grupo de Visión Robótica Universidad de Alicante

5.4. Manual de usuario

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI

En este capítulo se describe la forma de cómo se implementó el sistema de video

Base de datos en Excel

App para realizar consultas al Sistema de Información Estadística de Castilla y León

PERFIL DEL PUESTO POR COMPETENCIAS Sepa cómo construirlo y evitar bajos desempeños posteriores

SERVIDOR WEB PARA ACCESO EN TIEMPO REAL A INFORMACIÓN METEOROLÓGICA DISTRIBUIDA

7. Conclusiones. 7.1 Resultados

Seminario Electrónico de Soluciones Tecnológicas sobre Content Networking

La presente tesis pretende que los estudiantes observen la teoría de las acciones de control

Probabilidades y Estadística (Computación) Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires Ana M. Bianco y Elena J.

Tema 3. Medidas de tendencia central Introducción. Contenido

Capítulo 5. Cliente-Servidor.

CAPITULO 2 CARACTERÍSTICAS ESPECIALES

SCT Software para la calibración de transductores de fuerza. Versión 3.5. Microtest S.A.

Seminario Electrónico de Soluciones Tecnológicas sobre VPNs de Extranets

Autor: Javier Yáñez García

Operaciones Morfológicas en Imágenes Binarias

Volkswagen, Audi y Škoda

CAPÍTULO VI PREPARACIÓN DEL MODELO EN ALGOR. En este capítulo, se hablará acerca de los pasos a seguir para poder realizar el análisis de

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

Elementos requeridos para crearlos (ejemplo: el compilador)

by Tim Tran:

Tecnología IP para videovigilancia... Los últimos avances han hecho posible conectar cámaras directamente a una red de ordenadores basada en el

CAPITULO 6 SISTEMA DE DETECCION DE INTRUSOS

LABORATORIO Nº 2 GUÍA PARA REALIZAR FORMULAS EN EXCEL

Gestión de la Configuración

COMPARACIÓN DE ÁREAS DE FIGURAS POR ESTUDIANTES DE PRIMERO DE MAGISTERIO

Análisis de los datos

RESULTADOS CONSULTA CIUDADANA VIRTUAL. Consulta Laboral en Línea

forma de entrenar a la nuerona en su aprendizaje.

Operación de Microsoft Excel

1.1. Introducción y conceptos básicos

E-learning: E-learning:

Microsoft Access proporciona dos métodos para crear una Base de datos.

ÍNDICE DISEÑO DE CONTADORES SÍNCRONOS JESÚS PIZARRO PELÁEZ

Transformación de binario a decimal. Transformación de decimal a binario. ELECTRÓNICA DIGITAL

LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN

CAPÍTULO I. Sistemas de Control Distribuido (SCD).

CAPITULO II CARACTERISTICAS DE LOS INSTRUMENTOS DE MEDICION

1.2 SISTEMAS DE PRODUCCIÓN

CAPÍTULO 7 7. CONCLUSIONES

SISTEMAS DE SEGURIDAD DE RECONOCIMIENTO FACIAL

TEMA 3: EN QUÉ CONSISTE?

Oferta tecnológica: Vehículos autónomos para transporte de materiales en almacenes

Programa Tracker : Cómo generar Vectores y sumarlos

GESTIÓN Y CONTROL DEL DESARROLLO E IMPLANTACIÓN DE APLICACIONES

GUÍA PARA UN ESCANEO ÓPTIMO

Resumen ÁREA DE FACTURACIÓN::INFORMES::Pedidos Detalle Resumen ÁREA DE

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Figura 1. Símbolo que representa una ALU. El sentido y la funcionalidad de las señales de la ALU de la Figura 1 es el siguiente:

La composición de una imagen, reglas

GANTT, PERT y CPM. Figura 5.3: Carta GANTT 3.

Metodologías de diseño de hardware

MANUAL DE AYUDA HERRAMIENTA DE APROVISIONAMIENTO

6. DESCRIPCIÓN DEL SOFTWARE

Capitulo V Administración de memoria

Evolución de los Precios del Transporte en la Comunidad de Madrid. Secretaría de Medio Ambiente y Desarrollo Sostenible

El Futuro de la Computación en la Industria de Generación Eléctrica

CASO PRAÁ CTICOPREÉ STAMOS. CAÁLCULO DE CUOTAS

1. CUENTA DE PÉRDIDAS Y GANANCIAS ANALÍTICA

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

U.T. 2 Planificación de Proyectos

Selenne Business Intelligence QUÉ ES BUSINESS INTELLIGENCE?

Módulo I - Word. Iniciar Word Finalizar Word Definición de elementos de pantalla Escribir texto en un documento El cursor...

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

Sistemas de Información Geográficos (SIG o GIS)

POSICIONAMIENTO WEB. Una web sin posicionamiento tiene muy limitado el tráfico y una página web sin tráfico es comercialmente inútil.

Capítulo 12: Indexación y asociación

INTRODUCCION. Ing. Camilo Zapata Universidad de Antioquia

Soporte Técnico de Software HP

Unidad I. 1.1 Sistemas numéricos (Binario, Octal, Decimal, Hexadecimal)

La Pirámide de Solución de TriActive TRICENTER

En las estructuras de datos, muchas de las implementaciones o mapeos de problemas, sus

TEMA 3: MÉTODO CONTABLE. LAS CUENTAS

GedicoPDA: software de preventa

La explicación la haré con un ejemplo de cobro por $ más el I.V.A. $16.00

Electrónica Digital II

4 Localización de terremotos

Inteligencia de Negocio

Fuente:

Generación de funciones lógicas mediante decodificadores binarios con salidas activas a nivel alto

Regulador PID con convertidores de frecuencia DF5, DV5, DF6, DV6. Página 1 de 10 A Regulador PID

Manual de usuario para Android de la aplicación PORTAFIRMAS MÓVIL

Transcripción:

Detección Jerárquica de Móviles sobre Geometrías de Fóvea Adaptativa J. A. Rodríguez, C. Urdiales, P. Camacho, F. Sandoval Dpto. Tecnología Electrónica E.T.S. Ingenieros de Telecomunicación Universidad de Málaga Campus de Teatinos, 29071 - Málaga Resumen Este trabajo presenta un algoritmo de detección de movimiento basado en estimación de fondo. La principal novedad del mismo reside en el uso de imágenes multirresolución donde el área de máxima resolución puede reposicionarse sobre cualquier parte del campo de visión. Las imágenes son procesadas mediante una estructura multinivel que permite mantener un flujo de datos acotado con ángulos mayores de visión utilizando resoluciones decrecientes. La principal ventaja del algoritmo es su gran velocidad. El método ha sido satisfactoriamente probado como mecanismo atencional con aplicaciones computacionalmente costosas para mejorar el tiempo de proceso. 1 Introducción La estimación de movimiento es una tarea básica en el campo de la visión artificial, relacionada con el seguimiento, reposicionado de cámaras y otras tareas de percepción activa. Gran parte de los métodos de estimación de movimiento se basan en el cálculo del flujo óptico [1], pero conllevan una importante carga computacional. Los métodos de estimación paramétrica [2][3] son más simples, pero aún demasiado costosos. Dado que la carga computacional asociada a procesar una secuencia de imágenes dada aumenta con el tamaño del campo de visión (CV) y con su resolución, la mayoría del hardware no permite simultáneamente un amplio campo de visión y alta resolución, salvo para algoritmos simples o inexactos, usualmente limitados a secuencias que contienen móviles con una velocidad muy acotada. Las implementaciones en tiempo real suelen utilizar dos simplificaciones básicas para alcanzar altas velocidades de procesado: i) reducción del CV (zoom o enventanado) y ii) reducción de la resolución (promediado o diezmado). La primera solución no es válida para tareas de percepción activa si los móviles se desplazan rápidamente, porque desaparecen de escena antes de poder estimar su velocidad de manera fiable con el fin de permitir su seguimiento por medio del movimiento de la cámara [4]. Por otro lado, la reducción de resolución no es válida para los algoritmos que dependen de un determinado nivel de detalle y ofrecen pobres resultados cuando se aplican sobre imágenes de baja resolución. Los sistemas de visión biológicos han inspirado una nueva solución al problema basándose en las características de variación espacial de la retina de los vertebrados, que en ocasiones presentan resoluciones variables en diferentes zonas del CV. Este tipo de visión se denomina foveal y presenta una zona de máxima resolución (fóvea) rodeada de anillos de resolución decreciente. La tarea de situar la fóvea sobre el área de interés del CV constituye el paradigma de la visión activa. Los sistemas de fóvea artificial han sido satisfactoriamente implementados en la última década [5][6][7], dando lugar al desarrollo de dos configuraciones principales: las geometrías log-polares y las cartesianoexponenciales. Los sistemas clásicos de visión foveal presentan la fóvea en una posición central fija y dado que los móviles cambian su posición en el espacio entre imágenes consecutivas de una secuencia, la cámara 1

debe ser constantemente reposicionada para percibir dichos móviles a la máxima resolución posible. Desafortunadamente se requiere un hardware de gran precisión para conseguir un movimiento suave y preciso de la cámara. Camacho y otros [9][10] han propuesto una alternativa construyendo nuevas topologías foveales que permiten el reposicionamiento de la fóvea sobre cualquier área de interés de la imagen sin necesidad de reajustes mecánicos de la cámara. También contemplan la posibilidad de cambiar dinámicamente el tamaño y proporciones de la fóvea para adaptarla a la forma del móvil, consiguiendo así que el volumen de datos de la imagen tienda a ser óptimo independientemente de la posición relativa de éste. El objetivo de este artículo es introducir un algoritmo rápido y simple para detectar uno o más objetos móviles en una secuencia mediante la estimación del fondo de la escena. Hemos elegido una aproximación clásica a la detección de movimiento que se ajusta perfectamente a este problema particular. La principal novedad de nuestro sistema reside en que trabaja con imágenes multirresolución que presentan una fóvea móvil de tamaño adaptativo. Para adaptar los algoritmos de procesado tradicionales a la imagen foveal se utiliza una estructura multinivel. Esta estructura es conocida como polígono foveal adaptativo y permite un rápido procesado sobre varios niveles de resolución simultáneamente. El trabajo se organiza de la siguiente manera: la sección 2 presenta una técnica de estimación del fondo de la escena. La sección 3 introduce diferentes geometrías foveales y ofrece una discusión acerca de sus ventajas y desventajas. La sección 4 explica pormenorizadamente el algoritmo multirresolución de segmentación de móviles con fóvea de tamaño adaptativo. La sección 5 presenta algunos experimentos con secuencias reales para ilustrar el sistema descrito, mientras que la sección 6 comenta los resultados y futuras líneas de trabajo. 2. Estimación de fondo para detección de movimiento La detección de movimiento ha recibido una atención considerable dentro del campo de la visión artificial. Se han desarrollado numerosos métodos con este propósito, especialmente basándose en el cálculo o la estimación del flujo óptico. Desafortunadamente para estos métodos el flujo óptico es calculado habitualmente sobre toda la imagen, independientemente de la posición de los móviles en la escena. Debido a que el cálculo del flujo óptico es computacionalmente costoso, su estimación en zonas estáticas (aquellas en que no se produce movimiento de la escena) supone un gasto innecesario de recursos, inadmisible en aplicaciones de tiempo real. La existencia de grandes áreas estáticas es frecuente en aplicaciones relacionadas con video-vigilancia o supervisión del tráfico [11][12], de forma que sería interesante poder realizar una estimación rápida de las áreas en las que efectivamente se detecta la presencia de movimiento para realizar un procesado más exhaustivo exclusivamente sobre ellas. Nuestra aportación a la detección de movimiento se basa en una modificación del método de substracción de fondo, que ha resultado ser una técnica rápida y simple. Para ello es necesario almacenar una estimación del fondo de la escena para poder extraer los objetos que entran en la misma. El método clásico se basa en promediar el nivel de gris de un número determinado de imágenes, al que denominaremos ventana temporal, de acuerdo con la siguiente expresión: 1 t B( = I ( t' ) (1) N t' = t N donde B( es el fondo estimado en la posición (y) en el instante t, I( t ) representa el valor de la imagen en la posición (y) en el instante t, y N el número de imágenes de la ventana temporal. En este caso, los objetos que se mueven tienen menor peso en la contribución global al fondo que el resto. Sin embargo, si un objeto es lo suficientemente lento como para permanecer en la misma región de la imagen por un tiempo equivalente a la duración de la ventana temporal, será considerado parte del 2

(a) (b) (c) (d) Fig. 1: Estimación de fondo mediante: a) Enventanado temporal; b) Enventanado temporal con máscara; c) Olvido exponencial; d) Olvido exponencial con máscara fondo por tanto, inducirá a errores en la detección de móviles (fig. 1.a). Para solucionar este problema, el parámetro N debería ajustarse dinámicamente a la velocidad de los móviles presentes en la escena. Desafortunadamente, la obtención de un N óptimo resulta complicada en la práctica, por lo que gran parte de los sistemas de este tipo usan un N elevado. Sin embargo, al aumentar el volumen de datos a almacenar y procesar, se aumentan desmesuradamente los requerimientos del sistema. Una posible solución consiste en enmascarar dinámicamente la porción de la imagen donde se ha detectado movimiento para evitar que entre a formar parte del procedimiento de promediado del fondo. De esta forma, los objetos móviles nunca aparecen como parte del fondo, pero si permanecen total o parcialmente dentro del CV durante toda la ventana temporal, la nueva estimación del fondo se degenera en las regiones correspondientes a áreas ocultas por largos periodos de tiempo (fig. 1.b). El olvido exponencial resuelve el problema de la oclusión y no requiere el almacenamiento de un buffer de N imágenes porque la nueva estimación del fondo se realiza sobre la base de la estimación anterior: B( = (1 α ) B( t 1) + α I ( (2) siendo B( la estimación de fondo en el instante t, B(t-1) el fondo estimado previamente, I( la última imagen capturada y α un parámetro determinado empíricamente que define la velocidad del proceso de olvido. Aunque ahora el fondo no presenta partes ocultas, los objetos lentos aún distorsionan la estimación (fig. 1.c). Nuestra aportación ha consistido en aplicar el concepto de la máscara al método del olvido exponencial para combinar sus ventajas, de forma que el algoritmo sea capaz de adaptarse tanto a cambios en las condiciones de iluminación como a la presencia de objetos lentos. No hay áreas ocultas en el fondo estimado con este método mixto porque el sistema no se basa en la definición de una ventana temporal por tanto, su memoria va más allá de la aparición de objetos móviles en la escena (fig. 1.d). Ahora estos móviles son enmascarados y así no se incluyen como parte de la actualización del fondo, que se calcula de la siguiente manera: B( = M ( [(1 α) B( t 1) + α I ( ] + M ( B( t 1) (3) siendo M( una matriz binaria que presenta valores distintos a cero solo en aquellas posiciones donde se ha detectado movimiento, es decir: M ( = 1 si B( t 1) I ( M ( = 0 en otro caso > U (4) 3

(a) (b) Fig. 2: a) Enrejado foveal de fóvea desplazable y tamaño adaptativo; b) Polígono foveal donde B(t-1) se refiere al fondo previamente estimado, I( es la imagen actual y U un umbral estimado heurísticamente. El valor de U influye en la detección de movimiento en una imagen dada, porque los objetos o la porción de ellos cuyo nivel de gris sea similar al del fondo no serán detectados. Sin embargo, y gracias a la integración temporal a lo largo de la secuencia, esta dependencia no incluye términos de error graves porque tarde o temprano el móvil se situará en una zona lo suficientemente diferente al fondo para ser detectado. Una consideración final a tener cuenta es que este método depende fuertemente de la estimación inicial del fondo: si esa estimación es buena, el método funcionará apropiadamente. Existen dos formas de obtener dicha estimación inicial: supervisadamente, realizando una captura de la escena cuando no hay objetos móviles en ella, o de forma no supervisada, realizando un promediado de una gran cantidad de imágenes en un paso de inicialización previa, de forma que cualquier móvil cruce completamente el campo de visión durante la ventana temporal elegida. 3. Topologías multirresolución basadas en estructuras de fóvea adaptativa El hecho de trabajar con imágenes multirresolución supone una importante reducción del volumen de datos de entrada al sistema propuesto de detección de fondo, así como al método de detección de movimiento por sustracción que se presentará más adelante. Así, es posible reducir la carga computacional de ambos algoritmos por tanto, acelerar considerablemente la velocidad de proceso. Tal como se ha comentado previamente, las imágenes foveales presentan alta resolución sólo en una reducida área de la imagen, que tradicionalmente suelen coincidir con la zona central de ésta. Si el área de máxima resolución no puede reposicionarse, se requieren movimientos de cámara para situar la fóvea sobre las regiones de interés, que para nosotros serán aquellas en las que existe un móvil. 4

Nuestra propuesta consiste en utilizar una nueva arquitectura foveal que permite adaptar la forma y posición de la fóvea sin necesidad de mover la cámara y que recibe el nombre de geometría multirresolución de fóvea desplazada de tamaño adaptativo (GFDTA). Ésta se basa en las foveales cartesiano-exponenciales inicialmente propuestos por Bandera y Scott [13], que consisten en una cuadrícula simétrica que presenta una región central cuadrada de alta resolución, a la que se denomina fóvea, rodeada de un conjunto de anillos que presentan resolución progresivamente decreciente. En este caso, la disminución de resolución ocurre de forma no continua, al contrario que en las geometrías log-polares, que constituyen el segundo grupo tradicional de imágenes foveales. Las geometrías de fóvea centrada se definen mediante dos parámetros: m, que representa el número de anillos de resolución uniforme alrededor de la fóvea, y d, conocido como factor de subdivisión y que representa el número de subanillos dentro de cada anillo de resolución uniforme. Cada uno de los anillos alrededor de la fóvea presenta la mitad de resolución que el anillo inmediatamente anterior. Además de ser fácilmente implementables tanto en hardware como en software a partir de las tecnologías existentes, la simetría y estructura de estas geometrías las hace compatibles con la mayoría de las técnicas de procesado disponibles hoy en día para imagen digital, lo que supone una importante ventaja frente a las log-polares [8]. Asimismo, tal como se verá en el apartado siguiente, estas imágenes son apropiadas para almacenarse mediante estructuras jerárquicas de datos, lo que permite abstracción de la información y procesado multinivel. Si se desean evitar los movimientos de cámara, es interesante definir una nueva geometría que permita el posicionamiento de la fóvea en cualquier área de la imagen, y que vamos a denominar geometría de fóvea desplazada (GFD). Esta GFD necesita definirse mediante dos parámetros extra: s h y s v, que definen la posición relativa, horizontal y vertical respectivamente, de cada anillo frente al que lo rodea en términos de subanillos desplazados. Si bien a partir de las GFD puede llevarse a cabo el seguimiento de un móvil cualquiera en el campo de visión de la cámara, resulta obvio que si el tamaño de dicho móvil es mayor que la fóvea, se requieren varias fijaciones o reposicionamientos de ésta para percibirlo en su totalidad a la mayor resolución disponible, lo que deteriora gravemente la eficiencia del sistema. Asimismo, si el área de interés es menor que la fóvea, el volumen de datos de la imagen multirresolución es mayor al necesario, lo que supone un derroche de recursos. De acuerdo a lo expuesto anteriormente, la mejor opción es trabajar con geometrías multirresolución basadas en fóvea desplazada de tamaño adaptativo (GFDTA). Las GFDTA ofrecen fóveas rectangulares de distinto tamaño capaces de adaptarse completamente a la bounding-box de cualquier objeto móvil (fig. 2.a), de forma que el volumen de datos que presenta la imagen foveal es el óptimo. En estas geometrías, s h y s v pierden su sentido, ya que existen diferentes factores de subdivisión para cada lado de la fóvea. Así, las GFDTA se definen mediante cinco parámetros: el número de anillos de resolución (m) y factores de subdivisión izquierdo, derecho, superior e inferior (l, r, t y b respectivamente), siendo l y r el número de celdas en el lado izquierdo y derecho de cada anillo y t y b es el número de filas de celdas en el lado superior e inferior de cada anillo. La Fig. 2.a. presenta una GFDTA cuyos parámetros son m=2, l=2, r=10, t=14 y b=0. Haciendo uso de estas geometrías es posible efectuar el seguimiento de un móvil en alta resolución trabajando con el mínimo volumen de datos posible. Además, en el caso de que existan varios móviles simultáneamente en la imagen, será muy sencillo alternar la posición de la fóvea sobre cualquiera de ellos para un estudio en detalle. 4. Algoritmo de detección de movimiento multinivel La mayoría de los algoritmos de procesado trabajan sobre imágenes de resolución uniforme. En el caso de las geometrías foveales, es posible definir estructuras jerárquicas para la manipulación de los datos y su procesado, donde cada uno de los niveles de dichas estructuras presenta una resolución uniforme distinta. Para aplicar el algoritmo de detección de movimiento propuesto a imágenes multirresolución con geometrías GFDTA, proponemos el uso de una estructura conocida como polígono foveal. 5

Fig. 3: a) Fondo inicialmente estimado; b) y e) Imagen foveal centrada sobre el objeto detectado; c) Móvil extraido de b); d) Estimación del fondo actualizada durante la secuencia en el instante de tiempo correspondiente a e); f) Móvil extraido de e) Un polígono foveal es una estructura multinivel cuyos distintos niveles presentan áreas progresivamente mayores de la escena a la vez que disminuyen su resolución (fig. 2.b). Un conjunto de enlaces entre niveles consecutivos mantiene la correspondencia geométrica entre zonas de la imagen a diferentes niveles de resolución. Así los algoritmos de procesado pueden trabajar sobre varios niveles de resolución simultáneamente para procesar cada área de la escena con la resolución requerida. Inicialmente el polígono foveal asimétrico (PFA) se construye promediando los valores de cada conjunto de 2x2 celdas de un nivel dado i para dar lugar a una celda nueva en el siguiente nivel i+1. Posteriormente se establece un enlace entre las cuatro celdas originales y la nueva celda computada. Cuando todas las celdas del nivel i han sido procesadas, el conjunto de celdas computadas presenta una resolución mitad a la del nivel i por tanto, puede ser agrupado con el anillo i+1 para formar el nivel i+1 completo. El nivel 0 del PFA es precisamente la fóvea de la imagen y el PFA consta de tantos niveles como resoluciones distintas aparecen en la imagen. El último nivel del polígono foveal presenta el campo de visión total de la escena a la resolución más baja disponible, y se conoce como cintura (wais. Si se desea reducir aún más el número de celdas que presenta la cintura, puede construirse una pirámide sobre ella y seleccionar entre los niveles de ésta la resolución deseada, de forma que se trabaje con un bajo volumen de datos en operaciones que implican una alta carga computacional [9]. 6

Fig. 4: a) Estimación del fondo en el nivel waist; b) Nivel cintura de la imagen presentada en la fig. 3.b; c) Nivel cintura de la imagen presentada en la fig. 3.e El algoritmo aquí propuesto se aplica sobre el nivel cintura para trabajar lo más rápidamente posible. Realiza dos tareas diferentes: estimación de fondo y detección de movimiento. El algoritmo consta de los siguientes pasos: 1. Cálculo del PFA de la imagen actual de acuerdo con el método descrito anteriormente 2. Cálculo de la máscara de los objetos móviles en la escena 3. Actualización del fondo de acuerdo al algoritmo descrito en el apartado 2 4. Propagación de la máscara a la base del polígono para reposicionar la fóvea sobre potenciales móviles Con el objeto de calcular las máscaras de una imagen dada, la estimación de fondo disponible en ese momento es substraída al nivel cintura del PFA correspondiente a dicha imagen. El resultado de esta operación es un conjunto de nodos correspondientes a aquellas áreas de la escena cuya similitud con la estimación de fondo disponible supera un umbral. Este conjunto de nodos se podría usar como máscara, pero no se corresponde exactamente con el objeto detectado, debido a las partes del móvil cuya similitud con el fondo se encuentra por debajo del umbral. Para mejorar la compacidad de la máscara se aplica un procedimiento de filtrado gausiano; la máscara filtrada se aplica a la imagen para que sólo la parte correspondiente al fondo intervenga en su actualización según el método de olvido exponencial con máscara descrito mediante las ecs. 3 y 4. La máscara en el nivel waist está enlazada a una región de celdas de la imagen multirresolución que puede no estar totalmente cubierta por la fóvea. En ese caso, es necesario reposicionar la fóvea sobre dicha área y adaptar su tamaño al tamaño del potencial móvil. Así, tras la relocalización y adaptación de la fóvea, ésta presenta siempre el móvil a la mayor resolución disponible. El algoritmo descrito funciona bien para escenas interiores con condiciones de iluminación controladas. Sin embargo, y a pesar del procedimiento de crecimiento gausiano de la máscara, el sistema presenta problemas en casos en que el objeto, o parte de él, cruza zonas de la escena cuyo nivel de gris es similar a él mismo. De todas formas, se trata de un método que permite la extracción de móviles de forma rápida y eficaz para la posterior aplicación sobre áreas reducidas, que corresponden a las áreas de interés ocupadas por móviles, de algoritmos más complejos. Además, la estructura presentada permite la aplicación de algoritmos multietapa y multinivel sobre distintos niveles para trabajar en cada caso con la resolución más adecuada. 5. Experimentos y resultados El algoritmo propuesto ha sido utilizado con un gran número de secuencias de vídeo capturadas para diferentes condiciones de iluminación, un número aleatorio de imágenes y móviles con distintas velocidades. El movimiento de los objetos no estaba sujeto a ninguna limitación, de forma que éstos 7

eran libres de realizar cualquier trayectoria en el espacio 3D del entorno de la cámara y a cualquier velocidad (dentro de unos límites prácticos). Las secuencias de vídeo fueron adquiridas en 256 niveles de grises mediante una cámara Pal KPD50 de Hitachi entrelazada y un frame-grabber basado en el DSP C44 de Texas Instruments. La frecuencia de captura fue de 15 Hz, aunque se han usado secuencias pregrabadas para demostrar que la velocidad de procesado puede ser superior. Todos los experimentos fueron realizados sobre un Pentium 200 MMX con el sistema operativo Linux. La fig. 3 presenta dos ejemplos de una secuencia dada, en la que un disquete es balanceado manualmente a través del campo de visión. La fig. 3.a muestra la estimación inicial del fondo previa a la aparición del disquete en la escena. La fig. 3.b es la primera imagen de la secuencia en la que aparece el disquete, la fig. 3.c muestra el resultado de la extracción, y la fig. 3.d presenta la estimación de fondo actualizado a posteriori. Se puede apreciar que la presencia de móvil en la escena no influye en la nueva estimación del fondo, que reflejará, por otra parte, posibles cambios de iluminación de la escena o sombras que permanezcan un tiempo comparable en relación con el parámetro α que definía la velocidad del proceso de olvido exponencial. La fig. 3.e muestra una situación en la que el móvil cruza la escena desde una posición más cercana a la cámara, probando que tanto la detección del móvil como la actualización del fondo funcionan aún en situaciones en que el móvil oculta gran parte del campo de visión. La estimación del fondo obtenida durante la secuencia de la fig. 3 aparece en la fig. 4.a. Las figuras 4.b y 4.c muestran el nivel waist del polígono foveal asociado a las figuras 3.b y 3.e respectivamente. En este caso se ha trabajado con dos anillos y fóvea, de forma que el algoritmo sólo necesita manejar 4K celdas en el nivel cintura, en lugar de trabajar sobre los 64K (256x256) píxeles de una imagen de resolución uniforme con el mismo campo de visión. Para mostrar las ventajas de usar una estructura multinivel, el sistema de detección de movimiento propuesto fue aplicado a imágenes de resolución uniforme con 256x256 píxeles, y a una serie de diferentes topologías foveales presentando un número creciente de anillos de resolución. Los resultados obtenidos se muestran en la tabla I. El algoritmo propuesto se ha usado en combinación con algunas tareas de visión para mejorar sus tiempos de proceso. En primer lugar, se empleó como fase de segmentación previa por movimiento al sistema de reconocimiento de objetos propuesto en [14]. Este sistema necesita 0.35 segundos para la segmentación por niveles de gris y 0.25 segundos para la identificación de un objeto trabajando sobre un Pentium 200 MMX. Nuestro algoritmo requiere, sobre la misma máquina, de tan sólo 2.75 mseg. para realizar la segmentación por movimiento del objeto sobre el fondo. De esta forma se ha incrementado la velocidad de extracción y procesado de 1 6 a 4 imágenes por segundo. Un segundo experimento consistió en usar este sistema como estimación previa para aplicar el algoritmo de cálculo de flujo óptico propuesto por Anandan [1] sólo sobre regiones en las que existe movimiento. De esta forma, dicho algoritmo aplicado a la secuencia presentada en la figura 3 mejoró desde 0.0425 imágenes por segundo cuando se aplicaba a toda la escena a 0.679 imágenes por segundo aplicándolo sólo a las regiones donde se había detectado previamente movimiento. El cálculo de flujo óptico basado en métodos paramétricos [15] también mejoró considerablemente aplicando una etapa previa de segmentación de fondo: el cálculo del flujo óptico de primer orden pasó de 6 imágenes por segundo a 62 imágenes por segundo, aunque los resultados dependieron mucho del tamaño de la fóvea, en definitiva, del móvil y el área que ocupa en su desplazamiento en cada caso. Topología Tiempo de extracción Tiempo de actualización del Porcentaje del volumen de datos del objeto fondo respecto a la resolución uniforme Resolución Uniforme 15 ms 35 ms 100 % Fóvea & 2 anillos 0.75 ms 2 ms 6,25 % Fóvea & 3 anillos 0. 2 ms 0.5 ms 1.56 % Tabla I: Tiempo de proceso para diferentes topologías 8

6. Conclusiones y trabajo futuro Este trabajo presenta un sistema atencional que ofrece una segmentación rápida basada en movimiento usando técnicas multirresolución. El sistema se basa en la construcción de un modelo del fondo de la escena que es continuamente actualizado. Su principal característica es que resulta lo suficientemente rápido sobre un PC estándar como para usarlo de etapa de preprocesado de algoritmos más lentos y complejos que se empleen en tareas específicas de visión artificial como la estimación de velocidad, reconocimiento de objetos o cálculo del tiempo de colisión. En un trabajo futuro se plantea la posibilidad de aplicar a la construcción del polígono foveal (PFA) el principio de enlace adaptativo [13]. Este paso evita la pérdida de información topológica entre los distintos niveles de resolución, lo que permite que el número de celdas que representan al móvil en el nivel cintura quede minimizado y que la segmentación sea más robusta y fiable. 7. Agradecimientos Este trabajo ha sido parcialmente financiado por la Comisión Interministerial de Ciencia y Tecnología (CICYT), en su Proyecto Nº TIC098-0562. 8. Referencias [1] P.Anandan, Measuring Visual Motion from Image Sequences. PhD. thesis, Univ. of Massachusetts, Amherst, MA, 1987. COINS TR 87-21. [2] S.M.Smith, J.M.Brad "SUSAN-A New Approach to Low Level Image Processing", in Proceedings of the International Journal of Computer Vision, 23:1, pp. 45-78, 1997. [3] A.Blake, M.Isard, D.Reynard, "Learning to track curves in motion", in Proceedings of the IEEE Int. Conf. Decision Theory and Control, pp. 3788-3793, 1994. [4] M.J.Swain, M.A.Striker, Promising directions in Active Vision, in Proceedings of the International Journal of Computer Vision, 11:2, pp. 109-126, 1993. [5] A.S.Roger, E.L.Schwartz, "Design considerations for a space-variant visual sensor with complex logarithmic geometry", in Proceedings of the 10 th Internatnl. Conference on Pattern Recognition, pp. 278-285, 1990. [6] J.Van der Spiegel, G.Kreider, C.Claeis, I.Debuschere, G.Sandini, F.Fantini, G.Soncini, "A foveated retinalike sensor using CCD technology", in Analog VLSI Implementation of Neural Systems, C. Mead, M.Ismail, Eds., Kluwer Acad. Publ., The Netherlands, 1989. [7] M.Tistarelli, G.Sandini, "Estimation of depth from motion using an antropomorphyc visual sensor", Image and Vision Computing, vol.8, No. 4, 1990, pp.271-278. [8] J.A.Hird, D.F.Wilson, "A comparison of Target Detection and Segmentation Techniques", SPIE Vol. 1191, Optical Systems for Space and Defense, 1989. [9] P.Camacho, F.Arrebola, F.Sandoval, Adaptive Fovea Structures for Space-Variant Sensors, in Proceedings of the IEEE Intnal. Conference on Image Analysis and Processing, Vol.1, pp. 422-429, Florence, Ital 1997. [10] P.Camacho, F.Arrebola, F.Sandoval, Multirresolution Sensors with Adaptive Structure, in Proceedings of the 24 th Annual Conference of the IEEE Industrial Electronics Societ Vol.2, pp. 1230-1235, Aachen, German 1998. [11] D.Koller, K.Daniilidis, H.H.Nagel, Model-Based Object Tracking in Monocular Images Sequences of Road Traffic Scenes, in Proceedings of the Intnal. Journal of Computer Vision, 10:3, pp. 257-281, 1993. [12] N.Friedman, S.Russell, Image segmentation in video sequence: A probabilistic approach, in Proceedings of the 13 th Conference on Uncertainty in Artificial Intelligence, 1997. [13] C.Bandera, P.Scott, Foveal Machine Vision Systems, in Proceedings of the IEEE International Conference on Systems, Man and Cybernetics, Cambridge, pp. 596-599, 1989. [14] A.Bandera, C.Urdiales, F.Arrebola, F.Sandoval, "2D object recognition based on curvature function obtained from local histograms of the contour chain code", Pattern Recognition Letters, A, 20(1), pp. 49-55, 1999. [15] E. Grossman: "Robust Computation of first-order optical flow in log-polar images", Univ. Génova, LIRA-Lab-DIST, TR 07/95, November 1995. 9