Indexación de imágenes y vídeos. Antoine Manzanera ENSTA ParisTech Unité d'électronique et d'informatique

Documentos relacionados
Muchas veces hemos visto un juego de billar y no nos percatamos de los movimientos de las bolas (ver gráfico 8). Gráfico 8

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

activuspaper Text Mining and BI Abstract

Capítulo 1. Introducción

PATRONAJE INDUSTRIAL INFORMATIZADO EN 2D ON-LINE

SISTEMAS DE SEGURIDAD DE RECONOCIMIENTO FACIAL

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68.

Sistemas de Información Geográficos (SIG o GIS)

Tema 7. Introducción al reconocimiento de objetos

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

El soporte del sistema operativo. Hace que un computador sea más fácil de usar. Permite que los recursos del computador se aprovechen mejor.

Índice INTERNET MARKETING 1

Parte I: Introducción

Gestión del Conocimiento. Gestión del Conocimiento. Herramientas para la

VI PLAN DE PRUEBAS, RESULTADOS Y RECOMENDACIONES

Cuadros de mando interactivos para los responsables de la toma de decisiones

Tableros de control interactivos para los responsables de la toma de decisiones

Programación Gráfica. Conceptos Básicos

Roberto Quejido Cañamero

6. VECTORES Y COORDENADAS

Introducción al PSPICE

Capítulo 9. Archivos de sintaxis

Sistemas de Gestión de Calidad. Control documental

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

Superficies NURBs. Integrantes: Emily Benítez Rafael Paytuvi

MINING SOLUTIONS LIMITADA

Módulo 9 Sistema matemático y operaciones binarias

ARREGLOS DEFINICION GENERAL DE ARREGLO

Datos estadísticos PRESENTACIÓN DE DATOS INDIVIDUALES Y DATOS AGRUPADOS EN TABLAS Y GRÁFICOS

SISTEMA INTEGRADO DE DOCUMENTACIÓNDEL PATRIMONIO HISTÓRICO DE LA COMUNIDAD DE MADRID

Diseño de actividades para el aula con Jclic Módulo 2: Generalidades sobre la creación de Proyectos Jclic

Capítulo III Procesamiento Digital de Imágenes

Buscadores basados en agentes inteligentes

PENDIENTES DE MATEMÁTICAS DE 2º ESO (CURSO )

Arquitectura de Aplicaciones

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

Portafolio de Servicios y Productos

CAPÍTULO VI PREPARACIÓN DEL MODELO EN ALGOR. En este capítulo, se hablará acerca de los pasos a seguir para poder realizar el análisis de

Tema 3. Medidas de tendencia central Introducción. Contenido

Qué es una imágen digital?

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

IV. Implantación del sistema.

Modelo Entidad-Relación

Covarianza y coeficiente de correlación

Sistemas de Recuperación de Información

Capítulo VI. Diagramas de Entidad Relación

by Tim Tran:

Manual de Microsoft Power Point 2007 Parte 2 Universidad Politécnica de San Luis Potosí

RECONOCIMIENTO E IDENTIFICACIÓN DE LOGOTIPOS EN IMÁGENES CON TRANSFORMADA SIFT

Selenne Business Intelligence QUÉ ES BUSINESS INTELLIGENCE?

Robótica y visión artificial. Miguel Cazorla Grupo de Visión Robótica Universidad de Alicante

UNIVERSIDAD COOPERATIVA DE COLOMBIA POSTGRADO MULTIMEDIA PARA LA DOCENCIA ELECTIVA I CREACIÓN DE AMBIENTES VIRTUALES

Mesa de Ayuda Interna

CONSTRUCCIÓN DEL PROCESO MESA DE AYUDA INTERNA. BizAgi Process Modeler

La inteligencia de marketing que desarrolla el conocimiento

Por dónde empiezo a documentar? Ing. Fedra E. González

TransUnion República Dominicana. Preguntas frecuentes sobre los modelos de score de TransUnion

App para realizar consultas al Sistema de Información Estadística de Castilla y León

Elaboración de Mapas Conceptuales

Análisis y síntesis El proceso documental Lenguajes documentales El proceso de indización El resumen documental

SIIGO Pyme. Informes de Saldos y Movimientos de Inventarios. Cartilla I

Regulador PID con convertidores de frecuencia DF5, DV5, DF6, DV6. Página 1 de 10 A Regulador PID

Análisis de componentes principales

SISTEMAS DE COORDENADAS SISTEMA COORDENADO UNIDIMENSIONAL

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Data Mining Técnicas y herramientas

Unidad 1. Fundamentos en Gestión de Riesgos

Estadística descriptiva con Excel (Cálculo de medidas)

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Guía para el diseño y creación de mapas web Una experiencia académica

Diseño orientado a los objetos

Fundamentos del diseño 3ª edición (2002)

Plan de estudios ISTQB: Nivel Fundamentos

SERVICIO NACIONAL DE APRENDIZAJE SENA SISTEMA INTEGRADO DE GESTIÓN Procedimiento Ejecución de la Formación Profesional Integral GUÍA DE APRENDIZAJE

3.1 DEFINICIÓN. Figura Nº 1. Vector

O C T U B R E SOPORTE CLIENTE. Manual de Usuario Versión 1. VERSIÓN 1 P á g i n a 1

Presentaciones. Con el estudio de esta Unidad pretendemos alcanzar los siguientes objetivos:

Unidad I. 1.1 Sistemas numéricos (Binario, Octal, Decimal, Hexadecimal)

1. Derivadas parciales

Sistema Inteligente de Exploración

CONFIDENCIAL. Sistema (software) de Gestión de Compras, Ventas, Inventario y producción.

Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática

También se encuentran dibujos de zonas más grandes, como este: (aunque no debería de llamarse plano, es un esquema o dibujo)

REGISTRO DE EMPRESAS Y PERSONAS BASE DE INFORMACIÓN DE CLIENTES & CONTACTOS

Qué es una página web?, qué conoces al respecto?, sabes crear una página

ASI. Análisis del Sistema de Información

Contact Center Comunicación multicanal integrada

CAPÍTULO 4. EL EXPLORADOR DE WINDOWS XP

hay alguien ahi? por Marcelino Alvarez

Indice I. INTRODUCCIÓN SEGURIDAD DE ACCESO REGISTRO DEL VALOR FLETE CONSULTAS V. GRÁFICAS. MANUAL GENERADORES DE CARGA RNDC Noviembre 2015 Versión 2

understanding documents Digitalización y Captura Inteligente de Documentos

Artículo dedicado a la Innovación y Mejores Prácticas en la Ingeniería de Negocios

Redes de Kohonen y la Determinación Genética de las Clases

PROCEDIMIENTO ESPECÍFICO. Código A-VI-02-A-1 Edición 0

Service Desk Institute Latinoamérica. La importancia de un diagnostico eficaz Registración y derivación

Transformaciones Lineales. Definiciones básicas de Transformaciones Lineales. José de Jesús Angel Angel.

Por más insignificante que sea lo que debes hacer, esmérate en hacerlo lo mejor que puedas, como si fuera la cosa más importante

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Transcripción:

Indexación de imágenes y vídeos Antoine Manzanera ENSTA ParisTech Unité d'électronique et d'informatique

Indexación - Introducción El tema de este curso es la búsqueda automática de documentos visuales (imágenes, secuencias video), en bases de datos de gran tamaño, a partir de consultas sobre el contenido de estos documentos. Este problema está recibiendo mucha atencion en el área de procesamiento de imágenes y visión artificial. De hecho, el uso generalizado de los medios digitales, la aparición de formatos de vídeo compactos, la disminución del costo de los medios de almacenamiento ha creado un vertiginoso aumento en la cantidad de datos multimedia. Para que estos datos sean utilizables, deben ser vistos de forma eficaz, como a través de un catálogo. Las técnicas presentadas en este curso, denominadas técnicas de indexación, tienen como objetivo de adjuntar a una imagen o un vídeo, una serie de descriptores del contenido con el fin de medir la similitud con los descriptores correspondiente a la consulta. Pero esta consulta puede tomar formas muy distintas, puede ser conceptual (por ejemplo, palabra), simbólica (por ejemplo, diagrama) o «instancial» (por ejemplo: otra imagen). De la misma manera, la indexación sera semántica (se adjunta descriptores de nivel conceptual al documento) o visual (se adjunta descriptores visuales al documento ).

Interés y aplicaciones BD Imagenes y videos: Colecciones y catalogos individuales, o de empresas Bibliotecas / Mediatecas Agencias de fotografia Archivos audiovisuales (ej. Francia: INA) Internet (ej. AltaVista / Virage / Google / Dailymotion...) Aplicaciones: Mediametria Propriedad intelectual / artistica Reconocimiento de rostros, de objetos... Datos biomedicales Imagens aeriales, por satelite... Videos de televigilancia

Indice del curso Indexacion Indexacion multimedia: Estado actual y Perspectivas Busqueda de documentos multimedia por el contenido Indexacion semantica manual Indexacion visual automatica Ayuda a la indexacion manual Semantica de la indexacion video Cortada en planos / secuencias Detection de objetos Indexacion automatica Imagenes estructuradas y texturadas Extraccions de los descriptores Apareamiento de imagenes Metricas de similitud

Busqueda multimedia por el contenido Consulta Tipos de consulta: Palabra Imagen Dibujo, esquema Modelo CAD Mapa Plano.../... Base de datos Evaluacion de los resultados : Precision = Resultado # respuestas relevantes # respuestas Dificultades: A diferencia de los datos textuales, el contenido semantico nunca es explicito. Las consultas son dificiles expresar, entonces a medudo ambiguas, incompletas. Recuerdo = # respuestas relevantes # datos relevantes Dimension multidisciplinaria: Multimedia : texto, imagen, sonido - Gestion de bases de datos - Hardware - Aprendizaje - Lingüistica,...

Estado actual: Indexacion explicita La mayoria de las herramientas de búsqueda de documentos multimedia que funcionan actualmente se basan en una búsqueda de palabras claves explícitamente relacionadas con el documento o indexadas automáticamente a partir del texto que lo rodea (Ej: Google). Los documentos vídeo como archivos audiovisuales se indexan manualmente por operadores especializados, a partir de una descripción muy exacta vinculada con un tesauro. Pero esta indexación manual es una tarea ardua y larga (hasta 10 veces la duracion de la secuencia, mientras que por ejemplo el fondo de documentos de la televisión del INA almacena mas de 350.000 horas de programación...) También datos interesantes en una fecha determinada no lo eran necesariamente en la fecha de indexación... También se debe mencionar la aparición de nuevas normas, como la codificación de vídeo Mpeg7 que incluye en el codigo datos explícitos sobre los contenidos audiovisuales, con el fin de facilitar la busqueda de información en una base de datos de vídeo, y permitir la navegación «inteligente» en un vídeo.

Indexaciones semantica y descriptiva Por naturaleza, la indexación manual es semántica. El operador de indexación atribuye al documento datos de alto nivel sobre la significacion del contenido. Las consultas asociadas son generalmente palabras designando un objeto, un acción, el nombre de un personaje o acontecimiento. Por el contrario, la indexación automática es esencialmente descriptiva o visual. El algoritmo de indexación atribuye datos de bajo nivel semántico, sobre el contenido geométrico, o espectral, de la imagen, a un nivel local o global. Las consultas suelen ser realizadas por ejemplo, o por modelo. Pero el análisis automático de documentos también se puede utilizar para hacer más fácil (más rápido, menos arduo) el trabajo del operador de indexación manual. Esto es típicamente: Pre-selección de grandes bases de datos de imágenes. Indexación semi-automática con interaccion operador/computadora. División de vídeo en planos y simplificación en «imágenes claves».

Semantica de las secuencias de imagenes Antes de analizar manualmente o automáticamente una secuencia de imágenes, se debe definir con precisión la forma en que el vídeo se estructura. La estructuracion clásica de un vídeo es un corte en escenas con el título, resumen, palabras claves. Las herramientas para ayudar a la indexación de vídeo se hacen sobre la base de una estructuracion precisa de videos, utilizando varios niveles de análisis. El primer objetivo es proporcionar un marco rico y riguroso para facilitar la indexación manual. El segundo objetivo es reducir el nivel semántico de corte en escenas para permitir el uso de herramienta de indexación visual automática. Escena: Diagrama de anotacion de un video (Projet Sesame Insa Lyon / LIRIS) Naturaleza del sitio Presencia de un objeto, de un personaje Tipo de plano Tipo de accion.../...

Ayuda a la indexación video Ejemplo: Corte en planos (cuts) de una video Las técnicas utilizadas son variadas ; se basan generalmente en la detección de discontinuidades temporales de uno o más descriptores globales relacionados con: * El color. Ej: momentos de histogramas color. * El movimiento. Ej. a la derecha: extracción del movimiento dominante (transformación afín 2d), y medida de la tasa de recubrimiento entre la imagen inicial y la imagen transformada. imagen I t imagen I t+1 imagen I t transformada Difficultades: Transicion por sobreimpresion,... Movimientos bruscos,... Software MD-shots (IRISA Rennes / projet VISTA) de cortada de video, basado sobre un descriptor global del movimiento dominante (eje vertical)

Ayuda a la indexación video Una técnica que acompaña a menudo a la segmentación en planos para la ayuda a la indexación de video, es la extracción de imágenes claves en cada plano, es decir, las imágenes más representativas del plano. Las técnicas utilizadas actualmente se basan generalmente en estadísticas relacionadas con los descriptores utilizados para cortar en planos. Así, se puede utilizar la imagen mediana, las imágenes extremas... Por último, algunas técnicas de detección, reconocimiento, o identificación se utilizan para realizar tareas específicas para ayudar a la indexación. Entre ellos: * La detección y la persecución de objetos móviles. * La detección de objetos particulares: rostros, vehículos, texto incorporado, etc, para identificar el tipo de escena * Identificación: el rostro de un personaje, un cierto tipo de vehículo,...

Ej: video clicable (INRIA) Interface de la herramienta de segmentación video desarrollada en la INRIA Rhône-Alpes projet MOVI

Indexación automática de imágenes Off-line: Indexación Calculo de los indices de descripción para todas las imágenes de la base. { x 0 0, x 1 0,, x p 0... x 0 n, x 1 n,, x p n Base de données images {M,C, } Datos estadísticos Base de datos de indices Tiempo de calculo de la indexación: no primordial Indices + datos estadísticos: calculo incremental Almacenamiento: bases de datos imágenes y indices Representación de los indices: primordial

Indexación automática de imágenes Imagen desconocida On-line: Búsqueda (1) Calculo del indice (descriptor) para la imagen desconocida: y 0, y 1,, y p {M,C, } Datos estadísticos (2) Medida de similitud del indice nuevo con les indices de la base (3) Resultado: referencia de las mejores imágenes en el sentido de la medida de similitud x 0 0, x 1 0,, x p 0... x 0 n, x 1 n,, x p n Base de datos de indices Base de datos imágenes Tiempo de calculo de la busqueda: primordial Medida de similitud: indice de confianza Cuales descriptores? Cuales medidas de similitud?

Indexación automática de imágenes Consulta por el ejemplo: búsqueda de imágenes semejantes Búsqueda de un objeto, o de un cierto tipo de objetos Dificultades: Variabilidad: rotación, traslación, homotecia,... Reconocimiento 2d o 3d Visibilidad parcial Cambio de luminosidad.../...

Apareamiento de imagenes estructuradas Imagenes con estructuras geométricas simples : contornos rectos, redondos... Correspondencia entre estructuras 2d Reconstruccion 3d Técnicas de processamiento: Deteccion + cerradura de contornos Deteccion de formas parametradas (transformada de Hough) Indices: listas de coordenadas de las estructuras (segmentos, elipses,...) Metrica de apareamiento: basada sobre la correspondencia de las estructuras Ej.: Calculo de la transformacion + Distancia de Hausdorff distancia de Haussdorff entre dos conjuntos P y Q : H P,Q =max {h P,Q, h Q, P } con: h X,Y =max x X min y Y d x, y Relacion con morfologia matematica: H P,Q =min { R ; B P Q et B Q P} B : dilatacion por una bola de radio

Apareamiento de imágenes texturadas En este caso, no se busca estructuras particulares, sino similitudes globales (histogramas, espectros de Fourier), o locales... Si se busca similitudes locales, es esencial reducir el espacio de representación, por dos razones: reducción del tiempo de calculo aumento de la robusteza Utilización de los puntos de interés: t Se computa descriptores locales únicamente en la vecindad de los puntos mas interesantes. Después, se representa el comportamiento local en la vecindad de los puntos por los descriptores diferenciales: Local jet : y: Se denota: t {L ij t L i j t =G i j I con: G t x, y = 1 2 t 2 exp x2 y 2 2 t 2 t G i j = i j x i y j Gt t : factor de escala ;0 i j 3}={L, L x, L y, L xx, L xy, L yy, L xxx, L xxy, L xyy, L yyy } Puntos de interés (método de Harris) (derivadas hasta el 3o orden)

Invariantes geométricos y fotométricos El principio del calculo de los invariantes es combinar las diferentes componentes del local jet de manera a tener valores que sean invariantes a varios cambios de aspecto, incluso transformacion afines y cambio de iluminacion. 1 - Invariancia por desplazamiento Invariantes diferenciales de Hilbert: L L i L i L i L ij L j L = ii L ij L ij ij L jkl L i L k L l L jkk L i L l L l L iij L j L k L k L ijk L i L j L k ij L jkl L i L k L l L ijk L i L j L k xx = yy =0 xy = yx =1 Notationes de Einstein: sumacion sobre los indices Por ej.: Con: 2 =L i L ij L j =L xx L x L x 2 L x L xy L y L yy L y L y 7 = ij L jkl L i L k L l =L xxy L x L x L x 2L x L y L y L xyy 2L x L x L y L y L y L y L yyy L x L y L y L xxx L x L x L y cuantidades invariantes por rotacion (NB: invariancia por rotacion del nucleo gausiano)

Invariantes geométricos y fotométricos 2 - Invariancia fotométrica El objetivo es ser invariante a una modificacion afin de la funcion de iluminacion: Normalizar por uno de los invariantes (por ej. Ψ 1 ). f I =ai b 3 - Invariancia por cambio de escala Usar invariantes en varias escalas. Entonces un vector de invariantes esta calculado para cada punto de interés en todas las imagenes. Son estos vectores que seran comparados posteriormente. x={x 1,, x n } y={y 1,, y n }.../...

Métricas de apareamiento El problema consiste en comparar descriptores que son vectores poco precisos: Métricas de aparaemiento: Distancia euclidiana x={x 1,, x n } t e x, x ' = x x ' x x ' La distancia euclidiana no toma en cuento las diferencias de amplitud ni de las correlaciones entre las diferentes componentes del vector de descripcion. Ma bien se utiliza la distancia siguiente: Distancia de Mahalanobis t m x, x' = x x' C 1 x x ' Distancia de los puntos del espacio al centro de masas (media) de una nube de puntos, en distancia euclidiana (izq.) y en distancia de Mahalanobis (der.). var x 1 cov x 1, x 2 cov x 1, x n cov x C= 2, x 1 var x 2 cov x 2, x n con: cov x n, x 1 cov x n, x 2 var x n cov x i, x j = x i i x j j = x i x j x i x j var x i =cov x i, x i i = x i...donde <. > denota la media.

{ { Métricas de apareamiento La matriz de covarianza C es calculada y actualizada off-line. Diagonalizando C -1, se puede volver a un calculo de distancia euclidiana por respecto a los vectores descriptores normalizados : C 1 = t t P DP x x' C 1 x x' = DPx D Px ' A cada actualizacion de la base se debe, entonces: - actualizar la matriz de covariancia C. - calcular y diagonalizar C -1. - normalizar todos los vectores: x D Px normalizacion distancia elipsoidal El problema de la busqueda puede ahora definirse asi: considerando un dato desconocido de vector descriptivo x, y un umbral ε, hallar todos los datos de la base cuyos vectores descriptivos y son tales como: m x, y = e D P x, D P y

{ { Exploracion del espacio de busqueda Para limitar el tiempo de busqueda en una base grande de indices, se trata limitar la busqueda a una cierta vecindad del indice desconocido. Este problema es intimamente relacionado al almacenamiento de los vectores descriptivos de la base. Cortada de la base de indices en hipercubos: ε Representacion de la base de indices con un Kd-tree: 2ε...... vector nuevo vector de la base dimension representacion de la vecindad del vector nuevo en un Kd-tree Otra cortada posible de la base de indices Complexidad de la busqueda: costo del apareamiento m 2 N 3 d m = numero de invariantes por imagen k = numero de hipercubos por dimension d = dimension de los invariantes k d m 3 d N = numero de imagenes de la base Costo de la exploracion del Kd-tree

Relevance feedback y aprendizaje utilizador consulta x 0 0, x 1 0,, x p 0 y 0, y 1,, y p... y' 0, y' 1,, y' p x 0 n, x 1 n,, x p n Base de datos de indices Base de données images y' ' 0, y ' ' 1,, y' ' p y' ' ' 0, y ' ' ' 1,, y' ' ' p El bucle de busqueda (relevance feedback) es una técnica utilizando una evaluacion interactiva con el utilizador para modificar el descriptor de la consulta o la métrica de apareamiento, por ejemplo modificando los pesos de las componentes, o guardando solamente los invariantes juzgados mas pertinentes respecto a las evaluaciones.

Bibliografia y fuentes P. Gros : Traitement des images par le contenu - documento de curso - IRISA 1999. C. Schmid : Appariement d'images par invariants locaux de niveaux de gris - Tésis de doctorado - INPG 1996. J.M. Jolion et al : Projet Sesame / Rapport final - INSA 1998 R.C. Veltkamp, M. Tanase : Content-based image retrieval : a survey - Utrecht University IRISA / TEXMEX : http://www.irisa.fr/texmex/index.htm INRIAlpes / LEAR : http://www.inrialpes.fr/lear/index.html INSA Lyon / RFV : http://telesun.insa-lyon.fr/kiwi/ Univ. Stanford / SIMPLICITY : http://www-db.stanford.edu/image/ Univ. Texas / CIRES : http://amazon.ece.utexas.edu/~qasim/research.htm.../...