1 Busqueda por Contenido Visual: TREC 2003 y la Web Chilena Alejandro Jaimes, Javier Ruiz-del-Solar, R. Verschae, Dinko Yaksic, Ricardo Baeza- Yates, Emilio Davis, Carlos Castillo CIW, DIE UNIVERSIDAD DE CHILE Contenido Introduccion TREC 2003 La Web Chilena Conclusiones y Trabajo Futuro
2 Introduccion Grandes cantidades diarias de video e imagenes Limitaciones de tiempo y otros recursos Objetivo es permitir busqueda eficiente, por contenido visual, en grandes archivos de imagenes y video Busqueda por Contenido Lo que aparece en la imagen
3 Busqueda por Contenido Lo que aparece en la imagen Trabajo Anterior Deteccion de objetos Caras, cielo, edificios, vegetacion, etc. Clasificacion de escenas Recinto cerrado (indoor), aire libre (outdoor), cuidad, paisaje, etc. Video Deteccion de escenas (scene cut detection) Muldimodal Audio, texto, etc.
4 Cambio de Escena Busqueda por Contenido U. Chile TREC 2003 Web de Chile
5 TREC 2003: Objetivos Desarrollar proyecto de busqueda multimedia en la universidad Formar alianzas de trabajo con lideres en el area Crear librerias de software para continuar este y otros proyectos relacionados Avanzar en investigacion TREC 2003 (National Institute for Standards & Technology) Objetivos generales Promover progreso en busqueda por contenido mediante un foro de participacion abierta Participantes U. Chile, Columbia U., IBM Watson, IBM Almaden, CMU, EUROCOM, NUS, etc, Tareas Deteccion, busqueda, cambio de escena, segmentacion por temas Datos Aprox. 130 horas de video (noticas de CNN, ABC y C-SPAN)
6 TREC 2003 Deteccion Outdoors, Building, Road, Vegetation, Animal, Female speech, Car/truck/bus, Aircraft, Non-studio setting, Sporting event, Weather news, Zoom in, Physical violence News subject face, News subject monologue, People Person x (Madeline Albright) Busqueda de temas Interactiva (varias iteraciones) Automatica (un solo query ) TREC 2003: Busqueda de Temas
7 TREC 2003 TREC 2003: Fases I. Anotacion II. Deteccion II. Busqueda
8 TREC 2003: Ejemplo Anotacion Ver www.alphaworks.ibm.com (VideoAnnex) TREC 2003- Anotacion Objetivos Colaborar con mas de 20 grupos internacionales de investigacion para dividir la tarea Tareas Anotar manualmente 9 videos Resultados (anotacion preliminar) 18,450 anotaciones (20 videos) Mas frecuentes: texto, persona, cara, texto escena, cielo, vegetacion, edificio, auto, arbol, etc.
9 TREC 2003- Deteccion Objetivos Construir una libreria de detectores genericos (texto, persona, cara, texto escena, cielo, vegetacion, edificio, auto, arbol, etc.) Construir detectores especificos (deteccion y reconocimiento de caras) Clasificadores de escenas (presentador, close-up, etc.) Tareas Extraer rasgos (color, textura, forma) Entrenar clasificadores Combinar detectores TREC 2003- Deteccion Generica Rasgos Area (1) Radio de aspecto (alto/ancho) (1) Centro de imagen (c/r a imagen original si es subimagen) (2) Promedio de colores de pixeles en HSV (3) Color dominante de pixeles cuantizados en HSV (3) Cantidad de colores de percentil de presencia mayor a 2% (1) Histogramas de bordes (4) Textura Usar bloques
10 TREC 2003- Deteccion de Caras Arquitectura general Análisis Multi-Resolución Extractor de Ventanas Imagen de Entrada Imágenes a Múltiples Escalas Ventanas a Procesar Pre -Procesamiento H(x) Clasificador Cara Procesamiento de Detecciones Sobrepuestas TREC 2003- Deteccion de caras Detector Cascada Analisis Multiresolution Extractor de Ventanas Imagen de Entrada Imagenes a Multiples Escalas Ventanas a Procesar Filtro 1 Filtro 2 Filtro 21 Procesamiento de Detecciones Sobrepuestas
11 TREC 2003- Deteccion de caras Detector Hibrido Analisis Multiresolution Extractor de Ventanas Filtro 1 Imagen de Entrada Imagenes a Multiples Escalas Ventanas a Procesar Filtro 2 Filtro 3 Filtro 4 Filtro 21 Procesamiento de Detecciones Sobrepuestas Pre- Procesamiento Detector de Caras Wavelet TREC 2003- Deteccion de caras Filtro piel
12 TREC 2003- Deteccion de caras Arquitectura Final Analisis Multiresolution Extractor de Ventanas Filtro Piel Imagen de Entrada Imagenes a Multiples Escalas Ventanas a Procesar Filtro 1 Filtro 3 Filtro 4 Filtro 21 Procesamiento de Detecciones Sobrepuestas Pre- Procesamiento Detector de Caras Wavelet TREC 2003- Deteccion de caras Resultados (Sin piel) Cascada (0.5 Seg.) Wavelet (30 Seg.) Híbrido (2 Seg.)
13 TREC 2003- Deteccion de caras Resultados (Con y sin piel) TREC 2003- Niveles Adicionales
14 Arquitectura de Interfaz Categorías: Forma de organizar las imágenes Elementos: Subdirectorios o imágenes asociadas a la categoría (keyframes) Arquitectura de Interfaz Lógico Categorías. Subdirectorios. Imágenes Imágenes similares según rasgo Físico Video/ Grupo/... Directorios Principales. Video1/ Video2/ Video3/... Subdirectorios. Enlaces a Imágenes Base de Datos Enlaces a Imágenes = Selección = Búsqueda
15 Arquitectura de Interfaz Características Facil de usar (tipo browser ) Facil crear nueveas categorias (nuevos directorios nuevas categorías) Escalable en cantidad de imágenes Escalable en cantidad de rasgos por imagen Búsqueda de Rasgos Similares Se busca las imágenes con mínima distancia euclidiana para el rasgo de la imagen seleccionada 1 Rasgo(s) seleccionado(s) en imagen Rasgo(s)* Imagen* Imagen... Rasgo Tabla de Rasgos Ubicación Imágenes Similares 2 3 Imágenes Similares Servidor Web Base de Datos Sistema de Archivos Se retorna las primeras N imágenes x, que satisfacen: Min[ (Rasgo 1 (x)-rasgo 1 *) 2 + (Rasgo 2 (x)-rasgo 2 *) 2 +...) ], tal que x Imagen*
16 Web de Chile Objetivos Hacer un estudio, usando erramientas de busqueda por contenido, sobre las imagenes en el web de Chile Tareas Obtener un gran numero de imagenes de la web chilena Obtener estadisticas sobre las imagenes obtenidas Detectar caras automaticamente Extraer rasgos visuales y agrupar las imagenes Web de Chile: obtencion de imagenes Dominios Solo dominios.cl (exluyen https) Paginas 15 niveles para paginas estaticas 6 niveles para paginas dinamicas Exluidas paginas marcadas no-indexables Seleccion Todas las imagenes (.jpg,.bmp,.gif., etc.) Excluidas.gif
17 Web de Chile Ejemplos (IR VIEW) Web de Chile Resultados Caras
18 Web de Chile (WEKA) Resultados rasgos (mostrar weka) Web de Chile Estadisticas Web (aprox., 2002) No. Paginas 2 millones Sitios: 38,307 Dominios: 34,867 Estadisticas 2003 No. paginas bajadas: 800,000 No. links: 1 700,000
19 Web de Chile: estadisticas preliminares Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos Se seleccioaron jpg, pgn, bmg, jpeg 1.7 millones de links a imagenes Se eliminaron linkeadas con php 1.4 millones Se eliminaron repetidas (Obvias) 600.000 Aleatoreamente 100,000 quedearon 72,000 Caras detectadas: 16,306 (sin piel); 15,000 (con piel) Conclusiones Inicio de una libreria para la extraccion de rasgos visuales en imagenes Interfaz flexible para visualizar colecciones de imagenes Mejoramiento de detector de caras Inicio primer estudio sobre imagenes en la web chilena
20 Trabajo Futuro: : TREC 2003 Deteccion News subject face, News subject monologue, People Person x (Madeline Albright) Vegetation, Aircraft, Outdoors, Building, Road, Animal, car/truck/bus, Non-studio setting Female speech, Sporting event, Weather news, Zoom in, Physical violence Busqueda Automatica (un solo query ) Interactiva (varias iteraciones) Trabajo Futuro: : Web de Chile Aplicar detectores a imagenes de la web Agrupar imagenes de acuerdo a rasgos Obtener nuevas estadisticas de acuerdo a detectores Integrar con informacion textual