Busqueda por Contenido Visual: TREC 2003 y la Web Chilena



Documentos relacionados
> Temario Curso de Diseño Web <

TIPOS DE PUBLICIDAD EN INTERNET ANUNCIOS Y ENLACES RECTANGULARES Y/O CUADRADOS - BANNER ADS:

Temario 23/09/2008. UNIVERSIDAD ABIERTA INTERAMERICANA Facultad de Tecnología Informática. Luis Perdomo Rocio Gimenez

Apéndice A Herramientas utilizadas

> Temario Curso Office en Mac <

Sistemas Multimedia Distribuidos. Juan A. Sigüenza Departamento de Ingeniería Informática UAM

Modulo I. Introducción a la Programación Web. 1.1 Servidor Web.

La Administración de Proyectos

O jeto de apre r ndizaje

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora

DREAMWEAVER CS3 Guía Rápida

PREPARATORIA DIURNA DE CUAUTLA

Instrucciones de operación software. Avacom e- Note AVC- TB065

Manual de usuario servidor de archivos para El Colegio de la Frontera Sur

Clientes de XProtect Acceda a su vigilancia

MANUAL DE USUARIO CMS- PLONE

INFORME TÉCNICO PREVIO DE EVALUACIÓN DE SOFTWARE No GTIOOO

QUERCUS PRESUPUESTOS MANUAL DEL USO

Trataremos las cuestiones más interesantes de este programa, entre las que destacan:

Nuevo diseño de Google Apps Gmail, Calendar, Docs y Sites 28/11/11

UNIVERSIDAD COOPERATIVA DE COLOMBIA POSTGRADO MULTIMEDIA PARA LA DOCENCIA ELECTIVA I CREACIÓN DE AMBIENTES VIRTUALES

Manual Usuario Wordpress. Índice

www Banners

Manual del Alumno de la plataforma de e-learning.

Anexo: Contenidos estrella

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

Instrucciones de instalación de IBM SPSS Modeler Text Analytics (licencia de usuario autorizado)

Artículo dedicado a la Innovación y Mejores Prácticas en la Ingeniería de Negocios

CURSOS DE ESPECIALIZACIÓN MICROSOFT EXCEL

ARCHIVO GENERAL DE LA NACIÓN Funcionamiento de la Red de Archivos Históricos Mexicanos (RAHMEX).

Seminario Aplicaciones de las Redes Neuronales (WebSOM)

RECONOCIMIENTO E IDENTIFICACIÓN DE LOGOTIPOS EN IMÁGENES CON TRANSFORMADA SIFT

Proceso Unificado de Rational PROCESO UNIFICADO DE RATIONAL (RUP) El proceso de desarrollo de software tiene cuatro roles importantes:

HOJA DE CALCULO EXCEL NIVEL II

BÁSICO INTERMEDIO AVANZADO x

Diplomado de Diseño Web

INDICE CARTAS DESCRIPTIVAS S3

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Las piezas del diseño web

Web mining y obtención de información para la generación de

Speed EAM La información a un clic

Administrador de Seguridad Manual de Usuario Fecha de actualización:

Código IN_0031. Nombre WINDOWS VISTA. Categoría INFORMÁTICA. Modalidad ONLINE. Duración 25 HORAS. Vídeo. Audio. Objetivos

MANUAL DE USUARIO COOPERATIVAS

DOMINE PHP Y MYSQL por LOPEZ QUIJADO Isbn Indice del Contenido INTRODUCCIÓN PARTE I. REDES E INTERNET

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

PRESENTACIÓN DEL PRODUCTO

SISTEMAS INFORMÁTICOS EN CUENTAS NACIONALES DE BOLIVIA

Administración de la red (Windows 2008)

CONTENIDO. Word 2010 International Standards

MÓDULO 1: FrontPage 2003 Parte 1ª

Gestión de contenidos Para Editores de la Nueva Plataforma web Red Local

Qué necesito saber para tener mi sitio web en Internet?

SOFTWARE DE GESTIÓN DOCUMENTAL. Suite. Desarrollado por

Pack Web Empresa. Componentes adicionales

Índice. 1. Crear contenido en un curso. 2. Cómo crear un elemento. 3. Cómo crear un archivo. 4. Cómo crear enlaces de audio

IBM Smarter Cities. IOC Centro de Operaciones Inteligente. IBM Software Group Industry Solutions. Madrid, 6 de noviembre de 2012

TEMARIO CURSO PHOTOSHOP CS4 PARA DISEÑO GRÁFICO

Algoritmos y Estructuras de Datos 2. Web Mining Esteban Meneses

Solicitud de Requerimiento No. Fecha de Solicitud:

CMS JOOMLA. Características

Microsoft Office 2013: Word, Excel, PowerPoint, Outlook y OneNote 2013 Domine las funciones avanzadas del paquete Microsoft

SITIO WEB. HaleSystems 1.1 SECCIÓN DE NOTICIAS 1.2 SECCIÓN DE ACTUALIDAD 1.3 LINKS DE INTERÉS. PORTAL TRANSACCIONAL

Contenidos del Curso Avanzado de Informática Educativa

GUIA RAPIDA PRIMEROS PASOS CONSTRUCTOR DE SITIOS IPLAN PROFESIONAL CONTENT

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Solución Online para la Administración de las Múltiples Facetas en Packaging

CL_55010 Sharepoint Designer Customizing and Branding SharePoint 2010 and Office 365

Proyecto Piloto sobre Viabilidad de Internet como Fuente de Datos. Resultados del Proyecto

Enfoque propuesto para la detección del humo de señales de video.

MOC Mastering Microsoft Project 2010

Definir la gestión de proyectos 11. Utilizar las técnicas de gestión de proyectos 11. Programar un proyecto 12

MÁSTER EN GESTIÓN Y DIRECCIÓN DE PROYECTOS/ PROJECT MANAGEMENT

El entorno Vision - E Laboratory

6. Haga clic en el botón Copiar imagen en la barra de herramientas Estándar. Aparecerá el cuadro de diálogo Copiar imagen.

PROGRAMACIÓN EN PHP. 1. Identificar las características y modalidad de programación bajo PHP.

EDICIÓN, VIDEO Y MULTIMEDIA

Qué es una página web?, qué conoces al respecto?, sabes crear una página

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

CaseWare Working Papers Perfil del producto en español

ÍNDICE INTRODUCCIÓN...15

DISEÑO Y DESARROLLO WEB CON HTML 5, CSS Y DREAMWEAVER CS4 OBRA COMPLETA 2 VOLÚMENES

DOCENTES FORMADORES UGEL 03 PRIMARIA

ESPECIALÍZATE Y CERTIFÍCATE INTERNACIONALMENTE

ECM, Arquitectura de la información y más. Fabián Imaz

Trabajo final de Ingeniería

Sistemas GPS con Kronos

Internet y World Wide Web. Informática Aplicada Grado en GAP Fac. de Admón. y Dir. de Empresas Univ. Politécnica de Valencia

Custodia de Documentos Valorados

Este documento se distribuye bajo los términos de la licencia Creative Commons by sa. sa/2.

Herramientas Tecnológicas de Productividad. Sesión 10. Presentaciones Electrónicas

INSTITUCION UNIVERSITARIA INPAHU BASES DE DATOS EN LA WEB

Macromedia Dreamweaver

Datos del Curso Título Diseño y Creación de Portales Web

Capítulo VI. Conclusiones. En este capítulo abordaremos la comparación de las características principales y

Microsoft Excel 2002 XP Formación Completa (licencia 60 días)

3.1 Definir objetivos y contenidos de la página web

MAQUETA SITIO WEB PARA EL 1º NIVEL

UD6. Diseño de presentaciones

Transcripción:

1 Busqueda por Contenido Visual: TREC 2003 y la Web Chilena Alejandro Jaimes, Javier Ruiz-del-Solar, R. Verschae, Dinko Yaksic, Ricardo Baeza- Yates, Emilio Davis, Carlos Castillo CIW, DIE UNIVERSIDAD DE CHILE Contenido Introduccion TREC 2003 La Web Chilena Conclusiones y Trabajo Futuro

2 Introduccion Grandes cantidades diarias de video e imagenes Limitaciones de tiempo y otros recursos Objetivo es permitir busqueda eficiente, por contenido visual, en grandes archivos de imagenes y video Busqueda por Contenido Lo que aparece en la imagen

3 Busqueda por Contenido Lo que aparece en la imagen Trabajo Anterior Deteccion de objetos Caras, cielo, edificios, vegetacion, etc. Clasificacion de escenas Recinto cerrado (indoor), aire libre (outdoor), cuidad, paisaje, etc. Video Deteccion de escenas (scene cut detection) Muldimodal Audio, texto, etc.

4 Cambio de Escena Busqueda por Contenido U. Chile TREC 2003 Web de Chile

5 TREC 2003: Objetivos Desarrollar proyecto de busqueda multimedia en la universidad Formar alianzas de trabajo con lideres en el area Crear librerias de software para continuar este y otros proyectos relacionados Avanzar en investigacion TREC 2003 (National Institute for Standards & Technology) Objetivos generales Promover progreso en busqueda por contenido mediante un foro de participacion abierta Participantes U. Chile, Columbia U., IBM Watson, IBM Almaden, CMU, EUROCOM, NUS, etc, Tareas Deteccion, busqueda, cambio de escena, segmentacion por temas Datos Aprox. 130 horas de video (noticas de CNN, ABC y C-SPAN)

6 TREC 2003 Deteccion Outdoors, Building, Road, Vegetation, Animal, Female speech, Car/truck/bus, Aircraft, Non-studio setting, Sporting event, Weather news, Zoom in, Physical violence News subject face, News subject monologue, People Person x (Madeline Albright) Busqueda de temas Interactiva (varias iteraciones) Automatica (un solo query ) TREC 2003: Busqueda de Temas

7 TREC 2003 TREC 2003: Fases I. Anotacion II. Deteccion II. Busqueda

8 TREC 2003: Ejemplo Anotacion Ver www.alphaworks.ibm.com (VideoAnnex) TREC 2003- Anotacion Objetivos Colaborar con mas de 20 grupos internacionales de investigacion para dividir la tarea Tareas Anotar manualmente 9 videos Resultados (anotacion preliminar) 18,450 anotaciones (20 videos) Mas frecuentes: texto, persona, cara, texto escena, cielo, vegetacion, edificio, auto, arbol, etc.

9 TREC 2003- Deteccion Objetivos Construir una libreria de detectores genericos (texto, persona, cara, texto escena, cielo, vegetacion, edificio, auto, arbol, etc.) Construir detectores especificos (deteccion y reconocimiento de caras) Clasificadores de escenas (presentador, close-up, etc.) Tareas Extraer rasgos (color, textura, forma) Entrenar clasificadores Combinar detectores TREC 2003- Deteccion Generica Rasgos Area (1) Radio de aspecto (alto/ancho) (1) Centro de imagen (c/r a imagen original si es subimagen) (2) Promedio de colores de pixeles en HSV (3) Color dominante de pixeles cuantizados en HSV (3) Cantidad de colores de percentil de presencia mayor a 2% (1) Histogramas de bordes (4) Textura Usar bloques

10 TREC 2003- Deteccion de Caras Arquitectura general Análisis Multi-Resolución Extractor de Ventanas Imagen de Entrada Imágenes a Múltiples Escalas Ventanas a Procesar Pre -Procesamiento H(x) Clasificador Cara Procesamiento de Detecciones Sobrepuestas TREC 2003- Deteccion de caras Detector Cascada Analisis Multiresolution Extractor de Ventanas Imagen de Entrada Imagenes a Multiples Escalas Ventanas a Procesar Filtro 1 Filtro 2 Filtro 21 Procesamiento de Detecciones Sobrepuestas

11 TREC 2003- Deteccion de caras Detector Hibrido Analisis Multiresolution Extractor de Ventanas Filtro 1 Imagen de Entrada Imagenes a Multiples Escalas Ventanas a Procesar Filtro 2 Filtro 3 Filtro 4 Filtro 21 Procesamiento de Detecciones Sobrepuestas Pre- Procesamiento Detector de Caras Wavelet TREC 2003- Deteccion de caras Filtro piel

12 TREC 2003- Deteccion de caras Arquitectura Final Analisis Multiresolution Extractor de Ventanas Filtro Piel Imagen de Entrada Imagenes a Multiples Escalas Ventanas a Procesar Filtro 1 Filtro 3 Filtro 4 Filtro 21 Procesamiento de Detecciones Sobrepuestas Pre- Procesamiento Detector de Caras Wavelet TREC 2003- Deteccion de caras Resultados (Sin piel) Cascada (0.5 Seg.) Wavelet (30 Seg.) Híbrido (2 Seg.)

13 TREC 2003- Deteccion de caras Resultados (Con y sin piel) TREC 2003- Niveles Adicionales

14 Arquitectura de Interfaz Categorías: Forma de organizar las imágenes Elementos: Subdirectorios o imágenes asociadas a la categoría (keyframes) Arquitectura de Interfaz Lógico Categorías. Subdirectorios. Imágenes Imágenes similares según rasgo Físico Video/ Grupo/... Directorios Principales. Video1/ Video2/ Video3/... Subdirectorios. Enlaces a Imágenes Base de Datos Enlaces a Imágenes = Selección = Búsqueda

15 Arquitectura de Interfaz Características Facil de usar (tipo browser ) Facil crear nueveas categorias (nuevos directorios nuevas categorías) Escalable en cantidad de imágenes Escalable en cantidad de rasgos por imagen Búsqueda de Rasgos Similares Se busca las imágenes con mínima distancia euclidiana para el rasgo de la imagen seleccionada 1 Rasgo(s) seleccionado(s) en imagen Rasgo(s)* Imagen* Imagen... Rasgo Tabla de Rasgos Ubicación Imágenes Similares 2 3 Imágenes Similares Servidor Web Base de Datos Sistema de Archivos Se retorna las primeras N imágenes x, que satisfacen: Min[ (Rasgo 1 (x)-rasgo 1 *) 2 + (Rasgo 2 (x)-rasgo 2 *) 2 +...) ], tal que x Imagen*

16 Web de Chile Objetivos Hacer un estudio, usando erramientas de busqueda por contenido, sobre las imagenes en el web de Chile Tareas Obtener un gran numero de imagenes de la web chilena Obtener estadisticas sobre las imagenes obtenidas Detectar caras automaticamente Extraer rasgos visuales y agrupar las imagenes Web de Chile: obtencion de imagenes Dominios Solo dominios.cl (exluyen https) Paginas 15 niveles para paginas estaticas 6 niveles para paginas dinamicas Exluidas paginas marcadas no-indexables Seleccion Todas las imagenes (.jpg,.bmp,.gif., etc.) Excluidas.gif

17 Web de Chile Ejemplos (IR VIEW) Web de Chile Resultados Caras

18 Web de Chile (WEKA) Resultados rasgos (mostrar weka) Web de Chile Estadisticas Web (aprox., 2002) No. Paginas 2 millones Sitios: 38,307 Dominios: 34,867 Estadisticas 2003 No. paginas bajadas: 800,000 No. links: 1 700,000

19 Web de Chile: estadisticas preliminares Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos Se seleccioaron jpg, pgn, bmg, jpeg 1.7 millones de links a imagenes Se eliminaron linkeadas con php 1.4 millones Se eliminaron repetidas (Obvias) 600.000 Aleatoreamente 100,000 quedearon 72,000 Caras detectadas: 16,306 (sin piel); 15,000 (con piel) Conclusiones Inicio de una libreria para la extraccion de rasgos visuales en imagenes Interfaz flexible para visualizar colecciones de imagenes Mejoramiento de detector de caras Inicio primer estudio sobre imagenes en la web chilena

20 Trabajo Futuro: : TREC 2003 Deteccion News subject face, News subject monologue, People Person x (Madeline Albright) Vegetation, Aircraft, Outdoors, Building, Road, Animal, car/truck/bus, Non-studio setting Female speech, Sporting event, Weather news, Zoom in, Physical violence Busqueda Automatica (un solo query ) Interactiva (varias iteraciones) Trabajo Futuro: : Web de Chile Aplicar detectores a imagenes de la web Agrupar imagenes de acuerdo a rasgos Obtener nuevas estadisticas de acuerdo a detectores Integrar con informacion textual