Un sistema de clasificación y aprendizaje activo mutliclase con selección de características

Documentos relacionados
APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

Tema 15: Combinación de clasificadores

Modelización e Inferencia Bayesiana aplicada a Clasificación y Procesamiento de Imágenes

Auxiliar 9. MNL y MLE. Daniel Olcay. 21 de octubre de 2014 IN4402. Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de / 13

Random Forests. Teoría y ejemplos. Romain Gouron. Conferencia 9, GLAM, Doble titulo Ecole Centrale de Nantes (Francia)

Redes Bayesianas (3) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile

Tópicos Selectos en Aprendizaje Maquinal. Algoritmos para Reconocimiento de Patrones

Caracterización de Imágenes

Técnicas de aprendizaje sobre series temporales

Aprendizaje: Boosting y Adaboost

Aprendizaje para Clasificación con Factorización Matricial Basado en Listwise para Filtrado Colaborativo

Redes de Neuronas de Base Radial

Comparación de dos métodos de aprendizaje sobre el mismo problema

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

Aprendizaje basado en ejemplos.

ESTIMACIÓN DE PROBABILIDADES A POSTERIORI EN SVMS MULTICLASE PARA RECONOCIMIENTO DE HABLA CONTINUA

Modelos Estadísticos de Crimen

Caracterización del funcionamiento adecuado de equipos aplicando redes neuronales

Análisis de imágenes digitales

Tema 7: Aprendizaje de árboles de decisión

RECONOCIMIENTO DE PAUTAS

Estadística. Generalmente se considera que las variables son obtenidas independientemente de la misma población. De esta forma: con

Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11

Curso de Inteligencia Artificial

Tema 5. Muestreo y distribuciones muestrales

CURSO: ANALISIS ESTADISTICO DE RIESGOS

Aplicación de un Filtro Stack en Imágenes con Ruido Speckle

Aplicaciones de apoyo al diagnóstico médico. Identificación de objetos amigos y enemigos. Identificación de zonas afectadas por un desastre natural.

Tema 2. Introducción a la Estadística Bayesiana

Generación de números aleatorios con distribución uniforme

Coeficiente de Correlación

MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN

Tema AA-4: Sesgo inductivo

Tema 6: Introducción a la Inferencia Bayesiana

Tema 8: Árboles de decisión

Por ejemplo, si se desea discriminar entre créditos que se devuelven o que presentan

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web

Técnicas de inteligencia artificial. Visión Artificial Visión 3D

Práctica 3: Realce de imágenes

Visión por computadora Computer vision

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Clasificación Bayesiana de textos y páginas web

Julio Deride Silva. 4 de junio de 2010

Control Automático. Compensadores de adelanto en el dominio de la frecuencia

PRÁCTICA I. Ejercicios Teóricos

Estimación de homografías

ANÁLISIS DE DATOS. Jesús García Herrero

Itinerario: Inteligencia Computacional

Visión de Alto Nivel. Dr. Luis Enrique Sucar INAOE. ccc.inaoep.mx/~esucar Sesión 5 Representación y Reconocimiento

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

License Plate Detection using Neural Networks

FILTRO DE COLOR FUZZY BASADO EN EL HISTOGRAMA PARA LA RESTAURACIÓN DE IMÁGENES. Jesús López de la Cruz Grupo 10

Alvaro J. Riascos Villegas Universidad de los Andes y Quantil. Marzo 14 de 2012

[20380] Visió per Computador Prueba 2 (2013) Teoria (10p) (una pregunta test fallada descuenta 1/4 de pregunta acertada)

JUEGO DE BASKETBALL. Repaso de Distribuciones de Probabilidad Discretas y Continuas

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

ACTIVIDAD 2: La distribución Normal

Arboles de Decisión (II) Carlos Hurtado L. Depto de Ciencias de la Computación, Universidad de Chile

Ejercicios con Imágenes de Radar

Actividad: Qué proporción del área terrestre de Puerto Rico está urbanizada?

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés

Intervalos de confianza con STATGRAPHICS

Redes neuronales con funciones de base radial

Aprendizaje Automatizado

Implementación Hardware de Aplicaciones de la Pirámide

Visión. Sesión 4: Búsqueda y tracking de modelos 2D en imágenes. Departamento CCIA

IIC Sistemas Recomendadores

Obtención de los Colores Dominantes de una Imagen

Tema 7: Sesgo inductivo

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

Métodos de Clasificación sin Métrica. Reconocimiento de Patrones- 2013

TEMA 6. SVM Support Vector Machines (Máquinas de Vectores Soporte)

KinBehR KINect for human BEHaviour Recognition

Estadística Espacial en Ecología del Paisaje

Algoritmos de Modelación (o las máquinas de chorizos) Enrique Martínez-Meyer

Introducción. Autoencoders. RBMs. Redes de Convolución. Deep Learning. Eduardo Morales INAOE (INAOE) 1 / 60

3 ANALISIS DESCRIPTIVO DE LOS DATOS

Son una clase particular de los algoritmos evolutivos.

Al reemplazar la varianza muestral en la fórmula obtenemos otra expresión de la distribución chi-cuadrada:

Ejercicio 1 (20 puntos)

Localización. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides

INDICE. Prólogo a la Segunda Edición

07 Estimación puntual e introducción a la estadística inferencial

Técnicas de Minería de Datos

DESARROLLO DE MÉTODOS DE BÚSQUEDA EN BD DE IMÁGENES CON JAVAVIS

Tema 3: El Método Simplex. Algoritmo de las Dos Fases.

VARIABLES ALEATORIAS CONTINUAS

1. DML. Las consultas de resumen

Capítulo 4 Exploración del ambiente.

Construcción de imágenes de súper-resulución usando un metodo probabilista

INFORME TAREA N 4 CLUSTERING

Apéndice A: Funciones del programa LightPAP

METODOS ESTADÍSTICOS

Evaluando las Hipótesis Inductivas. Tomás Arredondo Vidal 8/9/2011

2 de mar de 2004 Codificación de imágenes y v ideo

Clasificación Semi-Supervisada de Documentos

Análisis Inteligente de Datos: Introducción

Unidad IV: Distribuciones muestrales

Transcripción:

Un sistema de clasificación y aprendizaje activo mutliclase con selección de características Pablo Ruiz Matarán Grupo de Procesamiento de Información Visual Departamento de Ciencias de la Computación e Inteligencia Artificial CITICoffee 27 de Abril 2015

Problemas tratados durante la tesis MODELOS BAYESIANOS Recuperación de video en bases de datos Restauración de imágenes Fotografía Computacional Clasificación

Problemas tratados durante la tesis MODELOS BAYESIANOS Recuperación de video en bases de datos Restauración de imágenes Fotografía Computacional Clasificación

Motivación Vamos a suponer que tenemos las siguientes muestras 2 Clase 1 Clase 2 Clase 3 Clase 4 1 0 1 2 0 0.2 0.4 0.6 0.8 1

Motivación 2 Clase 1 Clase 2 Clase 3 Clase 4 1 0 1 2 0 0.2 0.4 0.6 0.8 1

Motivación 2 Clase 1 Clase 2 Clase 3 Clase 4 1 0 1 2 0 0.2 0.4 0.6 0.8 1

Motivación Usualmente se recurre a un PREPROCESADO usando técnicas de selección de caracterís;cas: Búsqueda de correlaciones entre las bandas PCA Herramientas de visualización de datos etc

Motivación Podríamos construir un clasificador que seleccionara las caracterís;cas de forma automá;ca?

Bayesian Classification and Active Learning Using lp-priors. Application to Image Segmentation P. Ruiz, N. Pérez de la Blanca, R. Molina, and A.K. Katsaggelos, 22th European Signal Processing Conference (EUSIPCO 2014), Lisbon (Portugal), 2014

Outline 1. Modelización Bayesiana del problema 2. Inferencia Variacional 3. Aprendizaje Activo 4. Resultados Experimentales

Outline 1. Modelización Bayesiana del problema 2. Inferencia Variacional 3. Aprendizaje Activo 4. Resultados Experimentales

1. Modelización Bayesiana En un problema clásico de clasificación multiclase, tenemos acceso a un conjunto de entrenamiento y sus etiquetas: Y = 2 6 4 K es el número de clases en el problema de clasificación. B es el número de bandas. X =[x 1, x 2,...,x N ] 2 R B N y 1 (x 1 ) y 1 (x 2 )... y 1 (x N ) y 2 (x 1 ) y 2 (x 2 )... y 2 (x N )...... y K (x 1 ) y K (x 2 )... y K (x N ) N es el número de muestras de entrenamiento. 3 7 2 {0, 1}K N 5

1. Modelización Bayesiana Para modelar el clasificador usamos una función softmax: p(y W) = NY KY i=1 k=1! exp(wk T x yk (x i ) i + w k0 ) P K j=1 exp(wt j x i + w k0 ) El objetivo es estimar los coeficientes adaptativos W X = apple 1 1... 1 x 1 x 2... x N

1. Modelización Bayesiana Para modelar el clasificador usamos una función softmax: p(y W) = NY KY i=1 k=1! exp(wk T x yk (x i ) i) P K j=1 exp(wt j x i) El objetivo es estimar los coeficientes adaptativos W X = apple 1 1... 1 x 1 x 2... x N

1. Modelización Bayesiana Como conseguimos que el sistema haga selección de características? wk T X 2 [w k0,w k1,...,w ki,...,w kn ] 6 4 0 1 1... 1 x 11 x 12... x 1N...... x i1 x i2... x in...... x B1 x B2... x BN 3 7 5

1. Modelización Bayesiana Como conseguimos que el sistema haga selección de características? Vamos a imponer que la mayor parte de los coeficientes adaptativos W sea 0

1. Modelización Bayesiana Pseudo-normas `2 : kw k k 2 = `p con 0 <papple1 BX i=0! 1/2 wki 2 2 w k2 0 2 2 0 2 w k1

1. Modelización Bayesiana Pseudo-normas `2 : kw k k 2 = `p con 0 <papple1 BX i=0 w 2 ki! 1/2 2 w k2 0 2 2 0 2 w k1

1. Modelización Bayesiana Pseudo-normas `p con 0 <papple1 `2 : kw k k 2 = BX! 1/2 wki 2 `p : kw k k p =! 1/p BX w ki p,p=0.6 i=0 i=0 2 2 w k2 0 w k2 0 2 2 2 0 2 w k1 2 0 2 w k1

1. Modelización Bayesiana Pseudo-normas `p con 0 <papple1 `2 : kw k k 2 = 1/2 BX wki! 2 `p : kw k k p =! 1/p BX w ki p,p=0.6 i=0 i=0 2 2 w k2 0 w k2 0 w k1 =0 2 2 2 0 2 w k1 2 0 2 w k1

1. Modelización Bayesiana Modelo a priori p(w ) = KY k=1 p(w k k ) / KY k=1 B/p K exp " k B X i=0 w ki p #

1. Modelización Bayesiana k Para estimar los parámetros consideramos distribuciones a priori sobre ellos p( k )= ( k a k,b k ) Distribuciones Gamma 0.4 0.3 a=1,b=0.5 a=2,b=0.5 a=3,b=0.5 a=5,b=1 0.2 0.1 0 0 5 10 15 20 E[ k ]= a k b k Var[ k ]= a k b 2 k

1. Modelización Bayesiana Finalmente la distribución conjunta de probabilidad factoriza como: p(, W, Y) =p( )p(w )p(y W)

Outline 1. Modelización Bayesiana del problema 2. Inferencia Variacional 3. Aprendizaje Activo 4. Resultados Experimentales

2. Inferencia Variacional Nuestro objetivo sería calcular la distribución a posteriori: p(, W Y) = p(y, W, ) p(y) Sin embargo alternativa. p(y) no puede ser calculada, así que buscamos una Divergencia de Kullback-Leibler: Z Z KL(q(, W)kp(, W Y)) = q(, W) log Siempre es mayor o igual que 0 q(, W) d dw + const p(y,, W) Vale 0 si y solo sí q(, W) =p(, W Y)

2. Inferencia Variacional Esto conduce al siguiente algoritmo iterativo: Algorithm 1 Fase de Entrenamiento Require: 0 =(1,...,1) T. 1: repeat 2: Calcular q(w). 3: Calcular q( k ),k =1,...,K. 4: until convergence en particular, encontramos las estimaciones que buscábamos: hw k i,k =1,...,K h k i,k =1,...,K

2. Inferencia Variacional Dada una nueva muestra podemos calcular las probabilidades de pertenencia a cada una de las clases x 0.8 p(c k x )= exp(hw k i T x ) P K i=1 exp(hw ii T x ) p(c k x * ) 0.6 0.4 0.2 0 1 2 3 4 C k x es asignada a la clase con mayor probabilidad

Outline 1. Modelización Bayesiana del problema 2. Inferencia Variacional 3. Aprendizaje Activo 4. Resultados Experimentales

3. Aprendizaje Activo Sistema de Aprendizaje Activo Conjunto Urna (Muestras NO E;quetadas) Selección de la mejor muestra Clasificador E;queta Conjunto Entrenamiento (Muestras E;quetadas) Oráculo Clasificador Final

3. Aprendizaje Activo Usando las probabilidades de pertenencia a cada clase proponemos dos métodos de Aprendizaje Activo: MAXIMUM ENTROPY CRITERIA 1 1 0.8 0.8 p(c k x 1 ) 0.6 0.4 p(c k x 2 ) 0.6 0.4 0.2 0.2 0 0 1 2 3 4 1 2 3 4 C k C k Entropy = 0.91 Max = 0.7 Entropy = 1.39 Max = 0.25 x N+1 = arg max x KX p(c k x ) log p(c k x ) k=1

3. Aprendizaje Activo Usando las probabilidades de pertenencia a cada clase proponemos dos métodos de Aprendizaje Activo: MINIMUM PROBABILITY CRITERIA 1 1 0.8 0.8 p(c k x 1 ) 0.6 0.4 p(c k x 2 ) 0.6 0.4 0.2 0.2 0 0 1 2 3 4 1 2 3 4 C k C k Entropy = 1.19 Max = 0.53 Entropy = 1.12 Max = 0.42 x N+1 = arg min x (max k (p(c k x )))

Outline 1. Modelización Bayesiana del problema 2. Inferencia Variacional 3. Aprendizaje Activo 4. Resultados Experimentales

4. Resultados Experimentales Experimento Sintético Objetivo: Segmentar los 3 rectángulos de la imagen. 3 clases (una por cada rectángulo) 60 x 60 pixels = 3600 muestras Todos los píxeles son generados aleatoriamente en el espacio RGB, usando 3 distribuciones gaussianas diferentes. Medias: izquierda= (0.9,0.5,0.1) T medio = (0.5,0.5,0.5) T derecha= (0.1,0.5,0.9) T Desviaciones típicas(las mismas para las tres clases): Red = 0.05, Green = 0.5, Blue = 0.05

4. Resultados Experimentales Experimento Sintético Objetivo: Segmentar los 3 rectángulos de la imagen. 3 clases (una por cada rectángulo) 60 x 60 pixels = 3600 muestras Todos los píxeles son generados aleatoriamente en el espacio RGB, usando 3 distribuciones gaussianas diferentes. Nótese que la banda del la segunda componente no tiene información relevante para clasificar

4. Resultados Experimentales Experimento Sintético Configuración Conjunto de entrenamiento: 12 muestras (4 de cada clase) Conjunto de test: 1500 muestras (500 de cada clase) El experimento se repite 10 veces con diferentes conjuntos de entrenamiento. Método comparado: SVM - Núcleo Gaussiano que obtiene los mejores resultados - Se buscan los parámetros que mejor resultado obtienen - Mejor resultado: Kappa-index = 0.95

4. Resultados Experimentales Experimento sintético Resultados: p 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 apple index 1 1 1 1 1 1 0.99 0.99 0.99 0.99 (SVM: Kappa-index = 0.95) Los coeficientes adaptativos en la banda del verde son 0

4. Resultados Experimentales Experimento Real Image Segmenta;on Dataset UCI Machine Learning Repository [1] El OBJETIVO es clasificar los píxeles de una imagen en 7 clases: BRICKFACE, SKY, FOLIAGE, CEMENT, WINDOW, PATH and GRASS. Cada muestra es un vector de 19 componentes, representando diferentes atributos medidos en un vecindario 3x3 del pixel de interés. [1] K. Bache and M. Lichman, UCI machine learning repository, 2013.

4. Resultados Experimentales Experimento Real Configuración Conjunto de entrenamiento: 126 muestras (18 de cada clase) Conjunto de test: 1050 muestras (150 de cada clase) El experimento se repite 10 veces con diferentes conjuntos de entrenamiento. Método Comparado: SVM - Núcleo Gaussiano que obtiene los mejores resultados - Se buscan los parámetros que mejor resultado obtienen SVM Mejores parámetros Kappa index Método Propuesto p = 1 Método Propuesto p = 0.02 0.84 0.86 0.88

4. Resultados Experimentales Experimento Real W Componente: 9 Atributo: gradiente horizontal medio

4. Resultados Experimentales Experimento Real W Componente: 12 Atributo: raw-rojo medio

4. Resultados Experimentales Experimento Real W Componente: 14 Atributo: raw-verde medio

4. Resultados Experimentales Experimento Real W Componente: 15 Atributo: exceso de rojo

4. Resultados Experimentales Experimento Real W Componente: 17 Atributo: exceso de verde

4. Resultados Experimentales Experimento Real W Componente: 18 Atibuto: media

4. Resultados Experimentales Experimento Real W Componente: 20 Atributo: hue medio

4. Resultados Experimentales Experimento Real W Componente: 4 Atributo: tamaño del vecindario El mismo valor (9) para todas las muestras

4. Resultados Experimentales Experimento Real W El sesgo se va a 0. Si quitamos la componente 4, obtenemos los mismos valores en la componente 1 pero multiplicados por 9

4. Resultados Experimentales Resultados de Aprendizaje Activo Conjuntos SYNTHETIC DATASET REAL DATASET Initial Training Set 6 (2 for each class) 21 (3 for each class) Pool Set 1500 (500 for each class) 1050 (150 for each class) Test Set 1500 (500 for each class) 1050 (150 for each class) Métodos Comparados SVM Margin Sampling (SVM-MS) [1] SVM Multiclass-Level Uncertainty (SVM-MCLU) [2] SVM Entropy-query-by-bagging (SVM-EQB)[3] [1] B. Seales, Ac#ve Learning, Morgan & Claypool, 2012. [2] B. Demir, C. Persello and L. Bruzzone, Batch- mode ac;ve- learning methods for the interac;ve classifica;on of remote sensing images, IEEE Trans. on Geoscience and Remote Sensing, vol. 49, no. 3, 1014-1031, 2011. [3] D. Tuia, F. Ratle, F. Pacifici, M.F. Kanevski and W.J. Emery, Ac;ve learning methods for remote sensing image classifica;on, IEEE Transac#ons on Geoscience and Remote Sensing, vol. 47, no. 7, 2218-2232, 2009.

4. Resultados Experimentales 1 Kappa index Learning Curve for Synthetic Dataset Kappa index 0.95 Random 0.9 MIN PRO 0.85 MAX ENTRO 0.8 SVM MS [2] SVM MCLU [3] 0.75 SVM EQB [4] 5 10 15 20 25 Samples in training set 1 Kappa index Learning Curve for Real Dataset 0.9 Kappa index 0.8 0.7 0.6 0.5 0 50 100 150 200 250 Samples in training set

preguntas?