Clasificación Multi-Etiqueta

Documentos relacionados
Análisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Sesión 6: Clasificadores Bayesianos

Tema 15: Combinación de clasificadores

Examen Parcial. Attr1: A, B Attr2: A, B, C Attr3 1, 2, 3 Attr4; a, b Attr5: 1, 2, 3, 4

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Introducción a los sistemas Multiclasificadores. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

Métodos para Determinar el Atributo Distinguido en Multiredes Bayesianas

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

Clasificación Supervisada. Métodos jerárquicos. CART

Random Subspace Method. Índice. 1. Random Subspace Method. 1. Introducción. 2. Objetivo. 3. Implementación. 4. Evaluación. 5.

Selección de atributos

Clasificación de documentos

INAOE. Ensambles de Clasificadores. Eduardo Morales, Hugo Jair Escalante. Introducción. Ensambles de Clasificadores. Algoritmos.

Métodos de Inteligencia Artificial

Minería de Datos Web. Cursada 2018

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 11 -

NEWTON TREES. Árboles de Estimación Estocástica de Probabilidades:

Técnicas de aprendizaje sobre series temporales

Aprendizaje Semisupervisado

Análisis de Datos. Validación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Aprendizaje Automatizado. Árboles de Clasificación

I. CARACTERISTICAS DEL ALGORITMO ID3

Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL

Módulo Minería de Datos Diplomado. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Aprendizaje inductivo

Conjuntos de Clasificadores (Ensemble Learning)

Minería de Datos. Arturo Olvera López

Bases de Datos Multimedia

ARBOLES DE DECISION. Miguel Cárdenas-Montes. 1 Introducción. Objetivos: Entender como funcionan los algoritmos basados en árboles de decisión.

Aprendizaje de intervalos para Redes Bayesianas de Nodos Temporales

Estadística con R. Clasificadores

Aprendizaje Automatizado. Árboles de Clasificación

Clasificadores Débiles - AdaBoost

Random Forests. Teoría y ejemplos. Romain Gouron. Conferencia 9, GLAM, Doble titulo Ecole Centrale de Nantes (Francia)

Carteras minoristas. árbol de decisión. Ejemplo: Construcción de un scoring de concesión basado en un DIRECCIÓN GENERAL DE SUPERVISIÓN

Selección de Atributos. Dr. Jesús Ariel Carrasco Ochoa Oficina 8311

Índice general. Prefacio...5

Sesión 14: Redes de Decisión

Introducción. Autoencoders. RBMs. Redes de Convolución. Deep Learning. Eduardo Morales INAOE (INAOE) 1 / 60

Tema 8: Árboles de decisión

Inducción de Árboles de Decisión ID3, C4.5

Evaluación de modelos

Selección de Atributos

Aprendizaje: Boosting y Adaboost

Precisión del Modelo

Bases Formales de la Computación: Redes de Bayes (segunda parte)

Qué es big dimension? Verónica Bolón Canedo 2/30

Boosting. Miguel Cárdenas-Montes. 1 Boosting. 2 AdaBoost. Objetivos: Entender como funciona la técnica denominada boosting.

Tema 12. Selección de Variables

Definiciones: conjuntos, grafos, y árboles. Agustín J. González ELO 320: Estructura de Datos y Algoritmos. 2002

Clasificador Jerárquico de Imágenes utilizando Naive Bayes

CI5438. Inteligencia Artificial II Clase 4: Aprendizaje en Árboles. Cap 18.3: RN

ÁRBOLES CRISTIAN ALFREDO MUÑOZ ÁLVAREZ JUAN DAVID LONDOÑO CASTRO JUAN PABLO CHACÓN PEÑA EDUARDO GONZALES

Object Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary

Capítulo 8. Árboles. Continuar

Matemáticas Discretas L. Enrique Sucar INAOE. Teoría de Grafos. Problema de los puentes de Königsberg [Euler]

Aprendizaje Automático

Modelos Gráficos Probabilistas L. Enrique Sucar INAOE. Sesión 10: Redes Bayesianas Inferencia. 1era parte. [Neapolitan 90]

Aprendizaje Automatizado

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Aprendizaje Supervisado Árboles de Decisión

Sesión 4: Teoría de Grafos

Teoría de grafos y optimización en redes

IIC3633 Sistemas Recomendadores Functional Matrix Factorizations for Cold-Start Recommendation. Juan Navarro

ANÁLISIS DE DATOS. Ricardo Aler Mur

Pangea. Sistema de recomendación de viajes. Speaker: Andrés Pipicello. Lucas Bernardi, Martín Chaia, Bruno Cuervo Parrino. Demo

Visión de Alto Nivel. Dr. Luis Enrique Sucar INAOE. ccc.inaoep.mx/~esucar Sesión 5 Representación y Reconocimiento

Aprendizaje Automático Segundo Cuatrimestre de Árboles de Decisión

Aprendizaje Automatizado

TRABAJO FIN DE MÁSTER. Máster en Ingeniería del Software, Métodos Formales y Sistemas de Información

Algoritmos voraces (greedy)

ANÁLISIS DE DATOS. Jesús García Herrero

Desambiguación del Sentido de las Palabras (Word Sense Disambiguation)

Maritza Correa Valencia, PhD Informática

Proyecto 6. Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial.

Redes de Markov y CRF

ALGORITMO ID3. Objetivo

Predicción basada en vecinos

Apellidos:... Nombre:...

ASIGNATURA: (TIS-106) Estructuras de Datos II DOCENTE: Ing. Freddy Melgar Algarañaz

Métodos de ensambles

RECONOCIMIENTO DE VINOS POR CULTIVOS CLASIFICACION

Combinación de Clasificadores

Técnicas Multivariadas Avanzadas

Algoritmos glotones 2 (código de Huffman) mat-151

Combinación de vistas para clasificación multi-etiqueta: estudio preliminar

Estadística Multivariada Computacional Introducción al Aprendizaje Automático (parte 1)

Técnicas de Preprocesado

Methods of Classification in Mining of Meteorological Data

Clasificación Supervisada

CRITERIOS DE SELECCIÓN DE MODELOS

Lingüística computacional

Predicción de potencia en el parque eólico de Villonaco, Loja, Ecuador. Alberto Reyes y Tania Guerrero INER Ecuador

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

3. Árboles de decisión

Divide-y-vencerás, backtracking y programación dinámica

Transcripción:

Clasificación Multi-Etiqueta Eduardo Morales INAOE (INAOE) 1 / 42

Contenido 1 2 3 4 5 (INAOE) 2 / 42

Clasificación Multi-Clase Los algoritmos de aprendizaje que hemos visto hasta ahora, inducen un modelo, usando ejemplos de entrenamiento, para predecir el valor de una clase. Dados: D = ( x i, y i ) 1...N, x i R d ; y i C Encontrar: Clasificación binaria: f : R d C Clasificación multiclase: f : R d { 1, 1} f : R d {C 1,..., C k } (INAOE) 3 / 42

Clasificación Multi-Clase (INAOE) 4 / 42

Clasificación Multi-Etiqueta En clasificación multi-etiqueta lo que queremos es predecir un conjunto de valores Dado: D = ( x i, Z i ) 1...N, x i R d ; Z i L Encontrar: f : R d Z, Z L = {1,..., K } (INAOE) 5 / 42

Clasificación Multi-Etiqueta (INAOE) 6 / 42

Algunos Ejemplos (INAOE) 7 / 42

Clasificación Multi-Etiqueta Existen dos enfoques generales para clasificación multi-etiqueta: 1 : Transforman el problema en varios problemas de clasificación multiclase 2 : Adaptan algoritmos para lidear con conjuntos de clases (INAOE) 8 / 42

Métodos de Copia: Reemplaza cada ejemplo multi-etiqueta ( x i, Y i ) en Y i ejemplos de una sola etiqueta Directamente o de forma pesada ( 1 Y i ) (INAOE) 9 / 42

Métodos de Copia seleccionada: Copia y selecciona una de las clases La más frecuente (max), menos frecuente (min), en forma aleatoria (random), ignorando los ejemplos multi-etiqueta (ignore) (INAOE) 10 / 42

Métodos de Conjunto potencia (powerset): Simple y muy usado, en donde considera cada subconjunto diferente de clases como una nueva clase de un nuevo problema de clasificación multi-clase (INAOE) 11 / 42

Label Powerset Cómo clasificamos? Si el clasificador nos da una probabilidad de salida, las podemos repartir en las clases y sumarlas (INAOE) 12 / 42

RAkEL Random k-label sets construye un ensemble de Label Powersets, cada clasificador construido con un subconjunto pequeño de clases Ventajas: Mantiene las correlaciones entre las clases y mantiene el número de clases reducido De nuevo ordena las salidas de los clasificadores (INAOE) 13 / 42

Binary Relevance Es un método popular que genera n clasificadores binarios, uno por cada valor (i) de las clases Cada clasificador se entrena con todos los datos originales, considerando ejemplos positivos a los que tienen la clase i, y negativos el resto (j i), y lo hace para todas las clases (INAOE) 14 / 42

Ranking by Pairwise Comparison Transforma el problema multiclase en q(q 1) 2 conjunto de clases binarias (uno para cada par de clases) Cada conjunto de datos contiene ejemplos de alguna de las clases, pero no de las dos Dada una nueva instancia se corre en todos los clasificadores y se cuentan los votos recibidos para cada clase (INAOE) 15 / 42

de Algoritmos Se han realizado adaptaciones a varios algoritmos para poder lidear con ejemplos multi-etiquetas: Árboles de decisión (permite a las hojas tener más de una clase y modifica la medida de entropía) Boosting (Adaboost): Evalua considerando múltiples clases Campos aleatorios de Markov: Lo modifican para considerar co-ocurrencia de etiquetas Redes neuronales: Adaptan back-propagation para considerar multi-etiquetas SVM: Generan n clasificadores binarios, sus predicciones se usan como atributos para nuevos clasificadores binarios knn: Encuentra vecinos más cercanos tomando en cuenta la frecuencia de las clases (INAOE) 16 / 42

Multi-Dimensional Bayesian Classifiers Una red de clasificación bayesiana multi-dimensional es una red bayesiana con una topología restringida Se pueden crear diferentes estructuras y estrategias de aprendizaje para cada sub-grafo. (INAOE) 17 / 42

Multi-Dimensional Bayesian Classifiers Tree-augmented MBCs (van der Gaag, 2006) Poly-tree structures (de Waal, 2007; Zaragoza, 2011) Greedy approaches for filter, wrapper and hybrid (Bielza, 2010) Based on Markov blanquets (Borchani, 2011) (INAOE) 18 / 42

Chain Classifiers La idea de los clasificadores en cadena es por un lado tener clasificadores simples (binarios) y considerar las dependencias entre las clases Se crea una cadena de clasificadores, en donde los atributos de clasificadores binarios se aumentan con las predicciones de los clasificadores anteriores en la cadena (INAOE) 19 / 42

Chain Classifiers El orden de la cadena es relevante si existen dependencias entre las clases Como no se sabe cuál debe de ser el orden se crea un ensamble con muchos ordenes de clases generados aleatoriamente Se usa un voto simple de las clases predichas por todos los ensambles usando un umbral (INAOE) 20 / 42

Bayesian Chain Classifier (BCC) 1 La idea es determinar un orden con base en dependecias y limitar el número de atributos usados para los clasificadores en la cadena Pasos: 1 Obtener una estructura de dependencias (red bayesiana) para las clases 2 Crear una clasificador en cadena tomando en cuenta ésta estructura (sólo incorpora los padres de cada clase como atributos adicionales) 1 J.H. Zaragoza, L.E. Sucar, E.F. Morales, C. Bielza, P. Larrañaga (2011). Bayesian Chain Classifiers for Multidimensional Classification. Proc. of the International Joint Conference on Artificial Intelligence (IJCAI-2011), pp. 2192-2197. (INAOE) 21 / 42

Bayesian Chain Classifier (INAOE) 22 / 42

Bayesian Chain Classifier (INAOE) 23 / 42

Jerárquicos A veces las clases están organizadas en una jerarquía Algunos algoritmos aprovechan esa información adicional (dependencias jerárquicas conocidas) Clasificación por: 1 Tipo de jerarquía: (i) Árbol o (ii) DAG 2 Profundidad de clasificación: (i) mandatory leaf-node prediction o (ii) non mandatory leaf-node prediction 3 Esquema de exploración: (i) Local o (ii) Global (INAOE) 24 / 42

Local o Top-Down El entrenamiento se puede hacer de difrentes formas: 1 Clasificación binaria en cada nodo (excepto el nodo raíz) 2 Usar un clasificador multi-clase en cada nodo padre 3 Usar un clasificador multi-clase por nivel 4 Usar un clasificador multi-clase sólo para las hojas Normalmente se usa el mismo clasificador en toda la jerarquía Inconsistency problem: Un error en algún nivel de la jerarquía se propaga a todos sus descendientes El problema es porque los clasificadores se consideran indpendientes entre sí (INAOE) 25 / 42

Tipos de Clasificadores Tipos: Flat, Global, Local (INAOE) 26 / 42

Jerárquico (MHC) 2 Aprende un clasificador multiclase para cada nodo padre Con un nueva instancia usa todos los clasificadores para predecir las clases en todos los nodos y combina los resultados de todas los caminos Regresa el camino con probabilidad más alta Se puede decidir parar la clasificación hasta cierto nivel (non mandatory leaf-node prediction) 2 J. Hernández, L.E. Sucar, E.F. Morales (2014). Multidimensional hierarchical classification. Expert Systems with Applications 41 (17): 7671-7677. (INAOE) 27 / 42

Jerárquico (MHC) La combinación aquí es multiplicando, pero se pueden pensar en otras formas (INAOE) 28 / 42

Jerárquico (HMC) 3 Usar ideas de clasificadores multi-etiqueta Aprovechar propiedades: Un ejemplo que pertenece a una clase, también pertenence a todas sus super-clases (y un negativo se propaga a todas sus sub-clases) Incluir las predicciones de las clases de los padres en los atributos de los hijos (chain classifier) 3 M. Ramírez-Corona, L.E. Sucar, E.F. Morales (2016). Hierarchical multilabel classification based on path evaluation, International Journal of Approximate Reasoning 68: 179-193. (INAOE) 29 / 42

Jerárquico (HMC) Usar ejemplos negativos de nodos cercanos para balancear las clases root Training set for C 5 y 1 y 4 Tr(C 5 )= Tr + (C 5 ) U Tr - (C 5 ) 11 inst 12 inst Labels: y 6, y 7 and "unknown" # Instances: 9 y 2 y 3 y 5 y 8 Tr - (C 5 ): subset of instances in y 8 5 inst 6 inst 6 inst 6 inst y 6 y 7 y 9 3 inst 3 inst 6 inst Tr + (C 5 ): instances in y 6 and y 7 Tr + (C 5 ) = { x x child(y 5 )} Labels: y 6 and y 7 # Instances: 6 Tr - (C 5 )={ x x sib(y 5 )} Label: "unknown" # Instances: average( child(y 5 )) =(3+3)/2 = 3 (INAOE) 30 / 42

Jerárquico (HMC) Merging rule: considera el nivel en el árbol y predicción de cada nodo: m j=1 level(y i ) = 1 + level(pa(y i) j ) pa(y i ) level(y w(y i ) = 1 i ) maxlevel + 1 p score = w(y i ) log(p(y i x e, pa(y i ))) i=1 (INAOE) 31 / 42

Jerárquico (HMC) root w 1 =0.75 P(y 1 =1 x e )=0.4 y 1 y 6 w 6 =0.75 P(y 6 =1 x e )=0.5 w 2 =0.5 P(y 2 =1 x e,y 1 )=0.3 w 3 =0.5 y 2 P(y y 3 =1 x e,y 1 ) 3 =0.4 w 7 =0.5 y 7 P(y y 7 =1 x e,y 6 ) 10 =0.4 w 10 =0.5 P(y 10 =1 x e,y 6 )=0.2 w 4 =0.375 P(y 4 =1 x e,y 3,y 6 )=0.7 y 4 y 8 y 9 w 8 =0.25 P(y 8 =1 x e,y 7 )=0.1 y 5 w 9 =0.25 P(y 9 =1 x e,y 7 )=0.5 w 5 =0.125 P(y 5 =1 x e,y 4 )=0.5 (INAOE) 32 / 42

Jerárquico (HMC) root 0.75*log(0.4) y 1 y 6 0.75*log(0.5) + + + + 0.5*log(0.3) y 2 0.5*log(0.4) y 3 = -0.560 + + 0.5*log(0.4) y 7 y 10 + + = -0.575 0.5*log(0.2) 0.375*log(0.7) y 4 + 0.25*log(0.1) y 8 y 9 = -0.675 = -0.5 0.25*log(0.5) 0.125*log(0.5) y 5 = -0.819 (INAOE) 33 / 42

Medidas de Para los clasificadores multi-etiqueta se han propuesto diferentes medidas de evaluación: Mean accuracy (por clase para d clases): overlineacc d = 1 d d Acc j = 1 d j=1 d j=1 1 N N δ(c ij, c ij) i=1 donde δ(c ij, c ij) = 1 si c ij = c ij and 0 en otro caso Global accuracy (por ejemplo): Acc = 1 N N δ(c i, c i) i=1 donde c i es el vector d-dimensional de las clases y δ(c i, c i) = 1 si c i = c i y 0 en otro caso (INAOE) 34 / 42

Medidas de Multilabel accuracy (también llamado de Jaccard): ML-Acc = 1 N N i=1 c i c i c i c i F-measure: F-measure = 1 d d j=1 2p j r j (p j + r j ) (INAOE) 35 / 42

Medidas de Jerárquicas Exact-Match: Accuracy: ExactMatch = 1 N Accuracy = 1 N N i=1 1 Yi =Ŷi N Y i Ŷi Y i Ŷi i=1 Hamming-Loss and Hamming-Accuracy: HammingLoss = 1 N Y i N L Ŷi i=1 donde es or exclusivo Hamming accuracy (H-Accuracy) se define como: H Accuracy = 1 HammingLoss. (INAOE) 36 / 42

Medidas de Jerárquicas F1-measure: Para multi-etiqueta, refiniendo precisión y recuerdo F1 = 2 precision recall precision + recall Donde: Precision: z i ẑ i y Recall: z i ẑ i ẑ i z i F1-macro D: mide el desempeño promedio por instancia F1macro D = 1 N N F1(z i, ẑ i ) i=0 F1-macro L: mide el desempeño promedio por clase F1macro L = 1 L L F1(z i, ẑ i ) i=0 (INAOE) 37 / 42

Medidas de Jerárquicas Gain-Loose Balance: premia nodes bien clasificados y castiga los mal, considerando el número de hermanos y la profundidad en la jerarquía np i=0 GLB = (1 1 n N i )(1 w i ) nt i=0 (1 1 N i )(1 w i ) fp i=0 1 N i w i + n fn i=0 Conocimiento el posible valor máximo y mínimo se puede normalizar: 1 w i N i NGLB = (GLB min) max min (INAOE) 38 / 42

de Atributos A partir de los atributos originales selecciona un subconjunto de estos La meta es seleccionar el subconjunto S más pequeño de todos los atributos F, tal que P(C S) P(C F) Ventajas esperadas: 1 Mejorar el desempeño predictivo 2 Construir modelos más eficientemente 3 Mejorar entendimiento sobre los modelos generados (INAOE) 39 / 42

de Atributos En general, los algoritmos de selección de atributos se distinguen por su forma de evaluar atributos y los podemos clasificar en tres: 1 Filtros (filters): seleccionan/evalúan los atributos en forma independiente del algoritmo de aprendizaje 2 Wrappers: usan el desempeño de algún clasificador para determinar lo deseable de un subconjunto 3 Híbridos: usan una combinación de los dos criterios de evaluación en diferentes etapas del proceso de búsqueda. (INAOE) 40 / 42

de Atributos en Problemas Multi-Etiqueta Filter: Transforman el problema en uno o más de una sóla clase y se usa algún algoritmo de selección de atributos tipo filtro. Después se sigue algún esquema de agregación Wrapper: se pueden aplicar directamente con algún algoritmo de clasificación multi-etiqueta También se han propuesto variantes de algoritmos de extracción de atributos como LDA (INAOE) 41 / 42

Meka MEKA: A Multi-Label Extension to WEKA Algunos de los algoritmos que tiene son: 1 Binary Relevance 2 Chain classifier 3 metabagging 4 Bayesian chain classifier (BCC) 5 RAkEL 6... http://meka.sourceforge.net (INAOE) 42 / 42