Tipos de subárboles/ patrones en árboles

Documentos relacionados
Planificaciones MINERIA DE DATOS. Docente responsable: ARGERICH LUIS RICARDO. 1 de 5

1.-DATOS DE LA ASIGNATURA

Ingeniería de Sistemas de Información Fernando Berzal, Cuestiones administrativas

Ingeniería de Aplicaciones Web

A3. Ciencia de datos y aprendizaje automático

Métodos Descriptivos en Minería de Datos

José Hernández Orallo Mª. José Ramírez Quintana

Reglas de Asociación. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid

Arquitectura de un data warehouse Funcionamiento detallado de un data warehouse

PROGRAMACIÓN DE LÍNEAS DE PRODUCTOS DE SOFTWARE ORIENTADAS A ASPECTOS

Programa Educativo (PE): Ingeniería en Ciencias de la Computación. Área: Tecnología. Programa de Asignatura: Minería de Datos.

MÓDULO MATERIA CURSO SEMESTRE CRÉDITOS TIPO

UNIVERSIDAD AUTÓNOMA DE YUCATÁN FACULTAD DE MATEMÁTICAS

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE INGENIERÍA PROGRAMA DE ESTUDIO

Algoritmos y Estructuras de Datos. Guillermo Román Díez

A3. Ciencia de datos y aprendizaje automático

Programa de Ciencias de Computadoras PRONTUARIO

ELABORACION DE MODELOS PARA LA IDENTIFICACION DE FACTORES CRITICOS DE EXITO, ANALISIS Y MITIGACION DE RIESGOS DE PROYECTOS EN DESARROLLO DE SOFTWARE

Behavior Modeling State Diagrams

B s ú que u da p rim i ero o e n n p rof o u f n u d n id i ad: E tr t ate t gia i L I L FO B s ú que u da p rim i ero o e n n a nc n h c u h r u a:

CURRICULUM VITAE DE MIEMBROS DE COMISIONES PARA CONCURSOS DE ACCESO A LOS CUERPOS DOCENTES UNIVERSITARIOS

Bibliografía Anotada

PROGRAMA DE CURSO. Código Nombre CC7515 Computación en GPU Nombre en Inglés Gpu Computing SCT

Inteligencia Artificial e Ingeniería del Conocimiento

EST L2 Lab.209 * CMP L2 Lab MD1 P1 Aula 101 CMP. Lab.115. Programació T1 Aula 101. Metod. Program. T1 Aula 101 EST P2.

Proyecto Nº de referencia SPIP Cantidad concedida: Realizado por INSIA (Instituto Universitario de Investigación del Automóvil)

TID Artículos. 1 Pan, leche, huevos 2 Pan, pañales, cerveza 3 Leche, pañales, cerveza 4 Pan, leche, pañales, cerveza 5 Pan, leche, huevos, cerveza

Clustering en subespacios Fernando Berzal,

Tema 4: Introducción al Aprendizaje Automático

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN

GUÍA DOCENTE DE LA ASIGNATURA CURSO MÁSTER UNIVERSITARIO DE INVESTIGACIÓN EN TECNOLOGÍAS DE LA INFORMACIÓN Y LAS COMUNICACIONES 5 ECTS

ANX-PR/CL/ GUÍA DE APRENDIZAJE ASIGNATURA CURSO ACADÉMICO - SEMESTRE FECHA DE PUBLICACION

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE INGENIERÍA PROGRAMA DE ESTUDIO

Investigación de Operaciones (IO) Operations Research

Bases de Datos y Bases de Conocimientos

Estructuras de Datos III

Mashups Integración bottom up de aplicaciones web. Ing. Gabriel López

Carrera : Academia de Sistemas y Computación. a) RELACIÓN CON OTRAS ASIGNATURAS DEL PLAN DE ESTUDIOS ASIGNATURAS TEMAS ASIGNATURAS TEMAS

Lógica y Programación

Introducción a la biología computacional. El plan: Algoritmos de reconocimiento de patrones:

Análisis de propiedades de medidas de similitud con atributos binarios

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE INGENIERÍA PROGRAMA DE ESTUDIO

Análisis Espacial aplicando Técnicas de Inteligencia Artificial

JOSÉ OCTAVIO GUTIÉRREZ GARCÍA

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Sistemas de Tiempo Real

Ingeniería lingüística

Tema 7: Aprendizaje de árboles de decisión

Aproximación evolutiva a la inducción constructiva basada en expresiones algebraicas

Predictor Basado en Prototipos Difusos y Clasificación Nosupervisada

1. Conceptos básicos sobre el problema en cuestión y cuestiones afines. 2. Formulación de los correspondientes algoritmos y su pseudocódigo.

Tema 2: Grafos y Árboles. Algoritmos y Estructuras de Datos 3

Conceptos de Algoritmos, Datos y Programas

Grado en Ingeniería Informática / Degree in Computer Engineering. PRG L3 Lab.210 MD1. L2 Lab.115. Aula 101 * Lab.115. T1 Aula 101. T1 Aula 101 EST L1

S I L V I A D E L C A R M E N G U A R D A T I B U E M O

Presentación de la asignatura

PROGRAMA DE CURSO. Personal Electivo para ICC FI2002 Electromagnetismo. Competencia a la que Tributa el Curso. Propósito del Curso

Tareas de la minería de datos: reglas de asociación y secuencias. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

METODOS DE INGENIERIA AVANZADA II

Inducción de Árboles de Decisión ID3, C4.5

Nombre de la Unidad de Aprendizaje. Clave de la UA Modalidad de la UA Tipo de UA Valor de créditos Área de formación

PROGRAMA DE DOCTORADO

Líneas de I+D+I del Laboratorio de Investigación y Desarrollo en Ingeniería de Explotación de Información (LIDIEI GISI UNLa)

adaptable al contexto

Sistemas de predicción Aprendizaje automático Data Mining & Machine Learning

Organización y Gestión de Archivos

Análisis de Información de Redes Sociales (Twitter) Angélica Urrutia 1 y Carolina Nicolás 2

"Big Data Analysis" (Métodos especiales para bases de datos gigantes)

Estructura de Datos Árboles Árboles 2-3

Minería de reglas de asociación con programación genética gramatical

REGLAS DE ASOCIACIÓN Bases de Datos Masivas. 29 de Octubre de 2015

Pregunta 1 Suponga que una muestra de 35 observaciones es obtenida de una población con media y varianza. Entonces la se calcula como.

Análisis de Algoritmos

Modelos de Razonamiento

Programación de sistemas

Estructura de Datos II

Minería de datos con información de contexto para la clasificación de imágenes satelitales

HOJA DE VIDA DE ROBERTO CRUZ RODES

SISTEMA INTEGRAL DE GESTIÓN DE UN MUNDO VIRTUAL EN INTERNET.

Grafos. 19 de diciembre de 2013

METODOS DE INGENIERIA I

INSTITUTO TECNOLOGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY CAMPUS MONTERREY

SISTEMAS EN TIEMPO REAL

DRA. EVA SELENE HERNÁNDEZ GRESS

Modelos predictivos y de optimización de estructuras de hormigón

Propedéutico de Programación

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

Algoritmos para strings. Bioinformática Elvira Mayordomo

CDI - Compresión de Datos e Imágenes

Estado 3.2 (coste = 9)

Benemérita Universidad Autónoma de Puebla Vicerrectoría de Docencia Dirección General de Educación Superior Facultad de Ciencias de la Computación

Algoritmos y Estructuras de Datos III

PROGRAMA DE ESTUDIO. : ARQUITECTURA DE SISTEMAS SOTFWARE Clave : EII 210

Ingeniería del Software II

SPADE [Sequential PAttern Discovery using Equivalent Class]

INTRODUCCION A LA COMPUTACION MOVIL

Mineria de Datos. Reglas de Asociacion. Dr. Edgar Acuna Departmento de Matematicas. Universidad de Puerto Rico- Mayaguez

Comportamiento de Integración de Algoritmos para Descubrimiento de Reglas de Pertenencia a Grupos

Método de Corrección Ortográfica Basado en Trigramas y Distancia de Edición

Transcripción:

Patrones en árboles Fernando Berzal, berzal@acm.org Patrones en árboles Tipos de árboles Tipos de subárboles/ patrones en árboles [Partially-Ordered-Tree Miner] Algoritmos Aplicaciones 1

Tipos de árboles Árbol ordenado Árboles parcialmente ordenados Árbol no ordenado 2 Tipos de árboles Ejemplo 3 representaciones alternativas del mismo árbol [no ordenado] Codificación del árbol DFS [Depth-first]: A C B A B BFS [Breadth-first]: A $ C B $ B A Depth sequence: (0,A) (1,C) (2,B) (2,A) (1,B) 3

Tipos de árboles Free trees (sin raíz asignada) 4 Tipos de subárboles Original tree Bottom-up subtree Induced subtree A A C Embedded subtree 5

Tipos de subárboles 6 Tipos de subárboles 7

Tipos de subárboles Embedded subtree Original tree Ocurrencias del patrón en el árbol original 8 Partially-Ordered Tree Miner Jiménez, Berzal & Cubero (KAIS 2009) Algoritmo tipo Apriori: Generación de candidatos Conteo del soporte 9

Generación de candidatos Rightmost expansion 10 Generación de candidatos Diferentes estrategias Rightmost expansion (FreqT) TMG [Tree-Model-Guided] candidate enumeration con secuencias de profundidad (Unot, ufreqt, Gaston, TRIPS) Extensión basada en clases de equivalencia (TreeMiner, SLEUTH,, RETRO, Phylominer) Right-and-left tree join(amiot) Extensionand join (HybridTreeMiner) 11

Clases de equivalencia Clase de equivalencia con dos elementos, ACA y AC B que comparten el prefijo AC 12 Generación de candidatos Clases de equivalencia IDEA Generar todos los patrones posibles, pero sin generar patrones por duplicado 13

Generación de candidatos Clases de equivalencia Cousin extension (en anchura) Child extension (en profundidad) 14 Generación de candidatos RL Tree Join 15

Generación de candidatos Extensionand join 16 Cálculo del soporte Listas de ocurrencias (tid, i 1, i 2 i k ) Listas de ámbitos (tid, m, s) 17

Cálculo del soporte Reunión de listas de ámbitos In-scope join (child extension) Out-scope join (cousin extension) 18 Ejemplo Conjunto de datos 19

Ejemplo Patrones de tamaño 1 ( representación vertical ) 20 Ejemplo Clases de equivalencia derivadas de lo patrones de tamaño 1 21

Ejemplo Clases de equivalencia derivadas de lo patrones de tamaño 2 22 Algoritmo basado en clases de equivalencia (como SPADE para secuencias, TreeMiner/Sleuth para árboles) 23

Implementación paralela Distribución de candidatos [CD: Candidate Distribution] 24 Implementación paralela 25

light (generación de listas de ámbitos bajo demanda) 26 DP [ dynamic programming ] Tiempo de CPU vs. Uso de memoria 27

Eficiencia 28 Resultados experimentales Datos sintéticos 1000 Execution time 100 10 1 2 3 4 5 6 7 DP Light 0,1 Pattern size 29

Resultados experimentales Datos reales 10000 Execution time 1000 100 10 1 0,1 2 3 4 5 Pattern size PD Light 30 Algoritmos 31

Algoritmos 32 Aplicaciones Documentos XML C O O Mi Br Be Di 33

Aplicaciones Análisis de software(grafos de dependencias) 34 Aplicaciones Patrones musicales Patrón exacto Patrón similarn 35

Aplicaciones Estudios longitudinales Representación basada en el tiempo 36 Aplicaciones Estudios longitudinales Representación basada en variables Person Ssex=m Vage Vheight Vweigh T0=20 T1=21 T0=(175,180] T1=(180,185] T0=(75-80] T1=(80-85] 37

Aplicaciones Bases de datos multirelacionales 38 Aplicaciones Bases de datos multirelacionales Person -id -name -age 1 1 House -houseid -type -city 1 0..* Car -plate -make -color 39

Aplicaciones Bases de datos multirelacionales person person.id=5 person.name=peter person.age =young person.houseid person.car[ownerid] person.houseid.id=5 person.houseid.type=duplex person.houseid.city=london person.car[ownerid] person.car[ownerid].color=white person.car[ownerid].make=chrysler person.car[ownerid].plate=5678jkl person.car[ownerid].owneidr=5 person.car[ownerid].plate=1234bcd person.car[iownerid].make=toyota person.car[ownerid].color=blue person.car[ownerid].ownerid=5 40 Aplicaciones Bases de datos multirelacionales Dos tipos de patrones E = Embedded subtrees I = Induced subtrees Dos esquemas de representación K = Key-based tree representation O = Object Object-basedbased tree representation 41

Agradecimientos Aída Jiménez, Ph.D. Tesis doctoral Knowledge discovery in non-linear structures Departamentode Cienciasde la Computación e I.A. Marzo de 2011 If you torture the data long enough, it will confess -- Ronald Coase 42 Bibliografía Charu C. Aggarwal& Jiawei Han(editors editors): Frequent Pattern Mining. Springer, 2014. ISBN 3319078208. 43

Bibliografía Pang-NingTan, Michael Steinbach & Vipin Kumar: Introduction todata Mining Addison-Wesley, 2006. ISBN 0321321367 [capítulos 6&7] JiaweiHan & Micheline Kamber: Data Mining: Conceptsand Techniques Morgan Kaufmann, 2006. ISBN 1558609016 [capítulo 5] 44 Bibliografía Algoritmos Aída Jiménez, Fernando Berzal & Juan Carlos Cubero: Frequent tree pattern mining: A survey, IntelligentData Analysis14(6):603-622 622, 2010. DOI 10.3233/IDA-2010-04430443 Aída Jiménez, Fernando Berzal & Juan Carlos Cubero: : Mining ordered, unordered, and partially-ordered trees, Knowledge and Information System 23(2): 199-224, 2010. DOI 110.1007/s10115-009-0213-3 Aída Jiménez, Fernando Berzal & Juan Carlos Cubero: Mining frequent patterns from XML data: Efficient algorithms and design trade- offs. Expert Systems with Applications 39(1):1134-1140, 1140, 2012. DOI 10.1016/j.eswa.2011.07.113 Aída Jiménez, Fernando Berzal & Juan Carlos Cubero: Interestingness measures for associationrules within groups. IntelligentData Analysis17(2):195-215, 215, 2013. DOI 10.3233/IDA-130574130574 45

Bibliografía Aplicaciones Fernando Berzal, Juan Carlos Cubero& Aída Jiménez: Hierarchical program representation for program element matching. Proceedings of the 8th International Conference on Intelligent Data Engineering and Automated Learning (IDEAL'07), pp. 467-476. 476. DOI 10.1007/978-3-540 540-77226-2_482_48 Aída Jiménez, Miguel Molina-Solana, Fernando Berzal& Waldo Fajardo: Mining transposed motifs in music. Journal of Intelligent Information Systems 36(1):99-115, 115, 2011. DOI 10.1007/s10844-010-0122-7 AídaJiménez, Fernando Berzal& Juan-Carlos Cubero: Mining patterns from longitudinal studies. Proceedings of the 7th international conference on Advanced Data Mining and Applications (ADMA'11), pp. 166-179 179. DOI 10.1007/978-3-642 642-25856-5_135_13 Aída Jiménez, Fernando Berzal & Juan Carlos Cubero: Using trees to mine multirelational databases. Data Mining and Knowledge Discovery 24(1):1-39, 2012. DOI 10.1007/s10618-011-0218-x 46