Métodos no supervisados: Agrupamiento
|
|
- Gerardo Crespo Flores
- hace 5 años
- Vistas:
Transcripción
1 Métodos no supervisados: Agrupamiento Agrupamiento clustering- Carlos J. Alonso González Departamento de Informática Universidad de Valladolid
2 Contenido 1. Introducción. Basados en particiones 3. Métodos jerárquicos 4. Métodos basados en modelos Agrupamiento
3 1 Introducción Formación de conceptos Dado Instancias de un concepto, posiblemente desconocido Obtener Caracterización del concepto Dos aproximaciones principales Agrupamiento Descubrimiento Agrupamiento 3
4 Descubrimiento de conceptos Amplia clase de sistemas Los más sencillos: descubrimiento empírico, leyes generales que describen observaciones BACON Descubrimiento de leyes cuantitativas Proust, Gases Ideales, Kepler, Ohm... Los más complejos: formación de teorías, manipulando conocimiento base junto a observaciones ABACUS Leyes cuantitativas y precondiciones para su uso Agrupamiento 4
5 Agrupamiento cluster analysis- Objetivo: encontrar grupos que reflejen la estructura del espacio de entrada Cluster: conjunto de instancias Similares en el mismo cluster Distintos entre clusters diferentes Clustering: agrupar datos de entrada en clusters Usos principales Herramienta de análisis de datos Etapa de preprocesado para otros algoritmos Agrupamiento 5
6 Aparentemente simple Agrupamiento 6
7 En la práctica, complejo Agrupamiento 7
8 Calidad del agrupamiento Clusters con Alta similitud intra clase Baja similitud inter clase Dificultad de evaluación Depende a la medida de similitud Subjetivo Dependiente de la aplicación Capacidad para encontrar patrones ocultos Agrupamiento 8
9 Principales aproximaciones Basados en particiones Crean particiones sucesivas del conjunto de datos Jerárquicos Descomposición jerárquica del conjunto de objetos Basados en densidades Funciones densidad y conectividad Basados en rejillas Estructuras de diversa granularidad Basados en modelos Se supone un modelo del cluster y se ajustan sus parámetros Combinaciones de los anteriores! Agrupamiento 9
10 . Basados en particiones Dividen el conjunto de entrenamiento, D, en k particiones Objetivo: dado k, dividir D en k grupos que optimice el criterio de partición -similitud- Óptimo global: requiere búsqueda exhaustiva de todas las particiones Métodos heurísticos: Óptimo local K-medias K-medianas Agrupamiento 10
11 K-medias (centros móviles) Método clásico (67) Seleccionar aleatoriamente k centros iniciales Repetir Asignar instancias a cluster con centro más próximo Calcular los nuevos centroides de los clusters Hasta criterio de convergencia Agrupamiento 11
12 K-medias: ejemplo I
13 K-medias: ejemplo II Agrupamiento 13
14 K-medias: ejemplo II (continuación) Agrupamiento 14
15 Discusión El algoritmo minimiza el error cuadrático de la distancia a los centros de los clusters Convergencia si distancia euclídea Mínimo local Simple y relativamente eficiente, O(tkn) t iteraciones, k particiones, n= D Usualmente t, k << n Limitaciones Hay que fijar k Solo aplicable si está definida la media Sólo clusters convexos Poco robusto al ruido Outliers Diferencias significativas con selección inicial de centros Agrupamiento 15
16 Influencia selección inicial Agrupamiento 16
17 Influencia selección inicial Agrupamiento 17
18 K-medianas Usar como centros las medianas y no las medias Mediana de un cluster: la instancia más centrada No se ve afectada por outliers Más robusto al ruido Estrategia de substitución de medianas más sofisticada Agrupamiento 18
19 Estrategia de substitución de medianas Para determinar si instancia m h es un buen substituto de m i centroide i-ésimo -, se examinan 4 posibilidades para cada instancia no centroide, j 1. j en centroide m i ; si al reemplazar m i por m h j está más próximo a m t, i t, asignar j a m t. j en centroide m i ; si al reemplazar m i por m h j está más próximo a m h, asignar j a m h 3. j en centroide m t ; si al reemplazar m i por m h j sigue más próximo a m t, i t, no modificar asignación 4. j en centroide m t ; si al reemplazar m i por m h j está más próximo a m h, i t, asignar j a m h Agrupamiento 19
20 Ejemplo substitución medianas j i h t C jih = t i h j C jih = d(j, h) - d(j, i) h i t j C jih = d(j, t) - d(j, i) t i h j C jih = d(j, h) - d(j, t)
21 Coste del intercambio Cada vez que se produce un intercambio, se puede modificar el error cuadrático Para cada punto no centroide, se calcula la diferencia del error cuatrático del nuevo al antiguo centroide: C jih j no centroide, i centroide anterior, h nuevo centroide El coste total es la suma extendida a todos los no centroides CT ih = j C jih Si CT ih <0 se produce el cambio Agrupamiento 1
22 Ejemplo costes intercambios j i h t C jih = t i h j C jih = d(j, h) - d(j, i) h i t j C jih = d(j, t) - d(j, i) t i h j C jih = d(j, h) - d(j, t)
23 PAM: Partition around medoids Uno de los primeros algoritmos k-medianas (87) Seleccionar aleatoriamente k centros iniciales Asignar instancias a cluster con centro más próximo Repetir Para cada centro i seleccionar aleatoriamente una instancia no central, x h Calcular el coste total de intercambiar i e h: CT ih Si CT ih <0, reemplazar i por h y reasignar instancias no centroides Hasta criterio de convergencia Agrupamiento 3
24 PAM: discusión Efectivo para conjuntos de datos pequeños No es adecuado para conjuntos de datos grandes Alternativas CLARA CLARANS Agrupamiento 4
25 CLARA (Clustering Large Applications, 1990) CLARA Extrae múltiples muestras del conjunto de entrenamiento Aplica PAM a cada muestra Devuelve partición con menor error cuadrático Ventaja: permite trabajar con conjuntos de datos más grandes Inconvenientes La eficiencia depende del tamaño de la muestra Si la muestra está sesgada, un buen clustering de la muestra no será un buen clustering del conjunto de datos Agrupamiento 5
26 CLARANS (Clustering Large Applications based upon RANdomize Search, 1994) CLARANS Búsqueda en grafo de particiones: cada nodo, posible solución (conjunto de k-medoides) Extrae, dinámica y aleatoriamente, nuevas muestras vecinas de instancias ya consideradas Genera nodos al modificar centros, mientras disminuya error cuadrático Si mínimo local, selecciona aleatoriamente otro nodo Más eficiente y escalable que PAM y CLARA Agrupamiento 6
27 3 Métodos jerárquicos Agrupan las instancias en un árbol de clusters: Dendograma Dos aproximaciones Métodos aglomerativos o botton-up Inicialmente asignan un cluster a cada instancia Fusionan los clusters según criterio de similitud Más frecuente Métodos divisorios o top-down Inicialmente único cluster con todas las instancias Didive los clusters Agrupamiento 7
28 Ejemplo Step 0 Step 1 Step Step 3 Step 4 a a b b a b c d e c c d e d d e e Step 4 Step 3 Step Step 1 Step 0 agglomerative (AGNES) divisive (DIANA) Agrupamiento 8
29 Dendograma Descompone datos en particiones anidas (árbol de clusters) Una partición se obtiene cortando el dendograma al nivel deseado: cada componente conectado es un cluster Agrupamiento 9
30 Características Utilizan matriz de distancias m i,j =d(x i,x j ) No es preciso conocer k Condición de terminación (salvo único cluster o todas las instancias) Agrupamiento 30
31 Criterios de unión Distancias habituales entre clases Mínima: puntos más cercanos del cluster (simple linkage) Máxima: puntos más alejados del cluster (complete linkage) Medias: ente las medias de los dos clusters Promedio: entre los puntos de los dos clusters Método de Ward: se fusionan los dos clusters cuya unión genera el mínimo incremento del error cuadrático (tb. basado en distancias) Complete y Ward crean clusters más compactos: Generalmente, Ward mejor comportamiento, Ward mayor coste computacional (aunque método efectivo si distancia euclídea) Agrupamiento 31
32 AGNES AGlomerative NESting Introducido 90 Inicialmente, un cluster por instancia En cada paso se agrupan clusters más cercanos Hasta condición de terminación o un único cluster Agrupamiento 3
33 Ejemplo: 5 instancias y distancia mínima Tree Diagram for 5 Variables Single Linkage Dissimilarities from matrix VAR1 VAR3 VAR VAR4 VAR Linkage Distance Agrupamiento 33
34 DIANA: DIvisive ANAlysis 90 Inicialmente, un único cluster con todas las instancias En cada paso, generar clusters más separados Hasta condición de terminación o cada cluster una instancia Agrupamiento 34
35 Métodos Jerárquicos: Discusión Método simple No precisa conocer k: cortar el dendográma al nivel deseado Determinista Clusters no esféricos Dificultades Selección puntos de fusión o división Irrevocable Si errónea, malos resultados Costosa Coste 0(n ) Posibilidades Combinar clustering jerárquico con otras técnicas: BIRCH, CURE, etc Agrupamiento 35
36 BIRCH (96) Balanced Iterative Reducing and Clustering using Hierarchies Construcción incremental del árbol CF (Clustering Feature: información cada cluster) Fase 1: escanear base de datos para construir, dinámicamente, el árbol Fase : Utilizar un algoritmo arbitrario de clustering para agrupar nodos hojas Escalable (lineal), cluster de calidad con único escán Sólo datos numéricos Agrupamiento 36
37 Inconvenientes métodos basados en error cuadrático Un representante por clase Clusters esféricos Precisan buena estimación de K Agrupamiento 37
38 CURE: Clustering Using Representatives (98) Usa varios centroides para representar un cluster Adaptación a geometría no esférica Extraer muestra aleatoria Particiona instancias en p grupos Clustering de cada partición (jerárquico) Eliminar outliers muestreando Agrupa cluster parciales Agrupamiento 38
39 Ejemplo p= y y y x y y x x x x Agrupamiento 39
40 CURE: agrupación y y x x Agrupamiento 40
41 4 Métodos basados en modelos Asumen la existencia de un modelo matemático Intentan optimizar el ajuste ente el modelo y los datos Habitualmente, asumen que el espacio de instancias esta gobernado por una mezcla de distribuciones de probabilidades Dos aproximaciones principales Probabilísticos: Clustering conceptual, algoritmo EM Redes de neuronas: competitivos, mapas autoorganizados Agrupamiento 41
42 Limitaciones del clustering basado en similitud Define los cluster por extensión No proporciona ninguna descripción del concepto No utilizan conocimiento Incapaces, por ejemplo, de encontrar el concepto galaxia a partir de imágenes del cielo No tienen en cuenta el objetivo final Por qué clasificar la ballena como mamífero y no como pez? Agrupamiento 4
43 Clustering Conceptual Introducido por Michalski, 80 Agrupa las instancias en clases, según los valores de los atributos, intentando crear un concepto que las explique Obtiene una descripción del concepto Incluyen conocimiento: probabilidades, bias, etc. Objetivo: obtener conceptos que no se basen sólo en la similitud de los datos Agrupamiento 43
44 COBWEB, Fischer, 87 Agrupamiento conceptual incremental Crea un cluster jerárquico en forma de árbol de clasificación Cada nodo corresponde a un concepto Descrito en términos probabilísticos, P(C k ), p(a i =v ij /C k ) Hijos de un nodo: partición Utiliza medida de utilidad para guiar la construcción Añade instancias una a una, realizando operaciones sobre el árbol que maximizan utilidad Agrupamiento 44
45 Árbol de clasificación Agrupamiento 45
46 Utilidad de la categoría K I J P( C ) P k [ P( A = i V ijc k) ( k = 1 i= 1 j= 1 K A i = V ij ) ] Sólo tiene sentido introducir una clases si p(a i =v ij /C k ) >p(a i =v j ) Favorece: Similitud en las clases (intraclass), previsibilidad P( A i = V ij C k ) Disimilitud entre las clases, (interclass), predictibilidad P( C A i V k = ij ) Agrupamiento 46
47 Factor 1/k? Penalizar la creación de clusters para evitar sobreajuste Valor máximo de la utilidad sin factor 1/k: un cluster por instancia p(a i =v ij /C k )=1 para el valor actual de la única instancia de la clases, 0 restantes valores numerador: I J n P( = i V i= 1 j= 1 A ) ij n: número de atributos Agrupamiento 47
48 Insertar instancia Clasificar la instancia Crear una nueva clase 1. Utilidad de instancia en mejor clase. Utilidad de instancia en nueva clase 3. Crear si alguna de las opciones de es mejor que 1 Agrupamiento 48
49 Operaciones sobre el árbol Añadir una nueva categoría para una sola instancia Combinar dos categorías existentes y añadir la instancia a la categoría resultante Dividir una categoría existente y colocar la instancia en la mejor categoría del nuevo árbol Agrupamiento 49
50 Combinación P P Combinación A B N A B Agrupamiento 50
51 Separación P P Separación N A B A B Agrupamiento 51
52 Discusión Capaz de obtener descripciones de conceptos en base al conocimiento previo (probabilidades) Limitaciones Solo atributos discretos CLASSIT, extensión atributos continuos Asume atributos independientes No hay garantía de mínimo local Sensible al orden de presentación de los ejemplos 1/k? Agrupamiento 5
53 Algoritmo EM (Expectation Maximization) La división de un conjunto de datos en grupos disjuntos puede no ser la mejor solución Especialmente si los datos son heterogéneos, en el sentido de que los datos pueden reflejar fenómenos de diferente naturaleza Necesitaríamos Permitir que una instancia pueda pertenecer a más de un grupo, en distinto grado Solución estadística clásica: Mixture Models La población se describe como una combinación lineal de distribuciones Agrupamiento 53
54 Ejemplo: combinación de dos distribuciones normales Varianza idéntica y conocida Cada instancia se genera Eligiendo una de las dos Normales aleatoriamente (por ejemplo, distribución uniforme) Generando la instancia de acuerdo a la distribución elegida Agrupamiento 54
55 Estimación de las k medias La tarea de aprendizaje se plantea Asumir instancias responden a una combinación de k Normales Medias desconocidas <µ 1, µ,... µ k > No sabemos que instancia x i fue generada por que normal µ j Determinar Estimación máxima verosimilitud de <µ 1, µ,... µ k > Agrupamiento 55
56 Variables ocultas Plantear el problema en términos de variables no observables Describir cada instancia como y i =<x i, z i1, z i > z ij =1 si generada por j-ésima normal x i observable z ij no observable Agrupamiento 56
57 EM para la estimación de medias normales, σ conocida Hipótesis inicial aleatoria, h=<µ 1, µ > Paso 1, E Calcular el valor esperado E[z ij ] de cada variable oculta z ij, asumiendo hipótesis actual h=<µ 1, µ > Paso, M Calcular nueva hipótesis h =<µ 1, µ > de máxima verosimilitud, asumiendo que el valor de cada variable oculta z ij, es el valor esperado calculado en Paso 1, E[z ij ]. Reemplazar h por h. Agrupamiento 57
58 Agrupamiento 58 EM para la estimación de medias normales Paso 1 Paso = = = = = = = = 1 / ) ( / ) ( 1 ) / ( ) / ( ] [ n x x n i n j i j i n i j i e e x x p x x p z E σ µ σ µ µ µ µ µ = = m i i j i j x z E m 1 ] [ 1 µ'
59 Agrupamiento 59 Extensión a k medias normales Inmediata Paso 1 Paso = = k n x x j i n n i j j i e e z E 1 / ) ( / ) ( ] [ σ µ σ µ = = m i i j i j x z E m 1 ] [ 1 µ' 1 ) )( ( 1 ' j i m i j i j x z E m σ µ = =
60 Discusión Converge a máximos locales y proporciona estimas de las variable ocultas Máximo local de E[ln p(y/h)] Y=X U Z Extensión a varios atributos (x) Simple si se asume independencia (como Naïve Bayes) Distribuciones conjuntas, introduce matriz de covarianza simétrica, n*(n+1)/: aumenta el riesgo de sobreajuste por exceso de parámetros Atributos discretos, simple si independientes Estimación de k Agrupamiento 60
61 Bibliografía Chirstopher M. Bishop. Pattern Recognition and Machine Learning. Springer, 006 Jiawei Hand and Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, nd edition, nto.pdf
Minería de Datos Web. Cursada 2018
Minería de Datos Web Cursada 2018 Proceso de Minería de Texto Clustering de Documentos Clasificación de Documentos Es un método supervisado para dividir documentos en base a categorías predefinidas Los
Más detallesIntroducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada
Clustering Clasificación no supervisada Javier G. Sogo 10 de marzo de 2015 1 Introducción 2 Clustering jerárquico 3 Clustering particional 4 Clustering probabilista 5 Conclusiones Introducción Objetivos
Más detallesINTELIGENCIA DE NEGOCIO
INTELIGENCIA DE NEGOCIO 2016-2017 n n n n n n n n Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Minería de Datos. Ciencia de Datos Tema 3. Modelos de Predicción: Clasificación, regresión y
Más detallesClasificación Clasific NO SUPERV SUPER ISAD IS A AD AGRUPAMIENTO
Clasificación NO SUPERVISADA AGRUPAMIENTO Clasificación No Supervisada Se trata de construir clasificadores sin información a priori, o sea, a partir de conjuntos de patrones no etiquetados Objetivo: Descubrir
Más detallesTÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla
Más detallesTÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla
Más detallesIntroducción a los sistemas Multiclasificadores. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid
Introducción a los sistemas Multiclasificadores Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Combinación de modelos 2. Descomposición bias-varianza 3. Bagging
Más detallesProf. Dra. Silvia Schiaffino ISISTAN
Clustering ISISTAN sschia@ea.unicen.edu.ar Clustering: Concepto Cluster: un número de cosas o personas similares o cercanas, agrupadas Clustering: es el proceso de particionar un conjunto de objetos (datos)
Más detallesINTELIGENCIA DE NEGOCIO
INTELIGENCIA DE NEGOCIO 2018-2019 Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Minería de Datos. Ciencia de Datos Tema 3. Modelos de Predicción: Clasificación, regresión y series temporales
Más detallesCLUSTERING. Bases de Datos Masivas
1 CLUSTERING Bases de Datos Masivas 2 Temas Qué es clustering? K-Means Clustering Hierarchical Clustering QUÉ ES CLUSTERING? 3 Aprendizaje Supervisado vs. No Supervisado 4 Aprendizaje Supervisado: tanto
Más detallesAprendizaje No Supervisado
Aprendizaje Automático Segundo Cuatrimestre de 2015 Aprendizaje No Supervisado Supervisado vs. No Supervisado Aprendizaje Supervisado Clasificación y regresión. Requiere instancias etiquetadas para entrenamiento.
Más detallesCLUSTERING. Eduardo Morales y Jesús González
CLUSTERING Eduardo Morales y Jesús González Clustering (Agrupamiento) 2 Proceso de agrupar datos en clases o clusters de tal forma que los objetos de un cluster: Tengan alta similaridad entre ellos Baja
Más detallesReconocimiento de Formas
Reconocimiento de Formas Técnicas no Supervisadas: clustering José Martínez Sotoca Objetivo: Estudio de la estructura de un conjunto de datos, división en agrupaciones. Características: Homogeneidad o
Más detallesSISTEMAS INTELIGENTES
SISTEMAS INTELIGENTES T12: Aprendizaje no Supervisado {jdiez, juanjo} @ aic.uniovi.es Índice Aprendizaje no Supervisado Clustering Tipos de clustering Algoritmos Dendogramas 1-NN K-means E-M Mapas auto-organizados
Más detallesClustering: Algoritmos
Clustering: Algoritmos Clasificación no supervisada Javier G. Sogo 10 de marzo de 2015 1 Introducción 2 Algoritmo: K-medias 3 Algoritmo: BFR 4 Algoritmo: CURE Introducción Acotar el problema Complejidad
Más detallesExamen de Teoría de (Introducción al) Reconocimiento de Formas
Examen de Teoría de (Introducción al) Reconocimiento de Formas Facultad de Informática, Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia, Enero de 007 Apellidos:
Más detallesClasicación Automática de Documentos
Clasicación Automática de Documentos Carlos G. Figuerola, José Luis Alonso Berrocal, Angel F. Zazo Universidad de Salamanca Grupo REINA http://reina.usal.es Carlos G. Figuerola (Grupo REINA) Clasicación
Más detallesTécnicas de Clustering
Técnicas de Clustering Programa Introducción Métodos Divisivos Métodos Jerárquicos Algunos otros métodos Cuantos clusters? estabilidad Introducción Definiciones previas: Cluster: Agrupamiento de objetos.
Más detallesClustering: Auto-associative Multivariate Regression Tree (AAMRT)
Introducción Tipos Validación AAMRT Clustering: Auto-associative Multivariate Regression Tree (AAMRT) Miguel Bernal C Quantil 12 de diciembre de 2013 Miguel Bernal C Quantil Matemáticas Aplicadas Contenido
Más detallesClustering INAOE. Outline. Introducción. Medidas de similaridad. Algoritmos. k-means COBWEB. Clustering. basado en probabilidades.
INAOE (INAOE) 1 / 52 1 2 3 4 5 6 7 8 9 10 (INAOE) 2 / 52 es el proceso de agrupar datos en clases o clusters de tal forma que los objetos de un cluster tengan una alta entre ellos, y baja (sean muy diferentes)
Más detalles1. Análisis de Conglomerados
1. Análisis de Conglomerados El objetivo de este análisis es formar grupos de observaciones, de manera que todas las unidades en un grupo sean similares entre ellas pero que sean diferentes a aquellas
Más detallesANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)
ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS) AGRUPAMIENTOS Cuál agrupamiento es mejor? MÉTODOS DE AGRUPACIÓN Métodos jerárquicos: Los objetos se agrupan (dividen) i por partes hasta clasificar todos los
Más detallesRedes de Neuronas de Base Radial
Redes de Neuronas de Base Radial 1 Introducción Redes multicapa con conexiones hacia delante Única capa oculta Las neuronas ocultas poseen carácter local Cada neurona oculta se activa en una región distinta
Más detallesClasificación estadística de patrones
Clasificación estadística de patrones Clasificador gaussiano César Martínez cmartinez _at_ fich.unl.edu.ar Tópicos Selectos en Aprendizaje Maquinal Doctorado en Ingeniería, FICH-UNL 19 de setiembre de
Más detallesAnálisis de Datos. Clasificación Bayesiana para distribuciones normales. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Clasificación Bayesiana para distribuciones normales Profesor: Dr. Wilfrido Gómez Flores 1 Funciones discriminantes Una forma útil de representar clasificadores de patrones es a través
Más detallesClustering. Departamento de Ingeniería Informática y de Sistemas Universidad de La Laguna
Clustering Christopher Expósito Izquierdo Airam Expósito Márquez Israel López Plata Belén Melián Batista J. Marcos Moreno Vega {cexposit, aexposim, ilopezpl, mbmelian, jmmoreno}@ull.edu.es Departamento
Más detallesIntroducción a Aprendizaje no Supervisado
Introducción a Aprendizaje no Supervisado Felipe Suárez, Álvaro Riascos 25 de abril de 2017 2 / 33 Contenido 1. Motivación 2. k-medias Algoritmos Implementación 3. Definición 4. Motivación 5. Aproximación
Más detallesCLASIFICACIÓN PROBLEMA SOLUCIÓN
Capítulo 7 Análisis Cluster CLASIFICACIÓN Asignar objetos en su lugar correspondiente dentro de un conjunto de categorías establecidas o no. PROBLEMA Dado un conjunto de m objetos (animales, plantas, minerales...),
Más detallesAprendizaje Automático
id3 id3 como búsqueda Cuestiones Adicionales Regresión Lineal. Árboles y Reglas de Regresión Ingeniería Informática Fernando Fernández Rebollo y Daniel Borrajo Millán Grupo de Planificación y Aprendizaje
Más detallesTÉCNICAS DE AGRUPAMIENTO
TÉCNICAS DE AGRUPAMIENTO José D. Martín Guerrero, Emilio Soria, Antonio J. Serrano PROCESADO Y ANÁLISIS DE DATOS AMBIENTALES Curso 2009-2010 Page 1 of 11 1. Algoritmo de las C-Medias. Algoritmos de agrupamiento
Más detallesInducción de Árboles de Decisión ID3, C4.5
Inducción de Árboles de Decisión ID3, C4.5 Contenido 1. Representación mediante árboles de decisión. 2. Algoritmo básico: divide y vencerás. 3. Heurística para la selección de atributos. 4. Espacio de
Más detallesAnálisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Desde la antigüedad, el problema de buscar patrones en datos es fundamental en diversas
Más detallesMódulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS
Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Agrupamiento Dividir los datos en grupos (clusters), de tal forma que los
Más detallesRECONOCIMIENTO DE PAUTAS. ANÁLISIS DE CONGLOMERADOS (Cluster Analysis)
RECONOCIMIENTO DE PAUTAS ANÁLISIS DE CONGLOMERADOS (Cluster Analysis) Análisis de conglomerados los análisis exploratorios de datos (como PCA) determinan relaciones generales entre datos en ocasiones no
Más detallesJesús García Herrero TÉCNICAS DE AGRUPAMIENTO
Jesús García Herrero TÉCNICAS DE AGRUPAMIENTO En esta clase se presentan las técnicas de agrupamiento, también conocidas como clustering, que buscan grupos de instancias con características similares mediante
Más detallesSistemas de Percepción Visión por Computador
Nota: Algunas de las imágenes que aparecen en esta presentación provienen del libro: Visión por Computador: fundamentos y métodos. Arturo de la Escalera Hueso. Prentice Hall. Sistemas de Percepción Visión
Más detallesEstadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR
Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación Facultad de Ciencias Sociales, UdelaR Índice 1. Repaso: estimadores y estimaciones. Propiedades de los estimadores. 2. Estimación puntual.
Más detallesMÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN
MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid Teoría
Más detallesAprendizaje inductivo no basado en el error Métodos competitivos supervisados.
Aprendizaje inductivo no basado en el error Métodos competitivos supervisados. Aprendizaje basado en instancias Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido
Más detallesMétodos de modelado y clasificación de patrones. clasificación de patrones
FUNDAMENTOS DEL RECONOCIMIENTO AUTOMÁTICO DE LA VOZ Métodos de modelado y clasificación de patrones Agustín Álvarez Marquina Introducción. Modelado y clasificación de patrones Objetivos: Agrupar el conjunto
Más detallesComparación de métodos de aprendizaje sobre el mismo problema
Comparación de métodos de aprendizaje sobre el mismo problema Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Motivación. Test de
Más detallesConjuntos de Clasificadores (Ensemble Learning)
Aprendizaje Automático Segundo Cuatrimestre de 2016 Conjuntos de Clasificadores (Ensemble Learning) Gracias a Ramiro Gálvez por la ayuda y los materiales para esta clase. Bibliografía: S. Fortmann-Roe,
Más detallesMétodos de Diseño y Análisis de Experimentos
1 / 28 Métodos de Diseño y Análisis de Experimentos Patricia Isabel Romero Mares Departamento de Probabilidad y Estadística IIMAS UNAM marzo 2018 Ideas básicas del diseño experimental Capítulo 4 de Analysis
Más detallesPROGRAMA DE CURSO. Horas Docencia Horas de Trabajo Horas de Cátedra Docentes ,5 5,5. Resultados de Aprendizaje
PROGRAMA DE CURSO Código Nombre CC5113 Aprendizaje Automático Bayesiano Nombre en Inglés Bayesian Machine Learning SCT Unidades Horas Docencia Horas de Trabajo Horas de Cátedra Docentes Auxiliar Personal
Más detallesAnálisis Estadístico de Datos Climáticos. Análisis de agrupamiento (o clusters)
Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) A. Díaz - M. Bidegain M. Barreiro Facultad de Ciencias Facultad de Ingeniería 2011 Objetivo Idear una clasificación o esquema
Más detallesAprendizaje Automatizado
Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto
Más detallesFUNDAMENTOS Y APLICACIONES DE APRENDIZAJE AUTOMÁTICO
FUNDAMENTOS Y APLICACIONES DE APRENDIZAJE AUTOMÁTICO Año 2016 Carrera/ Plan: Licenciatura en Informática Plan 2015 Licenciatura en Sistemas Plan 2015 Licenciatura en Informática Plan 2003-07/Plan 2012
Más detallesInteligencia Artificial. Aprendizaje neuronal. Ing. Sup. en Informática, 4º. Curso académico: 2011/2012 Profesores: Ramón Hermoso y Matteo Vasirani
Inteligencia Artificial Aprendizaje neuronal Ing. Sup. en Informática, 4º Curso académico: 20/202 Profesores: Ramón Hermoso y Matteo Vasirani Aprendizaje Resumen: 3. Aprendizaje automático 3. Introducción
Más detallesÍndice general. Prefacio...5
Índice general Prefacio...5 Capítulo 1 Introducción...13 1.1 Introducción...13 1.2 Los datos...19 1.3 Etapas en los procesos de big data...20 1.4 Minería de datos...21 1.5 Estructura de un proyecto de
Más detallesTema 5: SEGMENTACIÓN (II) I N G E N I E R Í A I N F O R M Á T I C A
Tema 5: SEGMENTACIÓN (II) 1 I N G E N I E R Í A I N F O R M Á T I C A Tema 5: Segmentación Los algoritmos de segmentación se basan en propiedades básicas de los valores del nivel de gris: 2 - Discontinuidad:
Más detallesMinería de datos. Unidad 2. El proceso KDD Evaluación, difusión y uso. M en I Sara Vera Noguez
Minería de datos Unidad 2. El proceso KDD Evaluación, difusión y uso M en I Sara Vera Noguez El proceso KDD Hernández, 2008 p.20 La parte iterativa Una vez obtenido el modelo se debe evaluar Si satisface
Más detallesReconocimiento de Patrones
Reconocimiento de Patrones Técnicas de validación (Clasificación Supervisada) Jesús Ariel Carrasco Ochoa Instituto Nacional de Astrofísica, Óptica y Electrónica Clasificación Supervisada Para qué evaluar
Más detallesSistemas de Reconocimiento de Patrones
Sistemas de Reconocimiento de Patrones p. 1/33 Sistemas de Reconocimiento de Patrones Luis Vázquez GTI - IIE Facultad de Ingeniería Universidad de la República Sistemas de Reconocimiento de Patrones p.
Más detallesAprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur
Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur KNN: VECINO(S) MAS CERCANO(S) K NEAREST NEIGHBORS (KNN) Altura Niño Adulto Mayor Se guardan todos los ejemplos
Más detallesClustering. Eduardo Morales, Hugo Jair Escalante INAOE. Outline. Introducción. Medidas de similaridad. Algoritmos. k-means COBWEB
Eduardo Morales, Hugo Jair Escalante INAOE (INAOE) 1 / 70 1 2 3 4 5 6 7 8 9 10 (INAOE) 2 / 70 es el proceso de agrupar datos en clases o clusters de tal forma que los objetos de un cluster tengan una alta
Más detallesRESUMEN PROGRAMACIÓN ESTADÍSTICA I. 3. Diseñar tablas estadísticas para coleccionar y ordenar datos.
RESUMEN PROGRAMACIÓN ESTADÍSTICA I OBJETIVOS 1. Conocer los principales conceptos usados en Estadística: población, muestra e individuo. 2. Diferenciar los tres tipos de variables estadísticas: cualitativas,
Más detallesINTRODUCCION AL ANALISIS DE CLUSTER
-1- INTRODUCCION AL ANALISIS DE CLUSTER José Luis Vicente Villardón Departamento de Estadística Universidad de Salamanca -- DEFINICION E INTRODUCCION El Análisis de Clusters (o Análisis de conglomerados)
Más detallesAnexo I CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN
Anexo I CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN 165 ENCUESTA DE COMPORTAMIENTOS Y TIPOLOGÍAS DE VISITANTES EN EUSKADI 166 ANEXO I. CUESTIONARIO UTILIZADO PARA LA RECOGIDA DE INFORMACIÓN
Más detallesTema 2: Introducción a la Inferencia Estadística
Tema 2: Introducción a la Inferencia Estadística 1.- En m.a.s. el estadístico varianza muestral es: a) Un estimador insesgado de la varianza poblacional. b) Un estimador insesgado de la media poblacional.
Más detallesIntroducción Ordenación Clasificación Ord. + Clas. Geobotánica. Tema 12 Ordenación y clasificación
Introducción Clasificación Ord. + Clas. Geobotánica Tema 12 y clasificación Copyright: 2011 Francisco Alcaraz Ariza. Esta obra está bajo una licencia de Reconocimiento-No Comercial de Creative Commons
Más detallesEstadística Computacional
Estadística Computacional Profesor : Héctor Allende O. Departamento de Informática Universidad Técnica Federico Santa María Estructura del Curso 1.- Introducción. 2.- Análisis Exploratorio de Datos. 3.-
Más detallesAprendizaje Automatizado
Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto
Más detallesTEMA 6 ANÁLISIS DE CONGLOMERADOS
TEMA 6 ANÁLISIS DE CONGLOMERADOS Facultade de Psicoloxía Campus Sur, s/n 15782 Santiago de Compostela wwwusces/psicom Dr Jesús Varela Mallou Dr Antonio Rial Boubeta Dr Eduardo Picón Prado Análisis Multivariante
Más detallesGuía docente de la asignatura
Guía docente de la asignatura Asignatura Materia TÉCNICAS DE APRENDIZAJE AUTOMÁTICO COMPUTACIÓN Módulo Titulación GRADO EN INGENIERÍA INFORMÁTICA (463) Plan 463 Código 45209 Periodo de impartición 2º CUATRIMESTRE
Más detallesCRITERIOS DE SELECCIÓN DE MODELOS
Inteligencia artificial y reconocimiento de patrones CRITERIOS DE SELECCIÓN DE MODELOS 1 Criterios para elegir un modelo Dos decisiones fundamentales: El tipo de modelo (árboles de decisión, redes neuronales,
Más detallesLingüística computacional
Lingüística computacional Definición y alcance Escuela Nacional de Antropología e Historia (ENAH) Agosto diciembre de 2015 Lingüística Ciencias de la computación Lingüística computacional Estudio del lenguaje
Más detallesGUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)
GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) Curso Académico: 2015-2016 Programa: Centro: Universidad: Máster Universitario en Ingeniería Informática Escuela Politécnica Superior
Más detallesComparación de dos métodos de aprendizaje sobre el mismo problema
Comparación de dos métodos de aprendizaje sobre el mismo problema Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Motivación 2.
Más detallesRepaso de Estadística
Teoría de la Comunicación I.T.T. Sonido e Imagen 25 de febrero de 2008 Indice Teoría de la probabilidad 1 Teoría de la probabilidad 2 3 4 Espacio de probabilidad: (Ω, B, P) Espacio muestral (Ω) Espacio
Más detallesModelos de Mercadotecnia. SESIÓN # 2. Bases de datos.
Modelos de Mercadotecnia SESIÓN # 2. Bases de datos. Contextualización La definición de una base de datos se puede simplificar en una sola palabra: colección. Este concepto se define como la recopilación
Más detallesClasificación Supervisada. Métodos jerárquicos. CART
Clasificación Supervisada. Métodos jerárquicos. CART Ricardo Fraiman 2 de abril de 2010 Descripción del problema Muestra de entrenamiento (X 1, Y 1 ),..., (X n, Y n ) E {1,..., m}. Típicamente E = R d.
Más detallesAnálisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Combinación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Diversos algoritmos de clasificación están limitados a resolver problemas binarios, es decir, con dos
Más detallesIntroducción a las técnicas estadísticas de
Introducción a las técnicas estadísticas de clasificación y regresión. Aprendizaje no supervisado - Clustering Laura Aspirot, Sebastián Castro Universidad de la República (UdelaR) Jueves 21 y viernes 22
Más detallesMetaheurísticas. Seminario 5. Manejo de restricciones en metaheurísticas. 1. Introducción: Optimización y Restricciones
Metaheurísticas Seminario 5. Manejo de restricciones en metaheurísticas 1. Introducción: Optimización y Restricciones 2. Manejo de Restricciones en Metaheurísticas 3. Algunos Ejemplos 1 Introducción: Optimización
Más detallesIdeas básicas del diseño experimental
Ideas básicas del diseño experimental Capítulo 4 de Analysis of Messy Data. Milliken y Johnson (1992) Diseño de experimentos p. 1/23 Ideas básicas del diseño experimental Antes de llevar a cabo un experimento,
Más detallesTécnicas de aprendizaje sobre series temporales
Técnicas de aprendizaje sobre series temporales Contenido 1. Motivación. 2. Ejemplo del Problema. 3. Aproximaciones al problema de clasificación de series temporales. 4. Aprendizaje de reglas. 5. Boosting
Más detallesPredicción de potencia en el parque eólico de Villonaco, Loja, Ecuador. Alberto Reyes y Tania Guerrero INER Ecuador
Predicción de potencia en el parque eólico de Villonaco, Loja, Ecuador Alberto Reyes y Tania Guerrero INER Ecuador INTRODUCCIÓN El comportamiento del viento presenta alto grado de aleatoriedad, incertidumbre
Más detallesRECONOCIMIENTO DE PAUTAS
RECONOCIMIENTO DE PAUTAS ANÁLISIS DISCRIMINANTE (Discriminant analysis) Reconocimiento de pautas supervisado si se cuenta con objetos cuya pertenencia a un grupo es conocida métodos: análisis de discriminantes
Más detallesMINERIA DE DATOS USANDO SISTEMAS INTELIGENTES
MINERIA DE DATOS USANDO SISTEMAS INTELIGENTES Año 2018 Carrera/Plan: Licenciatura en Sistemas Licenciatura en Informática Área: Algoritmos y Lenguajes Año: 4º o 5º año Régimen de Cursada: Semestral Carácter:
Más detalles1.-DATOS DE LA ASIGNATURA
1.-DATOS DE LA ASIGNATURA Nombre de la asignatura: Minería de Datos Carrera: Ingeniería en Sistemas Computacionales Clave de la asignatura: ADM-0701 Horas teoría-horas práctica-créditos: 3-2-8 2.-HISTORIA
Más detallesAprendizaje de intervalos para Redes Bayesianas de Nodos Temporales
Aprendizaje de intervalos para Redes Bayesianas de Nodos Temporales Pablo F. Hernández Leal Instituto Nacional de Astrofísica, Óptica y Electrónica Coordinación de Ciencias Computacionales Resumen En este
Más detallesAprendizaje Automático
Regresión Lineal: Descenso de Gradiente Árboles de Regresión: M5 Ingeniería Informática Fernando Fernández Rebollo y Daniel Borrajo Millán Grupo de Planificación y Aprendizaje (PLG) Departamento de Informática
Más detallesTema 5: SEGMENTACIÓN (II) I N G E N I E R Í A I N F O R M Á T I C A
Tema 5: SEGMENTACIÓN (II) 1 I N G E N I E R Í A I N F O R M Á T I C A Tema 5: Segmentación Los algoritmos de segmentación se basan en propiedades básicas de los valores del nivel de gris: 2 - Discontinuidad:
Más detallesConclusiones. Somos la suma de nuestras decisiones. WOODY ALLEN Delitos y Faltas (1989)
Capítulo 7 Conclusiones Somos la suma de nuestras decisiones WOODY ALLEN Delitos y Faltas (1989) En este trabajo se ha presentado una nueva estrategia para construir árboles de decisión que ha conseguido
Más detallesMáster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL
ANÁLISIS CLUSTERS C U R S O TÉCNICAS MULTIVARIANTES Prof. Dr. Ángel Luís LUCENDO MONEDERO 1 http://www.geografia.us.es/ Tema 2. INTRODUCCIÓN N AL ANÁLISIS CLUSTER 2.1 Consideraciones generales. Clasificación
Más detallesTEORÍA DE LA COMUNICACIÓN TEMA 2 RUIDO EN LOS SISTEMA DE COMUNICACIONES. Variable aleatoria (Real)
TEORÍA DE LA COMUNICACIÓN TEMA 2 RUIDO EN LOS SISTEMA DE COMUNICACIONES Grado Ing Telemática (UC3M) Teoría de la Comunicación Variable Aleatoria / 26 Variable aleatoria (Real) Función que asigna un valor
Más detallesComunidades. Buscando grupos naturales de nodos
Comunidades Buscando grupos naturales de nodos cliques, -componentes (Newman 7.8.1, 7.8.2) similaridad (N7.12) Geometria: means topologia: equivalencia estructural vs equivalencia regular Clustering jerarquico
Más detallesClusters. Walter Sosa Escudero. Universidad de San Andres y CONICET
(wsosa@udesa.edu.ar) Universidad de San Andres y CONICET Ideas generales X matriz de N filas y p columnas. Cada fila es un punto de p dimensiones. Cada columna se corresponde con una variable. Ejemplo:
Más detallesAnálisis multivariante II
Análisis multivariante II Tema 2: Análisis de conglomerados Pedro Galeano Departamento de Estadística Universidad Carlos III de Madrid pedro.galeano@uc3m.es Curso 2016/2017 Grado en Estadística y Empresa
Más detallesUniversidad Autónoma de Nuevo León
Universidad Autónoma de Nuevo León Facultad de Ingeniería Mecánica y Eléctrica División de Posgrado en Ingeniería de Sistemas Eficiencia de la Búsqueda Local para Instancias Diferentes del Problema de
Más detallesRevisión del algoritmo de Corte Normalizado
Capítulo 2 Revisión del algoritmo de Corte Normalizado El algoritmo Ncut realiza la segmentación planteando un problema de división de grafos, en el cual se pretende maximizar tanto la disimilitud entre
Más detallesClasificación Jerárquica Ascendente Presentación #1. [ U n a i n t r o d u c c i ó n ]
Clasificación Jerárquica Ascendente Presentación #1 [ U n a i n t r o d u c c i ó n ] Clasificación Jerárquica Clasificación Automática La clasificación automática tiene por objetivo reconocer grupos de
Más detallesAlgoritmos genéticos
Algoritmos genéticos Introducción 2 Esquema básico 3 El problema de la mochila 7 Asignación de recursos 0 El problema del viajante 3 Variantes del esquema básico 5 Por qué funciona? 9 Observaciones finales
Más detallesMASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.
MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión. 1 Objetivos del tema Conocer en qué consiste un árbol de decisión. Aprender los problemas que pueden
Más detallesANX-PR/CL/ GUÍA DE APRENDIZAJE
PROCESO DE COORDINACIÓN DE LAS ENSEÑANZAS PR/CL/001 ASIGNATURA 615000365 - PLAN DE ESTUDIOS 61SI - CURSO ACADÉMICO Y SEMESTRE 2017/18 - Segundo semestre Índice Guía de Aprendizaje 1. Datos descriptivos...1
Más detallesANÁLISIS DE DATOS. Jesús García Herrero
ANÁLISIS DE DATOS Jesús García Herrero ANALISIS DE DATOS EJERCICIOS Una empresa de seguros de automóviles quiere utilizar los datos sobre sus clientes para obtener reglas útiles que permita clasificar
Más detallesINFORME TAREA N 4 CLUSTERING
Universidad de Chile Facultad de Ciencias Físicas y Matemáticas Departamento de Ingeniería Eléctrica EL4106 Inteligencia Computacional INFORME TAREA N 4 CLUSTERING Nombre Alumno : Profesor : Profesor Auxiliar
Más detallesMétodos de Inteligencia Artificial
Métodos de Inteligencia Artificial L. Enrique Sucar (INAOE) esucar@inaoep.mx ccc.inaoep.mx/esucar Tecnologías de Información UPAEP Agentes que Aprenden: Clasificador Bayesiano Clasificación Clasificador
Más detalles