TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING
|
|
- Trinidad Márquez
- hace 5 años
- Vistas:
Transcripción
1 TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Máster Universitario en Lógica, Computación e Inteligencia Artificial Curso
2 Introducción Grandes avances en la Biología molecular/celular y en la Tecnología: Aumento exponencial de la información disponible para la investigación científica. Por ejemplo: el uso de la tecnica de microarrays permite almacenar millones de datos de expresión génica (regulación y patrones de comportamiento). Analizar grupos de genes con similar funcionalidad. Estudiar grupos de genes regulados de forma análoga. Las investigaciones sobre grandes bases de datos (poblaciones de objetos/individuos) dependen de muchos factores. Esa variedad de parámetros hace que las investigaciones sean muy complejas. Las técnicas de clasificación facilitan la organización de las grandes bases de datos. Para simplificar algunos problemas y hacerlos más tratables: Es conveniente agrupar objetos/individuos que tienen similares características. Minería de datos: conjunto de técnicas orientadas a la extracción de conocimiento útil de grandes bases de datos. Es una disciplina de la Inteligencia Artificial. 2 / 1
3 Tipos de datos Los datos pueden ser de diversos tipos: Numéricos. Binarios. Orinales. Nominales. De intervalos. Mixtos. Etc. 3 / 1
4 Clustering (I) Clustering: se trata de una clasificación no supervisada (no usa clasificaciones previas ni clases predefinidas): es una técnica de minería de datos. Objetivo: a partir de una base de datos inicial (objetos/individuos), formar agrupaciones o clusteres de acuerdo con una medidad de similitud entre ellos de tal manera que: La similitud media entre los datos del mismo cluster sea alta. La similitud media entre los datos de distintos clusteres sea baja. Etapas de un proceso de clustering: Representación de los objetos/individuos (vectores, coordenadas esféricas, grafos, etc.). Definición de una medida de similitud (proximidad, distancia, etc.). Criterio de agrupación o clustering (distintas metodologías). Abstracción de los datos (transformación para otros procesos de análisis, etc.). Evaluación de los resultados (bomdad del proceso, validación, etc.). 4 / 1
5 Clustering (II) Existen diferentes métodos para clasificar datos (objetos/individuos) de acuerdo con sus similaridades: Jerárquico: la clasificación se estructura en niveles (niveles inferiores contenidos en niveles superiores). Aglomerativo (ascendente): se parte de tantos clusteres como individuos y se irán formnado grupos según su similitud. Disociativo (descendente): Se parte de un único cluster y se va formando clusteres según la disimilitud de sus componentes. No jerárquico: la clasificación se estructura en grupos sin que existan relaciones entre los diferentes grupos. 5 / 1
6 Población de individuos (I) Objeto de estudio: una población de individuos: Los individuos tienen una serie de características o propiedades que interesan estudiar. Por ejemplo: La información que proporciona los microarrays se expresa en un matrix M = (a ij ) 1 i n,1 j m : son los individuos de la población. Las filas representan los genes que se analizan y las columnas representan las condiciones experimentales. El valor x ij representa la cantidad de RNAm expresado por el gen i en las condiciones dadas por j. Formalización: Sea E un conjunto no vacío y p 1 un número natural. Un p-individuo es un elemento del conjunto E (p)... E. Representación: a = (a 1, a 2,..., a k ), donde a r es un elemento de E que codifica la propiedad r-ésima del individuo a. Una población de p-individuos es un subconjunto finito de E (p)... E. Una métrica o distancia sobre E es una aplicación d : E E R + (números reales mayores o iguales que cero), tal que para cada x, y E: d(x, y) = 0 si y sólo si x = y. d(x, y) = d(y, x). d(x, y) d(x, z) + d(z, y), para cada z E (desigualdad triangular). 6 / 1
7 Población de individuos (II) Definición: Una similaridad sobre una población Ω = {x 1, x 2,..., x n} de k-individuos es una aplicación s : Ω Ω R + tal que Para cada par de individuos x i, x j Ω se tiene que s(x i, x j ) = s(x j, x i ). Para cada par de individuos distintos x i, x j Ω se tiene que s(x i, x i ) = s(x j, x j ) s(x i, x j ). Una población Ω = {x 1, x 2,..., x n} de p-individuos se puede expresar como una matriz: x 11 x x 1p x 21 x x 2p x n1 x n2... x np En donde el individuo i-ésimo x i de la población es la tupla (x i1, x i2,..., x ip ) Las componentes x ir (1 r p) del individuo son las propiedades o características que se analizan 7 / 1
8 Distancias Algunos ejemplos de distancia: Distancia de Minkowski (siendo q 1): p d(x i, x j ) = q ( x i,r x j,r q ) r=1 Distancia de Manhattan (caso q = 1): p d(x i, x j ) = x i,r x j,r q r=1 Distancia eucĺıdea (caso q = 2): p d(x i, x j ) = ( x i,r x j,r 2 ) r=1 Distancia de Chebyshev (chessboard distance): d(x i, x j ) = máx{ x i,r x j,r : 1 r p} 8 / 1
9 Clustering jerárquico aglomerativo Estrategia de la distancia mínima o similitud máxima (II) Un algoritmo de construcción: Entrada: la familia básica de clusteres de una población de individuos (cada cluster es un conjunto que contiene un único individuo) y la matriz inicial de distancias entre los pares de individuos (pares de clusteres iniciales). 1. Se consideran los dos clusteres más cercanos y se construye una nueva familia en la que ese par de clusteres más cercano es sustituido por un cluster que contiene a ambos. 2. Se actualiza la matriz de distancias calculando los valores para cada par de clusteres en la nueva familia (en cada paso, el número total de clusteres disminuye en una unidad). 3. Se vuelve al paso 1 hasta que exista un único cluster Software: AGNES (Agglomerative Nesting) 9 / 1
10 Estrategia de la distancia mínima o similitud máxima (II) Se parte de una población de 7 individuos. Clusteres iniciales 0 = {{a}, {b}, {c}, {d}, {e}, {f }, {g}} Matriz de distancias iniciales de la población es: a b c d e f g a 0 b c d e f g Nivel K = 1: clusteres más próximos {c} y {e} (0.21) Entonces 1 = {{a}, {b}, {c, e}, {d}, {f }, {g}} Matriz de distancias actualizada: a b {c, e} d f g a 0 b {c, e} d f g / 1
11 Nivel K = 2: clusteres más próximos {d} y {f } (0.22) Entonces 2 = {{a}, {b}, {c, e}, {d, f}, {g}} Matriz de distancias actualizada: a b {c, e} {d, f } g a 0 b {c, e} {d, f } g Nivel K = 3: clusteres más próximos {c, e} y {d, f } (0.29) Entonces 3 = {{a}, {b}, {{c, e}, {d, f}}, {g}} Matriz de distancias actualizada: a b {{c, e},{d, f }} g a 0 b {{c, e},{d, f }} g / 1
12 Nivel K = 4: clusteres más próximos {a} y {{c, e}, {d, f }} (0.7) Entonces 4 = {{{a}, {{c, e}, {d, f}}}, {b}, {g}} Matriz de distancias actualizada: {{a},{{c, e}, {d, f }}} b g {{a},{{c, e}, {d, f }} 0 b g Nivel K = 5: clusteres más próximos {{a}, {{c, e}, {d, f }}} y {b} (1.01) Entonces 5 = {{{{a}, {{c, e}, {d, f}}}, {b}}, {g}} Matriz de distancias actualizada: {{{a}, {{c, e}, {d, f }}},{b}} g {{{a}, {{c, e}, {d, f }}},{b}} 0 g Nivel K = 6: clusteres más próximos {{{a}, {{c, e}, {d, f }}}}, {b}} y {g} (1.56) Entonces 6 = {{{{{a}, {{c, e}, {d, f}}}, {b}, {g}} Representación gráfica mediante un árbol de clasificación: dendograma. 12 / 1
13 Otras estrategias Estrategia de la distancia máxima o similitud mínima. Estrategia minimización de la distancia o similitud promedio no ponderada. Sean dos clusteres C i y C j. Supongamos que C i está compuesto, a su vez, por dos clusteres C i1 y C i2. Entonces se considera la siguiente distancia: d(c i, C j ) = d(c i 1, C j ) + d(c i2, C j ) 2 Estrategia de minimización de la distancia o similitud promedio ponderada. Sean dos clusteres C i y C j. Supongamos que C i está compuesto, a su vez, por dos clusteres C i1 y C i2. Supongamos que C i1 tiene n i1 elementos, C i2 tiene n i2 y C j tiene n j elementos. Entonces se considera la siguiente distancia: 1 d(c i, C j ) = (n i1 + n i2 ) n j n i1 +n i2 i=1 n j d(x i, x j ) En donde x i denota un elemento arbitrario de C i y x j denota un elemento arbitrario de C j. Entonces se verifica que: d(c i, C j ) = n i 1 d(c i1, C j ) + n i2 d(c i2, C j ) n i1 + n i2 j=1 13 / 1
14 Modelización de un clustering jerárquico aglomerativo Se ha realizado una modelización computacional basada en sistemas P de un clustering jerárquico aglomerativo 1 Población de n individuos. Se estudian p características de cada individuo. Las características están codificadas a través de valores booleanos. La medida de similaridad usada es debida a Sokal y Michener (1963): s(x i, x j ) = 1 p p (1 x i,r x j,r ) r=1 1 M. Cardona, M.A. Colomer, M.J. Pérez-Jiménez. Hierarchical clustering with Membrane Computing. Computing and Informatics, 27, 3+ (2008), / 1
15 Clustering no jerárquico: agrupamiento por particiones El método de de las k-means, MacQueen Método basado en división o agrupación por particiones. El método proporciona una clasificación de los datos en k clusteres, siendo k un número prefijado. El método trata de optimizar la función objetivo: k SSE = d 2 (x, µ i ) i=1 x C i en donde C i es un cluster y µ i es el centroide correspondiente a dicho cluster. El centroide de un cluster es un elemento que minimiza la suma de las distancias (similitudes) al resto de los elementos del cluster. 15 / 1
16 Clustering no jerárquico: agrupamiento por particiones Un algoritmo que implementa el método de las k-means: Entrada: Datos a clasificar, número de clusteres k a formar, matriz de distancias (similitudes) y el número de iteraciones I a realizar. Seleccionar una agrupación de los datos en k clusteres. Determinar los centroides de cada cluster. i 1 Crear k nuevos clusteres asignando cada dato al centroide más cercano. Sustituir cada centroide de un nuevo cluster por el elemento que minimiza la suma de distancias al resto de datos del cluster. Si i I, entonces volver al paso 2. Si no, finalizar. El proceso anterior puede ser convergente (en el sentido de que en un determinado paso, los nuevos clusteres coinciden con los que ya se tenían) o no. Complejidad: O(n p k I ) (si no se fija el valor de k, se trata de un problema de la clase NP). 16 / 1
17 Agrupamiento por particiones Ventajas: Es relativamente eficiente. Generalmente el proceso finaliza con un óptimo local y en un número reducido de iteraciones. Desventajas: El resultado depende de la selección inicial; realizar ejecuciones correspondientes a diferentes selecciones. Hay que especificar de antemano el valor de k: usar un método jerárquico sobre una muestra de los datos para estimar k (por ejemplo, el número de clusteres de una matriz de expresión génica no suele conocerse a priori). Es aplicable cuando está definida la media: se pueden usar otras medidas de centralización. Dificultad con datos no numéricos. No funciona bien cuando los clusteres son de diferente tamaño, distinta densidad o no convexos (en su distribución espacial). Es muy sensible a los datos anómalos ya que distorsionan las medias. No es capaz de tratar con ruido Las variantes se diferencian en: Selección de las k medias iniciales. Cálculo de las similitudes. Estrategias para calcular las medias. En los datos categóricos se sustituirá la media por la moda. 17 / 1
18 Variantes de k-means GRASP (Greedy Randomized Adaptive Search Procedure) para evitar óptimos locales. k-modes, Huang 1998: utiliza modas en vez de medias a fin de poder trabajar con atributos de tipo categórico. k-medoids: utiliza medianas en vez de medias para limitar la influencia de los outliers. PAM: Partitioning Around Medoids, CLARA: Clustering LARge Applications, CLARANS: CLARA + Randomized Search, / 1
19 Ejemplo (I) Partimos de una población Ω = {x 1, x 2, x 3, x 4, x 5, x 6, x 7 } con 7 individuos y de cada uno de ellos analizamos dos propiedades o características (codificadas numericamente). Usaremos como medidad de similitud la distancia eucĺıdea. x i,1 x i,2 x x x x x x x Apliquemos el método de las k-means para formar 3 clusteres con un máximo de iteraciones I = 5. Se parte de la siguiente agrupación inicial: 0 = {{x 1, x 4 }, {x 2, x 6 }, {x 3, x 5, x 7 }} Cluster 1: {x 1, x 4 }; Cluster 2: {x 2, x 6 } y Cluster 3: {x 3, x 5, x 7 } Hallemos los centroides iniciales: Correspondiente al cluster 1: punto medio de x 1 y x 4 ; es decir, C 0 1 = (4.5, 7.5). Correspondiente al cluster 2: punto medio de x 2 y x 6 ; es decir, C 0 2 = (7, 6). Correspondiente al cluster 3: baricentro de x 3, x 5 y x 7 ; es decir, C 0 3 = (7, 3.33). 19 / 1
20 Ejemplo (II) A continuación hallamos la nueva matriz de distancia de los individuos a sus centroides respectivos: C1 0 C2 0 C3 0 x x x x x x x La nueva agrupación obtenida es la siguiente: 1 = {{x 1, x 2, x 4 }, {x 3 }, {x 5, x 6, x 7 }} Cluster 1: {x 1, x 2, x 4 }; Cluster 2: {x 3 } y Cluster 3: {x 5, x 6, x 7 } Hallemos los nuevos centroides: Correspondiente al cluster 1: baricentro de x 1, x 2 y x 4 ; es decir, C 1 1 = (3.66, 8.33). Correspondiente al cluster 2: el único dato que existe x 3 ; es decir, C 1 2 = (5, 5). Correspondiente al cluster 3: baricentro de x 3, x 5 y x 7 ; es decir, C 1 3 = (9.33, 2.33). 20 / 1
21 Ejemplo (III) A continuación hallamos la nueva matriz de distancia de los individuos a sus centroides respectivos: C1 1 C2 1 C3 1 x x x x x x x La nueva agrupación obtenida es la siguiente: 2 = {{x 2, x 4 }, {x 1, x 3, x 7 }, {x 5, x 6 }} Cluster 1: {x 2, x 4 }; Cluster 2: {x 1, x 3, x 7 } y Cluster 3: {x 5, x 6 } Hallemos los nuevos centroides: Correspondiente al cluster 1: punto medio de x 2 y x 4 ; es decir, C 2 1 = (5, 10). Correspondiente al cluster 2: baricentro de x 1, x 3 y x 7 ; es decir, C 2 2 = (4, 4.66). Correspondiente al cluster 3: punto medio de x 5 y x 6 ; es decir, C 2 3 = (11, 1.5). 21 / 1
22 Ejemplo (IV) A continuación hallamos la nueva matriz de distancia de los individuos a sus centroides respectivos: C1 2 C2 2 C3 2 x x x x x x x La nueva agrupación obtenida es la siguiente: 3 = {{x 2, x 4 }, {x 1, x 3, x 7 }, {x 5, x 6 }} Cluster 1: {x 2, x 4 }; Cluster 2: {x 1, x 3, x 7 } y Cluster 3: {x 5, x 6 } Por tanto, en este caso el método es convergente. En consecuencia, no hace falta llegar al número de iteraciones prefijadas (I = 5). 22 / 1
23 Medida de calidad de un proceso de clustering: Evaluación Puntos claves del proceso de clustering: Elección de la medida de similitud o distancia. Elección del algoritmo de clustering. Elección del número de clustering. Fijar un criterio para medir la calidad del procesos. Objetivo: a partir de una base de datos inicial (objetos/individuos), formar agrupaciones o clusteres de acuerdo con una medidad de similitud entre ellos de tal manera que: La similitud media entre los datos del mismo cluster sea alta (similitud intra-cluster). La similitud media entre los datos de distintos clusteres sea baja (similitud inter-clusteres). Así pues, hay que: Minimizar la distancia intra-cluster (cohesión). Maximizar la distancia inter-cluster (separación). 23 / 1
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla
Más detallesINTELIGENCIA DE NEGOCIO
INTELIGENCIA DE NEGOCIO 2016-2017 n n n n n n n n Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Minería de Datos. Ciencia de Datos Tema 3. Modelos de Predicción: Clasificación, regresión y
Más detallesIntroducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada
Clustering Clasificación no supervisada Javier G. Sogo 10 de marzo de 2015 1 Introducción 2 Clustering jerárquico 3 Clustering particional 4 Clustering probabilista 5 Conclusiones Introducción Objetivos
Más detallesTécnicas de Clustering
Técnicas de Clustering Programa Introducción Métodos Divisivos Métodos Jerárquicos Algunos otros métodos Cuantos clusters? estabilidad Introducción Definiciones previas: Cluster: Agrupamiento de objetos.
Más detallesCLASIFICACIÓN PROBLEMA SOLUCIÓN
Capítulo 7 Análisis Cluster CLASIFICACIÓN Asignar objetos en su lugar correspondiente dentro de un conjunto de categorías establecidas o no. PROBLEMA Dado un conjunto de m objetos (animales, plantas, minerales...),
Más detallesMinería de Datos Web. Cursada 2018
Minería de Datos Web Cursada 2018 Proceso de Minería de Texto Clustering de Documentos Clasificación de Documentos Es un método supervisado para dividir documentos en base a categorías predefinidas Los
Más detalles1. Análisis de Conglomerados
1. Análisis de Conglomerados El objetivo de este análisis es formar grupos de observaciones, de manera que todas las unidades en un grupo sean similares entre ellas pero que sean diferentes a aquellas
Más detallesClustering: Auto-associative Multivariate Regression Tree (AAMRT)
Introducción Tipos Validación AAMRT Clustering: Auto-associative Multivariate Regression Tree (AAMRT) Miguel Bernal C Quantil 12 de diciembre de 2013 Miguel Bernal C Quantil Matemáticas Aplicadas Contenido
Más detallesINTELIGENCIA DE NEGOCIO
INTELIGENCIA DE NEGOCIO 2018-2019 Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Minería de Datos. Ciencia de Datos Tema 3. Modelos de Predicción: Clasificación, regresión y series temporales
Más detallesReconocimiento de Formas
Reconocimiento de Formas Técnicas no Supervisadas: clustering José Martínez Sotoca Objetivo: Estudio de la estructura de un conjunto de datos, división en agrupaciones. Características: Homogeneidad o
Más detallesRECONOCIMIENTO DE PAUTAS. ANÁLISIS DE CONGLOMERADOS (Cluster Analysis)
RECONOCIMIENTO DE PAUTAS ANÁLISIS DE CONGLOMERADOS (Cluster Analysis) Análisis de conglomerados los análisis exploratorios de datos (como PCA) determinan relaciones generales entre datos en ocasiones no
Más detallesAprendizaje No Supervisado
Aprendizaje Automático Segundo Cuatrimestre de 2015 Aprendizaje No Supervisado Supervisado vs. No Supervisado Aprendizaje Supervisado Clasificación y regresión. Requiere instancias etiquetadas para entrenamiento.
Más detallesCLUSTERING. Bases de Datos Masivas
1 CLUSTERING Bases de Datos Masivas 2 Temas Qué es clustering? K-Means Clustering Hierarchical Clustering QUÉ ES CLUSTERING? 3 Aprendizaje Supervisado vs. No Supervisado 4 Aprendizaje Supervisado: tanto
Más detallesTÉCNICAS INTELIGENTES EN BIOINFORMÁTICA. Alineamiento múltiple de secuencias
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA Alineamiento múltiple de secuencias Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial
Más detallesANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA
ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA ANALISIS DE CLUSTER EN SPSS Opción: Analizar Clasificar ANALISIS DE CLUSTER EN SPSS Tres posibles OPCIONES 1.- Cluster en dos etapas 2.- K-means 3.- Jerárquicos
Más detallesTareas de la minería de datos: agrupamiento. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR
Tareas de la minería de datos: agrupamiento CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Agrupamiento Agrupamiento (clasificación no supervisada, aprendizaje no supervisado).
Más detallesProf. Dra. Silvia Schiaffino ISISTAN
Clustering ISISTAN sschia@ea.unicen.edu.ar Clustering: Concepto Cluster: un número de cosas o personas similares o cercanas, agrupadas Clustering: es el proceso de particionar un conjunto de objetos (datos)
Más detallesMétodos no supervisados: Agrupamiento
Métodos no supervisados: Agrupamiento Agrupamiento clustering- Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Introducción. Basados en particiones 3. Métodos
Más detallesClasificación Jerárquica Ascendente Presentación #1. [ U n a i n t r o d u c c i ó n ]
Clasificación Jerárquica Ascendente Presentación #1 [ U n a i n t r o d u c c i ó n ] Clasificación Jerárquica Clasificación Automática La clasificación automática tiene por objetivo reconocer grupos de
Más detallesANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)
ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS) AGRUPAMIENTOS Cuál agrupamiento es mejor? MÉTODOS DE AGRUPACIÓN Métodos jerárquicos: Los objetos se agrupan (dividen) i por partes hasta clasificar todos los
Más detallesTÉCNICAS DE AGRUPAMIENTO
TÉCNICAS DE AGRUPAMIENTO José D. Martín Guerrero, Emilio Soria, Antonio J. Serrano PROCESADO Y ANÁLISIS DE DATOS AMBIENTALES Curso 2009-2010 Page 1 of 11 1. Algoritmo de las C-Medias. Algoritmos de agrupamiento
Más detallesClasificación Jerárquica Ascendente Presentación #1. [ U n a i n t r o d u c c i ó n ]
Clasificación Jerárquica Ascendente Presentación #1 [ U n a i n t r o d u c c i ó n ] Clasificación Jerárquica Clasificación Automática La clasificación automática tiene por objetivo reconocer grupos de
Más detallesSistemas Inteligentes. Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias.
Sistemas Inteligentes Escuela Técnica Superior de Informática Universitat Politècnica de València Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias. Índice 1 Introducción 1 2 Agrupamientos particionales
Más detallesIntroducción a Aprendizaje no Supervisado
Introducción a Aprendizaje no Supervisado Felipe Suárez, Álvaro Riascos 25 de abril de 2017 2 / 33 Contenido 1. Motivación 2. k-medias Algoritmos Implementación 3. Definición 4. Motivación 5. Aproximación
Más detallesClusters. Walter Sosa Escudero. Universidad de San Andres y CONICET
(wsosa@udesa.edu.ar) Universidad de San Andres y CONICET Ideas generales X matriz de N filas y p columnas. Cada fila es un punto de p dimensiones. Cada columna se corresponde con una variable. Ejemplo:
Más detallesMétricas para la validación de Clustering
Métricas para la validación de Clustering MINERIA DE DATOS Elizabeth León Guzmán, Profesor Asociado Universidad Nacional de Colombia Ingeniería de Sistemas y Computación Contenido Introducción Tipos de
Más detallesTema 11. Clustering. X 1... X i... X n O 1 x x 1 i... x 1 n... O j x j 1... x j i... x j n... O N x N 1... x N i... x N n
Tema 11. Clustering Abdelmalik Moujahid, Iñaki Inza, Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Euskal Herriko Unibertsitatea 1 Introducción
Más detallesMódulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS
Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Agrupamiento Dividir los datos en grupos (clusters), de tal forma que los
Más detallesCLUSTERING. Eduardo Morales y Jesús González
CLUSTERING Eduardo Morales y Jesús González Clustering (Agrupamiento) 2 Proceso de agrupar datos en clases o clusters de tal forma que los objetos de un cluster: Tengan alta similaridad entre ellos Baja
Más detallesRESUMEN ANÁLISIS CLUSTER
RESUMEN ANÁLISIS CLUSTER 1. Introducción 2. Los datos 2.1. Transformación de los datos 3. Medidas de distancias 4. Métodos: aspectos generales 5. El método jerárquico aglomerativo 5.1 Algoritmos más usados
Más detallesMáster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL
ANÁLISIS CLUSTERS C U R S O TÉCNICAS MULTIVARIANTES Prof. Dr. Ángel Luís LUCENDO MONEDERO 1 http://www.geografia.us.es/ Tema 2. INTRODUCCIÓN N AL ANÁLISIS CLUSTER 2.1 Consideraciones generales. Clasificación
Más detallesClustering: Algoritmos
Clustering: Algoritmos Clasificación no supervisada Javier G. Sogo 10 de marzo de 2015 1 Introducción 2 Algoritmo: K-medias 3 Algoritmo: BFR 4 Algoritmo: CURE Introducción Acotar el problema Complejidad
Más detallesCálculos en la Naturaleza viva (I)
Cálculos en la Naturaleza viva (I) Mario de J. Pérez Jiménez Grupo de Investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial ETS Ingeniería Informática, Universidad
Más detallesSistemas de Percepción Visión por Computador
Nota: Algunas de las imágenes que aparecen en esta presentación provienen del libro: Visión por Computador: fundamentos y métodos. Arturo de la Escalera Hueso. Prentice Hall. Sistemas de Percepción Visión
Más detallesTema 3 Optimización lineal. Algoritmo del simplex
Tema 3 Optimización lineal. Algoritmo del simplex José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Contenidos del tema 3 Teorema fundamental de la programación lineal. Algoritmo
Más detallesRedes de Neuronas de Base Radial
Redes de Neuronas de Base Radial 1 Introducción Redes multicapa con conexiones hacia delante Única capa oculta Las neuronas ocultas poseen carácter local Cada neurona oculta se activa en una región distinta
Más detallesOptimización bajo Incertidumbre. 0. Revisión. Depto. Investigación Operativa. Instituto de Computación. Facultad de Ingeniería, UdelaR
Optimización bajo Incertidumbre 0. Revisión Carlos Testuri Germán Ferrari Depto. Investigación Operativa. Instituto de Computación. Facultad de Ingeniería, UdelaR 2003-17 Contenido 1 Revisión Probabilidad
Más detallesEl método simplex 1. 1 Forma estándar y cambios en el modelo. 2 Definiciones. 3 Puntos extremos y soluciones factibles básicas. 4 El método simplex.
El método simplex Forma estándar y cambios en el modelo. Definiciones. Puntos extremos y soluciones factibles básicas. 4 El método simplex. Definiciones y notación. Teoremas. Solución factible básica inicial.
Más detallesPredicción basada en vecinos
Predicción basada en vecinos Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Contenido Introducción Esquema de predicción directa Predicción basada
Más detallesExplotación del B2B y segmentación de la clientela
Explotación del B2B y segmentación de la clientela Cluster, Clasificación y Segmentación Sesión 4. 24/10/2018 A.M.Mayoral (asun.mayoral@umh.es), J.Morales (j.morales@umh.es) Ejemplo Adquisición oficina
Más detallesCapítulo 4. Medidas de Proximidad. Proximidades Similaridades: s(a, B) Similitudes: s(a, B) 4.1. VARIABLES CUANTITATIVAS
Capítulo 4 Medidas de Proximidad X 1,..., X p variables A = (a 1,..., a p ) valores de X 1,..., X p para el individuo A B = (b 1,..., b p ) valores de X 1,..., X p para el individuo B { Disimilaridades:
Más detallesAnálisis Estadístico de Datos Climáticos. Análisis de agrupamiento (o clusters)
Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) A. Díaz - M. Bidegain M. Barreiro Facultad de Ciencias Facultad de Ingeniería 2011 Objetivo Idear una clasificación o esquema
Más detallesFundamentos de Programación Entera. A. Revisión. Carlos Testuri Germán Ferrari
Fundamentos de Programación Entera A. Revisión Carlos Testuri Germán Ferrari Departamento de Investigación Operativa Instituto de Computación Facultad de Ingeniería Universidad de la República 2012-2018
Más detallesLingüística computacional
Lingüística computacional Definición y alcance Escuela Nacional de Antropología e Historia (ENAH) Agosto diciembre de 2015 Lingüística Ciencias de la computación Lingüística computacional Estudio del lenguaje
Más detallesAnálisis de Conglomerados
Diplomatura en Estadística 1 Diplomatura en Estadística 2 Análisis de Conglomerados (Cluster analysis) Aurea Grané Departamento de Estadística Universidad Carlos III de Madrid Antecedente histórico Las
Más detallesTécnicas de agrupamiento (clustering)
Técnicas de agrupamiento (clustering) Introducción al Reconocimiento de Patrones IIE - FING - UdelaR 2015 Duda, Hart, Stork. Pattern Classification, capítulo 10. Jain, Duin, Mao. Statistical Pattern Recognition:
Más detallesAnálisis de imágenes digitales
Análisis de imágenes digitales SEGMENTACIÓN DE LA IMAGEN Segmentación basada en texturas INTRODUCCIÓN La textura provee información sobre la distribución espacio-local del color o niveles de intensidades
Más detallesGrado en Ciencias Ambientales. Matemáticas. Curso 11/12
Grado en Ciencias Ambientales. Matemáticas. Curso 11/12 Problemas Tema 1. Espacios Vectoriales. 1 Repaso de Estructuras Algebraicas 1.1. Construye explícitamente el conjunto A B, siendo A = {1, 2, 3},
Más detallesPor: BONILLA Londoño Héctor Fabio.
1ALGUNOS ALGORITMO DE TECNOLOGÍA DE GRUPOS 1.0 Introducción Por: BONILLA Londoño Héctor Fabio. En la actualidad se han desarrollado algoritmos para la formación de grupos de máquinas y para la formación
Más detallesInteligencia en Redes de Comunicaciones - 06 Aprendizaje
El objetivo de este tema es realizar una introducción a los conceptos, fundamentos y técnicas básicas de aprendizaje computacional. En primer lugar se formalizará el concepto de aprendizaje y se describirán
Más detallesSistemas de Reconocimiento de Patrones
Sistemas de Reconocimiento de Patrones p. 1/33 Sistemas de Reconocimiento de Patrones Luis Vázquez GTI - IIE Facultad de Ingeniería Universidad de la República Sistemas de Reconocimiento de Patrones p.
Más detallesTécnicas de aprendizaje sobre series temporales
Técnicas de aprendizaje sobre series temporales Contenido 1. Motivación. 2. Ejemplo del Problema. 3. Aproximaciones al problema de clasificación de series temporales. 4. Aprendizaje de reglas. 5. Boosting
Más detallesINTRODUCCION AL ANALISIS DE CLUSTER
-1- INTRODUCCION AL ANALISIS DE CLUSTER José Luis Vicente Villardón Departamento de Estadística Universidad de Salamanca -- DEFINICION E INTRODUCCION El Análisis de Clusters (o Análisis de conglomerados)
Más detallesTÉCNICAS NO PARAMÉTRICAS DRA. LETICIA FLORES PULIDO
TÉCNICAS NO PARAMÉTRICAS DRA. LETICIA FLORES PULIDO INTRODUCCIÓN En los ejemplos anteriores suponemos que conocemos la forma de la distribución de los datos. En la mayoría de las aplicaciones de este tipo,
Más detallesRevisión del algoritmo de Corte Normalizado
Capítulo 2 Revisión del algoritmo de Corte Normalizado El algoritmo Ncut realiza la segmentación planteando un problema de división de grafos, en el cual se pretende maximizar tanto la disimilitud entre
Más detallesa. Diseñe un algoritmo que maximice el número de contenedores cargados.
ALGORITMOS GREEDY RELACIÓN DE EJERCICIOS Y PROBLEMAS 1. Se tiene un buque mercante cuya capacidad de carga es de k toneladas y un conjunto de contenedores c 1,, c n cuyos pesos respectivos son p 1,, p
Más detallesÍndice general. Prefacio...5
Índice general Prefacio...5 Capítulo 1 Introducción...13 1.1 Introducción...13 1.2 Los datos...19 1.3 Etapas en los procesos de big data...20 1.4 Minería de datos...21 1.5 Estructura de un proyecto de
Más detallesAprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur
Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur Aprendizaje de distancias Kilian Q. Weinberger, Lawrence K. Saul: Distance Metric Learning for Large Margin
Más detallesTema 5: SEGMENTACIÓN (II) I N G E N I E R Í A I N F O R M Á T I C A
Tema 5: SEGMENTACIÓN (II) 1 I N G E N I E R Í A I N F O R M Á T I C A Tema 5: Segmentación Los algoritmos de segmentación se basan en propiedades básicas de los valores del nivel de gris: 2 - Discontinuidad:
Más detallesAprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur
Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur KNN: VECINO(S) MAS CERCANO(S) K NEAREST NEIGHBORS (KNN) Altura Niño Adulto Mayor Se guardan todos los ejemplos
Más detallesClasicación Automática de Documentos
Clasicación Automática de Documentos Carlos G. Figuerola, José Luis Alonso Berrocal, Angel F. Zazo Universidad de Salamanca Grupo REINA http://reina.usal.es Carlos G. Figuerola (Grupo REINA) Clasicación
Más detallesIntroducción a las técnicas estadísticas de
Introducción a las técnicas estadísticas de clasificación y regresión. Aprendizaje no supervisado - Clustering Laura Aspirot, Sebastián Castro Universidad de la República (UdelaR) Jueves 21 y viernes 22
Más detallesDiplomado BIG DATA ANALITYCS K-Means. Por Ing. Jorge E. Camargo, Ph.D.
Diplomado BIG DATA ANALITYCS Por Ing. Jorge E. Camargo, Ph.D. Agenda 1. Agrupamiento 2. 3. Medidas de Validación Agrupamiento (Clustering) Dado un conjunto de puntos/datos, cada uno con un conjunto de
Más detallesAnálisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Combinación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Diversos algoritmos de clasificación están limitados a resolver problemas binarios, es decir, con dos
Más detallesANÁLISIS DE CLÚSTERS (CLUSTERING)
ANÁLISIS DE CLÚSTERS (CLUSTERING) Marcela Gómez González May 26, 2008 Abstract El objetivo de éste artículo es conocer los métodos y algorítmos que nos permiten agrupar casos sobre los cuáles se miden
Más detallesComunidades. Buscando grupos naturales de nodos
Comunidades Buscando grupos naturales de nodos cliques, -componentes (Newman 7.8.1, 7.8.2) similaridad (N7.12) Geometria: means topologia: equivalencia estructural vs equivalencia regular Clustering jerarquico
Más detallesCapítulo 5. Escalado Multidimensional 5.1. ESCALADO MÉTRICO
Capítulo 5 Escalado Multidimensional 5.1. ESCALADO MÉTRICO Dada una matriz de distancias D = (d ij ) o de disimilaridades = (δ ij ) entre n objetos, el escalado métrico consiste en encontrar las coordenadas
Más detallesAprendizaje no supervisado
Aprendizaje no supervisado Algoritmo de K medias Julio Waissman Vilanova Licenciatura en Ciencias de la Computación Universidad de Sonora Curso Inteligencia Artificial Plan del curso Aprendizaje no supervisado
Más detallesClasificación Clasific NO SUPERV SUPER ISAD IS A AD AGRUPAMIENTO
Clasificación NO SUPERVISADA AGRUPAMIENTO Clasificación No Supervisada Se trata de construir clasificadores sin información a priori, o sea, a partir de conjuntos de patrones no etiquetados Objetivo: Descubrir
Más detallesCurso de Postgrado en Herramientas Estadísticas Avanzadas: AGROPECUARIOS. Prof. Dr. José Perea Dpto. Producción Animal
Curso de Postgrado en Herramientas Estadísticas Avanzadas: ANÁLISIS MULTIVARIANTE PARA INVESTIGACIÓN EN SISTEMAS AGROPECUARIOS ANÁLISIS CLUSTER Prof. Dr. José Perea Dpto. Producción Animal ANÁLISIS DE
Más detallesTécnicas de Minería de Datos
Técnicas de Minería de Datos Act. Humberto Ramos S. 1 Qué es Minería de datos? El desarrollo de dispositivos tecnológicos para acumular datos a bajo costo. Acumulación o registro de gran cantidad de datos.
Más detallesTEMA 6 ANÁLISIS DE CONGLOMERADOS
TEMA 6 ANÁLISIS DE CONGLOMERADOS Facultade de Psicoloxía Campus Sur, s/n 15782 Santiago de Compostela wwwusces/psicom Dr Jesús Varela Mallou Dr Antonio Rial Boubeta Dr Eduardo Picón Prado Análisis Multivariante
Más detallesAnálisis de datos cualitavos con análisis de correspondencias
Análisis de datos cualitavos con análisis de correspondencias Sesión 3 Campo Elías Pardo Universidad Nacional Sesión 3 - contenido 1. Algunos métodos de clasificación en espacios métricos (variables condnuas,
Más detallesPara lograrlo es requisito imprescindible desarrollar una serie de hitos que se pueden agrupar en 3 grandes puntos:
Introducción y objetivos El Departamento de Tecnología Electrónica está trabajando en el campo de la clasificación de imágenes de satélite y a su vez, el Departamento de Matemática Aplicada trabaja en
Más detallesAPLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU. Luis Azaña Bocanegra
APLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU Luis Azaña Bocanegra TEMARIO CONCEPTOS DEFINICION DE MINERIA DE DATOS USOS DE LA MINERIA DE DATOS TECNICAS DE MINERIA DE DATOS ETAPAS DE UN PROYECTO DE
Más detallesProf. Dr. Jose Jacobo Zubcoff Departamento de Ciencias del Mar y Biología Aplicada
Clustering Análisis de segmentación Prof. Dr. Jose Jacobo Zubcoff Departamento de Ciencias del Mar y Biología Aplicada This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International
Más detallesReconocimiento de patrones y el aprendizaje no supervisado
Reconocimiento de patrones y el aprendizaje no supervisado Jesús Cáceres Tello Servicios Informáticos Profesor del Dpto. Ciencias de la Computación Escuela Técnica Superior de Informática Universidad de
Más detalles4. Complejidad computacional
Fundamentos de Programación Entera 4. Complejidad computacional Carlos Testuri Germán Ferrari Departamento de Investigación Operativa Instituto de Computación Facultad de Ingeniería Universidad de la República
Más detalles3. Clasificación no supervisada
3. El presente capítulo y el siguiente tratan de clasificación, es por ello que antes de abordar el tema específico de este capítulo, previamente se hará una introducción al tema de clasificación. 3.1
Más detallesMODELOS DE COMPUTACIÓN Y COMPLEJIDAD
MODELOS DE COMPUTACIÓN Y COMPLEJIDAD Grado de Ingeniería Informática. Tecnologías Informáticas Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e
Más detallesINFORME TAREA N 4 CLUSTERING
Universidad de Chile Facultad de Ciencias Físicas y Matemáticas Departamento de Ingeniería Eléctrica EL4106 Inteligencia Computacional INFORME TAREA N 4 CLUSTERING Nombre Alumno : Profesor : Profesor Auxiliar
Más detallesMetaheurísticas. Seminario 5. Manejo de restricciones en metaheurísticas. 1. Introducción: Optimización y Restricciones
Metaheurísticas Seminario 5. Manejo de restricciones en metaheurísticas 1. Introducción: Optimización y Restricciones 2. Manejo de Restricciones en Metaheurísticas 3. Algunos Ejemplos 1 Introducción: Optimización
Más detallesLa Programación Lineal. H. R. Alvarez A., Ph. D. 1
La Programación Lineal H. R. Alvarez A., Ph. D. 1 Aspectos generales Se considera a George Dantzig el padre de la P. L. Su objetivo es el de asignar recursos escasos a actividades que compiten por ellos.
Más detallesEstadística Inferencial. Estadística Descriptiva
INTRODUCCIÓN Estadística: Ciencia que trata sobre la teoría y aplicación de métodos para coleccionar, representar, resumir y analizar datos, así como realizar inferencias a partir de ellos. Recogida y
Más detallesTema 3: Análisis multivariante para la agrupación. Objetivo: Encontrar los grupos naturales en los que se divide la población.
Tema 3: Análisis multivariante para la agrupación Objetivo: Encontrar los grupos naturales en los que se divide la población. Ejemplo canónico en Biologia: Taxonomía Rosa doméstica Reino: Plantae (Plantas)
Más detallesSegmentación de imágenes biomédicas
Segmentación de imágenes biomédicas Definición de segmentación La segmentación es la partición de una imagen, en un subconjunto regiones homogéneas en base a una característica (intensidad, textura,...).
Más detallesPROGRAMACIÓN ORIENTADA A LA INTELIGENCIA ARTIFICIAL
PROGRAMACIÓN ORIENTADA A LA INTELIGENCIA ARTIFICIAL Ejercicios de programación en LISP y PROLOG prog-ia@dia.uned.es Dpto. Inteligencia Artificial E.T.S.I. Informática (UNED) C/ Juan del Rosal 16 28040
Más detallesAnálisis de Clúster con SPSS. Método de las K-Medias
Análisis de Clúster con SPSS. Método de las K-Medias El análisis de cluster es un tipo de clasificación de datos que se lleva a cabo mediante la agrupación de los elementos analizados. El objetivo fundamental
Más detallesLaura de la Fuente Crespo. Análisis Cluster
Laura de la Fuente Crespo Análisis Cluster Análisis Cluster ÍNDICE Teoría Análisis Cluster... 1 Análisis Cluster No Jerárquico con SPSS... 25 Análisis Cluster Jerárquico con SPSS... 36 Análisis Cluster
Más detallesTema 5: SEGMENTACIÓN (II) I N G E N I E R Í A I N F O R M Á T I C A
Tema 5: SEGMENTACIÓN (II) 1 I N G E N I E R Í A I N F O R M Á T I C A Tema 5: Segmentación Los algoritmos de segmentación se basan en propiedades básicas de los valores del nivel de gris: 2 - Discontinuidad:
Más detallesClasificación. Agrupación de las partes de una imagen de forma homogénea
Clasificación Agrupación de las partes de una imagen de forma homogénea Clasificación o clustering Intenta clasificar los píxeles directamente en clases, en función de ciertas características de cada píxel.
Más detallesSISTEMAS INTELIGENTES
SISTEMAS INTELIGENTES T12: Aprendizaje no Supervisado {jdiez, juanjo} @ aic.uniovi.es Índice Aprendizaje no Supervisado Clustering Tipos de clustering Algoritmos Dendogramas 1-NN K-means E-M Mapas auto-organizados
Más detallesTEMA 3: Áreas de la IA: Ejemplos de investigación actual.
Tema 3: Áreas de la IA: Ejemplos de investigación actual pp. 1 TEMA 3: Áreas de la IA: Ejemplos de investigación actual. Algoritmos Genéticos 1 Introducción 2.1 Operadores Bibliografía Bibliografía S.
Más detallesEstimación de homografías
Estimación de homografías Visión en Robótica 1er cuatrimestre de 2013 1 Introducción del problema Una homografía es una transformación proyectiva que determina una correspondencia entre puntos El problema
Más detallesMDS. MDS (non-metrics MultiDimensional Scaling) 07/12/12. Multidimensional Scaling Ordination
MDS Multidimensional Scaling Ordination Técnica de ordenación que representa distancias (euclídeas o no) en pocas dimensiones (habitualmente 2D ó 3D) Mejora la visualización Se eligen a priori Los ejes
Más detallesAnálisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Desde la antigüedad, el problema de buscar patrones en datos es fundamental en diversas
Más detallesIndice
Índice Prólogo.... 15 Capítulo 1. Preliminares... 17 1.1. Introducción............................. 17 1.2. Nombres nuevos para conocidos métodos clásicos........ 17 1.3. *Algunos elementos matemáticos
Más detallesAprendizaje no supervisado
OPENCOURSEWARE REDES DE NEURONAS ARTIFICIALES Inés M. Galván José M. Valls Tema 4 1 Introducción Aprendizaje competitvo Otros algoritmos de agrupación 2 1 Introducción Características principales de las
Más detallesClustering INAOE. Outline. Introducción. Medidas de similaridad. Algoritmos. k-means COBWEB. Clustering. basado en probabilidades.
INAOE (INAOE) 1 / 52 1 2 3 4 5 6 7 8 9 10 (INAOE) 2 / 52 es el proceso de agrupar datos en clases o clusters de tal forma que los objetos de un cluster tengan una alta entre ellos, y baja (sean muy diferentes)
Más detalles