TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING

Transcripción

1 TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Máster Universitario en Lógica, Computación e Inteligencia Artificial Curso

2 Introducción Grandes avances en la Biología molecular/celular y en la Tecnología: Aumento exponencial de la información disponible para la investigación científica. Por ejemplo: el uso de la tecnica de microarrays permite almacenar millones de datos de expresión génica (regulación y patrones de comportamiento). Analizar grupos de genes con similar funcionalidad. Estudiar grupos de genes regulados de forma análoga. Las investigaciones sobre grandes bases de datos (poblaciones de objetos/individuos) dependen de muchos factores. Esa variedad de parámetros hace que las investigaciones sean muy complejas. Las técnicas de clasificación facilitan la organización de las grandes bases de datos. Para simplificar algunos problemas y hacerlos más tratables: Es conveniente agrupar objetos/individuos que tienen similares características. Minería de datos: conjunto de técnicas orientadas a la extracción de conocimiento útil de grandes bases de datos. Es una disciplina de la Inteligencia Artificial. 2 / 1

3 Tipos de datos Los datos pueden ser de diversos tipos: Numéricos. Binarios. Orinales. Nominales. De intervalos. Mixtos. Etc. 3 / 1

4 Clustering (I) Clustering: se trata de una clasificación no supervisada (no usa clasificaciones previas ni clases predefinidas): es una técnica de minería de datos. Objetivo: a partir de una base de datos inicial (objetos/individuos), formar agrupaciones o clusteres de acuerdo con una medidad de similitud entre ellos de tal manera que: La similitud media entre los datos del mismo cluster sea alta. La similitud media entre los datos de distintos clusteres sea baja. Etapas de un proceso de clustering: Representación de los objetos/individuos (vectores, coordenadas esféricas, grafos, etc.). Definición de una medida de similitud (proximidad, distancia, etc.). Criterio de agrupación o clustering (distintas metodologías). Abstracción de los datos (transformación para otros procesos de análisis, etc.). Evaluación de los resultados (bomdad del proceso, validación, etc.). 4 / 1

5 Clustering (II) Existen diferentes métodos para clasificar datos (objetos/individuos) de acuerdo con sus similaridades: Jerárquico: la clasificación se estructura en niveles (niveles inferiores contenidos en niveles superiores). Aglomerativo (ascendente): se parte de tantos clusteres como individuos y se irán formnado grupos según su similitud. Disociativo (descendente): Se parte de un único cluster y se va formando clusteres según la disimilitud de sus componentes. No jerárquico: la clasificación se estructura en grupos sin que existan relaciones entre los diferentes grupos. 5 / 1

6 Población de individuos (I) Objeto de estudio: una población de individuos: Los individuos tienen una serie de características o propiedades que interesan estudiar. Por ejemplo: La información que proporciona los microarrays se expresa en un matrix M = (a ij ) 1 i n,1 j m : son los individuos de la población. Las filas representan los genes que se analizan y las columnas representan las condiciones experimentales. El valor x ij representa la cantidad de RNAm expresado por el gen i en las condiciones dadas por j. Formalización: Sea E un conjunto no vacío y p 1 un número natural. Un p-individuo es un elemento del conjunto E (p)... E. Representación: a = (a 1, a 2,..., a k ), donde a r es un elemento de E que codifica la propiedad r-ésima del individuo a. Una población de p-individuos es un subconjunto finito de E (p)... E. Una métrica o distancia sobre E es una aplicación d : E E R + (números reales mayores o iguales que cero), tal que para cada x, y E: d(x, y) = 0 si y sólo si x = y. d(x, y) = d(y, x). d(x, y) d(x, z) + d(z, y), para cada z E (desigualdad triangular). 6 / 1

7 Población de individuos (II) Definición: Una similaridad sobre una población Ω = {x 1, x 2,..., x n} de k-individuos es una aplicación s : Ω Ω R + tal que Para cada par de individuos x i, x j Ω se tiene que s(x i, x j ) = s(x j, x i ). Para cada par de individuos distintos x i, x j Ω se tiene que s(x i, x i ) = s(x j, x j ) s(x i, x j ). Una población Ω = {x 1, x 2,..., x n} de p-individuos se puede expresar como una matriz: x 11 x x 1p x 21 x x 2p x n1 x n2... x np En donde el individuo i-ésimo x i de la población es la tupla (x i1, x i2,..., x ip ) Las componentes x ir (1 r p) del individuo son las propiedades o características que se analizan 7 / 1

8 Distancias Algunos ejemplos de distancia: Distancia de Minkowski (siendo q 1): p d(x i, x j ) = q ( x i,r x j,r q ) r=1 Distancia de Manhattan (caso q = 1): p d(x i, x j ) = x i,r x j,r q r=1 Distancia eucĺıdea (caso q = 2): p d(x i, x j ) = ( x i,r x j,r 2 ) r=1 Distancia de Chebyshev (chessboard distance): d(x i, x j ) = máx{ x i,r x j,r : 1 r p} 8 / 1

9 Clustering jerárquico aglomerativo Estrategia de la distancia mínima o similitud máxima (II) Un algoritmo de construcción: Entrada: la familia básica de clusteres de una población de individuos (cada cluster es un conjunto que contiene un único individuo) y la matriz inicial de distancias entre los pares de individuos (pares de clusteres iniciales). 1. Se consideran los dos clusteres más cercanos y se construye una nueva familia en la que ese par de clusteres más cercano es sustituido por un cluster que contiene a ambos. 2. Se actualiza la matriz de distancias calculando los valores para cada par de clusteres en la nueva familia (en cada paso, el número total de clusteres disminuye en una unidad). 3. Se vuelve al paso 1 hasta que exista un único cluster Software: AGNES (Agglomerative Nesting) 9 / 1

10 Estrategia de la distancia mínima o similitud máxima (II) Se parte de una población de 7 individuos. Clusteres iniciales 0 = {{a}, {b}, {c}, {d}, {e}, {f }, {g}} Matriz de distancias iniciales de la población es: a b c d e f g a 0 b c d e f g Nivel K = 1: clusteres más próximos {c} y {e} (0.21) Entonces 1 = {{a}, {b}, {c, e}, {d}, {f }, {g}} Matriz de distancias actualizada: a b {c, e} d f g a 0 b {c, e} d f g / 1

11 Nivel K = 2: clusteres más próximos {d} y {f } (0.22) Entonces 2 = {{a}, {b}, {c, e}, {d, f}, {g}} Matriz de distancias actualizada: a b {c, e} {d, f } g a 0 b {c, e} {d, f } g Nivel K = 3: clusteres más próximos {c, e} y {d, f } (0.29) Entonces 3 = {{a}, {b}, {{c, e}, {d, f}}, {g}} Matriz de distancias actualizada: a b {{c, e},{d, f }} g a 0 b {{c, e},{d, f }} g / 1

12 Nivel K = 4: clusteres más próximos {a} y {{c, e}, {d, f }} (0.7) Entonces 4 = {{{a}, {{c, e}, {d, f}}}, {b}, {g}} Matriz de distancias actualizada: {{a},{{c, e}, {d, f }}} b g {{a},{{c, e}, {d, f }} 0 b g Nivel K = 5: clusteres más próximos {{a}, {{c, e}, {d, f }}} y {b} (1.01) Entonces 5 = {{{{a}, {{c, e}, {d, f}}}, {b}}, {g}} Matriz de distancias actualizada: {{{a}, {{c, e}, {d, f }}},{b}} g {{{a}, {{c, e}, {d, f }}},{b}} 0 g Nivel K = 6: clusteres más próximos {{{a}, {{c, e}, {d, f }}}}, {b}} y {g} (1.56) Entonces 6 = {{{{{a}, {{c, e}, {d, f}}}, {b}, {g}} Representación gráfica mediante un árbol de clasificación: dendograma. 12 / 1

13 Otras estrategias Estrategia de la distancia máxima o similitud mínima. Estrategia minimización de la distancia o similitud promedio no ponderada. Sean dos clusteres C i y C j. Supongamos que C i está compuesto, a su vez, por dos clusteres C i1 y C i2. Entonces se considera la siguiente distancia: d(c i, C j ) = d(c i 1, C j ) + d(c i2, C j ) 2 Estrategia de minimización de la distancia o similitud promedio ponderada. Sean dos clusteres C i y C j. Supongamos que C i está compuesto, a su vez, por dos clusteres C i1 y C i2. Supongamos que C i1 tiene n i1 elementos, C i2 tiene n i2 y C j tiene n j elementos. Entonces se considera la siguiente distancia: 1 d(c i, C j ) = (n i1 + n i2 ) n j n i1 +n i2 i=1 n j d(x i, x j ) En donde x i denota un elemento arbitrario de C i y x j denota un elemento arbitrario de C j. Entonces se verifica que: d(c i, C j ) = n i 1 d(c i1, C j ) + n i2 d(c i2, C j ) n i1 + n i2 j=1 13 / 1

14 Modelización de un clustering jerárquico aglomerativo Se ha realizado una modelización computacional basada en sistemas P de un clustering jerárquico aglomerativo 1 Población de n individuos. Se estudian p características de cada individuo. Las características están codificadas a través de valores booleanos. La medida de similaridad usada es debida a Sokal y Michener (1963): s(x i, x j ) = 1 p p (1 x i,r x j,r ) r=1 1 M. Cardona, M.A. Colomer, M.J. Pérez-Jiménez. Hierarchical clustering with Membrane Computing. Computing and Informatics, 27, 3+ (2008), / 1

15 Clustering no jerárquico: agrupamiento por particiones El método de de las k-means, MacQueen Método basado en división o agrupación por particiones. El método proporciona una clasificación de los datos en k clusteres, siendo k un número prefijado. El método trata de optimizar la función objetivo: k SSE = d 2 (x, µ i ) i=1 x C i en donde C i es un cluster y µ i es el centroide correspondiente a dicho cluster. El centroide de un cluster es un elemento que minimiza la suma de las distancias (similitudes) al resto de los elementos del cluster. 15 / 1

16 Clustering no jerárquico: agrupamiento por particiones Un algoritmo que implementa el método de las k-means: Entrada: Datos a clasificar, número de clusteres k a formar, matriz de distancias (similitudes) y el número de iteraciones I a realizar. Seleccionar una agrupación de los datos en k clusteres. Determinar los centroides de cada cluster. i 1 Crear k nuevos clusteres asignando cada dato al centroide más cercano. Sustituir cada centroide de un nuevo cluster por el elemento que minimiza la suma de distancias al resto de datos del cluster. Si i I, entonces volver al paso 2. Si no, finalizar. El proceso anterior puede ser convergente (en el sentido de que en un determinado paso, los nuevos clusteres coinciden con los que ya se tenían) o no. Complejidad: O(n p k I ) (si no se fija el valor de k, se trata de un problema de la clase NP). 16 / 1

17 Agrupamiento por particiones Ventajas: Es relativamente eficiente. Generalmente el proceso finaliza con un óptimo local y en un número reducido de iteraciones. Desventajas: El resultado depende de la selección inicial; realizar ejecuciones correspondientes a diferentes selecciones. Hay que especificar de antemano el valor de k: usar un método jerárquico sobre una muestra de los datos para estimar k (por ejemplo, el número de clusteres de una matriz de expresión génica no suele conocerse a priori). Es aplicable cuando está definida la media: se pueden usar otras medidas de centralización. Dificultad con datos no numéricos. No funciona bien cuando los clusteres son de diferente tamaño, distinta densidad o no convexos (en su distribución espacial). Es muy sensible a los datos anómalos ya que distorsionan las medias. No es capaz de tratar con ruido Las variantes se diferencian en: Selección de las k medias iniciales. Cálculo de las similitudes. Estrategias para calcular las medias. En los datos categóricos se sustituirá la media por la moda. 17 / 1

18 Variantes de k-means GRASP (Greedy Randomized Adaptive Search Procedure) para evitar óptimos locales. k-modes, Huang 1998: utiliza modas en vez de medias a fin de poder trabajar con atributos de tipo categórico. k-medoids: utiliza medianas en vez de medias para limitar la influencia de los outliers. PAM: Partitioning Around Medoids, CLARA: Clustering LARge Applications, CLARANS: CLARA + Randomized Search, / 1

19 Ejemplo (I) Partimos de una población Ω = {x 1, x 2, x 3, x 4, x 5, x 6, x 7 } con 7 individuos y de cada uno de ellos analizamos dos propiedades o características (codificadas numericamente). Usaremos como medidad de similitud la distancia eucĺıdea. x i,1 x i,2 x x x x x x x Apliquemos el método de las k-means para formar 3 clusteres con un máximo de iteraciones I = 5. Se parte de la siguiente agrupación inicial: 0 = {{x 1, x 4 }, {x 2, x 6 }, {x 3, x 5, x 7 }} Cluster 1: {x 1, x 4 }; Cluster 2: {x 2, x 6 } y Cluster 3: {x 3, x 5, x 7 } Hallemos los centroides iniciales: Correspondiente al cluster 1: punto medio de x 1 y x 4 ; es decir, C 0 1 = (4.5, 7.5). Correspondiente al cluster 2: punto medio de x 2 y x 6 ; es decir, C 0 2 = (7, 6). Correspondiente al cluster 3: baricentro de x 3, x 5 y x 7 ; es decir, C 0 3 = (7, 3.33). 19 / 1

20 Ejemplo (II) A continuación hallamos la nueva matriz de distancia de los individuos a sus centroides respectivos: C1 0 C2 0 C3 0 x x x x x x x La nueva agrupación obtenida es la siguiente: 1 = {{x 1, x 2, x 4 }, {x 3 }, {x 5, x 6, x 7 }} Cluster 1: {x 1, x 2, x 4 }; Cluster 2: {x 3 } y Cluster 3: {x 5, x 6, x 7 } Hallemos los nuevos centroides: Correspondiente al cluster 1: baricentro de x 1, x 2 y x 4 ; es decir, C 1 1 = (3.66, 8.33). Correspondiente al cluster 2: el único dato que existe x 3 ; es decir, C 1 2 = (5, 5). Correspondiente al cluster 3: baricentro de x 3, x 5 y x 7 ; es decir, C 1 3 = (9.33, 2.33). 20 / 1

21 Ejemplo (III) A continuación hallamos la nueva matriz de distancia de los individuos a sus centroides respectivos: C1 1 C2 1 C3 1 x x x x x x x La nueva agrupación obtenida es la siguiente: 2 = {{x 2, x 4 }, {x 1, x 3, x 7 }, {x 5, x 6 }} Cluster 1: {x 2, x 4 }; Cluster 2: {x 1, x 3, x 7 } y Cluster 3: {x 5, x 6 } Hallemos los nuevos centroides: Correspondiente al cluster 1: punto medio de x 2 y x 4 ; es decir, C 2 1 = (5, 10). Correspondiente al cluster 2: baricentro de x 1, x 3 y x 7 ; es decir, C 2 2 = (4, 4.66). Correspondiente al cluster 3: punto medio de x 5 y x 6 ; es decir, C 2 3 = (11, 1.5). 21 / 1

22 Ejemplo (IV) A continuación hallamos la nueva matriz de distancia de los individuos a sus centroides respectivos: C1 2 C2 2 C3 2 x x x x x x x La nueva agrupación obtenida es la siguiente: 3 = {{x 2, x 4 }, {x 1, x 3, x 7 }, {x 5, x 6 }} Cluster 1: {x 2, x 4 }; Cluster 2: {x 1, x 3, x 7 } y Cluster 3: {x 5, x 6 } Por tanto, en este caso el método es convergente. En consecuencia, no hace falta llegar al número de iteraciones prefijadas (I = 5). 22 / 1

23 Medida de calidad de un proceso de clustering: Evaluación Puntos claves del proceso de clustering: Elección de la medida de similitud o distancia. Elección del algoritmo de clustering. Elección del número de clustering. Fijar un criterio para medir la calidad del procesos. Objetivo: a partir de una base de datos inicial (objetos/individuos), formar agrupaciones o clusteres de acuerdo con una medidad de similitud entre ellos de tal manera que: La similitud media entre los datos del mismo cluster sea alta (similitud intra-cluster). La similitud media entre los datos de distintos clusteres sea baja (similitud inter-clusteres). Así pues, hay que: Minimizar la distancia intra-cluster (cohesión). Maximizar la distancia inter-cluster (separación). 23 / 1