ANÁLISIS DE CLÚSTERS (CLUSTERING) Marcela Gómez González May 26, 2008 Abstract El objetivo de éste artículo es conocer los métodos y algorítmos que nos permiten agrupar casos sobre los cuáles se miden diferentes variables o características. Así, casos que presenten características muy similares deberán quedar agrupados en conjuntos que llamaremos clústers, mediante las fórmulas propuestas en éstos algoritmos podremos ser capaces de realizar un buen análisis de Clústers. Además se citan las diefrentes aplicaciones que tiene el clústrering, así nos permitirá asociar las mismas a nuestros propios proyectos u objetivos dentro de nuestra materia y de nuestra vida diaria. 1. Introducción Es una necesidad en general para cualquier tipo de proyecto o en el diario vivir clasicar objetos en grupos, ya que hace falta poner orden y agrupar casos de acuerdo a diferentes características. Un clúster se basa en la creación de categorías descritas en base a propiedades sucientes y necesarias utilizando una función a optimizar sobre las descripciones que se van creando. Los clústers deberán ser hallados sin información previa y serán sugeridos únicamnete por la propia escencia de los datos Los métodos tratados aquí son de suma importancia para medir características y variables de diferente tipo de aplicaciones que necesitan ser agrupados para su análisis. Los métodos creados para análisis de clústers han mtgomez@utpl.edu.ec, Univesidad Técnica Particular de Loja, 2008, Ecuador sido desarrollados ya que no existe una denición precisa de clúster, los mas grandes métodos nombrados en éste artículo son: los jerárquicos y no jerárquicos o particionales. En los primeros, la pertenencia a un clúster en un nivel de jerarquís condiciona la pertenencia a grupos de nmivel superior. Los particionales obtienen una única prtición de los datos mediante la optimización de alguna función adecuada. 2. Desarrollo 2.1 Clústering El análisis de clústers es una técnica cuya idea básica es agrupar un conjunto de observaciones en un número dado de clusters o grupos. Este agrupamiento se basa en la idea de distancia o similitud entre las observaciones. La obtención de dichos clusters depende del criterio o distancia considerados. El número posible de combinaciones de grupos y de elementos que integran los posibles grupos se hace intratable desde el punto de vista computacional, aún con un número escaso de observaciones. Un clúster es un tipo de clasicación impuesta en un nito conjunto de objetos. La relación entre objetos es representada en una matriz de proximidad, en la cuál las y columnas corresponden a objetos. Si los objetos on caracterizados cmo patrones, las proximidades pueden ser la distancia entre un par de puntos, como la distancia Euclidean.[4] El análisis de Clústers es el proceso de clasicación de objetos dentro de subconjuntos que tienen un signicado en el contexto de un problema particular. Los objetos por ésta razon son organizados en una representación eciente. 1
El objetvo de las tecnicas de desubrir patrones comunes entre los datos, que permitan separar los ejemplos en clases o jerarquias de clases. De éstas se podrán extraer caracterizaciones, o permitirán predecir características, o deducir relaciones útiles, es lo que se denomina agrupación (clustering)[2] Existen diferentes técnicas de análisis que adoptan el punto de vista clásico Multivariante. Los problemas fundamenttales en el análisis de clústers es que no existe una denición precisa del clúster, y no se aborda es la clasicación de variables. Por eso que se a desarrollado gran cantidad de métodos de clústering como los jerárquicos y los no jerarquicos o particionales. [2] 2.2. Análisis de Clústers Es un procedimiento estadístico que parte de un conjunto de datos recolectado y que contiene información sobre una muestra de entidades e intenta reorganizarlas en grupos relativamente homogéneos a los que se llama clusters para resolver un problema especíco. Se deben seguir las siguientes etapas para realizar el análisis de los mismos. ˆ Elección de las variables. ˆ Elección de la medida de asociación. ˆ Elección de la técnica Cluster. ˆ Validación de los resultados. En la primera etapa de análsis se debe escoger las varaiables dependiendo del problema que se plantee. Éstas pueden ser cualitativas y cuantitativas Una vez que hemos elegido el tipo de variables, para poder unirlas es necesario tener algunas medidas numéricas que caractericen las relaciones entre éstas. Es necesario elegir una medida apropiada para el problema concreto que se esté tratando. La medida de asociación puede ser una distancia o una similaridad. ˆ Cuando se elige una distancia como medida de asociación, los grupos formados contendrán individuos parecidos de forma que la distancia entre ellos ha de ser pequeña. ˆ Cuando se elige una medida de similaridad, los grupos formados contendrán individuos con una similaridad alta entre ellos. En la tercera etapa debemos elegir un método de análisis, los citados en éste artículo son los jerárquicos y no jerárquicos o particionales que se detallarán mas adelante. Una vez que hemos realizado éste procedimiento se validan los resultados obtenido y así podemos sacar conclusiones. 2.3 Métodos de Clústering En los métodos jerárquicos, la pertenencia a un grupo o clúster en un nivel de la jerarquía condiciona la pertenencia a grupos de un nivel superior. Se dividen en: aglomerativos o divisivos, segun que la jerarquía sea construída agrupando casos o bien dividiendo secuencialmente los datos.[2] Los métodos particionales o métodos de optimización obtienen una única partición de los datos mediante la optimización de alguna función adecuada. Utilizan la matriz de datos mientras que los jerárquicos parten de una matriz de distancias o similaridades. Tishby et al. [Tishby et al. 1999] propuso el Cuello de Botella de Información como un método para hacer clústering. Éste método es una técnica no supervisada de organización de datos. Brinda una distribuciíón P(A,B), el método se construye, usando principios teoricos de información, una variable T que extrae las particiones, o clústers, sobre los valores de A que son informativos acerca de B. En particular, se consideran dos variables aleatorias X y Q con su distribuciión P(X,Q), donde X es una variable que está tratando de comprimir con respecto a la variable Q. [3] El clustering es un tipo especial de clasicación. See Kendall(1966), en una discusion entre la clasi- cación y el clústering muestra un arbol de clasicación de problemas sugerido por Lance y Williams (1967). Cada hoja dene los diferentes géneros de clasicación del problema. Los nodos son: ˆ Exclusivas versus No Exclusivas.- Una clasicación exclusiva es una partición de un conjunto de objetos. cada objeto llega a ser exactamente un sub- 2
conjunto, o clúster. Los No exclusivos, pueden asignar un objeto a varias clases. ˆ Intrinsecas versus Extrinsecas.- Una clasicación intrínseca usa solo la matriz de proximidad para ejecutar la clasicación. La clasicación extrínseca usa categorías sobre los objetos adicionalmente. La clasicación intrínseca es la esencia del análisis del Clúster. ˆ Jerárquico versus Particional. La clasicación exclusiva, intrínseca son subdivididas en particionales y jerárquicas por el tipo de estructura impuesta en los datos. La clasicación jerárquica es una secuencia anidada de particiones mientras que una clasicación particionada es una simple partición. De ésa manera una clasicación jerárquica es una secuencia especial de clasicaciones particionales. Se usa el término Clustering para una clasicación exclusiva, intrínseca y jerárquica y el término clústering jerárquico para una clasicación exclusiva, intrínseca y particional[4] 2.4 Algoritmos de Clústering Distancias y similaridades La distancia es una función que posee las siguientes características: ˆ No debe ser negativa. ˆ Cada caso no debe distar de sí mismo, y ˆ Establece la simetría. Mientras mayor sea la distancia, mas diferentes entre sí serán los casos i, j. Como el número de casos m es nito, podemos ordenar las interdistancias en una matriz simétrica mxm, que se llama matriz de distancias sobre es una fun- ˆ La similaridad sobre un conjunto ción que posee las propiedades: ˆ Debe ser no negativa y establece una escala ˆ Cada caso se parece a sí mismo mas que a acualquier otro caso ˆ Establece la simetría Podemos construír la matriz de similaridades sobre [2] 2.4.1. Método Jerárquico la agrupación se realiza mediante proceso un con fases de agrupación o desagrupación sucesivas. El resultado nal es una jerarquía de unión completa en la que cada grupo se une o separa en una determinada fase. Es un procedimiento para transformar una matriz de proximidad en una sucesión de particiones anidadas. Cada partición se obtiene uniendo o dividiendo clústers. [2], [4] Dentro de los métodos jerárquicos existen dos tipos: ˆ Métodos Aglomerativos ˆ Métodos Divisivos Con los métodos aglomerativos, los clústers se crean uniendo clústers, es decir en la partición inicial cada caso forma un clúster. El proceso empieza de manera que se van uniendo los clústers de dos en dos, y naliza cuando todos los casos forman un único clúster. Se parte de varios grupos y se van agrupando hasta llegar a tener todos los casos en un mismo grupo. Con los métodos divisivos, los nuevos clústers se crean dividiendo clústers, es decir, en la partición inicial todos los casos forman único clúster. Empieza el proceso de división dividiendo los clústers. El proceso puede seguir hasta que cada caso forme un único clúster. Se parte de un solo grupo que contiene todos los casos y a través de sucesivas divisiones se forman grupos cada vez mas pequeños Los métodos jerárquicos permiten construir un árbol de clasicación o dendograma Dendogarmas. 3
Un dendograma es una representación gráca o diagrama de datos en forma de árbol que organiza los datos en subcategorías que se van dividiendo hasta llegar al nivel de detalle deseado. Este tipo de representación permite apreciar claramente las relaciones de agrupación entre los datos e incluso entre grupos de ellos aunque no las relaciones de similaridad o cercanía entre categorías. Observando las sucesivas subdivisiones podemos hacernos una idea sobre los criterios de agrupación de los mismos, la distancia entre los datos según las relaciones establecidas, etc. Dentro de éste método utilizamos: ˆ Algoritmo básico de clasicvación (ABC) ˆ Algoritmo de clasicación (AC) ˆ Método del mínimo ˆ Método del máximo ˆ Método de Ward ˆ Fórmula de Lance-Williams ˆ Clúster basado en distancias A continuación citamos algunos de ellos: 2.4.1.1 Método del mínimo Tambien es conocido como Single Linkage o vecino mas cercano. En éste método la distancia entre los clústers se dene como el mínimo de las distancias entre los casos de cada clúster. 2.4.1.2 Método del máximo Se le conoce tambien con el nombre Complettre Linkage o vecino mas lejano. En éste método, la distancia entre los dos clústers se dene como el máximo de las distancias entre los casos de los clústers. 2.4.1.3 Método de Ward Se basa en que, al unir dos clústers, el aumento de la heterogeneidad total que se produce en cada paso sea lo menor posible. 2.4.2 Métodos Particionales. Dan lugar a una partición mediante la minimización o maximización de algún criterio. Se diferencia con los jerárquicos porque no teinen que formar jerarquías, además la partición que se obtenga dependerá del algoritmo y del criterio de optimización utilizado. Otra diferencia es que para poder aplicar éstos métodos el usuario debe jar de antemano el número de clústers que tendrá la partición. Están diseñados para la clasicación de individuos (no de variables) en K grupos. El procedimiento es elegir una partición de los individuos en K grupos e intercambiar los miembros de los clusters para tener una partición mejor. Dentro de éstos métodos tenemos el algoritmo: 2.4.2.1 Algoritmo de k-medias No es necesario medir distancias o similaridades puesto que no es un método jerárquico y por tanto la clasicación en K grupos se hará en un solo paso. Se toman los K primeros casos como grupos unitarios y se asignan el resto de casos a los grupos con el centroide más próximo. ˆ Se recalcula el centroide de cada grupo después de cada asignación. ˆ Tras la asignación de todos los individuos se toman los centroides de los grupos existentes como jos y se vuelven a asignar los individuos al centroide más próximo. Este método puede ser iterado hasta que ningún individuo cambie de grupo en la reasignación. En ese caso se trata del método de las K=medias convergente. Depende totalmente del criterio de optimización seleccionado. Éste algoritmo no siempre obtiene el óptimo global sino que puede dar como resulatdo un óptimo local 3. Aplicaciones El análisis de clusters es aplicado: 4
ˆ En Biología clústering es usado para describir y hacer compraciones temporales y espaciales de comunidades de organizmos en ambientes heterogéneos ˆ En bioinformática es utilizado para agrupar secuencias homólogas en familias de genes. ˆ En búsqueda de mercado se utiliza análisis de clústers para particionar la población de comsumidores en segmentos de mercado y para entender mejor las relaciones entre diferentes grupos de consumidores y clientes potenciales. [2] ARAUJO Basilo.- Aprendizaje Automático: conceptos bássicos y avanzados [3] SEBE N., CIHEN Ira, GARG Ashutosh, HUANG Tomas, Machine Learning in computer Vision [4] JAIN Anil K, DUBES Richars, Algoritms for Clustering Data. ˆ Algunas aplicaciones de minería de datos involucran objetos de datos particionados. Otra aplicación común es la división de documentos, como las páginas World Wide Web en géneros. 4. Conclusiones ˆ La ventaja de los métodos aglomerativos es su rapidéz, mientras que la de los métodos divisivos es que parten de la información global que hay en los datos y que además el proceeso de división no tiene por qué seguir hasta que cada elemento forme un clúster. ˆ El clustering es una técnica comun para análisis de datos estadísticos, el cuál es usado en algunos campos, inclieyendo aprendizaje de máquinas, minería de datos, patrones de reconocimiento, análisis de imagenes, etc. ˆ Para realizar el análisis de clústers se debe seguir todas las etapas. ˆ Las variables y métodos para el análisis de clústers se deben escoger de acuerdo al problema que se quiera resolver. Referencias [1] ARMENGO Eva,BEJAR javier,belache Luís,CORTES Ulises, GAVALDA Richard, SANCHEZ Miquel, Aprendizaje Automático 5