Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 12 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 12 - Juan Alfonso Lara Torralbo 1

Índice de contenidos Fundamentos de clustering Ejemplo inicial Aplicaciones Características deseables de un método de clustering Medidas de distancia Ejemplo de cálculo de distancia Actividad. Cálculo de distancias 2

Fundamentos de clustering Clustering (también conocido como segmentación o agrupamiento) hace referencia a la tarea de data mining consistente en dividir un conjunto inicial de objetos heterogéneos en grupos de objetos homogéneos A los grupos de objetos similares entre sí se les conoce con el nombre de clusters 3

Ejemplo inicial (I) Datos sobre Longitud y Altura de objetos identificados en una imagen médica 4

Ejemplo inicial (II) Cuántos clústers se aprecian? 5

Aplicaciones (I) Marketing: identificación de los distintos grupos de clientes en la base de datos de una compañía, lo cual puede resultar de gran utilidad para optimizar la política publicitaria y las ofertas. Compañías de Seguros: establecimiento de los grupos de clientes asegurados con características similares (número y tipo de siniestros, recursos económicos, etc.). Con ello se consigue conocer los riesgos de los clientes de forma más precisa. Planificación urbana: identificación de grupos de viviendas según el tipo de éstas (piso, chalet, etc.), valor o localización geográfica. World Wide Web (WWW): determinación de los diferentes tipos de documentos, análisis de ficheros log para descubrir patrones de acceso similares, etc. 6

Aplicaciones (II) Como tarea de preprocesado para otras tareas posteriores de Data Mining Como tarea preliminar que se aplica por defecto para empezar a conocer los datos De gran utilidad ya que permite tener una composición de lugar del dominio que se está analizando y, además, puede arrojar alguna pista sobre la aplicabilidad de otras tareas de data mining. 7

Características deseables Que sea escalable, es decir, que funcione correctamente al tratar con conjuntos de datos, tanto de pocos como de muchos elementos. Que posea la capacidad para operar con distintos tipos de variables. Que permita descubrir clusters con formas arbitrarias. Que sea capaz de tratar datos con ruido (errores, inconsistencias, etc.) y objetos atípicos. Que sea insensible al orden de los registros de la base de datos. Es decir, que el orden en el que los datos están almacenados, no influya en los clusters obtenidos. Que funcione correctamente cuando trabaja con registros de alta dimensionalidad (con muchos atributos). Que los resultados obtenidos sean interpretables por el ser humano. 8

Medidas de distancia (I) Definición formal de clustering: Dada una base de datos D={t 1,t 2,,t n } compuesta por n registros y un valor entero k (número de clusters), la tarea de clustering consiste en establecer una correspondencia: f: D {C 1,..,C k }; donde cada t i se asigna a un cluster C j, 1 j k. Qué se necesita para ello? Medida de distancia entre los elementos a particionar 9

Medidas de distancia (II) Distancia City-Block o Manhattan: = p i j m im jm m= 1 d( t, t ) W t t (1) Distancia Euclídea: ( ) 2 = p i j m im jm m = 1 d ( t, t ) W t t (2) Distancia Minkowski: ( ) λ p i i m im jm m= 1 d ( t, t ) = W t t λ > 0 (3) λ 10

Ejemplo 11

Actividad. Cálculo de distancias Calcular, en grupo, la distancia Euclídea entre los elementos <1,1>, <100,74> y <27,29> con cada elemento de la tabla de ejemplo mostrada por el profesor Poner en común 12