Método k-medias. [ U n a i n t r o d u c c i ó n ]

Documentos relacionados

EPB 603 Sistemas del Conocimiento

Minería de Datos Web. 1 er Cuatrimestre Página Web. Prof. Dra. Daniela Godoy.

Tareas de la minería de datos: agrupamiento. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

CIMPA-UCR. Clasificación Automática

(PHP y APACHE), y el programa de comunicación Skype, para controlar de manera

Análisis Estadístico de Datos Climáticos

Métodos Exploratorios en Minería de Datos

Métodos de la Minería de Datos

Análisis de componentes principales

CLASIFICACIÓN NO SUPERVISADA

Unidad 5 Utilización de Excel para la solución de problemas de programación lineal

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

Base de datos II Facultad de Ingeniería. Escuela de computación.

UTILIZACIÓN DE RELOJES

4. MÉTODOS DE CLASIFICACIÓN

Sistemas de seguridad en redes inalámbricas: WEP, WAP y WAP2

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

QUÉ ES UN NÚMERO DECIMAL?

PROYECTOS, FORMULACIÓN Y CRITERIOS DE EVALUACIÓN

UNAM ESCUELA NACIONAL DE ESTUDIOS PROFESIONALES CAMPUS ACATLAN TEMAS SELECTOS DE CÓMPUTO VILLANUEVA ARREGUÍN AZAEL

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

REDES INFORMATICAS: Protocolo IP

Técnicas de prueba 1. FUNDAMENTOS DE LA PRUEBA DEL SOFTWARE

Almacenamiento virtual de sitios web HOSTS VIRTUALES

SCOP++ Lidar. Metodología de filtrado

Covarianza y coeficiente de correlación

Etapa : Caracterización de la partición P 4 de los n individuos de la tabla T(22, 3)

Acronis License Server. Guía del usuario

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

Ejemplos de conversión de reales a enteros

Capítulo 12: Indexación y asociación

Métodos Iterativos para Resolver Sistemas Lineales

BREVE MANUAL DE SOLVER

Matrices equivalentes. El método de Gauss

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

Redes de Kohonen y la Determinación Genética de las Clases

UNIDAD 6. Programación no lineal

Diseño Estructurado de Algoritmos

Capitulo V Administración de memoria

Valoración de inventario a precio medio.

Direcciones IP IMPLANTACIÓN DE SISTEMAS OPERATIVOS 1º ASIR. En redes IPv4.

Tema: INSTALACIÓN Y PARTICIONAMIENTO DE DISCOS DUROS.

Carta Técnica VS Control Total Versión 2014

Tema 10. Estimación Puntual.

4 Análisis de los principales factores AsociAdos A los resultados en ciencias

MINERIA DE DATOS Y Descubrimiento del Conocimiento

Inteligencia de Negocio

RESOLUCIÓN DE SISTEMAS DE ECUACIONES LINEALES

EJEMPLO PRÁCTICO DE CÁLCULO DEL VALOR DE VIDA DEL CLIENTE (VVC) O LIFE TIME VALUE (LTV)

El Auditor y la organización

LECCIÓN 4. SEGUIMIENTO DEL PROGRESO DEL PROYECTO.

Soluciones Informáticas para la Gestión de la Calidad c/vicente Aleixandre nº 10 4º H, A CORUÑA Telf: / info@spuch.

Práctica 5. Curso

ANALISIS DE BITACORAS POR METODO RELACIONAL- PROBABILISTICO EN SISTEMAS CON COMPORTAMIENTO CAUSA-EFECTO

Alternativa Seleccionada a Desarrollar en Proyecto de Titulación. Integración de sensores en bastón de no videntes para advertir obstáculos cercanos

Sistemas Operativos. Sesión 5: Protocolos de enrutamiento vector distancia

Movimiento Rectilíneo Uniforme

COMUNICADO Nro /11/2010. Ref.: Tarjetas de crédito. Tasas y costos promedio de las tarjetas de crédito a agosto de Tarjetas de Crédito

MICROECONOMÍA II PRÁCTICA TEMA III: MONOPOLIO

Instructivo Plataforma Payroll Proceso de Evaluación de Desempeño

Aplicación de la inteligencia artificial a la resolución del problema de asignación de estudiantes del departamento de PDI

Álgebra Lineal Ma1010

SOFTWARE & SYSTEMS PROCESS ENGINEERING METAMODEL SPECIFICATION V.20 SPEM 2.0

Árbol binario. Elaborado por Ricardo Cárdenas cruz Jeremías Martínez Guadarrama Que es un árbol Introducción

la red de Internet PRODIGY para poder tener acceso al sistema RAGNVALD vía Internet

ANALISIS MULTIVARIANTE

Aprendizaje Supervisado Análisis Discriminante (Lineal y Cuadrático)

Universidad Nacional de Quilmes Ing. en Automatización y Control Industrial Cátedra: Visión Artificial Agosto de 2005

UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO CENTRO UNIVERSITARIO UAEM ATLACOMULCO REPORTE DE INVESTIGACION

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

ADMINISTRACION DE PROYECTOS

ESCUELA POLITÉCNICA NACIONAL

Test ( o Prueba ) de Hipótesis

Administración de proyectos. Organizar, planificar y programar los proyectos de software

4. Programación Paralela

Creación y administración de grupos locales

Colegio Salesiano Don Bosco Academia Reparación Y Soporte Técnico V Bachillerato Autor: Luis Orozco. Subneteo

CAPÍTULO IV. Análisis e interpretación de resultados. Para poder explicar las tablas del capítulo anterior y tener un mejor entendimiento

Qué son los protocolos de enrutamiento Dinámico?

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO. Introducción FACULTAD DE INGENIERÍA. Ordenación

Versión final 8 de junio de 2009

CARGAR ARCHIVOS EXTERNOS EN PHP WEBQUEST 2.5. La versión 2.5 de PHP Webquest y posteriores- ha sido diseñada para que los usuarios puedan:

Conclusiones. Particionado Consciente de los Datos

Plan de tarificación. Redes telefónicas. Requisitos a cumplir por el plan.

CAPÍTULO VI PROCEDIMIENTO PARA PROGRAMAR LA PRODUCCIÓN. Las expectativas de ventas, como se acaba de reflejar, y

ETSIINGENIO 2009 DIBUJO DE GRAFOS MEDIANTE ALGORITMOS GENÉTICOS

Mantenimiento Limpieza

2. Redes de Medición de la Calidad del Aire

Programación Genética

Diferenciabilidad. Definición 1 (Función diferenciable). Cálculo. Segundo parcial. Curso

El sistema decimal, es aquél en el que se combinan 10 cifras (o dígitos) del 0 al 9 para indicar una cantidad específica.

ESPAÑOL Nota Técnica CONEXIÓN A INTERNET Y USO DEL ANCHO DE BANDA CON EQUIPOS VX Y PECO

DOMINIO Y RANGO DE UNA FUNCIÓN I N D I C E. martilloatomico@gmail.com. Página. Titulo:

ALGORITMO HILL CLIMBING

Unidad III: Programación no lineal

Divisibilidad y números primos

Guías. _Mi Entel. SMS Empresas

Transcripción:

Método k-medias [ U n a i n t r o d u c c i ó n ]

Método K-Means (Nubes Dinámicas) 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0

Tareas de la Minería de Datos Clustering : (clasificación no supervisada, aprendizaje no supervizado): Es similar a la clasificación (discriminación), excepto que los grupos no son predefinidos. El objetivo es particionar o segmentar un conjunto de datos o individuos en grupos que pueden ser disjuntos o no. Los grupos se forman basados en la similaridad de los datos o individuos en ciertas variables. Como los grupos no son dados a priori el experto debe dar una interpretación de los grupos que se forman. Métodos: Clasificación Jerárquica (grupos disjuntos). Nubes Dinámicas k-means (grupos disjuntos). Clasificación Piramidal (grupos NO disjuntos).

Análisis de Conglomerados Objetivo: Obtener clases lo más homogéneas posibles y tal que estén suficientemente separadas.

Criterio de la Inercia Minimizar la distancia Intra-Cluster Maximizar la distancia Inter-Clusters

The K-Means Clustering Method (nubes dinámicas) 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0

Criterio de la inercia

Ejemplo: Estudiantes Ver NotasEscolaresExcelKMeans.xlsx

Definiciones Inercia total de la nube de puntos: Inercia inter-clases, es decir la inercia de los centros de gravedad respecto al centro de gravedad total:

Inercia intra-clases, es decir la inercia al interior de cada clase:

Teorema: Igualdad de Fisher Inercia total = Inercia inter-clases + Inercia intra-clases

Ejemplo: Estudiantes Ver NotasEscolaresExcelKMeans.xlsx

Objetivo: Se quiere que B(P) sea máxima y W(P) sea mínima Como la inercia I(P) es fija, dada la nube de puntos, entonces al maximizar B(P) se minimiza automáticamente W(P). Por lo tanto, los dos objetivos (homogeneidad al interior de las clases y separación entre las clases) se alcanzan al mismo tiempo al querer minimizar W(P).

Problema combinatorio Es necesario hacer notar que, cuando se quiere obtener una partición en K clases de un conjunto con n individuos, no tiene sentido examinar todas las posibles particiones del conjunto de individuos en K clases. En efecto, se está en presencia de un problema combinatorio muy complejo; sólo para efectos de ilustración, mencionemos que el número de particiones en clases de un conjunto con 60 elementos es aproximadamente 0 8, y para 00 elementos en 5 clases anda por 0 68.

Objetivo del Método K-means Así, el objetivo en el método de K-means es encontrar una partición P de W y representantes de las clases, tales que W(P) sea mínima.

Método de k-medias Existe un poco de confusión en la literatura acerca del método de las k-medias, ya que hay dos métodos distintos que son llamados con el mismo nombre. Originalmente, Forgy propuso en 965 un primer método de reasignación-recentraje que consiste básicamente en la iteración sucesiva, hasta obtener convergencia, de las dos operaciones siguientes:

. Representar una clase por su centro de gravedad, esto es, por su vector de promedios.. Asignar los objetos a la clase del centro de gravedad más cercano.

The K-Means Clustering Method (nubes dinámicas) 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0

Cuántos clústeres? Datos originales 6 clústeres clústeres 4 clústeres

Cuántos clústeres? k x (inercia intra-clases) El codo indica que k=3 es la cantidad adecuada de clústeres

McQueen propone un método muy similar, donde también se representan las clases por su centro de gravedad, y se examina cada individuo para asignarlo a la clase más cercana. La diferencia con el método de Forgy es que inmediatamente después de asignar un individuo a una clase, el centro de ésta es recalculado, mientras que Forgy primero hacía todas las asignaciones y luego recalculaba los centros. Variantes del método de Forgy son propuestas en Francia como Método de Nubes Dinámicas por E. Diday a partir en 967. Es McQueen quien propone el nombre k-means, que se usa hasta la fecha, aún si estos métodos también reciben nombres como nubes dinámicas, centros móviles, o reasignación-recentraje.

Método de Forgy

Algoritmo: K-means

Algoritmo: K-means

K-Means Clustering Algorithm

Ejemplo de las notas escolares

K-means en R

K-means en R

Ejemplo D: Datos

Ploteo de los Datos

K-means en R setwd("c:/users/oldemar/google Drive/Curso Mineria Datos II - Optativo/Datos") datos<-read.csv("ejkmeans.csv",sep = ";",header=f) datos plot(datos,pch=9,xlab=expression(x[]),ylab=expression(x[])) grupos<-kmeans(datos, ) points(grupos$centers,pch=9,col="blue",cex=) points(datos,col=grupos$cluster,pch=9) grupos$cluster grupos$centers

K-means en R

K-means en R setwd("c:/users/oldemar/google Drive/Curso Mineria Datos II - Optativo/Datos") datos<-read.csv("ejkmeans.csv",sep = ";",header=f) datos plot(datos,pch=9,xlab=expression(x[]),ylab=expression(x[])) grupos<-kmeans(datos, 4) points(grupos$centers,pch=9,col="blue",cex=) points(datos,col=grupos$cluster,pch=9) grupos$cluster grupos$centers

K-means en R

grupos$cluster > grupos$cluster []

grupos$centers > grupos$centers V V 0.06944 0.08865999 0.9989.07898833

En RComander

En RComander

En RComander -0.3-0. -0. 0.0 0. 0. -0.3-0. -0. 0.0 0. 0. Comp. Comp. -6-4 - 0 4-6 -4-0 4 V V

En RComander

Para instalarlo: Con Rattle install.packages("rattle",dependencies =TRUE) Para ejecutarlo: library(rattle) rattle() Sitio WEB: http://rattle.togaware.com/

Dr. Graham Williams is the author of the Rattle data mining software and Adjunct Professor, University of Canberra and Australian National University.

Interfaz de Rattle

Cargando los Datos

Generando el modelo k-means

Opción Datos

Opción Discriminat

Algoritmos de Recomendación

Tabla con los promedios de evaluación de 00 personas que adquirieron los mismos productos o muy similares

K-means en R setwd("c:/users/oldemar/google Drive/Curso Mineria Datos II - Optativo/Datos") datos <- read.csv("c:/users/oldemar/google Drive/Curso Mineria Datos II - Optativo/Datos/EjemploAlgoritmosRecomendación.csv",header=TRUE, sep=";", dec=",", row.names=) datos grupos<-kmeans(datos, 3) grupos$cluster grupos$centers

grupos$cluster >grupos$cluster Adam Anna Bernard Edward Emilia Fabian 3 3 3 Philip Frank Xavier Gabriel Marisol Henry 3 3 Irene Isabelle Isidore Joseph Eugene Eugenia 3 3 Eunice Eva Evdokia Fedir Felix Fialka 3 3 3

grupos$centers > grupos$centers Velocidad.Entrega Precio Durabilidad Imagen.Producto Valor.Educativo Servicio.Retorno Tamano.Paquete.69630.8703704 3.5848 3.596 3.99593 3.07 3.48585.3536 0.83684 4.5405.484.906579.496053 3.905 3.49.05743 3.58857.4857 3.7857.4743.7743 Calidad.Producto Numero.Estrellas.5 3.4.659 3.757895 3.98857.6574

En RComander

En RComander

En RComander

En RComander

Para instalarlo: Con Rattle install.packages("rattle",dependencies =TRUE) Para ejecutarlo: library(rattle) rattle() Sitio WEB: http://rattle.togaware.com/

Cargando los Datos

Generando el modelo k-means

Opción Datos

Opción Discriminat

Gracias.