Aprendizaje no supervisado

Documentos relacionados
GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

Aplicaciones empresariales

Aprendizaje: Boosting y Adaboost

Tema 2. Introducción a la Estadística Bayesiana

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

Inteligencia Artificial. Aprendizaje neuronal. Ing. Sup. en Informática, 4º. Curso académico: 2011/2012 Profesores: Ramón Hermoso y Matteo Vasirani

Teoría de grafos y optimización en redes

Introducción a las Redes Neuronales

Aprendizaje basado en ejemplos.

Inteligencia de enjambres

ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA

UNIVERSIDAD AUTÓNOMA DE BAJA CALIFORNIA SUR. Ingeniería Aplicada TEÓRICA SERIACIÓN 100% DE OPTATIVAS DISCIPLINARIAS

Bloque temático: Sistemas de Reconocimiento de Patrones

ENSIA 605 Inteligencia de Negocios y Minería de Datos

Análisis de imágenes digitales

Data Mining, Principios y Aplicaciones

Tema 15: Combinación de clasificadores

Inteligencia Artificial. Grado en INFORMÁTICA 4º curso. Modalidad: Presencial

ESTADÍSTICA BAYESIANA Y TEORÍA DE DECISIONES

TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

5.1. Redes de aprendizaje supervisado basadas en la cuantificación vectorial. Curso de doctoramiento Técnicas de Computación Flexíbeis

BÚSQUEDA INTELIGENTE BASADA EN METAHEURÍSTICAS

Generación de números aleatorios

Tema 11. Clustering. X 1... X i... X n O 1 x x 1 i... x 1 n... O j x j 1... x j i... x j n... O N x N 1... x N i... x N n

CLASIFICACIÓN DE LA IMAGEN. Escuela de Ingeniería Civil y Geomática Francisco Luis Hernández Torres

MINERIA DE DATOS Y Descubrimiento del Conocimiento

Ricardo Aler Mur CLASIFICADORES KNN-I

LOS SISTEMAS ADAPTATIVOS

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN COMPUTACION RECONFIGURABLE

License Plate Detection using Neural Networks

SISTEMAS INTELIGENTES

Análisis Inteligente de Datos: Introducción

MAPAS AUTOORGANIZATIVOS Y MODELOS SIMILARES

Minería de Datos Web. 1 er Cuatrimestre Página Web. Prof. Dra. Daniela Godoy.

Métodos de Inteligencia Artificial

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

TÉCNICAS DIFUSAS Y NO-DIFUSAS PARA EL CLUSTERING DEL CONTENIDO DE PÁGINAS EN UN SITIO WEB

GuíaDidáctica: Geometría AnalíticaPlana UTPL. La Universidad Católica de Loja MODALIDAD ABIERTA Y A DISTANCIA

Nivel: GRADO Idioma: Castellano Créditos BOE: 4,5

Un nuevo modelo formal de agregación difusa para máquinas vectores soporte multicategoría uno frente a uno

Algoritmos sobre Grafos

Procesamiento de Texto y Modelo Vectorial

CREACIÓN DE UNA TIPOLOGÍA DE GENES MEDIANTE TÉCNICAS DE DATA MINING PARA Drosophila

Operaciones con vectores

3. Clasificación no supervisada

4.1 CONGRUENCIA ENTRE LOS OBJETIVOS DEL PLAN DE ESTUDIOS Y EL PERFIL DE EGRESO CON LAS LGAC:

PROGRAMA DE CURSO. Código Nombre CC5502 Geometría Computacional Nombre en Inglés Computational Geometry SCT Auxiliar. Personal

DESCRIPCIÓN DE LA ASIGNATURA

Visión global del KDD

CLASIFICACIÓN NO SUPERVISADA

Enfoque propuesto para la detección del humo de señales de video.

Sistemas de predicción Aprendizaje automático Data Mining & Machine Learning

Métodos de teoría de Grafos en aprendizaje no supervisado y cl

Métodos Predictivos en Minería de Datos

Algoritmo de hormigas mejorado para la descripción de modelos difusos interpretables mediante reglas con excepciones

Deep Learning y Big Data

Redes de Kohonen y la Determinación Genética de las Clases

ESCUELA SUPERIOR POLITECNICA DEL LITORAL PROGRAMA DE ESTUDIOS

Visión por computadora Computer vision

Predictor Basado en Prototipos Difusos y Clasificación Nosupervisada

PROGRAMA DE CURSO DISEÑO DE ROTORES AERODINÁMICOS. Horas de Cátedra. Resultados de Aprendizaje

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA

Lógica proposicional. Ivan Olmos Pineda

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos

Introducción a las RdP. Optimización basada en redes de Petri. Redes de Petri. Son objeto de estudio: RdP. Ejemplos:

III Verano de Probabilidad y Estadística Curso de Procesos de Poisson (Víctor Pérez Abreu) Lista de Ejercicios

Introducción a los Algoritmos Genéticos. Tomás Arredondo Vidal 17/4/09

Diseño Gráficos de Control

GUÍA DOCENTE DE LA ASIGNATURA

Data Mining en la Empresa y en las Finanzas Utilizando Tecnologías Inteligentes

Pontificia Universidad Católica del Ecuador

Problemas de clasificación: problemas de localización

CLASIFICACION DE PATRONES. M. Cabrera, J. Vidal Dept. TSC ETSETB UPC Febrero-Mayo 2007

Introducción. Autoencoders. RBMs. Redes de Convolución. Deep Learning. Eduardo Morales INAOE (INAOE) 1 / 60

Identificación de frutos a través de la implementación de Tecnologías de la Información

Formas Normales. Normalización. Introducción

Reducción de Ruido por medio de Redes Neuronales

Anexo 8.3. Programa Condensado

Muestreo. Introducción

Implementación de algoritmos genéticos paralelos de grano burdo en redes locales de computadoras. Resumen

Minería de datos para la determinación del grado de exclusión social

Algoritmos de agrupamiento

ALGORITMOS DE APRENDIZAJE: KNN & KMEANS

PROGRAMA DE CURSO. Horas de Trabajo Personal Horas de Cátedra

CONTENIDO OBJETIVOS TEMÁTICOS HABILIDADES ESPECIFICAS

Algoritmos de búsqueda de vecinos más próximos en espacios métricos

TEMA 5.6 PROGRAMACIÓN NO LINEAL

Tareas 20% Primer Examen Parcial 20% Segundo Examen Parcial 20% Proyecto Final 25% Examen Final 15%

CRITERIOS DE SELECCIÓN DE MODELOS

Diseño de un Sistema de Control Lógico Difuso Basado en Microcontroladores de 8 bits

Operaciones con vectores

Clasificación de Tráfico de Redes para la Agrupación de Usuarios

Desarrollo de un sistema capaz de optimizar rutas de entrega utilizando algoritmos genéticos

DETERMINACIÓN DE TIPOLOGÍAS DE INFECCIONES PARASITARIAS INTESTINALES, EN ESCOLARES MEDIANTE, TÉCNICAS DE CLUSTERING SOBRE DATOS BINARIOS

CIRCUITO 1: CIRCUITO RC

Estado 3.2 (coste = 9)

PROBLEMAS DE OPTIMIZACIÓN CON RESTRICCIONES. PROBLEMA DE PROGRAMACIÓN NO- LINEAL (NLP).

CLASIFICADOR LINGÜÍSTICO DE TEXTOS EN JAVA

Transcripción:

Aprendizaje no supervisado Algoritmo de K medias Julio Waissman Vilanova Licenciatura en Ciencias de la Computación Universidad de Sonora Curso Inteligencia Artificial

Plan del curso Aprendizaje no supervisado El algoritmo de Propiedades de Resumen

Aprendizaje? El aprendizaje supervisado utiliza un conjunto de datos de aprendizaje previamente clasificado. Aprendizaje con maestro. El aprendizaje no supervisado utiliza un conjunto de datos sin clasificar. Descubrimiento de conocimiento en bases de datos (KDD). El aprendizaje reforzado utiliza la interacción con el medio para establecer una política de comportamiento. Aprendizaje con crítico.

Aprendizaje no supervisado Objetos descritos por m atributos: x i = [x i,1,..., x i,m ]. Conjunto de aprendizaje: X = {x 1,..., x n }. Determinar y i = f (x i, θ) tal que y i {P 1,..., P K }, tal que todos los objetos para los cuales f (x, θ) = P j sean similares en algún sentido. La interpretabilidad de los grupos (clusters) es esencial!

Formas de hacer agrupamiento Jerárquico. Vecindad. Prototipo ideal.

No siempre es sencillo encontrar los prototipos

Idea básica Un objeto pertenece a un grupo si se encuentra más próximo al prototipo de esa clase que al de cualquier otra. 2 1.5 1 0.5 0 0.5 1 1.5 1 0.5 0 0.5 1 1.5 Encontrar los prototipo ideales tales que los datos estén lo más compactos entre sí en cada grupo.

Idea básica Prototipo de clase c j = [c j,1,..., c j,m ]. Los parámetros de aprendizaje son θ = c 1,..., c K. Distancia euclidiana entre un objeto y un prototipo: d(x i, c j ) = m (x i,l c j,l ) 2. Minimizar: J(θ) = Problema NP completo! n i=1 l=1 min k ( d(xi, c k ) ).

El algoritmo de las K medias Entrada: {x 1,..., x n }, K, m. Salida: {c 1,..., c K }. 1: Inicializa {c 1,..., c K } con valores aleatorios. 2: repetir 3: para i de 1 a n hacer 4: x i P k si min k (d(x i, c k )). 5: fin para 6: para k de 1 a K hacer 7: para j de 1 a m hacer P x i P k x i,j P k 8: c k,j = 9: fin para 10: fin para 11: hasta no varíe c k,j, k, j

Un ejemplo simple 2 1.5 1 0.5 0!0.5!1!1.5!1!0.5 0 0.5 1 1.5

Un ejemplo simple 2 1.5 1 0.5 0 0.5 1 1.5 1 0.5 0 0.5 1 1.5

Un ejemplo simple 2 1.5 1 0.5 0 0.5 1 1.5 1 0.5 0 0.5 1 1.5

Un ejemplo simple 2 1.5 1 0.5 0 0.5 1 1.5 1 0.5 0 0.5 1 1.5

Aplicación a segmentación de imágenes

Propiedades del algoritmo Basado en gradiente descendiente. Convergencia asegurada. En general obtiene mínimos locales. Cuidado con la inicialización!

Un ejemplo simple

Un ejemplo simple

Un ejemplo simple

Un ejemplo simple

Propiedades del algoritmo Ventajas Sencillez Algoritmo eficiente. Versión por lotes y versión en linea. Desventajas Depende fuertemente de la inicialización. Número de clases a priori. Sólo particiones del espacio por hiperplanos.

Extensiones de Métodos de inicialización de centros. Selección de número de clases. Valores perdidos. Interpretación de los prototipos. Uso de distancias adaptables (Mahalanobis). Pertenencia difusa a los grupos (Fuzzy C Means).

Resumen Hoy vimos: Qué es el aprendizaje no supervisado. El algoritmo de y su aplicación. Precauciones con el algoritmo. Ahora pueden: Programar el algoritmo. Aplicarlo a tablas de datos y segmentación de imágenes.

Para más información R Duda, P. Hart y D. Stork. Pattern Classification. Wiley Interscience, 2001 (2 a Impresión). D. McKay. Information Theory, Inference and Learning Algorithms. Cambridge University Press. http://www.inference.phy.cam.ac.uk/ mackay/itprnn/ps/284.292.pdf