Introducción a Aprendizaje no Supervisado

Documentos relacionados
OPTIMIZACIÓN Y SIMULACIÓN PARA LA EMPRESA. Tema 4 Optimización no Lineal

Análisis de imágenes digitales

Localización. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides

1. La Distribución Normal

Tema 5. Muestreo y distribuciones muestrales

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

DISTRIBUCIÓN N BINOMIAL

Introducción a las RdP. Optimización basada en redes de Petri. Redes de Petri. Son objeto de estudio: RdP. Ejemplos:

Fase 2. Estudio de mercado: ESTADÍSTICA

Algunas Distribuciones Continuas de Probabilidad. UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides

INSTITUTO CHAPULTEPEC MIDDLE SCHOOL

Herramientas computacionales para la matemática MATLAB: Análisis de datos.

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

Estimación por métodos Geoestadísticos

POBLACIÓN Y MUESTRAS EN LA INVESTIGACIÓN

Conceptos Básicos de Inferencia

Distribución normal estándar. Juan José Hernández Ocaña

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

Histograma del puntaje de vocabulario y la aproximación por una curva gaussiana.

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Distribuciones de probabilidad

PATRONES DE DISTRIBUCIÓN ESPACIAL

Probabilidad y Estadística Descripción de Datos

TRATAMIENTO DE LA INFORMACION

1: INTRODUCCIÓN AL USO DE LA HOJA DE CALCULO EXCEL COMO HERRAMIENTA PARA DESARROLLAR PROBLEMAS EN INGENIERÍA. SOLVER, REGRESION LINEAL MULTIPLE

SOLUCIÓN NUMÉRICA DE ECUACIONES ALGEBRAICAS Y TRASCENDENTES

Introducción. Alfonso Cubillos. Programa de Ing. Mecánica Universidad de Ibagué. Aplicaciones computacionales de la Mecánica de Materiales

Unidad 1: Espacio de Probabilidad

Aplicaciones empresariales

ESTADÍSTICA DESCRIPTIVA

Modelos de probabilidad. Modelos de probabilidad. Modelos de probabilidad. Proceso de Bernoulli. Objetivos del tema:

LECTURA 01: LA DISTRIBUCIÓN NORMAL GENERAL. LA DISTRIBUCIÓN NORMAL ESTÁNDAR (PARTE I). TEMA 1: LA DISTRIBUCION NORMAL GENERAL.

PROBABILIDAD Y ESTADÍSTICA

Modelos Estadísticos de Crimen

Árboles Filogenéticos. BT7412, CC5702 Bioinformática Diego Arroyuelo. 2 de noviembre de 2010

Text Mining Introducción a Minería de Datos

MÉTODO SINGAPUR. Para la enseñanza de Matemáticas

478 Índice alfabético

ACTIVIDAD 2: La distribución Normal

Programación Dinámica 1

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

El Algoritmo E-M. José Antonio Camarena Ibarrola

Clase 9 Programación No Lineal

Probabilidad y Estadística

Tema 6. Variables aleatorias continuas

CÁLCULO DE PROBABILIDADES

Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución.

TEOREMA DEL LÍMITE CENTRAL

Estadística Inferencial. Estadística Descriptiva

Medidas de dispersión

Tema 4: Probabilidad y Teoría de Muestras

Cálculo de Probabilidades II Preguntas Tema 1

I. Complejidad de Problemas

INDICE. Prólogo a la Segunda Edición

Universidad de Santiago de Chile Facultad de Ciencia Departamento de Matemática y Ciencias de la Computación

La prueba extraordinaria de septiembre está descrita en los criterios y procedimientos de evaluación.

Teoría de la decisión

NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA 2012

Tema 2: Magnitudes aleatorias

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

El Juego como Problema de Búsqueda

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

4. NÚMEROS PSEUDOALEATORIOS.

Fundamentos de Estadística y Simulación Básica

Estadística Descriptiva

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Teorema Central del Límite (1)

5. DISTRIBUCIOES COTIUAS DE PROBABILIDAD

Complejidad de la Comunicación

Econometría de series de tiempo aplicada a macroeconomía y finanzas

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

Tema 4: Probabilidad y Teoría de Muestras

Análisis Probit. StatFolio de Ejemplo: probit.sgp

C a l ses P P y y NP C a l se P C a l se N P N P [No N n o -De D te t rmin i i n s i ti t c i Polynomial-tim i e]

Descripciones de los niveles de logro modificados (ALD, siglas en inglés) de la prueba de evaluación MCA en matemáticas Grados 5 a 8

Contraste de hipótesis Tema Pasos del contraste de hipótesis. 1.1 Hipótesis estadísticas: nula y alternativa. 1.3 Estadístico de contraste

ALGUNAS CUESTIONES DESTACABLES EN INFERENCIA ESTADÍSTICA

INDICE 1. Introducción 2. Recopilación de Datos Caso de estudia A 3. Descripción y Resumen de Datos 4. Presentación de Datos

GLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.

1. VALORES FALTANTES 2. MECANISMOS DE PÉRDIDA

Anejo 1. Teoría de Airy. Solución lineal de la ecuación de ondas.

ECUACIONES. Ecuaciones. Indicadores. Contenido ECUACIÓN

Análisis Estadístico de Datos Climáticos. Distribuciones paramétricas de probabilidad (Wilks, cap. 4)

OPTIMIZACIÓN VECTORIAL

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO

Cuando se enumeran todos los elementos que componen el conjunto. A = { 1, 2, 3, 4, 5 }

INSTITUTO POLITÉCNICO NACIONAL SECRETARIA ACADEMICA DIRECCIÓN DE ESTUDIOS PROFESIONALES EN INGENIERÍA Y CIENCIAS FÍSICO MATEMÁTICAS

CRITERIOS DE SELECCIÓN DE MODELOS

Métodos de Investigación en Psicología (10) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

Análisis de Componentes de la Varianza

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

2º ESO UNIDAD 14 ESTADÍSTICA Y PROBABILIDAD

Sistemas de ayuda a la decisión Modelización de la incertidumbre Tema 2. Incertidumbre y Probabilidad

Derivada de una función en un punto. Función derivada. Diferencial de una función en un punto. dy = f (x) dx. Derivada de la función inversa

Generación de variables aleatorias continuas Método de la transformada inversa

Proyecto PropULSA: Estadística y Probabilidad Breviario Académico

4ta. Práctica. Búsqueda en árbol con contrincante: MiniMax con poda Alfa-Beta. Inteligencia Artificial Prácticas 2004/2005

Transcripción:

Introducción a Aprendizaje no Supervisado Felipe Suárez, Álvaro Riascos 25 de abril de 2017 2 / 33

Contenido 1. Motivación 2. k-medias Algoritmos Implementación 3. Definición 4. Motivación 5. Aproximación 6. Implementación 3 / 33

Problema Considere la siguiente imagen médica. 4 / 33

Problema Considere la siguiente imagen médica. 4 / 33

Problema Considere la siguiente imagen médica. 4 / 33

Historia Hugo Steinhaus, 1887-1972 5 / 33

Historia Hugo Steinhaus, 1887-1972 5 / 33

Definición El método de agrupamiento (clustering) k medias es un procedimiento de clasificación no supervisado basado en centroides. Las observaciones x 1,..., x n son asignadas a la clase del centroide más cercano µ 1,..., µ k a él. 6 / 33

Definición El método de agrupamiento (clustering) k medias es un procedimiento de clasificación no supervisado basado en centroides. Las observaciones x 1,..., x n son asignadas a la clase del centroide más cercano µ 1,..., µ k a él. 6 / 33

Definición El método de agrupamiento (clustering) k medias es un procedimiento de clasificación no supervisado basado en centroides. Las observaciones x 1,..., x n son asignadas a la clase del centroide más cercano µ 1,..., µ k a él. 6 / 33

Definición Definition Sea X = {x 1,..., x n} R d un conjunto de n observaciones numéricas. El agrupamiento por k medias consiste de particionar X en k subconjuntos X = S 1 S k por medio de k centroides µ 1,..., µ k que minimizan la varianza: k x µ i 2, donde µ i = 1 x. S i=1 x S i i x S i 7 / 33

Definición Definition Sea X = {x 1,..., x n} R d un conjunto de n observaciones numéricas. El agrupamiento por k medias consiste de particionar X en k subconjuntos X = S 1 S k por medio de k centroides µ 1,..., µ k que minimizan la varianza: Propiedades k x µ i 2, donde µ i = 1 x. S i=1 x S i i x S i Estimación de grupos con simetría esférica. Las variables tienen la misma varianza. Se asume apriori que todos los grupos son de igual tamaño. 7 / 33

Ejemplos 8 / 33

Ejemplos 8 / 33

Estado del Arte Quién lo utiliza? Todavía se investiga? 9 / 33

Algoritmo El problema de optimización no es computacionalmente fácil de resolver: es NP-Dificil! Existen heurísticas que aproximan la solución a un mínimo local muy rápido. 10 / 33

Algoritmo El problema de optimización no es computacionalmente fácil de resolver: es NP-Dificil! Existen heurísticas que aproximan la solución a un mínimo local muy rápido. Definition Input: Datos numéricos X = {x 1,..., x n} R d, Número de grupos k > 0. Output: Subgrupos (x 1, y 1),..., (x n, y n), con y i {1,..., k}. Algoritmo: 1. Inicialice los centros µ 1,..., µ k aleatoriamente. 2. Repita 2.1 Calcula el subgrupo de cada observación: 2.2 Actualiza los centros: y i = arg min x i µ j j µ i = 1 S i x S i x. 10 / 33

Ejemplo 11 / 33

Ejemplo 12 / 33

Ejemplo 13 / 33

Ejemplo 14 / 33

Ejemplo 15 / 33

Casos Problemáticos 16 / 33

Casos Problemáticos 17 / 33

Casos Problemáticos 18 / 33

Alternativas Existen alternativas al algoritmo heurístico. Las alternativas ayudan a evitar la agrupación discontinua y la simetría esférica. 1. Estandarizar variables para evitar sesgos de escala. 19 / 33

Alternativas Existen alternativas al algoritmo heurístico. Las alternativas ayudan a evitar la agrupación discontinua y la simetría esférica. 1. Estandarizar variables para evitar sesgos de escala. 2. Fuzzy k-means: f(x, S) = k i=1 x S i u i(x) x µ i 2, u i(x) = 2/r x µi x µi 2/r i 19 / 33

Alternativas Existen alternativas al algoritmo heurístico. Las alternativas ayudan a evitar la agrupación discontinua y la simetría esférica. 1. Estandarizar variables para evitar sesgos de escala. 2. Fuzzy k-means: f(x, S) = k i=1 x S i u i(x) x µ i 2, u i(x) = 2/r x µi x µi 2/r i 3. Mixturas Gaussianas: Se asume que la muestra es una suma de normales y se actualizan µ, σ por subgrupos ponderado por probabilidad P(x i µ j, σ j). 19 / 33

Alternativas Existen alternativas al algoritmo heurístico. Las alternativas ayudan a evitar la agrupación discontinua y la simetría esférica. 1. Estandarizar variables para evitar sesgos de escala. 2. Fuzzy k-means: f(x, S) = k i=1 x S i u i(x) x µ i 2, u i(x) = 2/r x µi x µi 2/r i 3. Mixturas Gaussianas: Se asume que la muestra es una suma de normales y se actualizan µ, σ por subgrupos ponderado por probabilidad P(x i µ j, σ j). 4. Kernel k-medias: Se utiliza una función de kernel k(x i µ j, x i µ j) a cambio de x i µ j 2. 19 / 33

Alternativas Existen alternativas al algoritmo heurístico. Las alternativas ayudan a evitar la agrupación discontinua y la simetría esférica. 1. Estandarizar variables para evitar sesgos de escala. 2. Fuzzy k-means: f(x, S) = k i=1 x S i u i(x) x µ i 2, u i(x) = 2/r x µi x µi 2/r i 3. Mixturas Gaussianas: Se asume que la muestra es una suma de normales y se actualizan µ, σ por subgrupos ponderado por probabilidad P(x i µ j, σ j). 4. Kernel k-medias: Se utiliza una función de kernel k(x i µ j, x i µ j) a cambio de x i µ j 2. 5. Metricas no euclidianas: l 1, l, l p. 19 / 33

Garantías 1. Complejidad? NP-Difícil, pero las heurísticas son O(nd). 20 / 33

Garantías 1. Complejidad? NP-Difícil, pero las heurísticas son O(nd). 2. Convergencia? El algortimo heurístico converge rápidamente a un óptimo local. 20 / 33

Garantías 1. Complejidad? NP-Difícil, pero las heurísticas son O(nd). 2. Convergencia? El algortimo heurístico converge rápidamente a un óptimo local. 3. Robustez? No. De hecho es muy fácil que el algoritmo falle: 20 / 33

Garantías 1. Complejidad? NP-Difícil, pero las heurísticas son O(nd). 2. Convergencia? El algortimo heurístico converge rápidamente a un óptimo local. 3. Robustez? No. De hecho es muy fácil que el algoritmo falle: 3.1 Muestra desbalanceada 20 / 33

Garantías 1. Complejidad? NP-Difícil, pero las heurísticas son O(nd). 2. Convergencia? El algortimo heurístico converge rápidamente a un óptimo local. 3. Robustez? No. De hecho es muy fácil que el algoritmo falle: 3.1 Muestra desbalanceada 3.2 Sensible a escala 20 / 33

Garantías 1. Complejidad? NP-Difícil, pero las heurísticas son O(nd). 2. Convergencia? El algortimo heurístico converge rápidamente a un óptimo local. 3. Robustez? No. De hecho es muy fácil que el algoritmo falle: 3.1 Muestra desbalanceada 3.2 Sensible a escala 3.3 No acepta datos categórticos 20 / 33

Garantías 1. Complejidad? NP-Difícil, pero las heurísticas son O(nd). 2. Convergencia? El algortimo heurístico converge rápidamente a un óptimo local. 3. Robustez? No. De hecho es muy fácil que el algoritmo falle: 3.1 Muestra desbalanceada 3.2 Sensible a escala 3.3 No acepta datos categórticos 3.4 Qué pasa en dimensiones altas (d > n)? 20 / 33

Garantías 1. Complejidad? NP-Difícil, pero las heurísticas son O(nd). 2. Convergencia? El algortimo heurístico converge rápidamente a un óptimo local. 3. Robustez? No. De hecho es muy fácil que el algoritmo falle: 3.1 Muestra desbalanceada 3.2 Sensible a escala 3.3 No acepta datos categórticos 3.4 Qué pasa en dimensiones altas (d > n)? 3.5 Convergencia a óptimo local 20 / 33

Garantías 1. Complejidad? NP-Difícil, pero las heurísticas son O(nd). 2. Convergencia? El algortimo heurístico converge rápidamente a un óptimo local. 3. Robustez? No. De hecho es muy fácil que el algoritmo falle: 3.1 Muestra desbalanceada 3.2 Sensible a escala 3.3 No acepta datos categórticos 3.4 Qué pasa en dimensiones altas (d > n)? 3.5 Convergencia a óptimo local 20 / 33

Reglas de Asociación 21 / 33

Motivación Las reglas de asociación son muy usadas en bases de datos comerciales. Tenemos canastas de bienes que son vectores (muy grandes) Podemos encontrar bienes que sean comprados juntos con mucha frecuencia? Para qué podría servir algo así? 22 / 33

Motivación Un almacén puede organizar mejor sus repisas para mejorar sus ingresos. Hacer mercadeo cruzado de ciertas promociones que tengan que ver la una con la otra. Segmentar clientes de acuerdo a sus patrones de consumo. Diseñar experiencias para usuarios en páginas web. Recomendar películas en Netflix? Productos en Amazon? 23 / 33

Motivación 24 / 33

Aproximación al problema Quisiéramos encontrar algunas canastas v 1,..., v n tales que su densidad de probabilidad P r(v i) sea alta. Este problema se llama Mode Finding o Bump Hunting. Sin embargo hay muchísimas canastas posibles ( Cuántos productos tiene Éxito en sus repisas?) Una estimación de la densidad de estas canastas siempre dará algo muy pequeño como para ser confiable. Además calcular esas densidades es incomputable! Cuántas canastas hay? 25 / 33

Cuántos productos vende Amazon? 26 / 33

Simplificar Podemos dejar de buscar canastas prototipos y buscar regiones en el consumo. Probablemente sea mucho más interesante y fácil de interpretar una relación entre dos o pocos productos. Podríamos agrupar tipos de productos en una sola variable dummy. Podemos pensar en la probabilidad de todas las canastas que contienen el artículo ω. 27 / 33

Con variables dummy Considerando un elemento de cada clase (posiblemente binaria) la ecuación se simplifica [ ] P [ k K (z k = 1)] = P z k = 1 = T (K) Esto implica segmentar variables continuas que pueda haber en el análisis. El conjunto K se conoce como conjunto de bienes o item set. k K 28 / 33

Algoritmo Crecimiento de Árbol de patrones Queremos encontrar reglas X Y con buenas garantía probabilísticas (confianza). Estimamos las probabilidades de las canatas con la frecuencia en las base de transacciones: supp(x) := T (X) T supp(x y Y ), conf(x Y ) =. supp(x) Queremos tener en cuenta solo aquellas transacciones con un soporte mínimimo t y confianza mínima s. El algoritmo del árbol busca reglas aprovechando: 1. X Y y X Z implican X Y Z 2. X Y implica supp(x) supp(y ) 29 / 33

Algoritmo Crecimiento de Árbol de patrones Queremos encontrar reglas X Y con buenas garantía probabilísticas (confianza). Estimamos las probabilidades de las canatas con la frecuencia en las base de transacciones: supp(x) := T (X) T supp(x y Y ), conf(x Y ) =. supp(x) Queremos tener en cuenta solo aquellas transacciones con un soporte mínimimo t y confianza mínima s. El algoritmo del árbol busca reglas aprovechando: 1. X Y y X Z implican X Y Z 2. X Y implica supp(x) supp(y ) El algoritmo realiza: 1. Saca las items con soporte < t. 2. Ordena los items descendientemente por soporte. 3. Orden las transacciones descendientemente por tamaño. 4. Construye un árbol con pesos en el que cada camino hacia la raíz es una transacción. 5. Para cada hoja del árbol, Y, la rama que la contiene es el antecedente que la implica X. 29 / 33

Ejemplo Se buscan reglas de asociación entre 9409 cuestionarios de compradores de un Mall en San Francisco. Se buscan relaciones entre las variables demográficas. Se parten las variables ordinales como Dummies por la mediana. El algoritmo encuentra 6288 reglas de asociación (difícil de interpretar) con soporte mayor a 10 % 30 / 33

Ejemplo 31 / 33

Limitaciones Está sesgado hacia observaciones más frecuentes que otras. Nunca encontraría Vodka Caviar. A pesar de tener un lift alto. Esto es porque intrínsicamente se está comparando con una distribución de referencia uniforme. Esto se puede solucionar en conjuntos pequeños con una estimación de la densidad basada en una distribución de referencia acorde a las probabilidades marginales. Se usa aprendizaje supervisado para ajustar una densidad relativa a esa distribución (por ejemplo una logística). 32 / 33