Minería de Datos Web. Cursada 2018
|
|
- Felipe Padilla Marín
- hace 3 años
- Vistas:
Transcripción
1 Minería de Datos Web Cursada 2018
2 Proceso de Minería de Texto
3 Clustering de Documentos Clasificación de Documentos Es un método supervisado para dividir documentos en base a categorías predefinidas Los ejemplos tienen que ser etiquetados (con clases asignadas) Clustering de Documentos Es un método no supervisado para dividir ejemplos en grupos cuando no existen categorías predefinidas El aprendizaje no supervisado es un método descriptivo para interpretar un conjunto de datos
4 Clustering de Documentos Es el proceso de buscar un agrupamiento natural en un conjunto de datos en base a su similitud Objetivo Dividir un conjunto de ejemplos (documentos) pertenecientes a clases desconocidas en subconjuntos disjuntos de clusters tal que: Los ejemplos que estén en un mismo cluster sean lo más similares posible entre sí Los ejemplos que estén en clusters diferentes sean lo más disímiles posible entre sí
5 Clustering de Documentos Espacio de características (términos) Los documentos se representan como vectores de frecuencia en un espacio de términos La similitud de dos documentos está dada por el coseno de ambos vectores
6 Clustering de Documentos Espacio de características (términos)
7 Clustering de Documentos Espacio de características (términos) Deportes Política Música
8 Clustering de Documentos El aprendizaje no supervisado es un método descriptivo para interpretar un conjunto de datos, algunas aplicaciones posibles: Clustering de los documentos recuperados para una consulta: se presentan los resultados de una búsqueda en forma más organizada y clara para el usuario (por ej. Vivísimo) Clustering de documentos en una colección: hipótesis de clustering, documentos similares tienden a ser relevantes a la misma consulta durante la recuperación de documentos, se agregan los documentos que pertenecen a un mismo cluster que los recuperados inicialmente para mejorar el recall Clustering para generación automática de taxonomías: para facilitar la exploración de documentos (por ej. Yahoo!)
9 Clustering de Documentos Hipótesis Documentos similares tienden a ser relevantes a la misma consulta Un buen método de clustering debería identificar clusters que sean tanto compactos como separados entre sí. Es decir, que tengan: Alta similitud intra-cluster Baja similitud inter-cluster
10 Clustering de Documentos Vivísimo
11 Clusty Clusty
12 Clustering de Documentos Kartoo
13 Clustering de Documentos Qué optimizar? Dado: un número de clusters Optimizar: Compactación de los clusters {promedio/min/max} distancia de los puntos a los otros en el mismo cluster {promedio/min/max} distancia de los puntos a los centros de los clusters Usualmente se buscan aproximaciones heurísticas
14 Clustering de Documentos Qué relaciona los documentos? Idealmente: similitud semántica En la práctica: similitud estadística Se trata los documentos como vectores Para muchos algoritmos es más fácil pensar en términos de distancia (en lugar de similitud entre documentos)
15 Clustering de Documentos Algoritmos basados en particionamiento Objetivo: Particionan el conjunto de datos D de n objetos en un conjunto de k clusters Dado un k, intentan encontrar una partición de k clusters que optimiza el criterio de particionamiento k-means: cada cluster es representado por su centro del cluster
16 K-Means Las instancias son vectores de valores reales Los clusters se basan en centroides o centros de gravedad, que son a media de las instancias en el cluster c: μ c = 1 c x c x Las instancias se reasignan a los clusters en base a su distancia a los centroides
17 K-Means k-means 1)Seleccionar aleatoriamente k ejemplos (semillas) para ser centroides de los clusters 2)Asignar cada ejemplo al centroide con el que tenga mayor similitud 3)Recalcular los centroides de acuerdo a los ejemplos asignados a cada cluster 4)Si no se satisface el criterio de terminación establecido volver a 2
18 K-Means Algoritmo: Sea sim la medida de distancia entre documentos Seleccionar k documentos aleatoriamente {s 1, s 2, s k } como semillas Hasta que se satisface un criterio de terminación Para cada documento x i : Asignar x i a el cluster c j talque sim(x i, s j ) sea la mínima (Actualizar las semillas de cada cluster) Para cada cluster c j s j = (c j )
19 K-Means
20 K-Means Seleccionar k=2 semillas en forma aleatoria
21 K-Means Asignar cada ejemplo al centroide con el que tenga mayor similitud
22 K-Means Asignar cada ejemplo al centroide con el que tenga mayor similitud
23 K-Means Recalcular los centroides de acuerdo a los ejemplos asignados a cada cluster c c
24 K-Means Asignar cada ejemplo al centroide con el que tenga mayor similitud c c
25 K-Means Asignar cada ejemplo al centroide con el que tenga mayor similitud c c
26 K-Means Recalcular los centroides de acuerdo a los ejemplos asignados a cada cluster c c
27 K-Means Recalcular los centroides de acuerdo a los ejemplos asignados a cada cluster c c
28 K-Means Asignar cada ejemplo al centroide con el que tenga mayor similitud c c
29 K-Means Recalcular los centroides de acuerdo a los ejemplos asignados a cada cluster c c
30 K-Means Los ejemplos no cambian de cluster, se satisface el criterio de terminación c c
31 K-Means Ventajas: Entre los algoritmos de particionamiento es eficiente Implementación sencilla Desventajas: Necesito conocer k de antemano Sensible a outliers, puede caer en mínimos locales Sensitivo a la elección de las semillas iniciales algunas semillas pueden resultar en una taza de convergencia menor la selección de semillas se puede basar en heurísticas o resultados obtenidos por otros métodos Es aplicable cuando es posible calcular el centroide, como en el caso de los documentos, pero es de difícil aplicación en atributos categóricos
32 Clustering Jerárquico Los algoritmos jerárquicos construyen un árbol binario o dendograma a partir de un conjunto de ejemplos Un dendograma muestra como se combinan los clusters La raíz es un cluster que contiene todos los ejemplos y las hojas contienen cada una un ejemplo Cortando en diferentes niveles se consiguen diferentes clusters
33 Clustering Jerárquico
34 Clustering Jerárquico Métodos de clustering: Aglomerativo (bottom-up) Métodos que comienzan con cada ejemplo en un cluster diferente y combinan iterativamente los clusters para formar clusters mayores Divisivo (top-down) Métodos que comienzan con todos los ejemplos en un mismo cluster y los separan sucesivamente en clusters de menor tamaño
35 Clustering Jerárquico Clustering Jerárquico Aglomerativo: Asume que existe una función de similitud que determina la similitud de dos instancias: Por ejemplo, similitud del coseno en caso de documentos Asume que existe una función de similitud que determina la similitud de dos clusters conteniendo múltiples instancias: Single link Complete link Group average
36 Clustering Jerárquico Single Link La similitud de los clusters es la de los dos ejemplos más similares entre ambos clusters
37 Clustering Jerárquico Single Link La similitud de los clusters es la de los dos ejemplos más similares entre ambos clusters Complete Link La similitud de los clusters es la de los dos ejemplos menos similares entre ambos clusters
38 Clustering Jerárquico Single Link La similitud de los clusters es la de los dos ejemplos más similares entre ambos clusters Complete Link La similitud de los clusters es la de los dos ejemplos menos similares entre ambos clusters Group Average Promedio de similitudes entre los ejemplos de ambos clusters
39 Clustering Jerárquico Single Link Usa la máxima similitud de los pares sim( c i, c j ) max x c, y i c j sim( x, Puede resultar en cluster largos y angostos dado un efecto cadena y) Después de mezclar c i y c j, la similitud del cluster resultante a otro cluster c k es: sim(( c c ), c ) max( sim( c, c ), sim( c, c i j k i k j k ))
40 Clustering Jerárquico Single Link
41 Clustering Jerárquico Complete Link Usa la mínima similitud de pares sim( c i, c j ) x c min, y i c j sim( x, y) Crea clusters esféricos y compáctos que son usualmente lo que se prefiere Después de mezclar c i y c j, la similitud del cluster resultante a otro cluster c k es: sim(( c c ), c ) min( sim( c, c ), sim( c, c i j k i k j k )) C i C j C k
42 Clustering Jerárquico Complete Link
43 Clustering Jerárquico Clustering Aglomerativo Jerárquico: 1)Asignar cada ejemplo a un cluster diferente (n ejemplos, n clusters) 2)Encontrar el par de clusters más similares y combinarlos en un único cluster 3)Recalcular las similitud o distancias entre el nuevo cluster y los clusters restantes 4)Hasta que solo quede un cluster de tamaño n, volver a 2
44 Clustering Jerárquico Algoritmo: Comienza con todos los ejemplos en su propio cluster Hasta que quede un único cluster: Entre todos los cluster existentes determinar los dos clusters c i y c j que son más similares Reemplazar c i y c j por un único cluster c i c j
45 Clustering Jerárquico Asignar cada ejemplo a un cluster diferente d 1 d 2 d 3 d 4 d d 2 d d 1 d 2 d 3 d 4 d 4
46 Clustering Jerárquico Encontrar el par de clusters más similares y combinarlos en un único cluster d 1 d 2 d 3 d 4 d d 2 d d 1 d 2 d 3 d 4 d 4
47 Clustering Jerárquico Encontrar el par de clusters más similares y combinarlos en un único cluster d 1 d 2 d 3 d 4 d d d 3 10 d 1 d 4 d 2 d 3 d 4 c 1
48 Clustering Jerárquico Recalcular las similitud o distancias entre el nuevo cluster y los clusters restantes c 1 d 2 d 3 c d 2 15 d 3 d 1 d 4 d 2 d 3 c 1
49 Clustering Jerárquico Encontrar el par de clusters más similares y combinarlos en un único cluster c 1 d 2 d 3 c d 2 d 3 15 d 1 d 4 d 2 d 3 c 2
50 Clustering Jerárquico Recalcular las similitud o distancias entre el nuevo cluster y los clusters restantes c 2 d 3 c 2 20 d 2 d 3 d 1 d 4 d 2 d 3 c 2
51 Clustering Jerárquico Encontrar el par de clusters más similares y combinarlos en un único cluster c 2 d 3 c d 2 d 3 d 1 d 4 d 2 d 3
52 Clustering Jerárquico Únicamente queda un cluster de tamaño n c 3 c 3 d 1 d 4 d 2 d 3 c 3
53 Clustering Jerárquico Ventajas: No es necesario establecer un número de clusters Se puede explorar el dendograma en diferentes niveles, más rico para el análisis de los datos que el particionamiento Desventajas: No se recupera de decisiones incorrectas Computacionalmente costoso
54 Proceso de Minería de Texto
55 Evaluación de Clustering Múltiples algoritmos y métodos de clustering (por ejemplo conceptual) Los datos se analizan y comparan usando diferentes algoritmos, con distinto valores para los parámetros La interpretación de los resultados de clustering permite un mayor entendimiento del significado de los datos La evaluación de los resultados de clustering es compleja (medidas internas y externas)
56 Evaluación de Clustering Criterio interno: un buen clustering produce clusters de alta calidad donde: la similitud intra-clase (intra-cluster) es alta la similitud inter-clase (inter-cluster) es baja La medida de calidad depende tanto de la representación del documento como de la medida de similitud usada
57 Evaluación de Clustering Criterio Externo: La calidad se mide por la capacidad de descubrir alguno o todos los patrones ocultos en los datos o clases latentes en un gold standard Medir el clustering respecto de un ground truth requiere datos etiquetados Asume documentos con C clases, mientras los algoritmos producen K clusters, ω 1, ω 2,, ω K, con n i miembros
58 Evaluación de Clustering Una medida simple es la pureza, el radio entre la clase dominante en el cluster π i y el tamaño del cluster ω i 1 Purity( i ) max j ( nij ) n i j C Sesgada porque tener n clusters maximiza la pureza Otras son entropía de clases en los clusters (o mutual information entre clases y clusters)
59 Evaluación de Clustering Cluster I Cluster II Cluster III Cluster I: Purity = 1/6 (max(5, 1, 0)) = 5/6 Cluster II: Purity = 1/6 (max(1, 4, 1)) = 4/6 Cluster III: Purity = 1/5 (max(2, 0, 3)) = 3/5
60 Evaluación de Clustering Rand Index medida de decisiones entre pares. RI = 0.68 Número de puntos Mismo Cluster en el clustering Clusters diferentes en el clustering Misma clase en el ground truth Diferentes clases en el ground truth 20 72
61 Evaluación de Clustering Rand index y F-Measure RI A A B D C D Comparado con Precision y Recall: P A A B R A A C Es posible calcular F-measure
Prof. Dra. Silvia Schiaffino ISISTAN
Clustering ISISTAN sschia@ea.unicen.edu.ar Clustering: Concepto Cluster: un número de cosas o personas similares o cercanas, agrupadas Clustering: es el proceso de particionar un conjunto de objetos (datos)
Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/
Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy
Introducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada
Clustering Clasificación no supervisada Javier G. Sogo 10 de marzo de 2015 1 Introducción 2 Clustering jerárquico 3 Clustering particional 4 Clustering probabilista 5 Conclusiones Introducción Objetivos
CLUSTERING. Bases de Datos Masivas
1 CLUSTERING Bases de Datos Masivas 2 Temas Qué es clustering? K-Means Clustering Hierarchical Clustering QUÉ ES CLUSTERING? 3 Aprendizaje Supervisado vs. No Supervisado 4 Aprendizaje Supervisado: tanto
INTELIGENCIA DE NEGOCIO
INTELIGENCIA DE NEGOCIO 2016-2017 n n n n n n n n Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Minería de Datos. Ciencia de Datos Tema 3. Modelos de Predicción: Clasificación, regresión y
Métricas para la validación de Clustering
Métricas para la validación de Clustering MINERIA DE DATOS Elizabeth León Guzmán, Profesor Asociado Universidad Nacional de Colombia Ingeniería de Sistemas y Computación Contenido Introducción Tipos de
Introducción a Aprendizaje no Supervisado
Introducción a Aprendizaje no Supervisado Felipe Suárez, Álvaro Riascos 25 de abril de 2017 2 / 33 Contenido 1. Motivación 2. k-medias Algoritmos Implementación 3. Definición 4. Motivación 5. Aproximación
1. Análisis de Conglomerados
1. Análisis de Conglomerados El objetivo de este análisis es formar grupos de observaciones, de manera que todas las unidades en un grupo sean similares entre ellas pero que sean diferentes a aquellas
Lingüística computacional
Lingüística computacional Definición y alcance Escuela Nacional de Antropología e Historia (ENAH) Agosto diciembre de 2015 Lingüística Ciencias de la computación Lingüística computacional Estudio del lenguaje
Aprendizaje No Supervisado
Aprendizaje Automático Segundo Cuatrimestre de 2015 Aprendizaje No Supervisado Supervisado vs. No Supervisado Aprendizaje Supervisado Clasificación y regresión. Requiere instancias etiquetadas para entrenamiento.
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING
TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla
Clasificación Clasific NO SUPERV SUPER ISAD IS A AD AGRUPAMIENTO
Clasificación NO SUPERVISADA AGRUPAMIENTO Clasificación No Supervisada Se trata de construir clasificadores sin información a priori, o sea, a partir de conjuntos de patrones no etiquetados Objetivo: Descubrir
Clustering: Algoritmos
Clustering: Algoritmos Clasificación no supervisada Javier G. Sogo 10 de marzo de 2015 1 Introducción 2 Algoritmo: K-medias 3 Algoritmo: BFR 4 Algoritmo: CURE Introducción Acotar el problema Complejidad
SISTEMAS INTELIGENTES
SISTEMAS INTELIGENTES T12: Aprendizaje no Supervisado {jdiez, juanjo} @ aic.uniovi.es Índice Aprendizaje no Supervisado Clustering Tipos de clustering Algoritmos Dendogramas 1-NN K-means E-M Mapas auto-organizados
INTELIGENCIA DE NEGOCIO
INTELIGENCIA DE NEGOCIO 2018-2019 Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Minería de Datos. Ciencia de Datos Tema 3. Modelos de Predicción: Clasificación, regresión y series temporales
Tareas de la minería de datos: agrupamiento. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR
Tareas de la minería de datos: agrupamiento CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Agrupamiento Agrupamiento (clasificación no supervisada, aprendizaje no supervisado).
ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)
ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS) AGRUPAMIENTOS Cuál agrupamiento es mejor? MÉTODOS DE AGRUPACIÓN Métodos jerárquicos: Los objetos se agrupan (dividen) i por partes hasta clasificar todos los
Diplomado BIG DATA ANALITYCS K-Means. Por Ing. Jorge E. Camargo, Ph.D.
Diplomado BIG DATA ANALITYCS Por Ing. Jorge E. Camargo, Ph.D. Agenda 1. Agrupamiento 2. 3. Medidas de Validación Agrupamiento (Clustering) Dado un conjunto de puntos/datos, cada uno con un conjunto de
Reconocimiento de Formas
Reconocimiento de Formas Técnicas no Supervisadas: clustering José Martínez Sotoca Objetivo: Estudio de la estructura de un conjunto de datos, división en agrupaciones. Características: Homogeneidad o
Métodos no supervisados: Agrupamiento
Métodos no supervisados: Agrupamiento Agrupamiento clustering- Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Introducción. Basados en particiones 3. Métodos
Reconocimiento de Patrones
Reconocimiento de Patrones Jesús Ariel Carrasco Ochoa Instituto Nacional de Astrofísica Óptica y Electrónica ariel@inaoep.mx Contenido Introducción Enfoques Problemas Selección de Variables Clasificación
Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR
Tareas de la minería de datos: clasificación CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja
Clasicación Automática de Documentos
Clasicación Automática de Documentos Carlos G. Figuerola, José Luis Alonso Berrocal, Angel F. Zazo Universidad de Salamanca Grupo REINA http://reina.usal.es Carlos G. Figuerola (Grupo REINA) Clasicación
Detección y segmentación de objetos
24 de abril de 2013 ¾Qué es segmentación? Segmentación Objetivo El objetivo de la segmentación de una imagen es el agrupamiento de ciertos píxeles de la imagen en regiones correspondientes a objetos contenidos
INTRODUCCION AL ANALISIS DE CLUSTER
-1- INTRODUCCION AL ANALISIS DE CLUSTER José Luis Vicente Villardón Departamento de Estadística Universidad de Salamanca -- DEFINICION E INTRODUCCION El Análisis de Clusters (o Análisis de conglomerados)
Carteras minoristas. árbol de decisión. Ejemplo: Construcción de un scoring de concesión basado en un DIRECCIÓN GENERAL DE SUPERVISIÓN
Carteras minoristas Ejemplo: Construcción de un scoring de concesión basado en un árbol de decisión Grupo de Tesorería y Modelos de Gestión de Riesgos Sergio Gavilá II Seminario sobre Basilea II Validación
Introducción a Minería de Texto. Fabián Latorre
Introducción a Minería de Texto Fabián Latorre fabian.latorre@quantil.com.co Contenido Qué es la minería de texto? Por qué es relevante? Por qué la estudiamos? Aplicaciones La complejidad del texto no
Técnicas de Clustering
Técnicas de Clustering Programa Introducción Métodos Divisivos Métodos Jerárquicos Algunos otros métodos Cuantos clusters? estabilidad Introducción Definiciones previas: Cluster: Agrupamiento de objetos.
Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS
Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Agrupamiento Dividir los datos en grupos (clusters), de tal forma que los
Análisis de imágenes digitales
Análisis de imágenes digitales SEGMENTACIÓN DE LA IMAGEN Segmentación basada en texturas INTRODUCCIÓN La textura provee información sobre la distribución espacio-local del color o niveles de intensidades
Máster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL
ANÁLISIS CLUSTERS C U R S O TÉCNICAS MULTIVARIANTES Prof. Dr. Ángel Luís LUCENDO MONEDERO 1 http://www.geografia.us.es/ Tema 2. INTRODUCCIÓN N AL ANÁLISIS CLUSTER 2.1 Consideraciones generales. Clasificación
Análisis y Recuperación de Información
Análisis y Recuperación de Información 1 er Cuatrimestre 2017 Página Web http://www.exa.unicen.edu.ar/catedras/ayrdatos/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs.
Tema 5: SEGMENTACIÓN (II) I N G E N I E R Í A I N F O R M Á T I C A
Tema 5: SEGMENTACIÓN (II) 1 I N G E N I E R Í A I N F O R M Á T I C A Tema 5: Segmentación Los algoritmos de segmentación se basan en propiedades básicas de los valores del nivel de gris: 2 - Discontinuidad:
ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA
ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA ANALISIS DE CLUSTER EN SPSS Opción: Analizar Clasificar ANALISIS DE CLUSTER EN SPSS Tres posibles OPCIONES 1.- Cluster en dos etapas 2.- K-means 3.- Jerárquicos
Tema 5: SEGMENTACIÓN (II) I N G E N I E R Í A I N F O R M Á T I C A
Tema 5: SEGMENTACIÓN (II) 1 I N G E N I E R Í A I N F O R M Á T I C A Tema 5: Segmentación Los algoritmos de segmentación se basan en propiedades básicas de los valores del nivel de gris: 2 - Discontinuidad:
RECONOCIMIENTO DE PAUTAS. ANÁLISIS DE CONGLOMERADOS (Cluster Analysis)
RECONOCIMIENTO DE PAUTAS ANÁLISIS DE CONGLOMERADOS (Cluster Analysis) Análisis de conglomerados los análisis exploratorios de datos (como PCA) determinan relaciones generales entre datos en ocasiones no
Clustering. Departamento de Ingeniería Informática y de Sistemas Universidad de La Laguna
Clustering Christopher Expósito Izquierdo Airam Expósito Márquez Israel López Plata Belén Melián Batista J. Marcos Moreno Vega {cexposit, aexposim, ilopezpl, mbmelian, jmmoreno}@ull.edu.es Departamento
Técnicas de agrupamiento (clustering)
Técnicas de agrupamiento (clustering) Introducción al Reconocimiento de Patrones IIE - FING - UdelaR 2015 Duda, Hart, Stork. Pattern Classification, capítulo 10. Jain, Duin, Mao. Statistical Pattern Recognition:
Clasificación Jerárquica Ascendente Presentación #1. [ U n a i n t r o d u c c i ó n ]
Clasificación Jerárquica Ascendente Presentación #1 [ U n a i n t r o d u c c i ó n ] Clasificación Jerárquica Clasificación Automática La clasificación automática tiene por objetivo reconocer grupos de
Análisis Global y Local. UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides
UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daiana Ramírez Benaides Análisis Global Realiza la expansión basado en la construcción de tesauros utilizando la colección completa de documentos
Metaheurísticas. Seminario 5. Manejo de restricciones en metaheurísticas. 1. Introducción: Optimización y Restricciones
Metaheurísticas Seminario 5. Manejo de restricciones en metaheurísticas 1. Introducción: Optimización y Restricciones 2. Manejo de Restricciones en Metaheurísticas 3. Algunos Ejemplos 1 Introducción: Optimización
Clasificación Supervisada. Métodos jerárquicos. CART
Clasificación Supervisada. Métodos jerárquicos. CART Ricardo Fraiman 2 de abril de 2010 Descripción del problema Muestra de entrenamiento (X 1, Y 1 ),..., (X n, Y n ) E {1,..., m}. Típicamente E = R d.
Introducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR
Introducción a la minería de datos CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Minería de datos Detección, interpretación y predicción de patrones cuantitativos y cualitativos
Sistemas Inteligentes. Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias.
Sistemas Inteligentes Escuela Técnica Superior de Informática Universitat Politècnica de València Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias. Índice 1 Introducción 1 2 Agrupamientos particionales
ESTADISTICA ELEMENTAL
ESTADISTICA ELEMENTAL Dr. Edgar Acuna http://academic.uprm.edu/eacuna UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ INTRODUCCIÓN En este capítulo, primero se introducirán algunos conceptos
Clasificación Jerárquica Ascendente Presentación #1. [ U n a i n t r o d u c c i ó n ]
Clasificación Jerárquica Ascendente Presentación #1 [ U n a i n t r o d u c c i ó n ] Clasificación Jerárquica Clasificación Automática La clasificación automática tiene por objetivo reconocer grupos de
Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR
Tareas de la minería de datos: clasificación PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR Tareas de la minería de datos: clasificación Clasificación (discriminación) Empareja o asocia datos
Anexo 2. Te cnicas de Modelado y Disen o de Pruebas
Anexo 2. Te cnicas de Modelado y Disen o de Pruebas Contenido 1. Introducción... 2 2. Técnicas de Minería de Datos Seleccionadas... 2 2.1 Técnica de Reglas de Asociación... 2 2.1.1 Objetivo al aplicar
Inteligencia Artificial: Su uso para la investigación
Inteligencia Artificial: Su uso para la investigación Dra. Helena Montserrat Gómez Adorno Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas helena.adorno@iimas.unam.mx 1 Introducción
IDENTIFICACIÓN Y DETECCION DE PATRONES DELICTIVOS BASADA EN MINERIA DE DATOS. Departamento de Ingeniería Industrial. ITBA
IDENTIFICACIÓN Y DETECCION DE PATRONES DELICTIVOS BASADA EN MINERIA DE DATOS Perversi, I. 1, Valenga, F. 2, Fernández, E. 3,4, Britos P. 3,4, García-Martínez, R. 3,4 1 Departamento de Ingeniería Industrial.
Introducción al Análisis Multivariante
al Análisis Multivariante Vectores aleatorios, técnicas de análisis multivariante, distancias estadísticas Curso 2011-2012 Considero que el cerebro de cada cual es como una pequeña pieza vacía que vamos
Examen de Teoría de (Introducción al) Reconocimiento de Formas
Examen de Teoría de (Introducción al) Reconocimiento de Formas Facultad de Informática, Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia, Enero de 007 Apellidos:
Clusters. Walter Sosa Escudero. Universidad de San Andres y CONICET
(wsosa@udesa.edu.ar) Universidad de San Andres y CONICET Ideas generales X matriz de N filas y p columnas. Cada fila es un punto de p dimensiones. Cada columna se corresponde con una variable. Ejemplo:
Aprendizaje Automático. Objetivos. Funciona? Notas
Introducción Las técnicas que hemos visto hasta ahora nos permiten crear sistemas que resuelven tareas que necesitan inteligencia La limitación de estos sistemas reside en que sólo resuelven los problemas
Ontologias. 2 Marcelo A. Soria Maestria en Data Mining. DC-FCEN
Aplicaciones de Data Mining en ciencia y tecnología Ontologias. 2 Desarrollo de ontologías Clases Clases slots slots Clases facetas o restricciones de rol Clases Desarrollo de ontologías Clases Slots Facetas
Selección de Atributos. Dr. Jesús Ariel Carrasco Ochoa Oficina 8311
Selección de Atributos Dr. Jesús Ariel Carrasco Ochoa ariel@inaoep.mx Oficina 8311 Contenido Introducción Estrategias de selección Técnicas filter Técnicas wrapper Técnicas híbridas Selección de atributos
Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental
Universidad de Puerto Rico Recinto de Aguadilla Programa CeCiMat Elemental Definición de conceptos fundamentales de la Estadística y la Probabilidad y su aportación al mundo moderno Dr. Richard Mercado
Comunidades. Buscando grupos naturales de nodos
Comunidades Buscando grupos naturales de nodos cliques, -componentes (Newman 7.8.1, 7.8.2) similaridad (N7.12) Geometria: means topologia: equivalencia estructural vs equivalencia regular Clustering jerarquico
Redes de Neuronas de Base Radial
Redes de Neuronas de Base Radial 1 Introducción Redes multicapa con conexiones hacia delante Única capa oculta Las neuronas ocultas poseen carácter local Cada neurona oculta se activa en una región distinta
CLASIFICACIÓN PROBLEMA SOLUCIÓN
Capítulo 7 Análisis Cluster CLASIFICACIÓN Asignar objetos en su lugar correspondiente dentro de un conjunto de categorías establecidas o no. PROBLEMA Dado un conjunto de m objetos (animales, plantas, minerales...),
Aprendizaje no supervisado
Aprendizaje no supervisado Algoritmo de K medias Julio Waissman Vilanova Licenciatura en Ciencias de la Computación Universidad de Sonora Curso Inteligencia Artificial Plan del curso Aprendizaje no supervisado
Técnicas de Minería de Datos
Técnicas de Minería de Datos Act. Humberto Ramos S. 1 Qué es Minería de datos? El desarrollo de dispositivos tecnológicos para acumular datos a bajo costo. Acumulación o registro de gran cantidad de datos.
Seminario Taller Brecha de Rendimiento en Arroz. 20 de Julio 2011 INIA Treinta Y Tres
Seminario Taller Brecha de Rendimiento en Arroz 20 de Julio 2011 INIA Treinta Y Tres INTRODUCCIÓN Contenido de la Presentación EL CONTEXTO Y LOS ANTECEDENTES METODOLOGÍAS UTILIZADAS CARACTERISTICAS DE
Motores de Búsqueda Web Tarea Tema 3: Limitaciones de la recuperación de información tradicional en la Web
Motores de Búsqueda Web Tarea Tema 3: Limitaciones de la recuperación de información tradicional en la Web 71454586A Motores de Búsqueda Web Máster en Lenguajes y Sistemas Informáticos - Tecnologías del
TEMA 6 ANÁLISIS DE CONGLOMERADOS
TEMA 6 ANÁLISIS DE CONGLOMERADOS Facultade de Psicoloxía Campus Sur, s/n 15782 Santiago de Compostela wwwusces/psicom Dr Jesús Varela Mallou Dr Antonio Rial Boubeta Dr Eduardo Picón Prado Análisis Multivariante
TÉCNICAS DE AGRUPAMIENTO
TÉCNICAS DE AGRUPAMIENTO José D. Martín Guerrero, Emilio Soria, Antonio J. Serrano PROCESADO Y ANÁLISIS DE DATOS AMBIENTALES Curso 2009-2010 Page 1 of 11 1. Algoritmo de las C-Medias. Algoritmos de agrupamiento
Tema 8: Árboles de Clasificación
Tema 8: Árboles de Clasificación p. 1/11 Tema 8: Árboles de Clasificación Abdelmalik Moujahid, Iñaki Inza, Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad
Desambiguación del Sentido de las Palabras (Word Sense Disambiguation)
Desambiguación del Sentido de las Palabras (Word Sense Disambiguation) Introducción qué es ambigüedad? qué significa desambiguar? qué entendemos por sentido de las palabras? en qué consiste la tarea de
EVALUACIÓN EN APRENDIZAJE. Eduardo Morales y Jesús González
EVALUACIÓN EN APRENDIZAJE Eduardo Morales y Jesús González Significancia Estadística 2 En estadística, se dice que un resultado es estadísticamente significante, cuando no es posible que se presente por
Técnicas de aprendizaje sobre series temporales
Técnicas de aprendizaje sobre series temporales Contenido 1. Motivación. 2. Ejemplo del Problema. 3. Aproximaciones al problema de clasificación de series temporales. 4. Aprendizaje de reglas. 5. Boosting
Análisis de la relación precio marginal y demanda de electricidad mediante conglomerados
Análisis de la relación precio marginal y demanda de electricidad mediante conglomerados Andrés Ramos, Gonzalo Cortés, Jesús María Latorre, Santiago Cerisola Universidad Pontificia Comillas Índice Introducción
UNIVERSIDAD TÉCNICA FEDERICO SANTA MARÍA DEPARTAMENTO DE INFORMÁTICA SANTIAGO - CHILE
UNIVERSIDAD TÉCNICA FEDERICO SANTA MARÍA DEPARTAMENTO DE INFORMÁTICA SANTIAGO - CHILE EVALUACIÓN DE ALGORITMOS DE AGRUPAMIENTO UTILIZANDO APACHE SPARK FRANCISCO JAVIER SALINAS DEZEREGA MEMORIA DE TITULACIÓN
Estimación de Parámetros. Jhon Jairo Padilla A., PhD.
Estimación de Parámetros Jhon Jairo Padilla A., PhD. Inferencia Estadística La inferencia estadística puede dividirse en dos áreas principales: Estimación de Parámetros Prueba de Hipótesis Estimación de
Estimación de Parámetros. Jhon Jairo Padilla A., PhD.
Estimación de Parámetros Jhon Jairo Padilla A., PhD. Inferencia Estadística La inferencia estadística puede dividirse en dos áreas principales: Estimación de Parámetros Prueba de Hipótesis Estimación de
Conclusiones. Somos la suma de nuestras decisiones. WOODY ALLEN Delitos y Faltas (1989)
Capítulo 7 Conclusiones Somos la suma de nuestras decisiones WOODY ALLEN Delitos y Faltas (1989) En este trabajo se ha presentado una nueva estrategia para construir árboles de decisión que ha conseguido
Segmentación de imágenes biomédicas
Segmentación de imágenes biomédicas Definición de segmentación La segmentación es la partición de una imagen, en un subconjunto regiones homogéneas en base a una característica (intensidad, textura,...).
Tipos de Aprendizaje
Karina Figueroa Contenido Objetivo: Comprender las nociones básicas de los enfoques representativos de aprendizaje automático Nota del día Aprendizaje y el modelo científico Clasificación de los algoritmos
Técnicas Multivariadas Avanzadas
Métodos basados en árboles Universidad Nacional Agraria La Molina 2014-2 Introducción Introducción Se describen métodos basados en árboles para regresión y clasicación. Estos métodos requieren estraticar
Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur
Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur KNN: VECINO(S) MAS CERCANO(S) K NEAREST NEIGHBORS (KNN) Altura Niño Adulto Mayor Se guardan todos los ejemplos
Tema 3: Análisis multivariante para la agrupación. Objetivo: Encontrar los grupos naturales en los que se divide la población.
Tema 3: Análisis multivariante para la agrupación Objetivo: Encontrar los grupos naturales en los que se divide la población. Ejemplo canónico en Biologia: Taxonomía Rosa doméstica Reino: Plantae (Plantas)
Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO
Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO 2 Objetivo El objetivo principal de las técnicas de clasificación supervisada es obtener un modelo clasificatorio válido para permitir tratar
Introducción a las técnicas estadísticas de
Introducción a las técnicas estadísticas de clasificación y regresión. Aprendizaje no supervisado - Clustering Laura Aspirot, Sebastián Castro Universidad de la República (UdelaR) Jueves 21 y viernes 22
Clasificación estadística de patrones
Clasificación estadística de patrones Clasificador gaussiano César Martínez cmartinez _at_ fich.unl.edu.ar Tópicos Selectos en Aprendizaje Maquinal Doctorado en Ingeniería, FICH-UNL 19 de setiembre de
Clasificadores Débiles - AdaBoost
Capítulo 3 Clasificadores Débiles - AdaBoost El término boosting hace referencia a un tipo de algoritmos cuya finalidad es encontrar una hipótesis fuerte a partir de utilizar hipótesis simples y débiles.
Explotación del B2B y segmentación de la clientela
Explotación del B2B y segmentación de la clientela Cluster, Clasificación y Segmentación Sesión 4. 24/10/2018 A.M.Mayoral (asun.mayoral@umh.es), J.Morales (j.morales@umh.es) Ejemplo Adquisición oficina
Desambigüación del sentido de las palabras (WSD)
Desambigüación del sentido de las palabras (WSD) Miguel A. Alonso Departamento de Computación, Facultad de Informática, Universidade da Coruña 1 / 18 Índice 1 Introducción 2 Evaluación 3 Enfoques basados
Definición de grupos: clasificación. Capítulos 10 y 11 de McCune y Grace 2002
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002 Clasificar Proceso natural humano para interpretar el mundo Pero estamos acostumbrados a sólo observar pocas dimensiones Más
Interfaces de Visualización de Clustering. UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides
Interfaces de Visualización de Clustering UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides Introducción Los mecanismos convencionales de una búsqueda tienen baja precisión.
INFORME TAREA N 4 CLUSTERING
Universidad de Chile Facultad de Ciencias Físicas y Matemáticas Departamento de Ingeniería Eléctrica EL4106 Inteligencia Computacional INFORME TAREA N 4 CLUSTERING Nombre Alumno : Profesor : Profesor Auxiliar
ANÁLISIS ESTADÍSTICO MUESTREO DE POBLACIONES FINITAS
ANÁLISIS ESTADÍSTICO MUESTREO DE POBLACIONES FINITAS Jorge Fallas jfallas56@gmail.com 2010 1 Temario Porqué muestrear? Para qué muestrear? Estimar parámetros de población Prueba de hipótesis Exploratorio
Enfoque Conceptual Borroso en Recuperación de Información
I Workshop Virtual de Ingeniería Linguística UNAB-NAACL Enfoque Conceptual Borroso en Recuperación de Información Prof. Dr. Andrés Soto Villaverde Universidad Autónoma del Carmen Cd. Carmen, Campeche,
Sistemas de Reconocimiento de Patrones
Sistemas de Reconocimiento de Patrones p. 1/33 Sistemas de Reconocimiento de Patrones Luis Vázquez GTI - IIE Facultad de Ingeniería Universidad de la República Sistemas de Reconocimiento de Patrones p.
Predicción de potencia en el parque eólico de Villonaco, Loja, Ecuador. Alberto Reyes y Tania Guerrero INER Ecuador
Predicción de potencia en el parque eólico de Villonaco, Loja, Ecuador Alberto Reyes y Tania Guerrero INER Ecuador INTRODUCCIÓN El comportamiento del viento presenta alto grado de aleatoriedad, incertidumbre
Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores
Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Desde la antigüedad, el problema de buscar patrones en datos es fundamental en diversas
Prof. Dr. Jose Jacobo Zubcoff Departamento de Ciencias del Mar y Biología Aplicada
Clustering Análisis de segmentación Prof. Dr. Jose Jacobo Zubcoff Departamento de Ciencias del Mar y Biología Aplicada This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International
Existen diversas técnicas de agrupamiento. Se dividen en dos grandes categorías:
Objetivo ESCOM-IPN (Sistemas Operativos II - Practica 02) Página 1 de 6 INSTITUTO POLITÉCNICO NACIONAL ESCUELA SUPERIOR DE CÓMPUTO Practica 02 de Sistemas Operativos II Profr. Edgardo Adrián Franco Martínez
I. CARACTERISTICAS DEL ALGORITMO ID3
I. CARACTERISTICAS DEL ALGORITMO ID3 El investigador J. Ross Quinlan desarrolló el algoritmo conocido como ID3 (Induction Decision Trees) en el año de 1983. Pertenece a la familia TDIDT (Top-Down Induction