Clasicación Automática de Documentos

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Clasicación Automática de Documentos"

Transcripción

1 Clasicación Automática de Documentos Carlos G. Figuerola, José Luis Alonso Berrocal, Angel F. Zazo Universidad de Salamanca Grupo REINA Carlos G. Figuerola (Grupo REINA) Clasicación Automática 1 / 23

2 Clasicación Automática de Documentos Dos cosas diferentes: Clasicación Supervisada también conocida como categorización parte de la existencia de un conjunto de clases pre-establecidas el objetivo es colocar cada documento en la clase que le corresponda Clasicacion no supervisada también llamada clustering no hay clases preestablecidas el propio sistema establece las clases o clusters de forma totalmente automática Carlos G. Figuerola (Grupo REINA) Clasicación Automática 2 / 23

3 Clasicación Supervisada se parte de un conjunto de clases diseñadas por personas previamente el sistema debe asignar cada documento a la clase que le corresponda Aplicaciones: ltrado de documentos routing o DSI recuperación mediante browsing asignación automática de descriptores, encabezamientos de materias o similares Carlos G. Figuerola (Grupo REINA) Clasicación Automática 3 / 23

4 Clasicación Supervisada La mayoría de los algoritmos parten la elaboración de un modelo o patrón para cada clase Esta fase se conoce como entrenamiento Necesita una colección de documentos ya clasicada manualmente (colección de entrenamiento) Requiere intervención humana para la clasicación de la colección de entrenamiento y para la revisión y renamiento de resultado Carlos G. Figuerola (Grupo REINA) Clasicación Automática 4 / 23

5 Clasicación Supervisada. Entrenamiento Podemos verlo como la elaboración de un centroide para cada clase. Carlos G. Figuerola (Grupo REINA) Clasicación Automática 5 / 23

6 Clasicación Supervisada El proceso de clasicación consiste en estimar la similitud entre el documento a clasicar y cada uno de los centroides Sistemas que asignan cada documento a una sola clase Sistemas que asignan un documento a varias clases En sistemas con asignación de clase única el centroide más similar indica a qué clase hay que asignar el documento En sistemas con asignación de clases múltiples un umbral de similitud indica a qué clases hay que asignar el documento Carlos G. Figuerola (Grupo REINA) Clasicación Automática 6 / 23

7 Clasicación Supervisada Carlos G. Figuerola (Grupo REINA) Clasicación Automática 7 / 23

8 Clasicación Supervisada. Algoritmos Naive Bayes Rocchio Vecino más próximo Knn Carlos G. Figuerola (Grupo REINA) Clasicación Automática 8 / 23

9 Clasicación Supervisada. Naive Bayes Naive Bayes tiene una base probabilística calcula la probabilidad de que un documento encaje en una clase a partir de la probabilidad de que documentos que contengan determinados términos pertenezcan a esa clase estas probabilidades de los términos se estiman mediante los términos que aparecen en los documentos de entrenamiento en la práctica considera solamente pesos binarios de esos términos es rápido y fácil de implementar es ecaz Carlos G. Figuerola (Grupo REINA) Clasicación Automática 9 / 23

10 Clasicación Supervisada. Rocchio Algoritmo de Rocchio se basa en las mismas ideas utilizadas en la realimentación por relevancia se contruyen vectores que tratan de representar cada clase a partir de los documentos de entrenamiento para el vector de cada clase: los documentos de entrenamiento de esa clase se usan como ejemplos positivos los documentos de entrenamiento de las demás clases se usan como ejemplos negativos Carlos G. Figuerola (Grupo REINA) Clasicación Automática 10 / 23

11 Clasicación Supervisada. Rocchio Algoritmo de Rocchio el vector representativo de una clase se construye sumando los pesos de los términos de los ejemplos positivos de él se restan los pesos de los términos de los ejemplos negativos aplicando coecientes multiplicadores, es posible dar más o menos importancia a los ejemplos positivos o a los negativos el resultado es un vector de términos con pesos como el utilizado en el modelo vectorial para clasicar un nuevo documento, no hay más que estimar la similitud entre el vector de ese documento y los vectores de cada una de las clases Carlos G. Figuerola (Grupo REINA) Clasicación Automática 11 / 23

12 Clasicación Supervisada. Rocchio Carlos G. Figuerola (Grupo REINA) Clasicación Automática 12 / 23

13 Clasicación Supervisada. Vecino Más Próximo y KNN Vecino más próximo y Knn la colección de entrenamiento se indiza mediante cualquier motor de recuperación cuando se desea clasicar un nuevo documento, éste se utiliza como una consulta en ese motor de recuperación la consulta se ejecuta contra la colección de entrenamiento. El documento considerado como más relevante nos indica la clase a la que debe pertenecer el documento a clasicar la variante K-nn consiste en considerar los K primeros documentos más relevantes en lugar del primero sólo Carlos G. Figuerola (Grupo REINA) Clasicación Automática 13 / 23

14 Clasicación Supervisada. Vecino Más Próximo y KNN Vecino más próximo y Knn Carlos G. Figuerola (Grupo REINA) Clasicación Automática 14 / 23

15 Clasicación Supervisada. Casos prácticos Carlos G. Figuerola (Grupo REINA) Clasicación Automática 15 / 23

16 Clasicación No Supervisada. Clustering aunque la teoría se formula en años 70, las aplicaciones reales datan de la segunda mitad de los 90 Usos del clustering: visualización de colecciones documentales recuperación de documentos anes navegación por colecciones documentales desambiguación de resultados de búsquedas convencionales Carlos G. Figuerola (Grupo REINA) Clasicación Automática 16 / 23

17 Clustering agrupación de documentos en clusters sin intervención humana los grupos o clusters deben maximizar cohesión externa los clusters deben maximizar separación externa Carlos G. Figuerola (Grupo REINA) Clasicación Automática 17 / 23

18 Clustering Tipos de clustering Según diversos criterios: clusters planos vs. jerárquicos clusters duros vs. fuzzy clustering incremental vs. no incremental basados en redes neuronales basados en teoría de grafos Carlos G. Figuerola (Grupo REINA) Clasicación Automática 18 / 23

19 Clustering Proceso general Varias fases: representación de documentos construcción de matriz de similitud diversos algoritmos de clustering Carlos G. Figuerola (Grupo REINA) Clasicación Automática 19 / 23

20 Clustering Representación de documentos y métricas requiere algún sistema que permita estimar entre documentos la distancia (euclidiana, Manhatan) la similitud o asociación: Coseno, coecientes de Dice, Jacqard Carlos G. Figuerola (Grupo REINA) Clasicación Automática 20 / 23

21 Clustering Representación de documentos y métricas requiere algún sistema que permita estimar entre un documento y un cluster single link: la similitud máxima entre el documento y cada uno de los integrantes del cluster full link: la similitud mínima entre el documento y cada uno de los integrantes del cluster average link: la media de las similitudes entre documento y cada uno del cluster dos clusters single link: la similitud máxima entre todos los pares posibles de documentos full link: la similitud máxima entre todos los pares posibles de documentos average link: la media de las similitudes entre todos los pares posibles Carlos G. Figuerola (Grupo REINA) Clasicación Automática 21 / 23

22 Clustering Clusters Planos: algoritmo de paso único tomar el primer documento e iniciar con él un cluster añadir a ese cluster todos los demás documentos similares al primero tomar el siguiente documento de los restantes y añadirlo al cluster si es similar a él en caso contrario, inciar un nuevo cluster con él; añadir a ese cluster los documentos restantes similares proceder de la misma forma hasta que no haya más documentos Carlos G. Figuerola (Grupo REINA) Clasicación Automática 22 / 23

23 Clustering Clusters Planos: algoritmo k-means Carlos G. Figuerola (Grupo REINA) Clasicación Automática 23 / 23

Clasificación. Agrupación de las partes de una imagen de forma homogénea

Clasificación. Agrupación de las partes de una imagen de forma homogénea Clasificación Agrupación de las partes de una imagen de forma homogénea Clasificación o clustering Intenta clasificar los píxeles directamente en clases, en función de ciertas características de cada píxel.

Más detalles

Lingüística computacional

Lingüística computacional Lingüística computacional Definición y alcance Escuela Nacional de Antropología e Historia (ENAH) Agosto diciembre de 2015 Lingüística Ciencias de la computación Lingüística computacional Estudio del lenguaje

Más detalles

PREFACIO...19 LISTA DE AUTORES...25

PREFACIO...19 LISTA DE AUTORES...25 ÍNDICE PREFACIO...19 LISTA DE AUTORES...25 CAPÍTULO 1. INTRODUCCIÓN A LA RECUPERACIÓN DE INFORMACIÓN..33 Benjamin Piwowarski y Roi Blanco González (Traducido por Nahir Seijo Saavedra) 1.1 DEFINICIÓN DE

Más detalles

Motores de Búsqueda Web Tarea Tema 3: Limitaciones de la recuperación de información tradicional en la Web

Motores de Búsqueda Web Tarea Tema 3: Limitaciones de la recuperación de información tradicional en la Web Motores de Búsqueda Web Tarea Tema 3: Limitaciones de la recuperación de información tradicional en la Web 71454586A Motores de Búsqueda Web Máster en Lenguajes y Sistemas Informáticos - Tecnologías del

Más detalles

Minería de Datos Web. Cursada 2018

Minería de Datos Web. Cursada 2018 Minería de Datos Web Cursada 2018 Proceso de Minería de Texto Clustering de Documentos Clasificación de Documentos Es un método supervisado para dividir documentos en base a categorías predefinidas Los

Más detalles

CLUSTERING. Bases de Datos Masivas

CLUSTERING. Bases de Datos Masivas 1 CLUSTERING Bases de Datos Masivas 2 Temas Qué es clustering? K-Means Clustering Hierarchical Clustering QUÉ ES CLUSTERING? 3 Aprendizaje Supervisado vs. No Supervisado 4 Aprendizaje Supervisado: tanto

Más detalles

Análisis de agrupamiento (Cluster nmds)

Análisis de agrupamiento (Cluster nmds) Análisis de agrupamiento (Cluster nmds) Agregación (Cluster) Conjunto de técnicas que intentan organizar la información de las unidades de muestreo (UM) en clases o grupos discretos Crea agrupaciones sobre

Más detalles

Modelos de RI. UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides

Modelos de RI. UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides Modelos de RI UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides Qué es un Modelo? Es la primera etapa para abordar el tema de la RI. Representación matemática para resolver

Más detalles

Técnicas de Clustering

Técnicas de Clustering Técnicas de Clustering Programa Introducción Métodos Divisivos Métodos Jerárquicos Algunos otros métodos Cuantos clusters? estabilidad Introducción Definiciones previas: Cluster: Agrupamiento de objetos.

Más detalles

Prof. Dra. Silvia Schiaffino ISISTAN

Prof. Dra. Silvia Schiaffino ISISTAN Clustering ISISTAN sschia@ea.unicen.edu.ar Clustering: Concepto Cluster: un número de cosas o personas similares o cercanas, agrupadas Clustering: es el proceso de particionar un conjunto de objetos (datos)

Más detalles

Sistemas de Percepción Visión por Computador

Sistemas de Percepción Visión por Computador Nota: Algunas de las imágenes que aparecen en esta presentación provienen del libro: Visión por Computador: fundamentos y métodos. Arturo de la Escalera Hueso. Prentice Hall. Sistemas de Percepción Visión

Más detalles

Redes de Neuronas de Base Radial

Redes de Neuronas de Base Radial Redes de Neuronas de Base Radial 1 Introducción Redes multicapa con conexiones hacia delante Única capa oculta Las neuronas ocultas poseen carácter local Cada neurona oculta se activa en una región distinta

Más detalles

Detección y segmentación de objetos

Detección y segmentación de objetos 24 de abril de 2013 ¾Qué es segmentación? Segmentación Objetivo El objetivo de la segmentación de una imagen es el agrupamiento de ciertos píxeles de la imagen en regiones correspondientes a objetos contenidos

Más detalles

BKS: Business Knowledge Series.

BKS: Business Knowledge Series. BKS: Business Knowledge Series. BigData analytics: Next Best Offer Content. 1 Presentado por: Gabriel Contreras. Detectando y descubriendo hábitos de consumo de contenidos y aplicaciones. Capítulo 1. Breve

Más detalles

Aprendizaje No Supervisado

Aprendizaje No Supervisado Aprendizaje Automático Segundo Cuatrimestre de 2015 Aprendizaje No Supervisado Supervisado vs. No Supervisado Aprendizaje Supervisado Clasificación y regresión. Requiere instancias etiquetadas para entrenamiento.

Más detalles

Examen de Septiembre de TACCIII y TAI (Modelo 2)

Examen de Septiembre de TACCIII y TAI (Modelo 2) Examen de Septiembre de TACCIII y TAI (Modelo 2) 12 de septiembre de 2008 1. La desordenación de la base de datos puede influir en el resultado obtenido mediante a) clasificación por distancia a las medias

Más detalles

Análisis y Recuperación de Información

Análisis y Recuperación de Información Análisis y Recuperación de Información 1 er Cuatrimestre 2017 Página Web http://www.exa.unicen.edu.ar/catedras/ayrdatos/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs.

Más detalles

Desambigüación del sentido de las palabras (WSD)

Desambigüación del sentido de las palabras (WSD) Desambigüación del sentido de las palabras (WSD) Miguel A. Alonso Departamento de Computación, Facultad de Informática, Universidade da Coruña 1 / 18 Índice 1 Introducción 2 Evaluación 3 Enfoques basados

Más detalles

Clustering: Algoritmos

Clustering: Algoritmos Clustering: Algoritmos Clasificación no supervisada Javier G. Sogo 10 de marzo de 2015 1 Introducción 2 Algoritmo: K-medias 3 Algoritmo: BFR 4 Algoritmo: CURE Introducción Acotar el problema Complejidad

Más detalles

ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)

ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS) ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS) AGRUPAMIENTOS Cuál agrupamiento es mejor? MÉTODOS DE AGRUPACIÓN Métodos jerárquicos: Los objetos se agrupan (dividen) i por partes hasta clasificar todos los

Más detalles

LA MINERÍA DE DATOS APLICADA A LA BÚSQUEDA DE PATRONES DE SUPERVIVIENCIA EN LA NEOPLASIA MALIGNA DE TRÁQUEA, BRONQUIOS Y PULMÓN

LA MINERÍA DE DATOS APLICADA A LA BÚSQUEDA DE PATRONES DE SUPERVIVIENCIA EN LA NEOPLASIA MALIGNA DE TRÁQUEA, BRONQUIOS Y PULMÓN LA MINERÍA DE DATOS APLICADA A LA BÚSQUEDA DE PATRONES DE SUPERVIVIENCIA EN LA NEOPLASIA MALIGNA DE TRÁQUEA, BRONQUIOS Y PULMÓN Miguel Ángel Negrín; Christian González; Jaime Pinilla; Francisco-José Vázquez-Polo

Más detalles

Introducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada

Introducción Clustering jerárquico Clustering particional Clustering probabilista Conclusiones. Clustering. Clasificación no supervisada Clustering Clasificación no supervisada Javier G. Sogo 10 de marzo de 2015 1 Introducción 2 Clustering jerárquico 3 Clustering particional 4 Clustering probabilista 5 Conclusiones Introducción Objetivos

Más detalles

Introducción a Aprendizaje no Supervisado

Introducción a Aprendizaje no Supervisado Introducción a Aprendizaje no Supervisado Felipe Suárez, Álvaro Riascos 25 de abril de 2017 2 / 33 Contenido 1. Motivación 2. k-medias Algoritmos Implementación 3. Definición 4. Motivación 5. Aproximación

Más detalles

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA CLUSTERING Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Más detalles

MINERIA DE TEXTOS EN R: VIA UN MODELO DE ESPACIO VECTORIAL Y ANÁLISIS CLUSTER. Resumen

MINERIA DE TEXTOS EN R: VIA UN MODELO DE ESPACIO VECTORIAL Y ANÁLISIS CLUSTER. Resumen MINERIA DE TEXTOS EN R: VIA UN MODELO DE ESPACIO VECTORIAL Y ANÁLISIS CLUSTER Resumen El objetivo del presente estudio fue encontrar la similitud entre textos para asociar reclamos y determinar si estos

Más detalles

Comunidades. Buscando grupos naturales de nodos

Comunidades. Buscando grupos naturales de nodos Comunidades Buscando grupos naturales de nodos cliques, -componentes (Newman 7.8.1, 7.8.2) similaridad (N7.12) Geometria: means topologia: equivalencia estructural vs equivalencia regular Clustering jerarquico

Más detalles

Tareas de la minería de datos: agrupamiento. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Tareas de la minería de datos: agrupamiento. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: agrupamiento CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Agrupamiento Agrupamiento (clasificación no supervisada, aprendizaje no supervisado).

Más detalles

Introducción a las técnicas de. Análisis multivariante

Introducción a las técnicas de. Análisis multivariante Introducción a las técnicas de Análisis Multivariante Fco. Javier Burguillo Universidad de Salamanca Objetivo: estudio de varias variables simultáneamente: X X X3 X4 X5 Objeto 34 6 0. 0.7 Objeto 4 36 3

Más detalles

ANÁLISIS DE CLÚSTERS (CLUSTERING)

ANÁLISIS DE CLÚSTERS (CLUSTERING) ANÁLISIS DE CLÚSTERS (CLUSTERING) Marcela Gómez González May 26, 2008 Abstract El objetivo de éste artículo es conocer los métodos y algorítmos que nos permiten agrupar casos sobre los cuáles se miden

Más detalles

Data Science y Energía Cómo (casi) gané un concurso de Big Data

Data Science y Energía Cómo (casi) gané un concurso de Big Data Data Science y Energía Cómo (casi) gané un concurso de Big Data Grupo de Usuarios de R de Madrid 2017.02.28 Paulino Tardáguila @bicho_paulinho paulino.tardaguila@meteologica.com Gestión de la Energía Minimizar

Más detalles

Diplomado BIG DATA ANALITYCS K-Means. Por Ing. Jorge E. Camargo, Ph.D.

Diplomado BIG DATA ANALITYCS K-Means. Por Ing. Jorge E. Camargo, Ph.D. Diplomado BIG DATA ANALITYCS Por Ing. Jorge E. Camargo, Ph.D. Agenda 1. Agrupamiento 2. 3. Medidas de Validación Agrupamiento (Clustering) Dado un conjunto de puntos/datos, cada uno con un conjunto de

Más detalles

Curso Virtual sobre Técnicas Análisis de Redes Sociales, Fundamentos y Aplicación

Curso Virtual sobre Técnicas Análisis de Redes Sociales, Fundamentos y Aplicación Proyecto de Innovación Docente. Universidad de Salamanca, 2015 Curso Virtual sobre Técnicas Análisis de Redes Sociales, Fundamentos y Aplicación Memoria de actuaciones. Carlos G. Figuerola José Luis Alonso

Más detalles

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO 2 Objetivo El objetivo principal de las técnicas de clasificación supervisada es obtener un modelo clasificatorio válido para permitir tratar

Más detalles

Primero se inicializan dos puntos (tantos como clusters queremos) al azar. Estos puntos se denominan centroides del cluster.

Primero se inicializan dos puntos (tantos como clusters queremos) al azar. Estos puntos se denominan centroides del cluster. K-Means Introducción El algoritmo k-means es el algoritmo de clustering más popular y ampliamente utilizado. Algoritmo Supongamos que queremos agrupar los siguientes datos en dos clusters Primero se inicializan

Más detalles

Enfoque Conceptual Borroso en Recuperación de Información

Enfoque Conceptual Borroso en Recuperación de Información I Workshop Virtual de Ingeniería Linguística UNAB-NAACL Enfoque Conceptual Borroso en Recuperación de Información Prof. Dr. Andrés Soto Villaverde Universidad Autónoma del Carmen Cd. Carmen, Campeche,

Más detalles

Reconocimiento de Patrones

Reconocimiento de Patrones Reconocimiento de Patrones Jesús Ariel Carrasco Ochoa Instituto Nacional de Astrofísica Óptica y Electrónica ariel@inaoep.mx Contenido Introducción Enfoques Problemas Selección de Variables Clasificación

Más detalles

Índice general. Prefacio...5

Índice general. Prefacio...5 Índice general Prefacio...5 Capítulo 1 Introducción...13 1.1 Introducción...13 1.2 Los datos...19 1.3 Etapas en los procesos de big data...20 1.4 Minería de datos...21 1.5 Estructura de un proyecto de

Más detalles

Interfaces de Visualización de Clustering. UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides

Interfaces de Visualización de Clustering. UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides Interfaces de Visualización de Clustering UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides Introducción Los mecanismos convencionales de una búsqueda tienen baja precisión.

Más detalles

RECONOCIMIENTO DE PAUTAS. ANÁLISIS DE CONGLOMERADOS (Cluster Analysis)

RECONOCIMIENTO DE PAUTAS. ANÁLISIS DE CONGLOMERADOS (Cluster Analysis) RECONOCIMIENTO DE PAUTAS ANÁLISIS DE CONGLOMERADOS (Cluster Analysis) Análisis de conglomerados los análisis exploratorios de datos (como PCA) determinan relaciones generales entre datos en ocasiones no

Más detalles

TÉCNICAS DE AGRUPAMIENTO

TÉCNICAS DE AGRUPAMIENTO TÉCNICAS DE AGRUPAMIENTO José D. Martín Guerrero, Emilio Soria, Antonio J. Serrano PROCESADO Y ANÁLISIS DE DATOS AMBIENTALES Curso 2009-2010 Page 1 of 11 1. Algoritmo de las C-Medias. Algoritmos de agrupamiento

Más detalles

Análisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Combinación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Combinación de clasificadores Profesor: Dr. Wilfrido Gómez Flores 1 Introducción Diversos algoritmos de clasificación están limitados a resolver problemas binarios, es decir, con dos

Más detalles

PROJECT GLASS : REALIDAD AUMENTADA, RECONOCIMIENTO DE IMÁGENES Y RECONOCIMIENTO DE VOZ.

PROJECT GLASS : REALIDAD AUMENTADA, RECONOCIMIENTO DE IMÁGENES Y RECONOCIMIENTO DE VOZ. PROJECT GLASS : REALIDAD AUMENTADA, RECONOCIMIENTO DE IMÁGENES Y RECONOCIMIENTO DE VOZ. Lucas García Cillanueva Paloma Jimeno Sánchez-Patón Leticia C. Manso Ruiz PROJECT GLASS Dentro de Google Labs Gafas

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

1.1 Clasificación supervisada y no supervisada

1.1 Clasificación supervisada y no supervisada Algunas Técnicas de Clasificación Automática de Documentos Carlos G. Figuerola, José L. Alonso Berrocal, Angel F. Zazo Rodríguez, Emilio Rodríguez Universidad de Salamanca Grupo REINA (http://reina.usal.es)

Más detalles

Diseño e Implementación de un Sistema de Clasificación Afectiva de Opinión y Relevancia

Diseño e Implementación de un Sistema de Clasificación Afectiva de Opinión y Relevancia UNIVERSIDAD CARLOS III DE MADRID ESCUELA POLITÉCNICA SUPERIOR Diseño e Implementación de un Sistema de Clasificación Afectiva de Opinión y Relevancia PROYECTO FIN DE CARRERA INGENIERÍA DE TELECOMUNICACIÓN

Más detalles

Predicción de potencia en el parque eólico de Villonaco, Loja, Ecuador. Alberto Reyes y Tania Guerrero INER Ecuador

Predicción de potencia en el parque eólico de Villonaco, Loja, Ecuador. Alberto Reyes y Tania Guerrero INER Ecuador Predicción de potencia en el parque eólico de Villonaco, Loja, Ecuador Alberto Reyes y Tania Guerrero INER Ecuador INTRODUCCIÓN El comportamiento del viento presenta alto grado de aleatoriedad, incertidumbre

Más detalles

EXPERIMENTO DE RECUPERACIÓN DE INFORMACIÓN USANDO LAS MEDIDAS DE SIMILITUD COSENO, JACCARD Y DICE

EXPERIMENTO DE RECUPERACIÓN DE INFORMACIÓN USANDO LAS MEDIDAS DE SIMILITUD COSENO, JACCARD Y DICE EXPERIMENTO DE RECUPERACIÓN DE INFORMACIÓN USANDO LAS MEDIDAS DE SIMILITUD COSENO, JACCARD Y DICE L. S. GARCÍA MONSALVE 1 LUZ STELLA GARCÍA MONSALVE 1 Ingeniera de Sistemas con énfasis en Desarrollo de

Más detalles

Procesamiento de imágenes mediante Reconocimiento de Patrones

Procesamiento de imágenes mediante Reconocimiento de Patrones Introducción al Procesamiento Digital de Imágenes - 2017 Procesamiento de imágenes mediante Reconocimiento de Patrones Diego Sebastián Comas Facultad de Ingeniería, Universidad Nacional de Mar del Plata

Más detalles

El sistema fue desarrollado bajo el sistema operativo Windows XP de Microsoft, utilizando

El sistema fue desarrollado bajo el sistema operativo Windows XP de Microsoft, utilizando 33 3 Diseño del Sistema de Reconocimiento de Letras. 3.. Introducción. El sistema fue desarrollado bajo el sistema operativo Windows XP de Microsoft, utilizando el entorno de desarrollo C++Builder Profesional

Más detalles

La interacción con el usuario en los sistemas de recuperación de información: realimentación por relevancia

La interacción con el usuario en los sistemas de recuperación de información: realimentación por relevancia La interacción con el usuario en los sistemas de recuperación de información: realimentación por relevancia Carlos García Figuerola Ángel Francisco Zazo José Luis Alonso Berrocal Grupo de Recuperación

Más detalles

PRACTICA Nº 4 AUTOCORRELACIÓN ESPACIAL

PRACTICA Nº 4 AUTOCORRELACIÓN ESPACIAL CARRERA DE POSGRADO ESPECIALIZACIÓN EN TECNOLOGÍAS DE LA INFORMACIÓN GEOGRÁFICA (TIG) -------------------------------------------------------------------------------------------------------------------------

Más detalles

Operaciones sobre Consultas. UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides

Operaciones sobre Consultas. UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides Tipos de Consulta Texto: Palabra única. En contexto: Frase. Proximidad. Booleana. Lenguaje natural. Tipos de Consulta

Más detalles

SISTEMA DE RECUPERACIÓN DE INFORMACIÓN BASADO EN EL MODELO VECTORIAL

SISTEMA DE RECUPERACIÓN DE INFORMACIÓN BASADO EN EL MODELO VECTORIAL SISTEMA DE RECUPERACIÓN DE INFORMACIÓN BASADO EN EL MODELO VECTORIAL Luis Ignacio Lizcano B. Profesor Titular Dpto de Sistemas Universidad Francisco de Paula Santander llizcano@yahoo.com Diego Armando

Más detalles

4 Teoría de clasificadores

4 Teoría de clasificadores Reconocimiento de señales de tráfico para un sistema de ayuda a la conducción 4 Teoría de clasificadores 4.1 Introducción Clasificar un objeto consiste en asignarlo a una de las clases disponibles. Los

Más detalles

Clustering: Auto-associative Multivariate Regression Tree (AAMRT)

Clustering: Auto-associative Multivariate Regression Tree (AAMRT) Introducción Tipos Validación AAMRT Clustering: Auto-associative Multivariate Regression Tree (AAMRT) Miguel Bernal C Quantil 12 de diciembre de 2013 Miguel Bernal C Quantil Matemáticas Aplicadas Contenido

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

Análisis Global y Local. UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides

Análisis Global y Local. UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daiana Ramírez Benaides Análisis Global Realiza la expansión basado en la construcción de tesauros utilizando la colección completa de documentos

Más detalles

Modelos Clásicos de RI. UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides

Modelos Clásicos de RI. UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides Modelos Clásicos de RI UCR ECCI CI-2414 Recuperación de Información Prof. Kryscia Daviana Ramírez Benavides Características de los Modelos Clásicos Los documentos se describen a través de un conjunto de

Más detalles

Reconocimiento de Formas

Reconocimiento de Formas Reconocimiento de Formas Técnicas no Supervisadas: clustering José Martínez Sotoca Objetivo: Estudio de la estructura de un conjunto de datos, división en agrupaciones. Características: Homogeneidad o

Más detalles

Sistema Automático de Reconocimiento Fonético

Sistema Automático de Reconocimiento Fonético PROYECTO FIN DE CARRERA para la obtención del título de Ingeniero Industrial Sistema Automático de Reconocimiento Fonético Alumno: Francisco José Cadaval Arrola Tutor: Dr. J. Ramiro Martínez de Dios Departamento

Más detalles

EL ALMACENAMIENTO DE LA INFORMACIÓN

EL ALMACENAMIENTO DE LA INFORMACIÓN EL ALMACENAMIENTO DE LA INFORMACIÓN INFORMACIÓN : MATERIA PRIMA DE TODA ORGANIZACIÓN INFORMACIÓN DE CALIDAD = INFORMACIÓN ÚTIL PROCESAR LA INFORMACIÓN: EFICACIA y EFICIENCIA BURÓTICA: Conjunto de fases

Más detalles

PROGRAMA DE CURSO. Horas Docencia Horas de Trabajo Horas de Cátedra Docentes ,5 5,5. Resultados de Aprendizaje

PROGRAMA DE CURSO. Horas Docencia Horas de Trabajo Horas de Cátedra Docentes ,5 5,5. Resultados de Aprendizaje PROGRAMA DE CURSO Código Nombre CC5113 Aprendizaje Automático Bayesiano Nombre en Inglés Bayesian Machine Learning SCT Unidades Horas Docencia Horas de Trabajo Horas de Cátedra Docentes Auxiliar Personal

Más detalles

Asignaturas Temas Asignaturas Temas

Asignaturas Temas Asignaturas Temas 1 Datos de la Asignatura Nombre de la asignatura: Carrera: Clave de la asignatura: Reconocimiento de Patrones Ingeniería en Sistemas CIE-0701 Horas teoría / práctica / Créditos: 2 2 6 2 Historia del Programa

Más detalles

La organización del conocimiento en el contexto digital: un abordaje desde las bibliotecas y sus entornos informativos. Dr. Gustavo Liberatore

La organización del conocimiento en el contexto digital: un abordaje desde las bibliotecas y sus entornos informativos. Dr. Gustavo Liberatore La organización del conocimiento en el contexto digital: un abordaje desde las bibliotecas y sus entornos informativos Dr. Gustavo Liberatore A qué llamamos organización del conocimiento? Desde la perspectiva

Más detalles

Máster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL

Máster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL ANÁLISIS CLUSTERS C U R S O TÉCNICAS MULTIVARIANTES Prof. Dr. Ángel Luís LUCENDO MONEDERO 1 http://www.geografia.us.es/ Tema 2. INTRODUCCIÓN N AL ANÁLISIS CLUSTER 2.1 Consideraciones generales. Clasificación

Más detalles

FUNDAMENTOS Y APLICACIONES DE APRENDIZAJE AUTOMÁTICO

FUNDAMENTOS Y APLICACIONES DE APRENDIZAJE AUTOMÁTICO FUNDAMENTOS Y APLICACIONES DE APRENDIZAJE AUTOMÁTICO Año 2016 Carrera/ Plan: Licenciatura en Informática Plan 2015 Licenciatura en Sistemas Plan 2015 Licenciatura en Informática Plan 2003-07/Plan 2012

Más detalles

Hacia un método de Agrupamiento Semántico de Textos basado en Modelos de Reglas Lógicas. Problema. Aproximaciones actuales. Aproximaciones actuales

Hacia un método de Agrupamiento Semántico de Textos basado en Modelos de Reglas Lógicas. Problema. Aproximaciones actuales. Aproximaciones actuales Hacia un método de Agrupamiento Semántico de Textos basado en Modelos de Reglas Lógicas J. Eduardo Casillas Problema El alcance de la mayoría de los métodos de cálculo de Distancias Semánticas entre textos

Más detalles

Clustering. Departamento de Ingeniería Informática y de Sistemas Universidad de La Laguna

Clustering. Departamento de Ingeniería Informática y de Sistemas Universidad de La Laguna Clustering Christopher Expósito Izquierdo Airam Expósito Márquez Israel López Plata Belén Melián Batista J. Marcos Moreno Vega {cexposit, aexposim, ilopezpl, mbmelian, jmmoreno}@ull.edu.es Departamento

Más detalles

Ordenamiento y Búsqueda

Ordenamiento y Búsqueda Ordenamiento y Búsqueda Facultad de Ciencias de la Computación Juan Carlos Conde R. Object-Oriented Programming I Contenido 1 Introducción 2 Intercambio directo 3 Inserción directa 4 Selección directa

Más detalles

A. Códigos. Clasificación supervisada

A. Códigos. Clasificación supervisada Apéndice A. Códigos A continuación se presentan los códigos de las funciones de las memorias asociativas geométricas. Estos códigos se presentan en sintaxis de MatLab, por ser más entible matemáticamente

Más detalles

Minería de datos 1. por José A. Lozano, Universidad del País VascoEuskal Herriko. 1. Introducción

Minería de datos 1. por José A. Lozano, Universidad del País VascoEuskal Herriko. 1. Introducción Minería de datos 1 por José A. Lozano, Universidad del País VascoEuskal Herriko Unibertsitatea 1. Introducción La minería de datos (ver [1] y [2]) es un área que se encuentra en la intersección de diversas

Más detalles

SISTEMA DE CLASIFICACIÓN AUTOMÁTICA DE CRÍTICAS DE CINE

SISTEMA DE CLASIFICACIÓN AUTOMÁTICA DE CRÍTICAS DE CINE UNIVERSIDAD CARLOS III DE MADRID ESCUELA POLITÉCNICA SUPERIOR SISTEMA DE CLASIFICACIÓN AUTOMÁTICA DE CRÍTICAS DE CINE PROYECTO FIN DE CARRERA INGENIERÍA SUPERIOR DE TELECOMUNICACIÓN Autora: Miriam Martín

Más detalles

SISTEMAS INTELIGENTES

SISTEMAS INTELIGENTES SISTEMAS INTELIGENTES T12: Aprendizaje no Supervisado {jdiez, juanjo} @ aic.uniovi.es Índice Aprendizaje no Supervisado Clustering Tipos de clustering Algoritmos Dendogramas 1-NN K-means E-M Mapas auto-organizados

Más detalles

Segmentación de imágenes biomédicas

Segmentación de imágenes biomédicas Segmentación de imágenes biomédicas Definición de segmentación La segmentación es la partición de una imagen, en un subconjunto regiones homogéneas en base a una característica (intensidad, textura,...).

Más detalles

Redes Neuronales Artificiales

Redes Neuronales Artificiales Red de Hopfield Almacenar un conjunto de p patrones de forma tal que cuando se presente un nuevo patrón, la red responda produciendo alguno de los patrones previamente almacenados que más se parezca al

Más detalles

Métodos no supervisados: Agrupamiento

Métodos no supervisados: Agrupamiento Métodos no supervisados: Agrupamiento Agrupamiento clustering- Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Introducción. Basados en particiones 3. Métodos

Más detalles

INTELIGENCIA ARTIFICAL COMO HERRAMIENTA EN LA TOMA DE DECISIONES. Tecnología i3b

INTELIGENCIA ARTIFICAL COMO HERRAMIENTA EN LA TOMA DE DECISIONES. Tecnología i3b INTELIGENCIA ARTIFICAL COMO HERRAMIENTA EN LA TOMA DE DECISIONES Tecnología i3b G R U P O I B E R M Á T I C A Introducción Objetivos Puntos de información y de estudio Tipos de análisis Análisis proactivo

Más detalles

INFORME TAREA N 4 CLUSTERING

INFORME TAREA N 4 CLUSTERING Universidad de Chile Facultad de Ciencias Físicas y Matemáticas Departamento de Ingeniería Eléctrica EL4106 Inteligencia Computacional INFORME TAREA N 4 CLUSTERING Nombre Alumno : Profesor : Profesor Auxiliar

Más detalles

Prueba II. Procesamiento Digital de Imágenes

Prueba II. Procesamiento Digital de Imágenes Prueba II Procesamiento Digital de Imágenes Nombre: Firma: Fecha: /nov/2005.- Escriba el pseudo código para implementar la operación morfológica dilatación, con el siguiente elemento estructurante : función

Más detalles

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

IAAE - Inteligencia Artificial Aplicada a la Ingeniería Unidad responsable: Unidad que imparte: Curso: Titulación: Créditos ECTS: 2016 295 - EEBE - Escuela de Ingeniería de Barcelona Este 723 - CS - Departamento de Ciencias de la Computación GRADO EN INGENIERÍA

Más detalles

Introducción a la minería de datos

Introducción a la minería de datos Introducción a la minería de datos 1 Temario Qué es minería de datos? Quién usa minería de datos? Por qué de la minería de datos? Ciclo virtuoso de la minería de datos 2 Definición de minería de datos

Más detalles

Inteligencia Computacional II Mapas auto-organizados

Inteligencia Computacional II Mapas auto-organizados Inteligencia Computacional II Mapas auto-organizados Dra. Ma. del Pilar Gómez Gil Ciencias Computacionales, INAOE pgomez@inaoep.mx Versión: 17-Junio-2015 (c) P. Gómez Gil. INAOE 2015 1 Auto-Organización

Más detalles

Sistemas Inteligentes. Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias.

Sistemas Inteligentes. Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias. Sistemas Inteligentes Escuela Técnica Superior de Informática Universitat Politècnica de València Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias. Índice 1 Introducción 1 2 Agrupamientos particionales

Más detalles

Juan Ríos Gutiérrez Detección automática de exudados duros en imágenes de retina. Un enfoque a nivel de píxel

Juan Ríos Gutiérrez Detección automática de exudados duros en imágenes de retina. Un enfoque a nivel de píxel 2. Estado del arte. Numerosos trabajos y metodologías han sido presentados sobre la detección de exudados duros en imágenes de fondo de ojo. En la literatura encontrada se plantea casi de forma unánime

Más detalles

PERSONALIZACIÓN EN SERVICIOS DE NOTICIAS

PERSONALIZACIÓN EN SERVICIOS DE NOTICIAS PERSONALIZACIÓN EN SERVICIOS DE NOTICIAS Alberto Díaz Esteban Departamento de Ingeniería del Software e Inteligencia Artificial Universidad Complutense de Madrid Resumen Los contenidos Web aparecen de

Más detalles

Clasificación Jerárquica Ascendente Presentación #1. [ U n a i n t r o d u c c i ó n ]

Clasificación Jerárquica Ascendente Presentación #1. [ U n a i n t r o d u c c i ó n ] Clasificación Jerárquica Ascendente Presentación #1 [ U n a i n t r o d u c c i ó n ] Clasificación Jerárquica Clasificación Automática La clasificación automática tiene por objetivo reconocer grupos de

Más detalles

Examen Parcial. Attr1: A, B Attr2: A, B, C Attr3 1, 2, 3 Attr4; a, b Attr5: 1, 2, 3, 4

Examen Parcial. Attr1: A, B Attr2: A, B, C Attr3 1, 2, 3 Attr4; a, b Attr5: 1, 2, 3, 4 Aprenentatge 0-03 Q Examen Parcial Nombre: (Examen ) Instrucciones. (0 puntos) Este examen dura horas. Responded todas las preguntas en estas hojas. Para las preguntas test poned un circulo alrededor de

Más detalles

Introducción a las técnicas de Análisis Multivariante

Introducción a las técnicas de Análisis Multivariante Introducción a las técnicas de Análisis Multivariante Dagoberto Salgado Horta Universidad del Tolima Dagoberto Salgado Horta 1 Análisis multivariante Objetivo: estudio de varias variables simultáneamente:

Más detalles

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores Análisis de Datos Introducción al aprendizaje supervisado Profesor: Dr. Wilfrido Gómez Flores 1 Conceptos básicos Reconocimiento de patrones (RP): clasificar objetos en un número de categorías o clases.

Más detalles

CLASIFICACIÓN PROBLEMA SOLUCIÓN

CLASIFICACIÓN PROBLEMA SOLUCIÓN Capítulo 7 Análisis Cluster CLASIFICACIÓN Asignar objetos en su lugar correspondiente dentro de un conjunto de categorías establecidas o no. PROBLEMA Dado un conjunto de m objetos (animales, plantas, minerales...),

Más detalles

REDES NEURONALES NO SUPERVISADAS

REDES NEURONALES NO SUPERVISADAS Redes no supervisadas REDES NEURONALES NO SUPERVISADAS Redes no supervisadas El cerebro tiene la capacidad de auto-organizarse a partir de los estímulos recibidos y esto lo logra de manera no supervisada.

Más detalles

Sistemas de Reconocimiento de Patrones

Sistemas de Reconocimiento de Patrones Sistemas de Reconocimiento de Patrones p. 1/33 Sistemas de Reconocimiento de Patrones Luis Vázquez GTI - IIE Facultad de Ingeniería Universidad de la República Sistemas de Reconocimiento de Patrones p.

Más detalles

VQ. Algorítmica de reconocimiento de voz VQ.1. Reconocimiento de patrones

VQ. Algorítmica de reconocimiento de voz VQ.1. Reconocimiento de patrones VQ. Algorítmica de reconocimiento de voz VQ.1. Reconocimiento de patrones Por reconocimiento de patrones se entiende la realización de una comparación entre una muestra representativa de la señal de voz,

Más detalles

ALGUNOS COMENTARIOS SOBRE GENERALIZACION EN BACKPROPAGATION

ALGUNOS COMENTARIOS SOBRE GENERALIZACION EN BACKPROPAGATION ALGUNOS COMENTARIOS SOBRE GENERALIZACION EN BACKPROPAGATION En una RN entrenada, si las salidas calculadas por la red con nuevos ejemplos están próimas a los valores deseados, hay generalización (Haykin,

Más detalles

Introducción a Minería de Texto. Fabián Latorre

Introducción a Minería de Texto. Fabián Latorre Introducción a Minería de Texto Fabián Latorre fabian.latorre@quantil.com.co Contenido Qué es la minería de texto? Por qué es relevante? Por qué la estudiamos? Aplicaciones La complejidad del texto no

Más detalles