CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)



Documentos relacionados
Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

CLASIFICACIÓN NO SUPERVISADA

5.4. Manual de usuario

5.1. Redes de aprendizaje supervisado basadas en la cuantificación vectorial. Curso de doctoramiento Técnicas de Computación Flexíbeis

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Capitulo 3. Desarrollo del Software

Redes de Kohonen y la Determinación Genética de las Clases

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco

Base de datos II Facultad de Ingeniería. Escuela de computación.

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

MANUAL DE USUARIO PLAN GENÉRICO DE AUTOCONTROL EN HOSTELERÍA ASOCIACIÓN DE EMPRESARIOS DE HOSTELERÍA DE GIPUZKOA 1

x

Una investigación australiana reveló que posiblemente la disminución

MÁQUINA DE VECTORES DE SOPORTE

Creación de usuarios Acceso a Alexia

MANUAL DE AYUDA. SAT Móvil (Movilidad del Servicio Técnico)

Manual para la utilización de PrestaShop

SEO PARA PRINCIPIANTES

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

Enterprise Resource Planning (ERP) SISTEMA DE PLANEACIÓN DE RECURSOS MASTER: ALFREDO CASTRO JIMENEZ

GedicoPDA: software de preventa

Introducción. Definición de los presupuestos

Base de datos en Excel

Tema 7. Introducción al reconocimiento de objetos

ADT CONSULTING S.L. PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Introducción a las redes de computadores

Región de Murcia Consejería de Educación, Ciencia e Investigación. Manual Usuario FCT

Gestión de Oportunidades

Gestión de Permisos. Bizagi Suite. Copyright 2014 Bizagi

Práctica 11 SVM. Máquinas de Vectores Soporte

MANUAL DE AYUDA HERRAMIENTA DE APROVISIONAMIENTO

TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones.

SISTEMAS DE SEGURIDAD DE RECONOCIMIENTO FACIAL

1.1. Introducción y conceptos básicos

Test de Idioma Francés. Manual del evaluador

Hi-Spins. Hi-Spins - Novedades v

Funcionalidades Software PROYECTOS GotelGest.Net Software para la gestión de Proyectos GotelGest.Net

ARREGLOS DEFINICION GENERAL DE ARREGLO

Programa diseñado y creado por Art-Tronic Promotora Audiovisual, S.L.

Sistema Inteligente de Exploración

Mesa de Ayuda Interna

Speed EAM La información a un clic

- MANUAL DE USUARIO -

Covarianza y coeficiente de correlación

GESTIÓN DE CLÍNICAS COLEGIO OFICIAL DE VETERINARIOS DE BIZKAIA

GUÍA RÁPIDA DE TRABAJOS CON ARCHIVOS.

GUÍA REDES SOCIALES E INTERNET

FAQ Parking PPC de SEDO. NicLine

Sistemas de Información Geográficos (SIG o GIS)

MODELOS DE RECUPERACION

TEMA 1. Introducción

GMAIL (avanzado) 1. Accede a la web de Gmail, Te destacamos las funcionalidades que vamos a enseñarte a. 2. Vamos a enseñarte a:

BARRA DE MENÚ, BÚSQUEDA Y SELECTOR DE PRODUCTO

CRM para ipad Manual para Usuario

El objetivo principal del presente curso es proporcionar a sus alumnos los conocimientos y las herramientas básicas para la gestión de proyectos.

(Soluciones ADSL e-comercio) GUIA DE USUARIO Versión 2.0

Gestión de proyectos

App para realizar consultas al Sistema de Información Estadística de Castilla y León

CAPITULO 6 SISTEMA DE DETECCION DE INTRUSOS

Sitios remotos. Configurar un Sitio Remoto

ing Solution La forma más efectiva de llegar a sus clientes.

FORMAS DE ORGANIZAR LA INFORMACIÓN. Esquema circular (algorítmico)

SISTEMA DE INFORMACIÓN GEOGRÁFICA CATASTRO VIRTUAL. Gerencia de Desarrollo Urbano y Medio Ambiente Subgerencia de Catastro

SISTEMAS INTELIGENTES

Reseñas. Ángeles Maldonado y Elena Fernández, Cindoc. El profesional de la información, vol. 9, nº 3, marzo de 2000

Etapas de Sinube CRM

Palabras Clave. Estrategias y Optimización para Distintos Presupuestos. Davir Bonilla Usuario Destacado de la

de la empresa Al finalizar la unidad, el alumno:

Paso 1 de 13. Paso 2 de 13. Guía de aprendizaje de Flash CS5 Tutorial 3. Creación de un logotipo textual.


MANUAL CENTRO DE SOPORTE PARA USUARIOS

Qué es una página web?, qué conoces al respecto?, sabes crear una página

Resumen ÁREA DE FACTURACIÓN::INFORMES::Pedidos Detalle Resumen ÁREA DE

Sistemas de Recuperación de Información

MAPAS AUTOORGANIZATIVOS Y MODELOS SIMILARES

Los servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc.

CUADRO DE MANDO INTEGRAL PARA LA GESTIÓN DE SERVICIOS TI DE ADMINISTRACIÓN ELECTRÓNICA

[8 ] Contenidos: tipologías y organización.

Tema 9: Portales, Índices,

Guía de pasos para la implementación de Sincronet.

Instituto Politécnico Nacional. Escuela Superior de Turismo

SOFTWARE DE CONTROL DE CALIDAD DE MANTENIMIENTO Y LIMPIEZA

Área Académica: ICBI, Sistemas Computacionales. Profesor: M.C.C Víctor Tomás Tomás Mariano

Sistema de SaaS (Software as a Service) para centros educativos

Análisis y síntesis El proceso documental Lenguajes documentales El proceso de indización El resumen documental

MANUAL DE AYUDA HERRAMIENTA DE APROVISIONAMIENTO

Ajustes del Curso en egela (Moodle 2.5)

Introducción a la plataforma Moodle Aníbal de la Torre Plataforma Moodle. Accediendo a los contenidos

Introducción a Spamina

Capítulo 9. Archivos de sintaxis

MANUAL DE USUARIO INTRANET

CATÁLOGO CATÁLOGO CATÁLOGO CATÁLOGO CATÁLOGO

COMUNICADO Nro /11/2010. Ref.: Tarjetas de crédito. Tasas y costos promedio de las tarjetas de crédito a agosto de Tarjetas de Crédito

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Maxpho Commerce 11. Gestión CSV. Fecha: 20 Septiembre 2011 Versión : 1.1 Autor: Maxpho Ltd

COMO LLEVAR LOS LIBROS Y/O REGISTROS ELECTRONICOS. RES. N /SUNAT modificada por la RES: N /SUNAT

Indicaciones específicas para los análisis estadísticos.

Manual de Usuario Comprador Presupuesto

Transcripción:

CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com

Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE (SUPERVISADO VS NO SUPERVISADO) 4 APRENDIZAJE SUPERVISADO 4 APRENDIZAJE NO SUPERVISADO 4 APRENDIZAJE Y ENTRENAMIENTO 5 CLASIFICACIÓN 6 DIVISIÓN EN LAS TÉCNICAS DE CLASIFICACIÓN 6 PARÁMETROS 6 TIPOS DE CLASIFICADORES 7 K-MEDIAS 8 ENTRENAMIENTO 8 VALIDACIÓN 8 MAPAS AUTOORGANIZATIVOS (KOHONEN) 9 PROCEDIMIENTO 9 VECINDARIOS 11 CARACTERÍSTICAS 11 HERRAMIENTAS 11 BUSCADORES 12 CONCEPTOS 12 TÉCNICAS PARA RESUMEN (EMPLEADAS EN CLUSTERING) 12 BASADAS EN LA SUPERFICIE DEL TEXTO 12 BASADAS EN LOS TÉRMINOS DEL TEXTO 12 BASADAS EN LA ESTRUCTURA DEL DISCURSO 13 CLUSTERING Y BUSCADORES 13 REFERENCIAS 14 REFERENCIAS 15 REFERENCIAS 16 Página 2 de 16

Introducción Uno de los principales problemas a los que se enfrenta la sociedad de la información, en la actualidad, es la gestión óptima y productiva de la documentación disponible. En otras palabras, diariamente se generan grandes cantidades de datos y es imprescindible establecer técnicas que nos ayuden a localizar, lo antes posible, la información que nos resulta relevante según nuestras necesidades. En resumen, es necesaria una correcta organización de la información para que su recuperación sea lo más completa posible. Es en este punto donde entran en juego los sistemas de resumen automático de documentos, empleados para optimizar el tratamiento (obtención, filtrado, clasificado y extracción) de la información (en cualquier idioma), a fin de poder proporcionar al usuario, de forma eficaz y eficiente, exclusivamente los datos que precisa. Éste es un problema tradicional de Inteligencia Artificial en el ámbito del Aprendizaje Automático: la Clasificación automática. Resumen del contenido Las técnicas de clasificación automática se pueden agrupar inicialmente como supervisadas o no supervisadas y, aunque en esta página se va a hacer especial hincapié en las segundas, se proporciona una breve descripción de ambas. Conocida la diferencia entre ambas técnicas es más fácil introducirnos en la descripción de los clasificadores, determinando a qué dominios se aplican en la actualidad, que parámetros lo configuran y que tipo son los más usados. Además en esta Web se dispone de información sobre dos de los clasificadores no supervisados más conocidos y empleados en la organización (y recuperación) de la información: k-medias y los mapas auto-organizativos de Kohonen. Por último se establece la relación entre los conocimientos teóricos listados anteriormente y la labor que realizan los buscadores para poder dar los resultados que más se ajusten a nuestras necesidades al realiza una consulta. Página 3 de 16

Aprendizaje (Supervisado VS no supervisado) A continuación se detalla una breve descripción de ambos tipos de aprendizaje, más adelante se comenta el principal problema en el entrenamiento de redes de neuronas artificiales: el sobreajuste. Aprendizaje supervisado necesita un profesor que mida el funcionamiento del sistema maneja información de error o de control esta información se emplea para guiar al sistema. Hay varios algoritmos que establecen cómo se realiza esta retroalimentación, el más conocido o empleado es el backtracking Aprendizaje no supervisado no utiliza información externa reajuste automático de los parámetros autoorganización de la información Página 4 de 16

Aprendizaje y entrenamiento Cuando se está entrenando una red es imprescindible establecer una condición de parada óptima que minimice el error pero evitando, en todo momento, el sobreajuste (overfitting). que se produce cuando una red es incapaz de generalizar para casos nuevos. Para evitar que esto ocurra se recomienda dividir el conjunto de ejemplos disponibles: Conjunto de entrenamiento: usado para ajustar el valor de los pesos de la red Conjunto de validación: usado para medir la eficacia de la red. Debe ser: o Significativo (debe contener ejemplos pertenecientes a todas las clases establecidas) o Representativo (debe guardar la relación existente entre los ejemplos del conjunto de entrenamiento) Página 5 de 16

Clasificación Algunos de los dominios en los que la clasificación automática se emplea: Visión artificial (reconocimiento de caras) Reconocimiento de caracteres Clasificación de documentos Reconocimiento del habla Una de las principales características de la clasificación automática, que la hacen tan atractiva para la recuperación y organización de la información de los documentos, es su rapidez y su capacidad de síntesis de datos relevantes en la toma de decisiones. División en las técnicas de clasificación Clasificación o A partir del conocimiento de la existencia de un conjunto de clases, determinar la regla para asignar cada nueva observación (o ejemplo) a la clase que pertenece o Determina reglas de asignación a clases conocidas o Aprendizaje supervisado Agrupamiento (clustering) o A partir de una serie de observaciones determina si existen clases en las que dichas observaciones puedan ser agrupadas o Determinar la existencia de clases en las que agrupar (número y características de las clases desconocidas a priori) o Aprendizaje no supervisado Parámetros La elección del tipo de clasificador viene supeditada tanto al dominio del problema a tratar como a los parámetros que tengan más relevancia según dicho dominio. En el caso de la recuperación de la información se consideran primordiales los dos primeros. Calidad (capacidad de acierto de la regla o del clasificador. Errores de clasificación: falso positivo y falso negativo) Velocidad (velocidad de respuesta crítica aunque se pierda calidad) Página 6 de 16

Explicabilidad (información sobre qué está ocurriendo con el clasificador y el por qué de la aplicación de ciertas operaciones) Tiempo de aprendizaje (en entornos cambiantes es necesario modificar las reglas de funcionamiento) Tipos de clasificadores Discriminantes lineales / no lineales o Dividen el espacio de estados en regiones (definidas por el corte de hiperplanos) teniendo cuidado de establecer una clase por región o Por ejemplo: Discriminantes lineales, discriminantes logísticos, discriminantes cuadráticos, redes de neuronas Métodos basados en reglas o Dividen el espacio de estados de forma recursiva estableciendo dos bloques a partir de cada atributo o Cada bloque puede ser subdividido con la ayuda de otro atributo o Proceso repetido hasta que no mejora la clasificación estableciéndose una regla por atributo o La unión de reglas define el clasificador o Por ejemplo: ID3, AC2, Cal5, CN2, C4.5, CART, Árboles de Bayes, Regla IT Métodos de estimación de densidades o Fijan para cada región del espacio la probabilidad de que un elemento situado en ella pertenezca a una clase o Clasificación por vecindad (ante un nuevo patrón se le asigna la clase más probable en función de la distancia que le separe de los prototipos designados). Por ejemplo: K-medias (no supervisada), K-vecinos (supervisada), LVQ (supervisada) o Funciones de base radial o Naive Bayes o Poliárboles o Mapas autoorganizativos de Kohonen Página 7 de 16

K-medias Clasificación por vecindad no supervisada Parte de patrones (observaciones) sin etiquetar y un número de prototipos definido (por el diseñador del clasificador). El espacio de entrada se divide en k clases y k prototipos Mueve los prototipos una vez ha realizado el aprendizaje con todas las observaciones Entrenamiento El objetivo de este algoritmo es intentar situar los prototipos de forma tal que aquellos patrones cercanos (distancia euclídea) sean similares entre sí. Minimizar distancia entre patrón y prototipo Calcular si el patrón pertenece o no a un prototipo (1 si pertenece y 0 en caso contrario) Desplazamiento de los prototipos al centro formado por los patrones que representan Validación Ante un nuevo dato el sistema simplemente lo comparará con los prototipos y lo clasificará según la clase definida para el más cercano. Entrenamiento potencialmente lento y clasificación rápida Página 8 de 16

Mapas autoorganizativos (Kohonen) Clasificación no supervisada Redes de neuronas de dos capas: Cada neurona de competición es una categoría Cada neurona de entrada está conectada con cada una de las células de la capa de competición (células que se distribuyen inicialmente de forma aleatoria) Para cada ejemplo se calcula la salida de cada célula de competición y nos quedamos con la mejor (ganadora) Procedimiento 1. Se recibe el ejemplo de entrada (n-dimensional) Los ejemplos son representables como puntos en un espacio n- dimensional. 2. Se propaga por las conexiones hasta llegar a la capa de competición (competición que se realiza en base a un modelo de interacción lateral) Los prototipos también se pueden representar en el espacio y sus Página 9 de 16

coordenadas quedan determinadas por los pesos de las neuronas de la capa de competición 3. Cada célula de esta capa de competición produce una salida al comparar el ejemplo con sus pesos 4. Se selecciona el prototipo cuya distancia al ejemplo sea menor (célula ganadora) 5. Los pesos de la célula ganadora se modifican para acercarse ligeramente al ejemplo modificando así el mapa de prototipos inicial Página 10 de 16

Vecindarios Cuando se trata de los mapas autoorganizativos de Kohonen no sólo importa la distancia del ejemplo a los distintos prototipos existentes sino también la clase a la que pertenecen los ejemplos cercanos. Por esta razón es útil el concepto de vecindario en esta técnica. Los vecindarios más empleados son los rectangulares o los hexagonales. Características Los prototipos se desplazan según se van procesando los ejemplos (al contrario que en k-medias) El aprendizaje es más rápido y eficaz No requiere aprendizaje en el procesamiento de datos nuevos Herramientas En la siguiente página (no oficial) se puede descargar un conjunto de programas empleados para el aprendizaje de los mapas de Kohonen. Este conjunto de programas recibe el nombre de SOM_PAK. Neural Networks Research Centre (Public domain program packages) Página 11 de 16

Buscadores Ahora vamos a centrarnos en el uso del clustering como técnica para, en base a la recuperación y organización de la información, obtener el máximo aprovechamiento de la información digital disponible. Conceptos Recuperación de información (dado un conjunto amplio de datos se obtienen aquellos que cumplan determinados criterios -palabras clave-) Extracción de información (obtiene la información relevante de uno o varios documentos) Clustering (crea, de forma automática, clasificaciones de documentos a partir de similitudes en su contenido) Cluster (agrupación de elementos con características similares) Resumen (términos más utilizados dentro de un documento y/o similitudes entre varios documentos) Técnicas para resumen (empleadas en clustering) Técnicas utilizadas para obtener un resumen de uno o varios documentos ya sea por una búsqueda, aplicación de un filtro o simplemente la necesidad de clasificarlo. Basadas en la superficie del texto No se realiza análisis lingüístico Trata el texto como una cadena de caracteres Clásicamente selecciona los términos estadísticamente más frecuentes en el documento Selecciona como resumen las oraciones con el mayor número de términos más frecuentes del documento La posición de los elementos en el texto (títulos, párrafos...) también es relevante Basadas en los términos del texto Reconocimiento y clasificación del léxico utilizado Permite reconocer unidades lingüísticas (nombre, verbo...) Emplea analizadores morfológicos y desambiguadores léxicos Página 12 de 16

Establece relaciones entre términos (semánticas y temáticas) Basadas en la estructura del discurso Requieren algún tipo de tratamiento estructural del documento Detecta los fragmentos del discurso más relevantes Para poder crear los clusters, los documentos se representan como vectores de términos (cuyo tamaño es igual al del vocabulario del conjunto recuperado tras el análisis del documento). Clustering y buscadores Debido al gran volumen de información que hay que procesar, junto con la eficacia y eficiencia solicitadas a los buscadores, el uso de técnicas de clustering ha supuesto una gran mejora en los resultados proporcionados por los buscadores. Los tres primeros (Vivisimo, Clusty y iboogie) usan exclusivamente agrupación para mostrar los documentos en categorías según la cantidad de términos que coinciden en sus textos. Kartoo en cambio no sólo se centra en la creación de clusters, a partir de la documentación disponible y en base a la búsqueda realizada, sino que también representa gráficamente los resultados obtenidos en forma de mapa. Para probar el funcionamiento de los 4 buscadores (cómo realizan y presentan los resultados) vamos a realizar una búsqueda guiada "clasificacion no supervisada". Como se puede apreciar todos los buscadores realizan agrupamientos de términos similares si bien es cierto que la representación de resultados de Kartoo resulta más espectacular. Vivisimo (ahora es Clusty) Clusty iboogie Kartoo Página 13 de 16

Página 14 de 16

Página 15 de 16

Referencias Páginas que me han sido muy útiles no sólo para documentar el contenido del sitio sino también para la estructura, estilo y posicionamiento del mismo. Scalab (grupos de investigación del departamento de informática de la Universidad Carlos III) Sistemas de resumen automático de documentos Browsing y clustering Página 16 de 16