Data SOMining: Software para el Descubrimiento de Conocimiento en Grandes Bases de Datos de Información Científico-Tecnológica

Data SOMining: Software para el Descubrimiento de Conocimiento en Grandes Bases de Datos de Información Científico-Tecnológica Data SOMining: Software for Knowledge Discovery in Databases of Scientific-Technological Information Trejo-Avila, MC*; Villaseñor-García, EA*; Guzmán-Sánchez, MV**; Carrillo-Calvet, H* Martínez de la Escalera-Castells, N* *Laboratorio de Dinámica No Lineal, Facultad de Ciencias, UNAM, Circuito Exterior Ciudad Universitaria 04510, México D.F. // **Instituto Finlay. La Habana, Cuba. e-mail: mary@ciencias.unam.mx Resumen Como respuesta a las problemáticas asociadas al análisis de información y al Descubrimiento de Conocimiento en Bases de Datos (KDD, por sus siglas en inglés) se comienza el desarrollo e implementación de metodologías y herramientas automatizadas que permitan procesar grandes cúmulos de información. ViBlioSOM es una metodología surgida con esos propósitos y ha sido una propuesta válida para el análisis y evaluación de la información científica y tecnológica. Reconociendo estas aportaciones se decide crear un sistema, llamado Data SOMining, que modela cada una de las fases de esta metodología. El objetivo de este trabajo es mostrar y explicar un software (Data SOMining) de minería de datos con un enfoque neurocomputacional que permite realizar análisis bibliométricos y que a su vez permite integrar cada uno de los módulos de ViBlioSOM en un sistema de software. Se ofrecen algunos experimentos realizados con el Data SOMining, por ejemplo el estudio de los términos MeSH pertenecientes a la subcategoría Ciencias Biológicas desde la perspectiva de la subcategoría de Matemáticas. Palabras clave: bibliometría, minería de datos, red neuronal SOM, software automatizado. 1. Introducción. El vertiginoso desarrollo de nuevas tecnologías en el terreno de la informática, nos da acceso a grandes volúmenes de datos en cualquier tema y con relativa facilidad. Este hecho, hace que exista la errónea percepción de que al disponerse de mayor cantidad de datos, automáticamente disponemos de mayor información útil. Esto es relativo, ya que los datos por sí mismos no nos aportan conocimiento que es justamente lo que se desea extraer de ellos. De hecho, es un reto traducir esta gran cantidad de información en conocimiento útil. 1

Por lo anterior, es que Fayyad, Spahiro y Smyth (1996) plantean que es necesario generar nuevas técnicas computacionales y herramientas que asistan a los humanos en la extracción de información útil (conocimiento) de grandes volúmenes de datos. El desarrollo de las nuevas técnicas de análisis, el abordaje de las problemáticas asociadas a la creación de bases de datos, las normalizaciones y los ruidos (inconsistencia, redundancia o duplicidad) en los datos, el desarrollo de software vinculados a estas problemáticas, etc., permitió el surgimiento de todo un andamiaje conceptual. Dos de los más comunes son relacionados con el Descubrimiento de Conocimiento en Bases de Datos (Knowledge Discovery in Databases, KDD) y una de sus fases la Minería de Datos (Data Mining, DM). Se entiende actualmente a KDD como el proceso, que se encarga de la preparación de los datos y la interpretación de los resultados obtenidos, los cuales permiten que dichos datos adquieran un sentido y aporten un nuevo conocimiento. Mientras que la minería de datos es el proceso de descubrir patrones de información interesante y potencialmente útil, inmerso en una gran base de datos. La obtención de dichos patrones por sí solo muchas veces no proporciona el conocimiento deseado, pues a simple vista se hace difícil observar la estructura, el comportamiento o la topología de los resultados del procesamiento. Sobre todo si se considera que estos habitan regularmente en espacios multidimensionales. Ante estas circunstancias, las técnicas de visualización de datos son parte del propio proceso de KDD, una de las más usadas son las Redes Neuronales Artificiales (Artificial Neural Networks, ANN), en el contexto del análisis de información bibliográfica, las ideadas por Teuvo Kohonen (1995) son muy promisorias (Skupin, 2001), (Skupin, 2004). Kohonen presenta la red neuronal Self-Organizing Map o SOM, clasificada dentro de las redes neuronales de aprendizaje no supervisado y entrenamiento competitivo. El algoritmo de aprendizaje de la red SOM, puede definirse como un algoritmo para la visualización de datos multidimensionales que implementa un mapeo ordenado de una distribución multidimiensional en una malla regular de menor dimensión, que usualmente consiste de una malla de dos dimensiones (Kohonen, 1995). 2

En una gran cantidad de aplicaciones (Moya, et al.; 1998), (Chen, 2000), (Honkela, et al., 1996), (Skupin, 2004), se deja explícito que las visualizaciones (en forma de mapas topográficos) que se producen a partir del SOM resultan ser poderosas herramientas de análisis de datos, sobre todo bibliométricos. Cada una de las aplicaciones antes citadas y otras referidas en la literatura, muestran distintas herramientas automatizadas. Algunas de ellas tienen altos costos, otras tienen limitaciones en cuanto a los formatos para procesar o alimentar los sistemas (BD), no cubre todos los indicadores, etc. Es por ello que buscar alternativas válidas y desarrollos propios que se adapten a las necesidades de grupos de investigación o de sectores específicos es una iniciativa loable. Lo anterior unido a las limitaciones señaladas a la metodología ViBlioSOM como son: La complejidad que han alcanzando algunos ejercicios y casos reales sobrepasaban los límites de procesamiento de algunos de los módulos o software utilizados por ViBlioSOM. El hecho de disponer de diferentes módulos o software crea incertidumbre en los usuarios al tener que emigrar de unas interfaces a otra para realizar los análisis. El usuario de ViBlioSOM debe dominar varias plataformas automatizadas, lo que le da una complejidad adicional. Necesidad de hacer evolucionar dinámicamente los módulos del ViBlioSOM a los niveles de desarrollo que marchan las tecnologías de la información para hacerlos operables y optimizar sus niveles de procesamiento. Han hecho que ésta evolucione hacía la creación de un software integral, llamado Data SOMining. Enmarcado en este contexto, se persigue; como objetivo general de esta contribución mostrar y explicar un software (Data SOMining) de minería de datos con un enfoque neurocomputacional que permita realizar análisis bibliométricos y que a su vez permita integrar cada uno de los módulos de ViBlioSOM en un sistema de software. Se muestra, además, el funcionamiento del sistema a partir de algunos 3

experimentos como el estudio de los términos MeSH pertenecientes a la subcategoría Ciencias Biológicas desde la perspectiva de la subcategoría de Matemáticas. 2. Materiales y métodos. ViBlioSOM (Visualización Bibliometría Mapas Auto-Organizados (SOM)) (Sotolongo, Guzmán y Carrillo; 2002), (Sotolongo, et al., 2000), es una metodología abierta, basada en la utilización secuencial de distintos sistemas de software propietarios. ViBlioSOM se ha concebido como un proceso iterativo que modela cada fase del proceso KDD enfocado al análisis bibliométrico mediante el mapeo auto-organizado. El utilizar diversos sistemas ha remediado algunas de las necesidades de los usuarios, sin embargo no dejan de presentar ciertos inconvenientes. Debido a esto surge la necesidad de crear una herramienta propia que integre cada fase de ViBlioSOM; de esta manera, se plantea el desarrollo de Data SOMining. Data SOMining implementa como técnica de minería de datos el algoritmo básico de la red neuronal SOM, la cual permite la proyección de datos multidimensionales a una retícula bidimensional preservando la organización topológica del conjunto de datos original. Para implementar el sistema Data SOMining se usó TSP i (Team Software Process) tomando en cuenta las características de modularidad, incrementabilidad, funcionalidad y mantenibilidad. También se utilizó el paradigma orientado a objetos y el lenguaje de programación C# para construir el sistema; la plataforma que se utilizó para implementar es Visual Studio.NET. En el caso de las salidas gráficas se hizo uso de la interfaz proveída por el Framework.NET llamada GDI+. La arquitectura de los sistemas difiere según como está distribuido el código; para esta herramienta se empleo la arquitectura de tres capas: Capa de Interfaz Humana. (Interfaces) Capa de Dominio de Problema (Algoritmos) Capa de Manejo de Datos (Capa de persistencia) 4

Para la representación de estos elementos se empleo el Lenguaje de Modelado Unificado (Unified Model Language, UML). Para generar la documentación en formato de ayuda de Visual Studio.NET se utilizó NDoc. Dados los elementos teóricos en la metodología ViBlioSOM y las experiencias de los usuarios, el sistema cumple con las siguientes funcionalidades básicas: Adquisición de datos. Permite la recuperación de registros contenidos en la base de datos MedLine 1 por medio de peticiones de búsqueda. Procesamiento de datos. Permite la normalización de distintos campos de los registros recuperados, de forma automática, mediante el uso de tesauros, y/o manual. A su vez, permite la edición de archivos de tesauro. Transformaciones. Permite la creación de distintas matrices numéricas, a partir del contenido de los registros, que servirán como datos de entrada para la red neuronal SOM. Entrenamiento SOM. Permite el entrenamiento de la red neuronal SOM a partir de una determinada configuración. Visualización. Permite la generación de diversas visualizaciones para el apto análisis de la salida generada por el entrenamiento de la red neuronal SOM. También permite almacenar y recuperar las operaciones realizadas por el usuario, en un ambiente tipo escritorio. 4. Resultados. Se llevó a cabo un estudio de investigación en el que se deseaba evaluar la evolución y comportamiento de temas comprendidos en las Ciencias Biológicas desde la perspectiva de las Matemáticas en el intervalo de años de 1950 a 2004. 1 MedLine es una base de datos bibliográficos producida por la Biblioteca Nacional de Medicina de los Estados Unidos (Nacional Library of Medicine, NLM). 5

Se realizó una búsqueda avanzada, recuperando desde el portal de Entrez PubMed 2 los registros indizados con términos matemáticos que no estén indizados dentro de los temas estadísticos obteniendo 116,612 registros en total. Posteriormente se realiza una pequeña selección interesándonos en el campo Términos MeSH. Cabe señalar que no se hizo distinción entre el MeSH Principal (MeSH Major Tepic, MAJR 3 ) y los términos MeSH (MeSH Terms, MH 4 ). A partir de aquí obtenemos dos tablas de frecuencia; la primera de ellas contiene los siguientes términos de la subcategoría de Matemáticas: Mathematics; Algorithms; Finite Element Análisis; Fourier Análisis; Fractals; Game Theory; Games, Experimental; Mathematical Computing; Decision Support Techniques; Decision Theory; Decision Trees; Neural Networks (Computer) y Nonlinear Dynamics. En la segunda tabla contabilizamos todos los términos de la categoría de Ciencias Biológicas, la cual está compuesta por 14 subcategorías. Posteriormente y a partir de los datos de frecuencia, se calculó la matriz de coocurrencia obteniendo como resultado una matriz de 13 componentes y 1668 variables. A esta matriz de coocurrencia se le aplicó una normalización de acuerdo al criterio del coeficiente de Jacard. Esta matriz de transformación, es la entrada de datos de la red neuronal SOM. Para los distintos parámetros del entrenamiento de la red neuronal SOM se asignaron los siguientes valores: retícula cuadrada de 2025 neuronas, vecindad gaussiana, métrica pearson, radio inicial de 10, radio intermedio de 22 y 40 iteraciones. Una vez concluido el entrenamiento continuamos con la elaboración de diversos mapas; éstos serán la forma de visualizar los resultados generados por el entrenamiento. Éstos nos permitirán llevar a cabo una exploración de la autoorganización. Las visualizaciones creadas son los mapas de componentes, mapas 2 Entrez PubMed es un proyecto de recuperación de registros desarrollado por el Centro Nacional de Información Biotecnológica (Nacional Center of Biotechnology Information, NCBI). 3 MAJR, se trata de un término MeSH que refleja una de las materias principales tratadas en el artículo. 4 El Medical Subject Headings (MeSH), de la NLM es el vocabulario controlado de términos biomédicos que se utiliza para describir el tema de cada artículo de revista en MedLine. 6

U-Matrix, así como mapas de clusters con los algoritmos de clustering SOM Ward y Ward. Mapas de las 13 componentes correspondientes a los términos de la subcategoría de Matemáticas. Estos mapas de componentes representan la distribución de los valores de cada variable de los datos asociados a cada neurona en el mapa. El mapa U-Matrix permite visualizar las relaciones de cercanía entre los vectores de referencia. 7

Mapa de clusters aplicando el algoritmo SOM Ward. A partir de los mapas de clustering es posible el establecimiento de relaciones entre las distintas variables. De estos mapas podemos apreciar clusters (regiones) que abarcan solamente un término, o ninguno, así como otros que abarcan un número considerable de ellos. En este caso los clusters se distinguen por tener un color propio y cada uno de ellos representa una temática. Para dar conclusiones respecto a la interpretación de los mapas, nos enfocamos en los dos componentes de mayor interés para nuestro grupo de investigación que son: Neural Networks (Computer) y Nonlinear Dynamics. A partir de la interpretación de los mapas podemos percibir la estrecha relación de la dinámica no lineal con la Bioquímica, Sistemas Biológicos y la Electrofisiología. A su vez apreciamos que las redes neuronales artificiales mantienen una relación de aplicación en el campo de la Neurofisiología, Biotecnología, Microbiología, Biología Molecular y Neurología. Obsérvese el cluster azul situado en la parte inferior y el cluster naranja ubicado en la parte superior del cluster azul antes mencionado. Aparentemente estas dos ramas están poco relacionadas en el contexto de temas biológicos, sin embargo, al explorar las regiones que se identifican en los mapas de componentes de estas dos ramas de las matemáticas (Nonlinear Dynamics y Neural Networks), se puede apreciar una región común a estas dos componentes. De esta 8

manera se facilita la tarea de encontrar relaciones entre estas dos componentes si se busca a partir de los temas que aparecen en la región común. 5. Conclusiones. Hay que resaltar que la ventaja primordial que pueda proveer el sistema Data SOMining es gracias al sustento que brinda la eficiente metodología ViBlioSOM, metodología en la cual se basó el desarrollo de Data SOMining. Por ejemplo, ViBlioSOM utiliza la red neuronal SOM, la cual ha probado ser de gran utilidad para resolver problemas de minería de datos. Ésta ha sido útil particularmente en la organización creativa de información, el descubrimiento de conocimiento y la visualización de información. La metodología ViBlioSOM, y por ende Data SOMining, es muy útil para realizar análisis de correlación entre variables o datos complejos y en la clasificación de información. Las ventajas alcanzadas con este método consisten en que ha permitido organizar visualmente la información bibliométrica y de esta manera percibir la estructura del conjunto de datos y profundizar en su análisis. Gracias a la automatización obtenida al aplicar ViBlioSOM con Data SOMining se permite enriquecer el procesamiento, visualización y análisis de los indicadores bibliométricos, con una metodología propia. Este método puede ser aplicado a cualquier campo del saber y tiene un vínculo muy estrecho con los procesos de inteligencia empresarial, vigilancia científico-tecnológica, gestión del conocimiento y evaluación de proyectos. Igualmente, el método puede ser aplicado en servicios bibliotecarios e informativos y en observatorios de ciencia y tecnología. Además, la interfaz de Data SOMinig contiene todas las funciones utilizadas dentro de la metodología ViBlioSOM, desde la adquisición de datos a partir de MedLine hasta la visualización de mapas de clustering de los datos entrenados mediante la red SOM. De esta manera el usuario no requiere de algún otro tipo de software, incrementando de manera significativa la productividad. 9

En particular la investigación presentada en este documento resulta de gran importancia en el sentido de conocer nuevas aplicaciones, métodos y resultados en los que intervienen distintas áreas de las Matemáticas en temas biológicos y como consecuencia nos ayuda a identificar hacia dónde se deben destinar los recursos para investigación y orientar los esfuerzos de las instituciones ya sean educativas o gubernamentales. De esta manera, podemos reafirmar la importancia de la bibliometría para el desarrollo tecnológico. 6. Referencias bibliográficas. U. Fayyad; G. Piatetsky-Spahiro; P. Smyth. Knowledge discovery and data mining: An overview American Association for Artificial Intelligence, 1996. Sotolongo, G.; Guzmán, MV.; Carrillo, H. ViBlioSOM. Visualización de información Bibliométrica mediante el Mapeo Autoorganizado. Revista Española de Documentación Científica. 2002; 25(4): 477-484. Sotolongo, G; Suárez, CA.; Guzmán, MV. Modular Bibliometrics Information System with Propietary Software (MOBIS-ProSoft): a versatile approach to bibliometric research tools. Library and Information Science Electronic Journal (LIBRES). 2000; September 30, Volume 10 Issue 2. http://libres.curtin.edu.au/ Hibera JR, Martinez VJ. Redes Neuronales Artificiales. Alfaomega, 2000, Madrid. Kohonen Teuvo. Self-Organizing Maps. Neurocomputing, 1998. Kohonen, T. Self-Organizing Maps. Berlin: Springer-Verlag, 1995. Skupin, A. The World of Geography: Visualizing a Knowledge Domain with Cartographic Means. Proceedings of the National Academy of Sciences. 101 (Suppl. 1) 2004, 5274-5278. Skupin, André. Cartographic Considerations for Map-Like Interfaces to Digital Libraries. In: Visual Interfaces to Digital Libraries - Its Past, Present, and Future. The First ACM+IEEE Joint Conference on Digital Libraries. Hotel Roanoke and Conference Center, Roanoke, VA, USA, June 28th 2001. Honkela, T.; Kaski, S.; Lagus, K. and Kohonen, T. (1996). Exploration of full-text databases with self-organizing maps. Submitted to ICNN-96, Washington D.C. http://citeseer.ifi.unizh.ch/honkela96exploration.html Chen, C. Domain visualization for digital libraries. Proceedings of the IEEE International Conference on Information Visualisation (IV 2000). July 19-21, 2000. London, UK. IEEE Computer Society. 10