IDENTIFICACIÓN DE SISMOS SIMILARES HACIENDO USO DE TÉCNICAS DE MINERÍA DE DATOS



Documentos relacionados
TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

Elementos requeridos para crearlos (ejemplo: el compilador)

Trabajo final de Ingeniería

Proceso Unificado de Rational PROCESO UNIFICADO DE RATIONAL (RUP) El proceso de desarrollo de software tiene cuatro roles importantes:

Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

Capitulo III. Diseño del Sistema.

MINISTERIO DE EDUCACIÓN DIRECCIÓN DE EDUCACIÓN TÉCNICA Y PROFESIONAL PROGRAMA DE LA ASIGNATURA BASE DE DATOS ESPECIALIDAD INFORMÁTICA.


"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Gestión y Desarrollo de Requisitos en Proyectos Software

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

Sistemas de Información Geográficos (SIG o GIS)

<Generador de exámenes> Visión preliminar

Parte I: Introducción

Portafolio de Servicios y Productos

SERVIDOR WEB PARA ACCESO EN TIEMPO REAL A INFORMACIÓN METEOROLÓGICA DISTRIBUIDA

LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN

PRODUCTIVIDAD DE PROYECTOS DE DESARROLLO DE SOFTWARE: FACTORES DETERMINANTES E INDICADORES

Mesa de Ayuda Interna

El Proceso Unificado de Desarrollo de Software

CMMI (Capability Maturity Model Integrated)

PROYECTO GESTIÓN POR PROCESOS: INFORME DE AUTOEVALUACIÓN MEDIANTE CUESTIONARIO

CONSTRUCCIÓN DEL PROCESO MESA DE AYUDA INTERNA. BizAgi Process Modeler

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Base de datos II Facultad de Ingeniería. Escuela de computación.

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Día :00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

Unidad 1. Fundamentos en Gestión de Riesgos

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

CRM Gestión de Oportunidades Documento de Construcción Bizagi Process Modeler

IAP TÉCNICAS DE AUDITORÍA APOYADAS EN ORDENADOR (TAAO)

Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática

Capítulo 2. Planteamiento del problema. Capítulo 2 Planteamiento del problema

App para realizar consultas al Sistema de Información Estadística de Castilla y León


I INTRODUCCIÓN. 1.1 Objetivos

3.1 INGENIERIA DE SOFTWARE ORIENTADO A OBJETOS OOSE (IVAR JACOBSON)

Metodología básica de gestión de proyectos. Octubre de 2003

SÍNTESIS Y PERSPECTIVAS

PREPARADO POR: FECHA DE EMISIÓN: FECHA DE VALIDACIÓN:

Capítulo VI. Conclusiones. En este capítulo abordaremos la comparación de las características principales y

Gestión de Oportunidades

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

Novedades en Q-flow 3.02

Conceptos articuladores para el desarrollo de los proyectos del programa de Estudio. 1. Formulación de la situación problema.

BearSoft. SitodeCloud. Rafael Rios Bascón Web: Móvil:

Empresa Financiera Herramientas de SW Servicios

Sistemas de Gestión de Calidad. Control documental

Modelos de Ciclo de Vida de Desarrollo de Software en el Contexto de la Industria Colombiana de Software

DE VIDA PARA EL DESARROLLO DE SISTEMAS

Capítulo II. Arquitectura del Software

ANEXO A - Plan de Proyecto EDT de la solución EDT GENERAL DEL PROYECTO1

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

Sistema PYMES Ventas e Inventarios H&S

activuspaper Text Mining and BI Abstract

Primer avance de proyecto de software para la gestión de inscripciones en cursos

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

CONSTRUCCIÓN DEL PROCESO ADMINISTRADOR DE PROYECTOS SEIS SIGMA Bizagi Process Modeler

Enfoque del Marco Lógico (EML)

capitulo3 MARCO TEÓRICO Para el diseño de la reubicación de los procesos se hará uso de la Planeación

MANUAL DE USUARIO APLICACIÓN SYSACTIVOS

ing Solution La forma más efectiva de llegar a sus clientes.

Manual del Usuario. Sistema de Help Desk

SEDO: SOFTWARE EDUCATIVO DE MATEMÁTICA NUMÉRICA. Lic. Maikel León Espinosa.

CAPÍTULO 3 Servidor de Modelo de Usuario

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI

Actividades para mejoras. Actividades donde se evalúa constantemente todo el proceso del proyecto para evitar errores y eficientar los procesos.

Ingeniería de Software. Pruebas

MARCO METODOLÓGICO CAPITULO III

TeCS. Sistema de ayuda a la gestión del desarrollo de producto cerámico

PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.2 UML: Modelado de casos de uso

Mejores prácticas para el éxito de un sistema de información. Uno de los problemas de información dentro de las empresas es contar con datos

Acerca de esté Catálogo

CAPITULO III A. GENERALIDADES

INGENIERÍA DEL SOFTWARE

Data Mining Técnicas y herramientas

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta

CURSO COORDINADOR INNOVADOR

Selenne Business Intelligence QUÉ ES BUSINESS INTELLIGENCE?

Sistemas de Gestión de Documentos Electrónicos de Archivo (SGDEA)

3. GESTIÓN DE CONFIGURACIÓN DE SOFTWARE

2 EL DOCUMENTO DE ESPECIFICACIONES

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento

Microsoft SQL Server Conceptos.

Tópicos Avanzados de Análisis y Diseño INGENIERIA DE SOFTWARE ING. MA. MARGARITA LABASTIDA ROLDÁN

Capítulo I. Definición del problema y objetivos de la tesis. En la actualidad Internet se ha convertido en una herramienta necesaria para todas

ITZOFT, una metodología de desarrollo de sistemas basada en el Proceso Unificado de Rational. Resumen

CONCLUISIONES Y RECOMENDACIONES

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

Anteproyecto Fin de Carrera

Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción.

Gestión de Permisos. Bizagi Suite. Copyright 2014 Bizagi

Diseño de un estudio de investigación de mercados

Transcripción:

IDENTIFICACIÓN DE SISMOS SIMILARES HACIENDO USO DE TÉCNICAS DE MINERÍA DE DATOS Tesina presentada para la obtención del Diplomado de Gestión de Información con Técnicas de Minería de Datos. AUTOR Ing. Carlos Enrique Ramírez Martín TUTOR Ms. C. Yuniel Eliades Proenza Arias Instituto de Cibernética Matemática y Física Universidad de las Ciencias Informáticas La Habana, Cuba 2015

i RESUMEN El presente trabajo contempla el desarrollo de un sistema que permite el uso de técnicas de minerías de datos para el análisis de la información geoespaciales de una serie de sismos registrados por tres estaciones sismológicas. Durante el mismo se tratan todos los aspectos relacionado con el diseño teórico de la investigación. Se define la situación problemática existente y posteriormente se identifica los elementos que justifican la investigación, tales como el problema, campo de la investigación, objetivo, hipótesis y tareas. Se plasma además los métodos empleados para el desarrollo de la investigación. Se analizan las investigaciones similares relacionadas con el tema. Posteriormente se plasman los resultados obtenidos mediante el algoritmo empleado para el agrupamiento y las vistas para las clases definidas. Palabras claves: Análisis de Información Geoespacial, Identificación de elementos geoespaciales similares, Identificación de sismos similares, Minería de datos, Minería de datos geoespacial.

ii TABLA DE CONTENIDO Introducción... 1 Capítulo 1: Fundamentación Teórica del Proceso de Análisis de Información Geoespacial con Minería de Datos... 6 1.1. Minería de Datos... 6 1.2. Información socioeconómica asociada a datos espaciales... 8 1.3. Minería de datos geoespaciales... 9 1.3.1. Inteligencia de negocio geoespacial... 10 1.3.2. Tareas de la SDM... 10 1.3.3. Métodos de la minería de datos geoespacial... 12 1.3.4. Principales algoritmos de agrupamiento en minería de datos espaciales... 13 1.3.5. Principales fórmulas de distancias empleadas... 16 1.4. Análisis de principales herramientas con soporte para minería de datos geoespaciales y posibles soluciones existentes... 17 Capítulo 2: Implementación de las técnicas de minería de datos para identificar los sismos similares... 20 2.1. Tecnologías empleadas en la construcción de la solución... 20 2.1.1. Metodologías a emplear... 20 2.1.2. Integración de las metodologías a emplear... 25 2.1.3. Herramientas de desarrollo de software a emplear... 26 2.2. Entendimiento y modelación del negocio y sus datos... 27 2.3 Análisis y Diseño de las funcionalidades... 30 2.4 Implementación de las funcionalidades y construcción del modelo... 32 2.5 Evaluación y Prueba... 33 Conclusiones... 39 Recomendaciones... 40 Bibliografía... 41

1 INTRODUCCIÓN En el mundo actual la gestión de información juega un papel cada vez más significativo en la toma de decisiones. En especial la información geográficamente representada, es por ello que la informática se une con la geodesia 1 y la geografía para formar una nueva rama, la geoinformática. Esta es la que se encarga de, haciendo uso de las matemáticas y técnicas informáticas, resolver problemas geográficos, normalmente creando o utilizando programas informáticos, modelos matemáticos o ambos (Guinea de Salas, 2007). En la Universidad de la Ciencias Informáticas (UCI) existe el Departamento de Geoinformática. El mismo se encarga de realizar todas las soluciones encaminadas a resolver las necesidades de los clientes referentes a estas temáticas. Por ello la calidad de los sistemas, en gran medida, está condicionada a la calidad, exactitud y actualización de la información geoespacial almacenada en sus bases de datos (BD) así como de la información socioeconómica 2 adjunta. Entre los proyectos más significativos de este departamento se encuentra el de Personalización de Sistemas de Información Geográfica (SIG) para Escritorios (SIGDESKTOP) y la Línea de Producto de Software (LPS) Aplicativos SIG, dichos proyectos tienen como objetivo satisfacer las necesidades de los diferentes clientes en materia de SIGs en ambientes de escritorios y web respectivamente. Las principales herramientas empleadas por parte de la LPS son: el framework GeneSIG y OpenLayers, entre otras herramientas de desarrollo web. Una de las soluciones en las que se encuentra enfrascado el centro actualmente es una herramienta para el Centro Nacional de Investigaciones Sismológicas (CENAIS). En dicho centro se almacena la información de los sismos ocurridos en la periferia del territorio nacional y las mediciones dadas por una serie de estaciones medidoras. Toda esta información se encuentra almacenada en una base de datos en la que además se guarda información adicional de los epicentros, estaciones y otras áreas. El centro no cuenta 1 Ciencia que se encarga del estudio de la forma de la tierra. 2 Interpretación de los datos asociados a la información geoespacial almacenada. (Olaya, 2011)

2 actualmente con la posibilidad de extraer conocimiento oculto de estos datos, simplemente son consultados por rango de valores o reglas específicas y dichos resultados son visualizados en un mapa, junto con tablas, gráficas y reportes. Al CENAIS le es importante conocer, mediante un análisis de los datos correspondiente a las mediciones de las estaciones, cuales sismos son similares entre si y agruparlos en patrones para, mediante su posterior análisis por los expertos, arribar a conclusiones, que apoyen de una mejor manera, la toma de decisiones por parte de los directivos de dicho centro. Justificación El presente trabajo tiene como intensión extraer información de los datos almacenados en la base de datos del CENAIS con respecto a los sismos. Por medio de técnicas de minería de datos se pretende determinar patrones de agrupamiento de los epicentros dada la información de las estaciones medidoras para cada elemento en cuestión, para propiciar que se genere más conocimiento y por tanto que se tribute en la toma de decisiones más eficaces y en un mejor funcionamiento del centro en cuestión. Diseño metodológico Por ello se define como problema a resolver: Cómo identificar los sismos similares, dadas las distintas mediciones de las estaciones medidoras, para contribuir a mejorar la toma de decisiones en dicho centro? Se persigue probar la siguiente hipótesis: La aplicación de técnicas de minería de datos que permita identificar los sismos similares dadas las mediciones de las distintas estaciones medidoras ayudará a mejorar la toma de decisiones en dicho centro. El objeto sobre el que se enfoca el estudio, desde el punto de vista tanto teórico como práctico, para dar solución al problema planteado, consiste en la identificación de elementos geoespaciales similares, específicamente en los algoritmos de minería de datos en el análisis de información geoespacial, lo que sería el campo de la investigación.

3 Con el propósito de darle cumplimiento al problema planteado se propone como objetivo general: Aplicar técnicas de minería de datos que permita identificar los sismos similares dadas las mediciones de las distintas estaciones medidoras, para contribuir a mejorar la toma de decisiones en dicho centro. El límite de la investigación estará definido en la realización de una aplicación que permita realizar las acciones descritas en el objetivo general para dar solución al problema planteado, así como obtener toda la documentación necesaria para lograr un profundo entendimiento del tema y facilitar la escalabilidad de la investigación en desarrollos futuros. Para apoyar a la realización y cumplimiento del objetivo general planteado se plasman los siguientes objetivos específicos. 1. Analizar las tendencias actuales en el desarrollo y aplicación de técnicas de minería de datos en la identificación de elementos geoespaciales similares. 2. Seleccionar la técnica de minería de datos y herramientas más idóneas para dar solución al problema. 3. Aplicar la técnica de Minería de Datos seleccionada para extraer de dichos datos, más información con respecto a la obtenida tradicionalmente. 4. Obtener los resultados y elaborar un informe con los mismos que contribuya a mejorar la toma de decisiones en dicho centro. Tareas de investigación Toda investigación además de estar bien fundamentada debe estar correctamente planificada, para ello se hace uso del tiempo disponible y se divide este para la realización de las diferentes tareas que tributan al cumplimiento de cada uno de los objetivos específicos planteados al inicio. Con el fin de ir verificando el avance de la investigación, dar cumplimiento al objetivo general y resolver el problema existente, se proponen las siguientes tareas de investigación: 1. Identificación y análisis de las principales técnicas de minería de datos y de las variantes de aplicaciones existentes en la identificación de elementos geoespaciales similares a partir de un estudio profundo del estado del arte de la presente investigación.

4 2. Análisis y selección de las herramientas idóneas y técnicas de Minería de Datos a emplear, que responda a la solución de la problemática existente. 3. Implementación de las técnicas de Minería de Datos seleccionadas. 4. Comprobación de la validez de la herramienta desarrollada mediante la realización y análisis de experimentos. 4.1. Evaluación de los resultados y de su utilidad para contribuir en la toma de decisiones de dicho centro. 4.2. Entrega de los resultados al área correspondiente para su posterior análisis en mayor profundidad. Métodos empleados Para un mejor desempeño de la investigación se emplearon los siguientes métodos: Analítico Sintético: Dicho método se emplea para el análisis de toda la documentación consultada sobre el trabajo con datos geoespaciales, para de esta manera poder sintetizar la información importante en cuanto a las técnicas de minería de datos empleadas en esta rama de las ciencias. Histórico Lógico: Dicho método se emplea para obtener el mayor conocimiento posible sobre la evolución de las técnicas de Minería de Datos en el área de la geoinformática. Para ello se consulta toda la documentación encontrada desde el inicio de la investigación referente al análisis de información geoespacial. Modelación: Dicho método se emplea para abstraer de la realidad el funcionamiento de procesos y acciones relacionados con el tema a investigar. Para ello se harán uso de diagramas y mapa conceptuales los cuales representarán una idea del funcionamiento de las técnicas de minería de datos estudiadas, escogidas y aplicadas para resolver el problema de investigación y dar respuestas a las preguntas planteadas al inicio de la misma. De igual manera mediante este método se podrá representar los flujos de actividades y negocio de las entidades involucradas así como el diseño y construcción de la solución propuesta.

5 Experimento: Dicho método se emplea en la validación de la solución propuesta mediante el análisis de los datos almacenados y las respuestas arrojadas por la solución teniendo en cuanta las técnicas de minería de datos implementada. Entrevistas y encuestas: Dichos métodos se emplean para la recopilación de información mediante la realización de entrevistas con personas conocedoras del tema, dígase: desarrolladores de la LPS Aplicativos SIG, especialistas adjuntos al proyecto, geólogos y demás individuos que puedan aportar información al desarrollo de la investigación. Asimismo la realización de encuestas a usuarios de este servicio, y su posterior análisis, permitirá la construcción de modelos y aplicación de las técnica de minería de datos escogidas. Al concluir la investigación se podrá contar con una herramienta web capaz de mostrar los sismos similares entre sí, respecto a las mediciones de las distintas estaciones medidoras para cada elemento, en un mapa.

6 CAPÍTULO 1: FUNDAMENTACIÓN TEÓRICA DEL PROCESO DE ANÁLISIS DE INFORMACIÓN GEOESPACIAL CON MINERÍA DE DATOS 1.1. Minería de Datos La minería de datos (DM 3 ) surge a partir del elevado volumen de información almacenada en las distintas BDs, producto de la actividad de las distintas empresas existentes en el mundo. Dicha información representa transacciones o situaciones que se han producido (Hernández Orallo, Ramírez Quintana, & Ferri Ramírez, 2004). Generalmente se encuentra almacenada en formatos duros ocupando grandes espacios denominados archivos. No es sino con el nacimiento de la era informática que múltiples empresas han determinado almacenar su información de manera electrónica haciendo uso de distintos formatos o de las denominadas Bases de Datos (BD) y Almacenes de Datos (DW). Con el tiempo fue preciso obtener información a partir del conocimiento almacenado. DM puede ser interpretada como una paso superior en el avance de al tecnologías de la información y las comunicaciones (TIC), Trata de la recopilación de los datos de las BDs y DWs para su posterior análisis con el objetivo de descubrir nuevo conocimiento, en pocas palabras, la generación de conocimiento a partir de datos (Han, Kamber, & Pei, 2012). Por su parte (Hernández Orallo, Ramírez Quintana, & Ferri Ramírez, 2004) define a DM como el proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos. Otro de los términos más empleado es el de descubrimiento de información en la bases de datos (KDD) y este ha sido descrito como un proceso que consta de una serie de fases, realmente la DM es una de estas fases. 3 Data Mining: por sus siglas en inglés

7 Las técnicas de DM constituyen un enfoque conceptual y normalmente son implementadas haciendo uso de varios algoritmos diseñados para un tipo de tarea específica. Comúnmente estas técnicas se dividen en cuatro clasificaciones (Molina López & García Herrero, 2006): Predicción: Están enfocadas a la predicción del comportamiento de los datos en el futuro a través del análisis de los datos existentes, recopilados y almacenados por las entidades, sobre una determinada materia. A través del análisis de estos datos se pueden encontrar patrones que permiten a los especialistas determinar o predecir el comportamiento de determinados elementos con el fin de obtener ventajas sobre los competidores. Esta característica hace que estas técnicas sean de las más empleadas, un ejemplo práctico del uso de estas técnicas asociada a información geoespacial se puede apreciar a diario en la predicción de los modelos meteorológicos. Entre las principales técnicas empleadas en la predicción numérica se pueden mencionar la Regresión no lineal, los Árboles de Predicción, Redes Neuronales entre otras. Regla de asociación: Se emplean con el objetivo de establecer correlaciones entre los elementos y sus datos cuando estos aparentemente no tienen relación directa entre sí. Pudiendo reconocer como la ocurrencia de un suceso o acción puede inducir o generar la aparición de otros. Son utilizadas cuando el objetivo es realizar análisis exploratorios, buscando relaciones dentro del conjunto de datos. Las asociaciones identificadas pueden usarse para predecir comportamientos, y permiten descubrir correlaciones de eventos. Este tipo de técnicas son mayormente empleadas en el ámbito comercial a la hora de establecer elementos similares en compra cruzadas. (Molina López & García Herrero, 2006). Clasificación: Se emplea en la división de conjuntos de datos en grupos excluyentes de tal forma que cada miembro de un grupo estén lo más cerca entre sí y lo más lejos posible de los elementos de otro grupo con característica diferentes. Para ello se emplean cálculos de la distancia entre los elementos y se mide con respecto a las variables que se quieren predecir. Para su funcionamiento se emplean varias técnicas tales como: Tabla de Decisión, Árboles de Decisión, Reglas de Clasificación, Clasificación Bayesiana, Redes Neuronales, Lógica Difusa, Algoritmos Genéticos entre otros.

8 Agrupamiento: Se emplea en el agrupamiento de conjuntos de datos en grupos de tal manera que los elementos más similares entre sí queden en un mismo grupo llamado clúster. Cada uno de estos clústeres posee un elemento representativo denominado patrón el cual establece la similitud media con todos los elementos del mismo clúster. La principal característica de esta técnica es la utilización de una medida de similaridad, para ello se hacen uso de los atributos que describen a los objetos, y se define usualmente por la proximidad de estos elementos en un espacio multidimensional haciendo uso del cálculo de la distancia para determinar cuán semejante son los elementos entre sí. Para datos numéricos es necesario preparar los datos antes de realizar el análisis, o sea, construir los vectores a emplear haciendo uso de la información almacenada en los datos de cada elemento. Debido a que el marco de investigación se encuentra centrado en el análisis de los datos geoespaciales se hace necesario describir las características propias de estos tipos de datos así como lo referente a información socioeconómica asociada a estos. 1.2. Información socioeconómica asociada a datos espaciales Los datos espaciales, constituyen una parte importante de la información que se almacena en una BD geoespacial. Por esta razón es fundamental conocer específicamente, que son estos datos. La compañía Microsoft en su página Microsoft TechNet propone que: Los datos espaciales representan información sobre la ubicación física y la forma de objetos geométricos. Estos objetos pueden ser ubicaciones de punto u objetos más complejos como países, carreteras o lagos (Microsoft, 2014). Asímismo, mientra que el dato espacial es la información que representa el tipo de ubicación y su forma en el espacio, la información socioeconómica asociada representa aquella que puede ser empleada para identificar caracteristicas propias y descriptivas del elemento en cuestión tales como el nombre, área, caacidad, mediciones de uno a varios parámetros, etc. Ejemplo: un tupla de un BD puede ser representada como se muestra a continucaión:

9 Tabla 1: Representación de posibles tuplas en una BD geoespacial Id The_geom Nombre Area M1 M2 M3 1 0103000020E61000000100000 Elemento 1 100 2 3 2.4 2 0960300008075BF963D695161 Elemento 2 150 1 2 1.9 Donde la columna de nombre the_geom representa la información referente al dato geoespacial y es la información que los gestores de mapas utilizan para construir los objetos geográficos y visualizarlos, las demás columnas representan infomación asociada al dato en cuestión y la misma puede ser interpretada como características propias del datos o propiedades del objeto representado en dicha tupla. De acuerdo con la empresa Española Ager Ingenieros: Los datos espaciales o geodatos presentan dos tipos de propiedades: las geométricas y las descriptivas. Estas propiedades son las que les proporcionan su utilidad, constituyendo así el núcleo de los Sistemas de Información Geográfica (Ager Ingenieros, 2003). En este caso se concluye que las propiedades descritiva de los datos espaciales y la infomación socioeconómica representan la misma cosa. Dado del tema en que se enmarca la presente investigación, es importante definir qué es Inteligencia de Negocio Geoespacial (SBI) dentro de la Minería de Datos Geoespaciales. 1.3. Minería de datos geoespaciales Una vez analizado el concepto de DM y comprendido sus características es necesario abordar, específicamente, la Minería de Datos Geoespacial (SDM 4 ) la cual es una rama de la DM tradicional que se enfoca en un tipo específico de datos y la manera en que se muestra los resultados de los análisis a los usuarios. 4 Spatial Data Mining: por sus siglas en inglés

10 1.3.1. Inteligencia de negocio geoespacial Entre los diferentes datos que se manejan en las entidades cada vez se hacen más frecuentes aquellos que contienen, entre sus características, un componente geoespacial, ejemplo básico: direcciones. Dicho datos, por la información que manejan pueden interpretarse o manejarse haciendo uso de un mapa. En la actualidad la mayoría de los reportes generados producto de la DM están conformados mayormente por información textual, haciendo uso de esquemas y gráficas. Este tipo de información es limitado debido a la sencillez con la que se construye y en muchos casos oculta información valiosa que pudiese aportar un enorme valor agregado a la toma de decisiones. La Inteligencia de negocio geoespacial (SBI 5 ) tiene sus orígenes en diversas áreas vinculadas al trabajo con sistemas de información geográfica (SIG) y de manera general ha estado estrechamente unida a la cartografía en las operaciones de análisis y gestión de datos espaciales. Los SIGs manejan la información de los datos y poseen una capa para el manejo de las geometrías asociadas a dicho datos, uno de los SIGs de más amplio uso en el mundo es el sistema GoogleMap. De acuerdo con lo expuesto anteriormente, se puede entender que es la SBI, esta agrega la variable dimensión del espacio y permite la recuperación de la información de una manera más precisa, con el objetivo de que pueda ser empleada para un toma de decisiones más acertadas en todos los ámbitos de una organización así como una mejor generación de conocimiento. (Cangrejo Aljure & Gabriel Agudelo, 2011) (Dueñas Reyes, 2009) 1.3.2. Tareas de la SDM La DM y el análisis de información espacial es un área en el que el desarrollo de las tecnologías ha jugado un papel fundamental a permitir la generación y obtención de enormes volúmenes de datos, los cuales has sido empleados fundamentalmente en la toma de decisiones de las grandes empresas y análisis sociales. Para su realización hay que tener en cuenta, en dependencia del tipo de investigación a realizar, las diferentes tareas 5 Spatial business intelligence: por sus siglas en inglés

11 que se encuentran en esta rama de las ciencias. En varias investigaciones se tienes en consideración 4 tareas fundamentales, para las cuales se pueden hacer uso de múltiples métodos y técnicas (Cangrejo Aljure & Gabriel Agudelo, 2011) (Miller, 2001) (Guo & Mennis, 2009), a continuación se exponen las principales características de cada una de estas tareas: Clasificación espacial y predicción: Se realiza principalmente agrupando los elementos geoespaciales en clases o grupo teniendo en cuenta la información socioeconómica asociada a cada uno de estos elementos. En este tipo de clasificación, también llamada clasificación supervisada se cuenta con 3 tipos de datos, los de entrenamiento, los de validación y los de prueba y se pueden emplear cualquier método tradicional de la DM para el análisis de los datos. Reglas de asociación espacial: Se realiza principalmente para identificar asociaciones entre los objetos, desde un punto de vista geoespacial tal como la posición de un elementos respecto a otro, la distancia entre estos o relaciones topológicas. En la siguiente figura se puede apreciar de manera más simple estas relaciones y la forma de entenderlas. Fig. 1: Relaciones comunes de asociación espacial (Cangrejo Aljure & Gabriel Agudelo, 2011) Agrupación espacial: Se realiza principalmente agrupando los elementos en n conjuntos o clústeres de manera que aquellos objetos pertenecientes a un grupo son similares entre sí y diferentes de los objetos ubicados en otro grupo. Se debe tener en cuenta el tipo de

12 agrupación a realizar puesto que esta se divide en agrupación por separación y agrupación jerárquica. Geovisualización: Es la medida en que se es capaz de mostrar los resultados obtenidos a los usuarios. Se caracteriza por la implementación de herramientas visuales, mapas interactivos, etc. que permiten la generación de conocimiento a través de la exploración visual de los datos, preferentemente sobre un SIG. 1.3.3. Métodos de la minería de datos geoespacial Conociendo las características de qué es la DM, se puede concluir que la SDM es aquella que se encarga del descubrimiento de patrones sobre los datos espaciales y su información socioeconómica asociada. Para ello cuenta con las bases y conocimientos necesarios, en materia geoespacial, matemático e informático, para seleccionar analizar y visualizar grandes volúmenes de datos con el objetivo de extraer conocimiento oculto en estos. Se puede concluir además que esta es una rama de DM (González Polanco & Pérez Betancourt, 2013). A continuación se exponen los principales métodos empleados en la SDM Basados en la generalización: Hace uso de la implementación de jerarquías de conceptos haciendo uso de los datos geoespaciales y su información asociada. De la información socioeconómica se selecciona solo aquella identificada como importante o necesaria para el proceso de extracción de conocimiento, en la tabla mostrada anteriormente esta puede estar limitada solo a los elementos de las columnas M1, M2 y M3. Basados en el reconocimiento de patrones: Son utilizados en la clasificación de información, que pueden ser raster o vectorial. De agrupamiento: permiten agrupar los objetos de una base de datos en grupos llamados clústeres, conformados por elementos tan similares como sea posible dada las clases en al que se deseen dividir los elementos en cuestión realizando un análisis, principalmente de la información socioeconómica asociada. De exploración de asociaciones espaciales: Emplea reglas de asociación espacial que relacionen a uno o más objetos espaciales.

13 Mediante el uso de aproximación y agregación: permiten descubrir conocimiento a partir de las características representativas de los objetos. En la presente investigación el método seleccionado será el de agrupamiento. Este está caracterizado por poseer tres divisiones principales: Particional: Los datos son divididos en particiones que contienen a los elementos que son similares entre sí. Para su implementación se puede hacer uso de los algoritmos k-medoid y/o k-means principalmente haciendo de la distancia euclidiana. Jerárquico: Combina grupos pequeños en grupos grandes, o particiona los grupos grandes. En este se busca crear una jerarquía de grupos y no es recomendable para grandes volúmenes de datos ya que su complejidad es O (n 3 ). Puede ser dividida en dos tipos, aglomerativas y divisivas, los cuales determinan principalmente el orden de ascendencia de los elementos al cambiar de jerarquía. Basado en localidades: Las agrupaciones tiene lugar de acuerdo a las relaciones locales que guarda los elementos en su información y como se relacionan entre sí con otros elementos, tiene la ventaja de que la BD puede ser examinada en un solo paso. 1.3.4. Principales algoritmos de agrupamiento en minería de datos espaciales En el ámbito de la minería de datos los algoritmos existente son muchos, varios de estos han ido adaptados para el trabajo con información espacial y de la misma forma se han desarrollados otros específicos para este fin. A continuación se muestra en la siguiente imagen como están divididos estos algoritmos y posteriormente se hará una breve caracterización de algunos de ellos.

14 Fig. 2: Principales algoritmos de agrupamiento empleados en la SDM (Kolatch, 2001) PAM (Partitioning Around Medoides) Este algoritmo fue desarrollado por Kaufman y Rousseeuw. En él se cuentan con n objetos y para encontrar los k clúster se determina un elemento representativo para cada uno de estos. Dicho elemento es reconocido como el patrón de dicha clase y se encuentra centralmente localizado dentro del grupo al cual se le denomina medoide. El algoritmo intenta analizar todos los pares posibles de objetos, de tal manera que cada objeto es agrupado con el medoide más similar. Tiene la característica que comienza con una selección arbitraria de k objetos en cada iteración y un elemento solo es agregado al medoide si el cálculo de la distancia empleada es la mínima con respecto al resto de los medoides. (Jiawei, Kamber, & H. Tung, 2001) (Koperski, Adhikary, & Han, 1996) (Kolatch, 2001) CLARA (Clustering Large Applications)

15 Este algoritmo es muy similar a PAM con la diferencia de que en este solo una porción del total de datos se elige, mientras que un representante de los datos y los medoides se elige de esta muestra usando PAM. CLARQ (Clustering Large Applications based on Quadrant analysis) Similar a CLARA y CLARANS en este se propone usar un análisis previo de los datos a través de un análisis de cuadrantes de los puntos a analizar. Solamente se tienen en cuenta aquellos objetos que puedan mejorar la calidad del agrupamiento en lugar de realizar un análisis de todos los objetos disponibles. DBSCAN (Density Based Spatial Clustering of Applications with Noise) Este algoritmo fue propuesto por Martin Ester, Hans-Peter Kriegel, Jörg Sander y Xiaowei Xu en 1996 y está diseñado para descubrir las agrupaciones y el ruido en una base de datos espacial. En él se emplean los conceptos de punto central, borde y ruido, los que son empleados para determinar los diferentes clústeres. En este algoritmo se toma un objeto arbitrario siempre que este sea un elemento central y cada elemento es asociado al clúster solo si el punto analizado es alcanzable teniendo en cuenta la densidad entre estos, estos elementos son llamados objetos bordes. Al terminar el análisis de todos los objetos que no hayan sido colocados dentro de alguno de los clústeres definidos son considerados como objetos ruido. (Ester, Kriegel, & Xu, 1996)(Krzysztof, 1999) DBCLASD (Distribution Based Clustering of Large Spatial Databases) Similar a DBSCAN pero este algoritmo supone que los puntos dentro de cada grupo se distribuyen de manera uniforme. Posee la característica de que los puntos son analizados teniendo en cuenta los puntos vistos anteriormente y no los que quedan por analizar, esto hace que los clústeres sean dependiente del orden de entrada de la información. A diferencia de DBSCAN en DBCLASD los puntos no seleccionados no se descartan y son analizados nuevamente en una posterior iteración, asimismo, un objeto agrupado en un clúster puede cambiar para otro.

16 Los algoritmos de agrupamiento vistos anteriormente hacen uso principalmente del cálculo de la distancia para establecer la similitud entre los elementos de un mismo clúster. A continuación se muestran las principales fórmulas de distancias empleadas como parte del análisis de los datos a la hora de establecer la similitud entre los elementos de los clústeres. (Ester, Kriegel, & Xu, 1996) 1.3.5. Principales fórmulas de distancias empleadas Distancia Euclidiana Conocida también distancia euclídea es la distancia ordinaria entre dos puntos calculada en un espacio euclídeo y se calcula a partir del teorema de Pitágoras. Dado dos puntos A y B medidos según las variables X y Y la distancia euclidiana seria: Cuando A y B estén medidas con un número n de dimensiones y no solo X y Y la formula sería la siguiente: (Krasnov, 2005) Distancia de Minkowski Métrica en el espacio euclidiano que puede considerarse como una generalización tanto de la distancia euclidiana y la distancia Manhattan. Dado 2 puntos A y B medidos según las variables X y Y la distancia de Minkowski seria: Donde p N. Si p=1, se tiene la distancia en valor absoluto y si p>1, la euclídea. Cuándo p<1, La distancia entre (0,0) y (1,1) es 2 1/p > 2, Pero como el punto (0,1) está a una distancia

17 1 de ambos puntos y dado que esto viola la desigualdad del triángulo entonces para p<1 no es una métrica. Esta distancia e emplea con valores para p de 1 o 2. En el caso de p tendiera a infinito, se obtiene la distancia Chebyshev. (Krasnov, 2005) Distancia de Mahalanobis En esta distancia a diferencia de la euclidiana se tiene en cuenta la correlación entre las variables aleatorias. Se define como: Donde W es la matriz de covarianzas (X T X) entre las variables. De este modo, las variables se ponderan según el grado de relación que exista entre ellas, es decir, si están más o menos correlacionadas. Si la correlación es nula y las variables están estandarizadas, se obtiene la distancia euclídea. (Marín Diazaraque, 2012) Se denomina matriz A de dimensión m x n a un juego de m * n números (Krasnov, 2005). La matriz de covarianza es una matriz que contiene la covarianza entre los elementos de un vector. En la presente investigación se ha determinado emplear la distancia euclidiana en el análisis de los datos. Esta es la más empleada en la mayoría de los ejemplos consultados además de ser la más sencilla de aplicar, entender, implementar y estar incluida en Weka de manera nativa y recomendable. Por otro lado las variables con los que se realizará el análisis no presentan mucha diferencia en cuanto a los valores almacenados. 1.4. Análisis de principales herramientas con soporte para minería de datos geoespaciales y posibles soluciones existentes Con el fin de dar solución a la problemática planteada al inicio de la investigación se hace necesario realizar un estudio de las principales herramienta existentes que soporten la SDM o que tengan como base dichos procesos para obtener resultados específicos. No se

18 analizaran herramientas puras de minería de datos tales como Weka, Rapidminer o SQL Server Data Mining debido a que estas tratan el tema de minería de datos de manera general y el interés de la investigación se encuentra enfocado en analizar solo aquellas que realicen trabajo con datos geoespaciales. A través de este estudio se espera encontrar características y experiencias que apoyen en la solución de la solución deseada. Geographical Data Mining Analyst (GeoDMA) Complemento del software TerraView. Soporta el uso de datos espaciales para la comparación de imágenes y regiones obtenidas en los procesos de segmentación y análisis de imágenes. Utiliza árboles de decisión y algoritmos para mapas auto-organizados. Licencia de software libre GNU General Public License (GPL). Su implementación es en lenguaje C++ e interfaz en QT. SD-Miner Soporte para técnicas de minería de datos espaciales tales como agrupamiento, clasificación espacial, caracterización espacial y espacio-temporal y reglas de asociación espacial. Implementa sus algoritmos en una librería que permite que sean utilizados por otros sistemas. Se divide en tres módulos: Interfaz Gráfica de Usuario, el módulo SD-Miner y el módulo de administración de bases de datos. Capacidad de detectar la naturaleza de los datos. SaTScan Empleado para realizar análisis estadístico espacial. Implementa la técnica de detección de conglomerados de Kulldorff para la detención de conglomerados espaciales, temporales, espacio-temporales y prospectivos. Fue concebido inicialmente para su uso en el área de la salud en estudios sobre la distribución espacial de las enfermedades y epidemias.

19 A través del análisis de las herramientas vistas anteriormente (Cangrejo Aljure & Gabriel Agudelo, 2011) (González Polanco & Pérez Betancourt, 2013) se pudo constatar que ninguna posee las características suficientes para dar solución al problema planteado ni se adecuan completamente a la necesidad existente. Es por ello que se hace necesaria la construcción de una nueva herramienta que dé solución al problema planteado.

20 CAPÍTULO 2: IMPLEMENTACIÓN DE LAS TÉCNICAS DE MINERÍA DE DATOS PARA IDENTIFICAR LOS SISMOS SIMILARES 2.1. Tecnologías empleadas en la construcción de la solución De acuerdo a lo visto hasta el momento se procede con la selección de las tecnologías y herramientas para dar solución al problema planteado. Se ha decidido hacer uso de los algoritmos de agrupamiento propios del análisis de información geoespacial, específicamente el KMeans, por ser el más adecuado a emplear dada las necesidades existentes y el análisis que se desea realizar sobre la información almacenada. 2.1.1. Metodologías a emplear Durante el proceso de extracción de conocimiento útil a partir de los datos almacenado por una entidad es necesario contar con una guía que oriente el trabajo por el buen camino, dichas guías presentan una serie de pasos y estándares a seguir comúnmente llamadas metodologías. Algunos modelos conocidos como metodologías son en realidad un modelo de proceso: un conjunto de actividades y tareas organizadas para llevar a cabo un trabajo. Una metodología no solo define las fases de un proceso sino también las tareas que deberían realizarse y cómo llevar a cabo las mismas. En la minería de datos las principales metodologías existentes son SEMMA y CRISP-DM. Estas poseen una serie de características que permiten llevar a cabo el proceso de minería de datos de manera eficiente y segura. (Espinosa, 2010) Dada las características de la investigación a realizar se hace necesario además hacer uso de una metodología de desarrollo de software la cual guie el proceso deconstrucción de la aplicación. Existen metodologías ágiles y robustas, las ágiles son apropiadas para guiar proyectos de poco volumen que requieran una rápida implementación. Las robustas pueden ser empleadas para guiar el proceso de desarrollo de proyectos grandes o pequeños, aunque son más apropiadas para proyectos grandes que por su importancia requieren una fuerte planificación.

21 Para el desarrollo de la investigación se han escogido la metodología CRISP-DM para realizar una correcta minería de datos y AUP para realizar un correcto desarrollo de la solución. Se han seleccionado cada de cada una de estas metodologías las principales características y se han acoplado entre sí de manera que se cuente con una sola línea base que guie todo el proceso de desarrollo. A continuación se muestran las principales características de cada una de estas metodologías y luego como quedarán complementadas entre sí. CRISP-DM (Cross-Industry Standard Process for Data Mining) Estándar de pasos que son habitualmente utilizados en un estudio de DM, creada por el grupo de empresas SPSS, NCR y Daimer Chrysler en el año 2000, es actualmente la guía de referencia más utilizada en el desarrollo de proyectos de Data Mining (Moine, Haedo, & Gordillo, 2011). El modelo consiste en 6 fases relacionadas entre sí de una forma cíclica. Algunas de estas fases son bidireccionales, lo que significa que permiten revisar parcial o totalmente las fases anteriores así como permitir a los usuarios adaptar la metodología a sus necesidades. En la siguiente imagen se puede apreciar cómo se encuentran relacionadas cada una de estas fases y luego se procederá a la explicación de cada una de ellas (Espinosa, 2010). Fig. 3: Fases de la metodología CRISP-DM (IBM Corporation, 2012)

22 La sucesión de cada una de estas fases no es necesariamente rígida. Cada fase es descompuesta en varias tareas generales de segundo nivel las cuales incluyen tareas específicas, pero en ningún momento CRISP-DM se propone como realizarlas. Business Understanding (Entendimiento del negocio): Esta fase está encaminada a la comprensión del negocio. Se establecen los objetivos del proyecto, lo que significa establecer el contexto inicial, objetivos y criterios de éxito. Se evalúa la situación actual, que significa la realización de un inventario de recursos, plan de requisitos y terminologías propias a emplear durante el desarrollo entre otras. Por último se genera el plan de proyecto en el cual se identifican las herramientas, equipos y técnicas a emplear. Data Understanding (Entendimiento de los datos): Una vez establecidas las bases de proyecto es necesario comprender los datos con los que se cuenta y los requerimientos necesarios para poder llevar a cabo el proyecto. Esta fase incluye la recogida de datos, descripción, exploración y validación de los mismos. Es sumamente importante en esta fase tener definido lo que se desea analizar. Se Identifica la información relevante, variables dependientes así como de toda la información cuál es la realmente importante para el proyecto. Data Preparation (preparación de los datos): En esta fase se procede a la selección, limpieza, construcción, integración y transformación de los datos al formato deseado para el posterior modelado. De igual manera se puede realizar una exploración de los datos a mayor profundidad para encontrar patrones dentro de los datos. Model Building (construcción del modelo): En esta fase se procede a la selección de la técnica de modelado a emplear, se diseña la evaluación y se construye y evalúa el modelo. Se pueden emplear aplicaciones específicas de DM tales como las vistas en el epígrafe 1.4. Testing and Evaluation (evaluación y prueba): En esta fase se procede a la evaluación de los resultados teniendo en cuenta los objetivos del negocio establecidos en la primera fase. Se realiza una revisión del proceso y en último lugar se establecen los pasos y acciones que se realizarán a continuación. En esta fase se pueden encontrar nuevas necesidades que obliguen al proceso a volver a alguna de las fases anteriores. Es considerada la fase

23 más crítica de CRISP-DM puesto que se realiza la interpretación de los resultados obtenidos. Deployment (despliegue): En esta fase se procede a la planificación del despliegue, generación del informe final y la revisión del proyecto. AUP (Agile Unified Process) Agile Unified Process es la metodología que se ajusta a la necesidad del proyecto porque combina características de la metodología ágil XP con los artefactos de la metodología robusta RUP. No se podría elegir XP, porque el equipo de desarrollo no tiene experiencia en el trabajo con esta metodología y la misma precisamente se basa en la capacidad y madurez de los miembros del equipo, así como contar al cliente como parte del equipo de desarrollo. La metodología RUP serviría si se dispusiera de más tiempo para el desarrollo del sistema. Según Ivar Jacobson, Grady Booch y James Rumbaugh, en el libro El Proceso Unificado de Desarrollo, Capítulo 1, el ciclo de vida de ésta metodología es iterativo e incremental, que supone un gran esfuerzo que puede durar entre varios meses hasta posiblemente un año o más. Dentro de las características particulares de AUP, se tiene que es una versión simplificada de la metodología RUP. La siguiente imagen muestra el ciclo de vida de esta metodología. AUP abarca siete flujos de trabajos, cuatro ingenieriles y tres de apoyo: Modelado, Implementación, Prueba, Despliegue, Gestión de configuración, Gestión de proyectos y Ambiente. El modelado agrupa los tres primeros flujos de RUP (Modelamiento del negocio, Requerimientos y Análisis y Diseño). Dispone de cuatro fases igual que RUP: Creación, Elaboración, Construcción y Transición.

24 Fig. 4: Esquema que muestra los flujos de trabajo y las fases de AUP. El Modelado es el flujo de trabajo que tiene el objetivo de entender el negocio de la organización, el problema de dominio que se aborda en el proyecto y determinar una solución viable para resolver el problema de dominio. El flujo de trabajo Implementación tiene como objetivo transformar su (s) modelo (s) en código ejecutable y realizar un nivel básico de las pruebas, en particular, la unidad de pruebas. El flujo de trabajo de Prueba tiene como objetivo realizar una evaluación objetiva para garantizar la calidad. Esto incluye la búsqueda de defectos, validar que el sistema funciona tal como está establecido, verificando que se cumplan los requerimientos. Por último dentro de los flujos de trabajo ingenieriles se tiene el Despliegue, cuyo objetivo es el plan para la prestación del sistema y la ejecución de dicho plan, para que el sistema quede a disposición de los usuarios finales. Esta versión ágil de la metodología RUP se basa en los siguientes principios: Simplicidad: Todo se describe concisamente utilizando poca documentación, no miles de ellas. Agilidad: El ajuste a los valores y principios de la Alianza Ágil. Centrarse en actividades de alto valor: La atención se centra en las actividades que en realidad lo requieren, no en todo el proyecto. Herramienta de la independencia: Usted puede usar cualquier conjunto de herramientas que desea con el AUP. Se sugiere utilizar las herramientas más adecuadas para el trabajo, que a menudo son las herramientas simples o incluso herramientas de código abierto.

25 2.1.2. Integración de las metodologías a emplear Una vez analizadas las principales características de cada metodología a emplear se hace necesario integrarlas de manera que se cuente con una sola línea de desarrollo para ello se ha determinado: 1. Integrar las fases de CRISP-DM Entendimiento del negocio y Entendimiento de los datos con el flujo de trabajo Modelado de AUP como una misma línea, siendo esta la primera a tener en cuenta. En esta línea se estudiarían, establecería y comprendería todo los elementos referentes al negocio de la investigación, se modelarían los mismos y se identificarían las clases, actores y trabajadores de la entidad cliente con sus correspondientes descripciones. 2. Integrar la fase Preparación de los datos de CRISP-DM y el flujo de trabajo de Requerimientos de AUP como una misma línea. En el caso que el sistema a desarrollar trabaje con varios juegos de datos provenientes de distintas fuentes entonces la preparación de estos debe estar presente como parte de los requisitos funcionales del sistema. En la misma se deben plasmar estos como requisitos obligatorios y deben dar la posibilidad a los usuarios de que estos conozcan los elemento con problemas y las medidas a seguir (no tener en cuenta estos registros o modificarlos ya sea manual o automáticamente con la media u otro valor definido). La lectura de los datos no debe ser interrumpida en caso de encontrase algún error en algún elemento, de ahí que este tipo de sistema contemple un espacio para el trabajo con los registros inválidos antes de continuar con el resto de las funcionalidades. En el caso de que el sistema a desarrollar trabaje con un solo juego de datos previamente definido y obtenido a través de un ETL o análisis de una BD la captura de requisitos del sistema y el preprocesamiento de los datos se deberá realizar de manera paralela aunque el producto final no tendrá que tener incluido funcionalidades para este tipo de análisis. 3. Integrar la fase Construcción del modelo de CRISP-DM y los flujos de trabajo Análisis y diseño e Implementación de AUP como una misma línea. Para ello en la descripción de los elementos ingenieriles del sistema deben tenerse presente los

26 elementos del modelo a emplear como parte de las técnicas de minería de datos a usar en la solución. 4. Integrar la fase Evaluación y prueba de CRISP-DM y el flujo de trabajo Prueba de AUP como una misma línea. 5. Integrar las fases Despliegue de CRISP-DM y AUP como una misma línea. Una vez definidas las líneas para la propuesta de adaptación de ambas metodologías quedaría de la siguiente manera: 1. Línea de entendimiento y modelación del negocio y sus datos 2. Línea de identificación de requisitos 3. Línea de análisis y diseño de las funcionalidades 4. Línea de implementación de las funcionalidades y construcción del modelo 5. Línea de evaluación y prueba 6. Línea de despliegue 2.1.3. Herramientas de desarrollo de software a emplear Para el desarrollo de la solución se realizó un breve análisis de las herramientas a emplear tanto para el análisis de la información como para la visualización de los resultados. Se concluyó que la mejor manera de mostrar los mismos era a través de la web por las grandes ventajas que esta presenta y ser capaz de lograr una interrelación entre distintas personas aun cuando estas no se encuentren cercanas entre sí. A continuación se muestra un mapa conceptual de la aplicación desarrollada. Fig. 5: Mapa conceptual de la solución

27 Entre las principales herramientas empleadas aparecen: OpenLayers: Biblioteca JavaScript de código abierto que permite trabajar con mapas interactivos en la web. JQuery: Biblioteca JavaScript de código abierto empleada en el desarrollo de herramientas web que permite simplificar el trabajo con documentos HTML y el DOM además de manejar eventos, desarrollar animaciones y agregar interacción con la técnica AJAX a páginas web. Mapserver: Servidor de mapas empleado para la obtención de las cartografías bases con las que el sistema construye el mapa haciendo uso de la librería OpenLayers. JSP: Tecnología para el desarrollo de páginas web dinámicas basadas en HTML y XML haciendo uso del lenguaje de programación JAVA en vez del ampliamente usado PHP. En el caso de la presente investigación se hace fundamental el uso de esta tecnología ya que se desea enlazar la aplicación con la librería Weka para la corrida del algoritmo de agrupamiento seleccionado así como para la obtención de los resultados para su posterior visualización. Weka: Aplicación para el aprendizaje automático y la minería de datos escrito en JAVA y desarrollado en la Universidad de Waikato bajo la licencia pública general GNU. Contiene una colección de herramientas de visualización y algoritmos para análisis de datos y modelado predictivo. Puede ser empleado como librería externa en otras aplicaciones. Visual Paradigm: Herramienta CASE empleada en la construcción de los diagramas ingenieriles con el objetivo de abstraer a los lectores del funcionamiento de los procesos descritos como parte de la implementación de la solución. 2.2. Entendimiento y modelación del negocio y sus datos Como parte del proceso inicial del desarrollo de la aplicación se procedió a describir los procesos desarrollados por la aplicación para el análisis de los datos. La siguiente imagen muestra el flujo de los procesos de la herramienta desarrollada.

28 Fig. 6: Descripción del proceso de construcción inicial del mapa Fig. 7: Descripción del proceso de realización del análisis haciendo uso de la técnica de minería de datos "SimpleKMeans" de Weka

29 Se realizó un análisis previo de los datos almacenados en la base de datos con el objetivo de determinar y organizar la información realmente valiosa para el desarrollo del análisis a realizar. Se identificó como información valiosa aquella almacenada por los campos m1, m2 y m3, correspondiente a las mediciones realizadas por las estaciones sismológicas, asimismo aquella almacenada en el campo the_geom la cual, aunque no contiene valor para el análisis si lo tiene para la representación visual de la información puesto que almacena la posición geoespacial del elemento analizado. Se constataron ciertas irregularidades las cuales fueron tenidas en cuenta y tratadas correspondientemente, a continuación se muestra un listado de las irregularidades detectadas. Se detectaron una serie poco significativa de valores nulos, incorrectos o con valor cero, de los mismos se tuvo en cuenta modificarlos asignándoles un valor igual a la media con el objetivo de que no alterara los resultados en el análisis, para ello se tuvieron en cuenta tres posibilidades. 1. Calcular la media a partir de los valores de los demás nomencladores para ese elemento. 2. Calcular la media a partir de los valores de ese nomenclador para los demás elementos. 3. Eliminar los registros, no tenerlo en cuenta en el análisis. Debido a que el número de elementos con problemas era significativamente menor en comparación con el total de la muestra, 9 elementos con problemas de un total de 5887, se decidió no tenerlos en cuenta en el análisis por lo que la muestra empleada contó con un total de 5878 elementos. Los datos fueron revisados asegurándose así que todos estuviesen en formato nominal y fueron convertidos al formato arff de Weka los siguientes datos: Id: valor que identifica el elemento al cual se está haciendo referencia. Geometría: valor que identifica la posición geográfica del elementos en el espacio, latitud/longitud. Fue obtenido del campo the_geom de la base de datos.

30 m1, m2 y m3: mediciones de las distintas estaciones sobre un elemento, datos a emplear para la realización del análisis. A continuación se muestra una fragmento de cómo quedó conformado el fichero de datos generado. Fig. 8: Segmento del fichero arff generado 2.3 Análisis y Diseño de las funcionalidades Teniendo en cuenta las características de la solución a desarrollar se procedió a realizar el análisis y diseño de las funcionalidades necesarias para dar cumplimiento a las necesidades identificadas al inicio de la investigación. La siguiente imagen muestra la manera en que se relacionan entre si los componentes de la aplicación.