Escuela Técnica Superior de Ingeniería Informática. Máster en Ingeniería y Tecnología del Software TRABAJO FIN DE MÁSTER

Transcripción

1 Escuela Técnica Superior de Ingeniería Informática Máster en Ingeniería y Tecnología del Software TRABAJO FIN DE MÁSTER Minería de datos aplicada a la predicción de terremotos Autor: D. José María Luna Romera Tutores: Dr. José C. Riquelme Santos Dr. Francisco Martínez Álvarez Convocatoria de Junio Curso 2011/2012

2

3

4

5 Agradecimientos Quisiera dar las gracias a Pepe no solo por su labor como tutor, sino por su labor como docente del máster, ya que ha sido uno de los que me ha introducido en el mundo de la investigación. A Paco tengo demasiadas cosas que agradecer, pero destacaré el tiempo invertido en el presente trabajo, ya que su dedicación e implicación, así como su disponibilidad han sido absolutas y sin ello esto no hubiera sido posible. Dar las gracias por animarme a participar en un proyecto de estas características ya que me ha aportado un gran valor tanto en lo profesional como en lo personal. Quiero agradecer también a Alicia su colaboración en el trabajo ya que sus conocimientos y experiencia han sido de gran ayuda en la elaboración del proyecto. Aprovechar la ocasión para agradecer el trabajo desempeñado como docente en mis años de carrera ya que sus aportaciones han sido de gran importancia para mí formación profesional. Agradecer a Antonio Morales por su valiosa aportación en diferentes capítulos del trabajo. Dar las gracias por el apoyo recibido a mis compañeros del máster Ale, David y Fede, ya que su compañerismo y amistad me han ayudado a sobrellevar este año académico que ya acaba. A mis padres y hermana, dar las gracias por todos los ánimos, cariño y apoyo que recibo de ellos a diario. Y no solo durante este año, sino en todos los anteriores desde que comencé mi formación. Y para acabar agradecer a todas esas personas que me han apoyado y ayudado a llegar a esta meta. Gracias Página 5

6 Página 6

7 Resumen En este trabajo se ha realizado un proceso completo de Knowledge Discovery in Databases (KDD) aplicado a datos de origen sísmico. En particular, se han analizado las series temporales que describen los seísmos en Japón, una de las regiones con mayor actividad sísmica del mundo. Siguiendo con el modelo KDD, las tareas realizadas han sido: 1. Obtención de datos. Para ello, de acuerdo con la literatura existente, se han dividido los datos en 6 conjuntos diferentes, todos ellos de dimensiones diferentes. 2. Limpieza de datos. Los datos proporcionados por los sitios web no son completos, por lo que se han eliminado atributos cuya significancia sea mínima, así como aquellos registros que han presentado errores de medición o valores ausentes. 3. Generación de nuevos atributos con la ayuda de expertos en materia sismológica. Se ha incorporado información geológica como input de los sistemas predictivos que se utilizarán. 4. Selección de atributos más significativos, mediante técnicas que miden la cantidad de información aportada por cada uno de los atributos que forman la base de datos. 5. Aplicación de algoritmos de minería de datos para la generación de un modelo predictivo. Se han evaluado los algoritmos KNN, una máquina de vector soporte, red neuronal artificial, un algoritmo Naive Bayes, una clasificación por regresión usando M5P, un clasificador por clustering usando k-means y el algoritmo J48. La elección de estos algoritmos se debe a su diferente naturaleza. 6. Evaluación de los modelos obtenidos por medio de test estadísticos. Página 7

8 Página 8

9 Contenido Trabajo fin de máster: Minería de datos aplicada a la predicción de terremotos Capítulo 1: Introducción Motivación y objetivos El proceso KDD y la minería de datos Predicción de terremotos Capítulo 2: Estado del Arte Capítulo 3: Aplicación de un proceso KDD a la predicción de terremotos Selección de datos Preprocesado de datos Transformación de datos Algoritmos de minería de datos aplicados KNN, vecinos cercanos ANN, redes neuronales artificiales Naive Bayes J48, algoritmo C Clasificación vía regresión (usando el método M5P) Clasificación vía clustering (usando el método k-means) SVM, máquinas de vectores de soportes Capítulo 4: Resultados Medidas de calidad Discusión de los resultados por zonas Capítulo 5: Conclusiones Referencias Página 9

10 Lista de Figuras 1.1 Etapas de un proceso KDD Mapa de Japón dividido por zonas Ejemplo de KNN Estructura de la red neuronal Ejemplo de clustering con k-means Hiperplano equidistante a dos clases, margen y vectores soporte..33 Página 10

11 Lista de Tablas 3.1 Latitud y longitud de las zonas analizadas Zona C -M Zona C -M Zona C -M Zona C -M Zona D -M Zona D -M Zona D -M Zona D -M7..42 Página 11

12 Capítulo 1: Introducción 1. 1 Motivación y objetivos Los terremotos ocurren sin previo aviso y pueden llegar a destruir ciudades completas en pocos segundos, causando de esta manera importantes pérdidas humanas y económicas. Actualmente se está invirtiendo un gran esfuerzo para desarrollar técnicas para predecir estos, aparentemente, impredecibles desastres naturales, con el fin de poder tomar medidas preventivas con la suficiente antelación. Durante más de cien años se ha buscado encontrar métodos fiables para predecir terremotos [32]. La utilización de datos de sismicidad histórica en la predicción deterremotos es absolutamente relevante hoy día. De hecho, hay un grupo de trabajo muyimportante conocido como RELM (Regional Earthquake Likelihood Model), que ha surgido con el objetivo de desarrollar varios modelos de las estimaciones de riesgo [33]. Debemos resaltar que un grupo de terremotos menores precediendo o siguiendo a unterremoto mayor se denomina clustering por los sismólogos. Sin embargo, este concepto no sedebe confundir con las técnicas de clustering, que son uno de losprincipales objetivos de la inteligencia artificial. El objetivo de este trabajo de investigación es encontrar patrones y poder realizar modelos del comportamientode las series temporales que comprenden la ocurrencia de terremotos de magnitud elevada ( 4). Una vez que se extraigan dichos patrones, se utilizarán para predecir elcomportamiento del sistema de modo tan preciso como sea posible. En particular, se han obtenido datos asociados a terremotos en Japón durante la última década y se pretende demostrar la utilidad de la aplicación de la minería de datos para este problema concreto El proceso KDD y la minería de datos En la sociedad actual se ha producido un gran crecimiento de las bases de datos yuna necesidad de aumento de las capacidades de almacenamiento que no puedenresolverse por métodos manuales. Por este motivo se hacen necesarias técnicasy herramientas informáticas que ayuden, de forma automática, en el análisis deesas grandes cantidades de datos, la mayoría de las veces infrautilizados. La minería de datos (en inglés data mining) es una de las técnicas másutilizadas actualmente para analizar la información de las bases de datos. Sefundamenta en varias disciplinas, como la estadística, la visualización de datos,sistemas para tomas de decisión, el aprendizaje automático o la computaciónparalela y distribuida, beneficiándose de los avances en estas tecnologías perodifiriendo de ellas en la finalidad que persigue: extraer patrones, describir tendencias, predecir Página 12

13 comportamientos y, sobre todo, ser provechosa en la investigación automatizada que envuelve la sociedad actual con amplias bases dedatos de gran utilidad. La minería de datos no es más que una etapa, aunque la más importante, deldescubrimiento de la información en bases de datos (KDD o Knowledge discovery in databases), entendiendo por descubrimiento la existencia de una informaciónvaliosa pero desconocida y escondida con anterioridad. Este proceso constade varias fases, como se detalla más adelante, e incorpora distintas técnicasdel aprendizaje automático, las bases de datos, la estadística, la inteligenciaartificial y otras áreas de la informática y de la información en general. Una de las causas que ha hecho más popular las aplicaciones de la mineríade datos ha sido la difusión de herramientas y paquetes como Intelligent Miner de IBM, Enterpriser Miner de SAS o DM Suite (Darwin) de Oracle, por ponersolo algunos ejemplos, que pueden servir para que analicen sus datos tanto unprofesional, una empresa, una institución como un particular. Por tanto, el éxito está asegurado al ser los usuarios tan numerosos y variados. El KDD hace referencia a un amplio proceso de búsqueda de conocimiento en grandes bases de datos. Este proceso consta de diversas etapas, pero sin duda la que sobresale por encima de todas es la minería de datos, tal y como ya se ha destacado con anterioridad. La Figura 1.1 ilustra la secuencia de etapas seguidas en un proceso KDD. Cada una de las fases que forman dicho proceso, se describen a continuación. Figura 1.1. Etapas de un proceso KDD. Como se señaló al comienzo del capítulo, la minería de datos es sólo una fase de un proceso más amplio cuya finalidad es el descubrimiento de conocimiento en bases de Página 13

14 datos. Independientemente de la técnica que se use en el proceso de extracción de datos, los pasos que deben ser seguidos son siempre los mismos: 1. Definición del problema. En el proceso de minería de datos el primer paso consiste en definir claramente el problema que se intenta abordar. Ésta sería casi una fase Integración y recopilación de datos.en un primer momento, hay que localizar las fuentes de información, y los datos obtenidos se llevan a un formato común para que resulten más operativos. Lo más frecuente es que los datos necesarios para llevar a cabo un proceso de KDD pertenezcan a distintos departamentos, a diferentes organizaciones o incluso nunca hayan sido recopilados por no considerarlos interesantes. Es posible también que haya que buscar datos complementarios de informaciones oficiales. Por tanto, resulta conveniente utilizar algún método de automatización para la exploración de esos datos y encontrar posibles incoherencias. 3. Filtrado.Selección de datos, limpieza y transformación. Una vez homogeneizados los datos, se filtran y se rechazan los no válidos o los incorrectos, según las necesidades, o bien se corrigen o se reduce el número de variables posibles mediante clustering, redondeo... Este proceso previo es necesario porque el coste computacional es alto para obtener conclusiones si se trabajara con todos los datos. Al subconjunto de datos que se va a minar se denomina vista minable. Aunque se haya procesado, la mayoría de las veces se tiene una gran cantidad de datos. 4. Fase de minería de datos.algoritmos de extracción de conocimiento. Esta fase es la más característica y por ese motivo se suele denominar minería de datos a todo el proceso en KDD. 5. Obtención de un modelo de conocimiento.una vez realizado el filtrado, se tiene que producir nuevo conocimiento que pueda ser utilizado por el usuario. Hay que obtener un modelo de conocimiento que se base en los datos recopilados y para ello hay que determinar la tarea de minería más adecuada, descriptiva o predictiva; posteriormente, elegir el tipo de modelo aunque pueden también usarse varias técnicas a la vez para generar distintos modelos teniendo en cuenta que cada técnica obliga a un preprocesado diferente de los datos. Y, por último, hay que elegir el algoritmo de minería que solucione la tarea y logre el tipo de modelo que se esté buscando. Las componentes básicas de los métodos de minería son, por tanto: a. Lenguaje de representación del modelo. es muy importante que se sepan las suposiciones y restricciones en la representación empleada para construir modelos. b. Evaluación del modelo.en cuanto a capacidad predictiva se basa en técnicas de validación cruzada (cross-validation). En cuanto a calidad Página 14

15 descriptiva del modelo se basan en principios como el de máxima verosimilitud (maximum likelihood) o en el principio de longitud de descripción mínima o MDL (minimum description length). Actualmente se estánutilizando también las curvas ROC (receiver operating characteristics) para evaluar algoritmos. c. Método de búsqueda. Algunas de las técnicas más comunesson las siguientes: i) árboles de decisión y reglas de clasificación que realizan cortes sobre una variable; ii) análisis preliminar de datos usando herramientas de consultas.éste puede ser el caso de realizar una consulta SQL sobre unconjunto de datos con el fin de rescatar algunos aspectos relevantes; iii) redes neuronales artificiales: son modelos predecibles, no lineales,que aprenden a través del entrenamiento; iv) métodos de clasificación y regresiones no-lineales; v) Métodos gráficos de dependencias probabilísticas en los que seusan sobre todo redes bayesianas; vi) modelos relacionales: programación lógica inductiva o ILP endonde la búsqueda del modelo se basa en lógica y heurística; vii) reglas de asociación que relacionan un conjunto de pares querelacionan atributo-valor con otros pares atributo-valor; viii) clustering: agrupan datos cuya distancia multidimensional dentrode la clase es pequeña y entre clases es grande. 6. Fase de interpretación y evaluación del modelo.una vez que yahemos obtenido el modelo hay que proceder a su validación, comprobandoque las conclusiones son válidas y satisfactorias, es decir, verificando silos resultados obtenidos son coherentes. Si se hubieran obtenido variosmodelos por utilizar diferentes técnicas habría que buscar el que mejorse ajuste alos datos de estudio. Así, habría que comparar esos resultados con losobtenidos por métodos estadísticos y de visualización gráfica. 1.3 Series temporales de origen sísmico Una serie temporal es una secuencia de valores observados a lo largo del tiempo y, portanto, ordenados cronológicamente. Dada esta definición, es fácil encontrar datos que puedenser representados como series temporales en muchas áreas de investigación. El estudio del comportamiento pasado de una variable puede ser muy valioso para lapredicción de su comportamiento futuro. Si, dado un conjunto de valores pasados, no sepueden predecir sus valores futuros con fiabilidad, se dice que la serie temporal es estocástica.este estudio se encuadra en este contexto. Si asumimos que la naturaleza de las series temporales de los terremotos es altamente estocástica, laaproximación propuesta intenta demostrar que estas series temporales poseen algunospatrones temporales, posibilitando la realización de un modelo y, por tanto, haciendo posiblesu predicción. Para evitar los datos dependientes, tanto las Página 15

16 réplicas como los precursores hansido eliminados de las series temporales de los terremotos utilizadas [34]. Las series temporales de los terremotos y su predicción se analizan mediante la aplicaciónde técnicas de minería de datos. Para ser exacto, diferentes zonas sismogenéticas de Japón se han utilizado como fuentes de terremotos. Una zona sismogenética es una fuente de terremotos concaracterísticas sísmicas y tectónicas homogéneas. Esto quiere decir que el proceso degeneración de terremotos es homogéneo espacial y temporalmente en cada zona. Puede serlineal, como una falla, una línea de fallas o un conjunto de fallas paralelas. Sin embargo, unazona puede ser un área donde las fallas sean demasiado numerosas, estén orientadas de modoaleatorio o no estén bien definidas. Desde un punto de vista tectónico, una zona sismogenética puede incluir una o varias estructuras tectónicas y su geometría se basa en informaciónhistórica, sísmica y tectónica. Página 16

17 Página 17

18 Capítulo 2: Estado del Arte El estudio de la predicción de terremotos abarca muchos campos de la investigación, desde teoremas puramente geofísicos, mutaciones genéticas y biológicas, métodos estadísticos y matemáticos, hasta modelos computacionales de parámetros de terremotos registrados en un histórico en regiones sísmicas. Los esfuerzos más significativos en predecir los tres parámetros principales de terremotos, es decir, el tiempo de aparición, la localización del epicentro y la magnitud de futuros terremotos, fueron revisados en un artículo [35]. No hay un acuerdo general sobre cómo los investigadores construyen modelos de previsión hasta ahora. Por tanto, diferentes tipos de aproximaciones para extraer conocimiento han sido propuestas durante la última década. A través de un estudio publicado recientemente [1] que divide estas técnicas en dos categorías, admitiendo un solapamiento entre ellas: Por una parte tenemos aquellas que usan estrategias para identificar procesos físicos particulares, y por otra tenemos aquellas que están basadas en suavizado sísmico. La Regional Earthquake Likelihood Models (RELM), proyecto del Southern California Earthquake Center (SCEC) ha publicado diferentes modelos de predicción ara el sur de California desde que se fundó en el año 2000, basado en la observación de procesos físicos. Bajo el RELM, el U.S. Geological Survey (USGS) y el California Geological Survey (CGS) han desarrollado a un modelo independiente del tiempo asumiendo que los terremotos suceden siguiendo una distribución de Poisson [2]. Los autores también presentaron una aproximación dependiente del tiempo basada en los modelos sísmicos nacionales incluyendo información recurrente. Kagan et al. [3] presento una predicción a cinco años de terremotos de magnitud 5.0 o más para el sur de California. Este método está basado en un catálogo de espacialidad histórica de terremotos, y su principal característica recae en la observación de regularidades en aparición de terremotos. Un modelo basado en suposiciones similares puede encontrarse en [4]. Muchos estudios han sido desarrollados sobre las variaciones temporales del valor b y algunos de ellos relacionando el valor b con la predicción de terremotos como en [5, 6, 7, 8, 9] y muchos otros. Sigue existiendo algo de controversia entre los investigadores acerca de las variaciones de b en el espacio y tiempo. Es importante saber cómo se obtiene la secuencia de los valores de b antes de mostrar conclusiones sobre su variación. Además, el trabajo en [10] hace un estudio profundo sobre los terremotos en la región de Andaman-Sumatra y demuestran que los terremotos suelen ser ir precedidos por un gran incremento de b además de, en algunos casos, un pequeño decremento de este valor precedido del temblor. Por otra parte Sammonds et al. [11] mostraron que un gran terremoto normalmente iba precedido por un incremento a medio plazo del valor b, seguido por un decremento de meses a semanas antes del terremoto. Los estudios en [12] y [8] sobre las variaciones del valor b sobre el tiempo hace referencia a las réplicas. Los autores concluyen que el valor b es un medidor de estrés que depende inversamente proporcional al diferencial del estrés [27, 10, 14]. Página 18

19 El trabajo en [9] presente un modelo basado en probabilidad sobre california. Este método fue basado en tres hipótesis. La primera, el valor b es inversamente dependiente al estrés, consecuentemente, el valor b puede ser usado como medidor del estrés dentro de la corteza terrestre donde no existen medidas directas [14]. En segundo lugar, las asperezas son encontradas para ser caracterizadas por un valor b bajo [15]. Y finalmente, los datos de varios regímenes tectónicos sugieren que el valor b de pequeños terremotos son muy estacionarios sobre el tiempo [16]. Wiemer y Wyss [17] han demostrado que significativas variaciones estadísticas para el valor b, ocurren en varios regímenes tectónicos desde local hasta escalas regionales. Frochlich y Davis [18] y Kagan en [19] sugieren que las diferencias observadas son debidas a los artefactos y a que hay pequeñas variaciones del valor b entre diferentes regímenes tectónicos. El estudio sobre los cambios temporales del valor b frente a cambios grandes antes que cambios temporales en sub-regiones [17]. Finalmente, Ogata et al. [20] estudiaron las variaciones en el espacio tiempo del valor b simultáneamente. Por otra parte, muchas aproximaciones de reconocimiento de patrones que analizan el valor b como precursor de la activación de los seísmos han sido propuestos durante la última década. Así, en trabajo en [10] descubrió importantes significados espaciotemporales en las variaciones del valor b, precediendo a la aparición del terremoto de Diciembre del 2004 en NW Sumatra. Igualmente remarcable es la aproximación de los patrones informáticos, originariamente propuestos en [21]. Este método identifica regiones correlativas de datos de seísmos registrados que preceden desde pocos a muchos como die años, el principal choque. Hence, el trabajo en [22] previene en las regiones al sur de California donde los terremotos son probables en un periodo de 5 a 10 años. Una modificación del método del patrón informático tuvo también éxito aplicado al centro de Japón en [23], estrechando la posible localización donde el mayor terremoto podría ocurrir. En 2010, otra versión del patrón informático extendido al trato con zonas 3D fue presentado en [24]. Algunos patrones asociados con las variaciones del valor b fueron descubiertos en [5] por medias, del bien conocido algoritmo de clustering K-means. Los autores evalúan sus hipótesis sobre datos de la península Ibérica. Estos patrones son capaces de predecir a un medio plazo la aparición de terremotos con gran confiabilidad. Los datos de la península Ibérica fueron también examinados en [25], pero esta vez, usando el algoritmo M5P, y reglas de asociación cuantificadas. Los autores mostraron la fuerte relación existente entre las variaciones negativas del valor b y los grandes terremotos. Debido a las múltiples pruebas descubiertas, se decidió a que las variaciones del valor b fueran los datos de entrada de diferentes algoritmos aplicados en el presente trabajo. Página 19

20 En referencia al uso de modelos neuronales, sus aplicaciones han sido muy abundantes. Una red neuronal probabilística fue probada en [26] haciendo uso de datos de la región sur de California. Este tipo de red neuronal es principalmente usada para clasificación de problemas, como se ha aplicado en este trabajo. De hecho, los autores predicen la magnitud de los terremotos como uno de los valores de salida de las clases. Se ha hecho uso de métodos de minería de datos en muchos campos diferentes para resolver complicados reconocimientos de patrones y clasificación de problemas en dominios como imagen y reconocimiento de objetos [36 y 37], reconocimiento de voz [38], robótica y computer vision [39 y 40], lenguaje natural y procesador de textos [41 y 42], ingeniería biomédica y diagnóstico médico [43], neurociencia [44], actividad solar [45], seguridad informática [46] y control de tráfico aéreo [47], entre otros. Numerosos autores han propuesto distintos métodos para predecir la ocurrencia de terremotos. En este apartado se describen brevemente modelos propuestos por el RELM. Es destacable el trabajo de Shen at al. [48], en el cual los autores han trabajado sobre unos datos extraídos al sur de California a lo largo de un período de tiempo, una década concretamente. El trabajo de Ward [49] añadió cinco modelos nuevos al RELM. El primero, similar al trabajo presentado por Kagan [50], se basa en el estudio de la sismicidad pasada y predecía terremotos de magnitud mayor o igual a 5,0. El segundo modelo es similar al propuesto por Shen et al. [51]. El tercero se basa en el análisis de los datos de las fallas. El cuarto modelo es una combinación de los tres primeros modelos y, finalmente, el último se basa en simulaciones de terremotos [52]. Helmstetter et al. [53] han desarrollado un método incluyendo los terremotos más pequeños y eliminando las réplicas, independiente del tiempo, similar al del Kafka y Levin [54]. El grupo de trabajo California Earthquake Probability [55] ha presentado el Uniform California Earthquake Rupture Forecast v. 1 compuesto de cuatro tipos de fuentes de terremotos con sismicidad distribuida, similar al National Seismic Hazard Map [56]. También tenemos el Asperity-based Likelihood Method (ALM), otro modelo de predicción para cinco años que supone una distribución de los terremotos según la ley de Gutenberg-Richter [57] y considera que la distribución de tamaños de microterremotos recientes es la información más importante para predecir terremotos de magnitud mayor o igual a 5,0. Holliday et al., [58] desarrollaron el modelo de Pattern Informatics, centralizado en las zonas las zonas donde es más probable que suceda un terremoto en el futuro próximo basado en descubrir zonas con una actividad sísmica alta, llegando a hacer predicciones de 5 a 10 años. Página 20

21 Otro de los métodos propuestos, en este caso por Bird y Liu [59], consiste en estimar la sismicidad media a largo plazo de cualquier región en dos pasos, aplicando leyes de geofísica. Aplicando este método, los autores afirman que la las predicciones realizadas utilizando la teoría de la tectónica de placas son más exactas que aquellas basadas en muestras pasadas. También nos encontramos a, Gerstenberguer et al. [60], que desarrollaron un método para predecir terremotos en las próximas 24 horas, situando sobre un mapa la probabilidad de ocurrencia de terremotos basándose en una estadística de réplicas y precursores. El método de Rhoades [61] lleva a cabo predicciones para un año basándose en el concepto de que cada terremoto es un precursor según su escala. Para ese objetivo, los terremotos previos de menor magnitud se han utilizado para predecir los de mayor magnitud. Por otra parte tenemos a Ebel et al. [62], que proponen dos métodos para predecir terremotos. El primer método se basa en la asunción de que la media de varias variables estadísticas, tales como la ocurrencia espacial y temporal de terremotos de magnitud mayor o igual a 4,0, durante el período de predicción es la misma que la media de esas variables durante los últimos 70 años. El segundo método utiliza el modelo de Markov para realizar predicciones para el día siguiente. Y por último, Murru et al. [63] han desarrollado un modelo de predicción a corto plazo basado en la propagación de secuencias de réplicas simulando la propagación de una epidemia. Página 21

22 Página 22

23 Capítulo 3: Aplicación de un proceso KDD a la predicción de terremotos Se presenta en este capítulo una descripción exhaustiva de la aplicación de todos los pasos seguidos para predecir terremotos, siguiendo el modelo KDD descrito en el Capítulo Selección de datos La obtención de datos es el primero de los pasos dentro del proceso KDD. Consiste en la recopilación de la mayor cantidad posible de datos para su procesamiento posterior. En nuestro caso, se han recogido todos los datos sismológicos relativos al área geográfica de Japón. Se ha hecho uso de la base de datos pública de U.S. Geological Survey, que se trata de la agencia científica del gobierno de Estados Unidos dedicada a estudiar el terreno de Estados Unidos, los recursos naturales y los peligros naturales. Una de las disciplinas que abarca es la geografía, y dentro de ella tiene un programa dedicado al peligro que suponen los terremotos. Dicho programa pone a libre disposición sus bases de datos, dándonos la posibilidad de descargarnosdatos de terremotos a través de un sencillo formulario [10] seleccionado e introduciendo diferentes parámetros: desde el propio formulario se elige el formato de salida, en nuestro caso se escoge spread sheet format con vistas a la manipulación de los datos; los datos fueron extraídos de la propia base de datos de USGS/NEIC que contiene datos de terremotos desde 1973; por último, latitud y longitud según el área que se quiera abarcar. Japón es nuestra base de estudio, fundamentalmente por la escasez de trabajos relacionados con la aplicación de la minería de datos existente en la actualidad.dicho país ha sido dividido en cinco grandes zonas, debido a las diferencias entre las zonas geográficas de un extremo y otro. No sería correcto comparar la actividad sismológica de Hokkaido, con la de Kyushu, ya que son islas situadas a más de 1000 km y con una actividad sísmica totalmente diferente. En nuestro entorno sería algo parecido a comparar la actividad de sismológica de Sevilla con la de la isla de La Palma en las Islas Canarias. Además, la división geográfica, nos ayudará a que la predicción sea en un área más concreta. Es decir, se está intentando que la incertidumbre espacial sea lo menor posible para que la obtención del modelo sea lo más preciso y particular posible, ya que buscan zonas que exhiban patrones de comportamiento similares. Página 23

24 Figura 3.1. Mapa de Japón dividido porzonas. Las zonas se han delimitado siguiendo la figura 3.1. Las longitudes y latitudes que delimitan dichas zonas se pueden encontrar en la Tabla 3.1. Tabla 3.1. Latitud y longitud de las zonas analizadas. ZONA Latitud (N) Longitud (E) A (29, 25.6) (126.5, 130.5) B (35,29) (128.5,132.2) C (39,32.5) (132.2, 143) D (45.7, 39) (138.7, 148) E (47, 43.5) (148, 151.5) De esta forma, tenemos todos los parámetros a introducir en [10], seleccionando como fecha de inicio el 1 de Enero del Es importante resaltar, igualmente, que siguiendo las recomendaciones de expertos en sismología, sólo se han obtenido terremotos con magnitud M > 2.9 ya que por debajo de ese umbral son muchas veces imperceptibles por el ser humano y es prácticamente imposible que ocasionen daños materiales. En resumen, la búsqueda realizada de acuerdo con los parámetros anteriormente comentados generó: 1. Para la zona A, un total de 730 terremotos. 2. Para la zona B, un total de 651 terremotos. 3. Para la zona C, un total de 6904 terremotos. 4. Para la zona D, un total de 3260 terremotos. Página 24

25 5. Para la zona E, un total de 668 terremotos. Desde este punto podemos ver que son las zonas C y D las que más datos hemos obtenido, quedando las otras tres zonas restantes con un número de terremotos mucho menor. 3.2 Preprocesado de datos Una vez hemos obtenido los datos de los terremotos de las diferentes zonas, el siguiente paso del proceso KDD es la limpieza de los mismos. Este paso consiste en la eliminación del mayor número posible de datos erróneos, inconsistentes e irrelevantes. En este paso realizaremos un muestreo tanto vertical como horizontalmente, eliminando aquellas tuplas que no nos aporten la suficiente información. De esta forma, detectaremos datos anómalos y redefiniremos algún atributo, agrupándolos o separándolos. Observando el fichero de salida de la base de datos de la que hemos extraído los datos [10], vemos que contiene la siguiente información: año, mes, día, hora (hhmmss,mm) UTC, latitud, longitud, magnitud, profundidad, catálogo. Los parámetros nos aparecen separados por comas y cada registro del fichero representa un terremoto. Analizando los datos, se observa que hay filas a las que le faltan parámetros importantes como la magnitud del terremoto. Al tratarse de un dato de suma importancia, se ha decidido por la eliminación de las tuplas que les falte este dato, ya que la sustitución por un valor podría introducir ruido en los resultados finales. De la zona A, se eliminan un total de 57 registros, de la zona B 77 registros, de la zona C 563 registros, de la zona D 244 registros y de la zona E 58 registros. Por lo tanto, finalmente se va a trabajar con 673 terremotos para la zona A, 574 terremotos para la zona B, para la zona C 6341 terremotos, 3016 para la D y 610 para la zona E. Teniendo todas los registros completos, se pasa a darle un formato. Con ayuda de unprograma realizado específicamente para este proyecto, se formatean la fecha y la hora en formato americano, de forma que se muestren de la siguiente manera: Mes/Día/Año Hora:Minutos, quedándonos con los dos últimos dígitos para el año y despreciando el dato de las milésimas en la hora. Otramodificación que hacemos en los datos de todas las zonas es el delimitador de los decimales, cambiando el punto por la coma. Y por último se ordenan los resultados cronológicamente para tener una perspectiva del tiempo, es decir, para poder interpretarlos como una serie temporal o, concretamente en este contexto, como una secuencia de eventos en la que cada evento viene representado por la ocurrencia de un terremoto y caracterizado por todos los atributos asociados a dicho sismo. Así, todos los datos están limpios de atributos ausentes y tienen un formato para trabajar con ellos cómodamente. Página 25

26 3.3 Transformación de datos A continuación se pasa a la fase de transformación de datos y, en nuestro caso particular, a la generación de atributos que es la fase del proceso KDD en la que, a partir de los datos que ya tenemos, se obtienen otros que pueden aportar información de gran valor e interés. Es importante resaltar que todos los atributos generados han sido obtenidos siguiendo los consejos de expertos en geofísica, en concreto, los consejos de los doctores Antonio Morales Esteban (Universidad de Sevilla) y Jorge Reyes Molina (Universidad de Chile). En primer lugar se va a generar el atributo b, que representará el parámetro b de la ley de Gutenberg-Richter, que es un parámetro que refleja propiedades tectónicas y geofísicas de las rocas y de la variación de la presión de fluidos en una región concreta [64 y 65]. Así, el análisis de su variación ha sido usado normalmente en la predicción de terremotos [66]. Es importante saber como se han obtenido la secuencia de los valores b antes de presentar conclusiones sobre su variación. Los estudios de Gibowitz [67] y Wiemer et al.[68] en las variaciones de b desembocan en réplicas del terremoto. Encontraron un incremento en b después de un gran terremoto en Nueva Zelanda y una reducción después de importantes réplicas. En general, mostraron que b tiende a reducirse cuando muchos terremotos ocurren en un área local durante un corto periodo de tiempo. Sammonds, Meredith y Main [69] clarificaron los cambios y variaciones de b, postulando que: un estudio sistemático de cambios temporales en b ha mostrado que un gran terremoto suele ir precedido a medio plazo de un incremento en b, seguido de una reducción en los meses a semanas antes del terremoto. Un descenso pronunciado de b puede preceder a la aparición de terremotos de hasta siete años. De lo que no cabe ninguna duda en la actualidad, es que dicho parámetro posee una capacidad de predicción muy importante y que su análisis es crucial para la predicción exitosa de terremotos. Dada la importancia de este parámetro se ha añadido como atributo para nuestro estudio. El valor b es calculado haciendo uso de los últimos cincuenta terremotos guardados. Para calcularlo, se aplica la siguiente fórmula: b = log(e) M 3 donde M la magnitud del i-ésimo terremoto y 3 es la magnitud referencia, M. Además de calcular b, se van a calcular los diferentes incrementos de b en el tiempo en intervalos de 4 terremotos, a los que llamaremos x x x x x : Página 26

27 b = b b x b = b b x b = b b x b = b b x b = b b x De esta forma, podemos concluir que los primeros 70 terremotos se requieren para calcular los diferentes x. Además se va a incluir el atributo x que medirá la magnitud máxima de los terremotos ocurridos durante la última semana dentro del área analizada. El uso de este atributo viene definido por las leyes de Omori-Utsu y Bath. Definiremos x como: donde t es el tiempo medido en días. x = max{m }, cuando t [ 7,0) (28) Otro de los atributos que se ha añadido es x que identifica la probabilidad de registrar un terremoto con una magnitud mayor o igual a 5.0. La adición de esta información es para incluir la ley de Gutenberg-Ritcher de forma dinámica, y es calculada como la función de densidad de probabilidad: x = P(M 5.0) = e / ( ) (29) Además se ha añadido un atributo al que llamaremos y, el cual representa la magnitud máxima observada en los próximos cinco días. Esto de manera formal se podría representar de la siguiente forma: Donde t es el tiempo medido en días. y = max{m }, cuando t (0,5] (30) Nótese que la utilización de estos atributos es novedosa, ya que aunque el valor b ya se había utilizado en anteriores trabajos, nunca se había utilizado de esta forma ni se había combinado con el resto de atributos generados. Además de los nuevos atributos hemos generado una etiqueta de clase que servirá para identificar si en un periodo determinado (este periodo se estudiará con posterioridad en los resultados) posterior a dicho terremoto sucede otro terremoto de magnitud mayor o igual a un determinado umbral. Dicho umbral se analizará en la sección de resultados. Evidentemente, este último atributo será de tipo binario. Esta etiqueta nos servirá, en última instancia, para evaluar la calidad de nuestras predicciones. Página 27

28 3.4 Algoritmos de minería de datos aplicados Una vez superadas las etapas anteriores, los datos ya están en disposición de ser procesados mediante diferentes técnicas de minería de datos. En el caso particular abordado en esta memoria, nos encontramos ante un problema de aprendizaje supervisado. En concreto hemos utilizado diferentes clasificadores para predecir la ocurrencia de terremotos durante los próximos 5 días. Y es que, como se adelantó en la sección anterior, a cada instancia se le ha asignado una etiqueta que indica si durante los próximos 5 días hubo o no un terremoto. Por tanto, al clasificar correctamente esa etiqueta estaremos, indirectamente, prediciendo la ocurrencia de terremotos. Se han aplicado diferentes métodos de clasificación para encontrar el resultado óptimo que más se adapte a la resolución del problema. Los métodos usados son los siguientes: vecinos más cercanos (KNN, K-Nearest Neighbors); redes neuronales artificiales (ANN, Artificial Neural Networks); Naive Bayes; algoritmo J48 (algoritmo C4.5); un clasificador vía regresión, usando el método M5P; un clasificador vía clustering usando el método K-means; y máquinas de vectores de soporte (SVM, Support Vector Machines). A continuación se proporciona una breve descripción de los fundamentos matemáticos que subyacen a todos los métodos que se van a utilizar. KNN, vecinos cercanos El método considerado como un buen representante de los métodos clasificadores es el denominado k-vecinos más cercanos (KNN, [k-nearestneighbor]), además destaca por su gran sencillez conceptual. Se denomina método porque es el esqueleto de un algoritmo que admite el intercambio de la función de proximidad dando lugar a múltiples variantes. Atendiendo a la clasificación del ejemplo o de la mayoría de los k ejemplos más cercanos, la función de proximidad puede decidir la clasificación de un nuevo ejemplo. Además admite funciones de proximidad que consideren el coste de los atributos que intervienen o el peso, lo que permite, eliminar los atributos irrelevantes. Una función de proximidad clásica entre dos instancias xi y xj, si suponemos que un ejemplo viene representado por una n-tupla de la forma (a1(x), a2(x),..., an(x)) en la que ar(x) es el valor de la instancia para el atributo ar, es la distancia euclídea, que se muestra en la siguiente ecuación. Página 28

29 Un sistema de dos atributos del algoritmo KNN se muestra representado en la figura 3.2, representándose por ello en un plano. En este ejemplo se ve cómo el proceso de aprendizaje consiste en el almacenamiento de todos los ejemplos de entrenamiento. Partiendo de las clases + y -, se han representado los ejemplos de acuerdo a los valores de sus dos atributos. En este caso la clasificación consiste en la búsqueda de los 3 elementos más cercanos al ejemplo a clasificar, siendo más concretos, a y b se clasificaría como y + respectivamente. Figura 3.2. Ejemplo de KNN Para realizar una aclaración más ténica, a continuación se detalla, en pseudocódigo, la implementación del algoritmo empleado para definir la distancia entre dos ejemplos: Página 29

30 ANN, redes neuronales artificiales Desde 1930, las redes de neuronas constituyen una técnica inspirada en los trabajos de investigación, que pretendían, a través de las neuronas en el cerebro, modelar computacionalmente el aprendizaje humano. Se comprobó a posteriori que tales modelos no eran del todo adecuados para describir el aprendizaje humano. A diferencia de las técnicas tradicionales, las redes de neuronas constituyen una nueva forma de analizar la información, son capaces de detectar y aprender complejos patrones y características dentro de los datos. Aprendiendo de la experiencia y del pasado, se comportan de forma parecida a nuestro cerebro, y se aplica tal conocimiento a la resolución de problemas nuevos. Como resultado del adiestramiento ("training"), el aprendizaje se obtiene y permite la sencillez y la potencia de adaptación y evolución ante una realidad cambiante y dinámica. Las redes de neuronas pueden hacer previsiones, clasificaciones y segmentación una vez adiestradas. Presentan además, una eficiencia y fiabilidad similar a los métodos estadísticos y sistemas expertos, incluso mejor en la mayoría de los casos. En aquellos casos de muy alta complejidad las redes neuronales se muestran como especialmente útiles dada la dificultad de modelado que supone para otras técnicas. Como conveniente, las redes de neuronas tienen de la dificultad de acceder y comprender los modelos que generan y presentan dificultades para extraer reglas de tales modelos. Otra característica es que son capaces de trabajar con datos incompletos e, incluso, contradictorios lo que, dependiendo del problema, puede resultar una ventaja o un inconveniente. Las redes de neuronas poseen las dos formas de aprendizaje: supervisado y no supervisado. Actualmente las redes de neuronas se utilizan en distintos sectores como el ejército, las comunicaciones, la industria, el gobierno, la investigación aeroespacial, la banca y las finanzas, los seguros, la medicina, la distribución, la robótica, el marketing, etc. Actualmente se está estudiando la posibilidad de utilizar técnicas avanzadas y novedosas como los Algoritmos Genéticos para crear nuevos paradigmas que mejoren el adiestramiento y la propia selección y diseño de la arquitectura de la red (número de capas y neuronas), diseño que ahora debe realizarse en base a la experiencia del analista y para cada problema concreto. Las redes de neuronas se construyen estructurando una serie de niveles o capas, al menos tres: entrada, procesamiento u oculta y salida. Estas capas están compuestas por nodos o "neurona. Cada neurona está conectada a todas las neuronas de las capas anterior y posterior a través de los pesos o "dendritas", tal y como se muestra en la figura 3.3. Página 30

31 Figura 3.3. Estructura de la red neuronal Cuando un nodo recibe las entradas o "estímulos" de otras los procesa para producir una salida que transmite a la siguiente capa de neuronas. La señal de salida tendrá una intensidad fruto de la combinación de la intensidad de las señales de entrada y de los pesos que las transmiten. Los pesos o dendritas tienen un valor distinto para cada par de neuronas que conectan pudiendo así fortalecer o debilitar la conexión o comunicación entre neuronas particulares. Los pesos son modificados durante el proceso de adiestramiento. El diseño de la red de neuronas consistirá, entre otras cosas, en la definición del número de neuronas de las tres capas de la red. Las neuronas de la capa de entrada y las de la capa de salida vienen dadas por el problema a resolver, dependiendo de la codificación de la información. En cuanto al número de neuronas ocultas (y/o número de capas ocultas) se determinará por prueba y error. Por último, debe tenerse en cuenta que la estructura de las neuronas de la capa de entrada se simplifica, dado que su salida es igual a su entrada: no hay umbral ni función de salida. Naive Bayes En técnicas de aprendizaje, normalmente se quiere saber es cuál es la mejor hipótesis (más probable) dados unos datos. Siendo P(D) la probabilidad a priori de los datos (i.e., cuales datos son más probables que otros), P(D h) la probabilidad de los datos dada una hipótesis, y lo que queremos estimar es: P(h D), la probabilidad posterior de h dados los datos. Para estimar la hipótesis más probable se busca el mayor P(h D). Esto se puede estimar con el teorema de Bayes, definido con la siguiente ecuación: El clasificador naive Bayes se utiliza cuando se quiere clasificar un ejemplo descrito por un conjunto de atributos (ai's) en un conjunto finito de clases (V). Clasificar un nuevo ejemplo de acuerdo con el valor más probable dados los valores de sus atributos. Los clasificadores naive Bayes asumen que el efecto de un valor del atributo en una clase dada es independiente de los valores de los otros atributos. Esta suposición se Página 31

32 llama independencia condicional de clase. Ésta simplifica los cálculos involucrados y, en este sentido, es considerado "ingenuo (naive). Esta asunción es una simplificación de la realidad. A pesar del nombre del clasificador y de la simplificación realizada, el naive Bayes funciona muy bien, sobre todo cuando se filtra el conjunto de atributos seleccionado para eliminar redundancia, con lo que se elimina también dependencia entre datos. Una ventaja de las grandes ventajas de este clasificador es la cuestión de los valores perdidos o desconocidos. Si se intenta clasificar un ejemplo con un atributo sin valor el clasificador naive Bayes simplemente el atributo en cuestión no entra en el productorio que sirve para calcular las probabilidades. Respecto a los atributos numéricos, se suele suponer que siguen una distribución Normal o Gaussiana. Para estos atributos se calcula la media μ y la desviación típica σ obteniendo los dos parámetros de la distribución N(μ, σ). J48, algoritmo C4.5 El método J48 es un procedimiento para generar un árbol de decisión.generar un árbol de decisión consiste en seleccionar un atributo como raíz del árbol y crear una rama con cada uno de los posibles valores de dicho atributo. Con cada rama resultante (nuevo nodo del árbol), se realiza el mismo proceso, se selecciona otro atributo y se genera una nueva rama para cada posible valor del atributo. Este procedimiento continúa hasta que los ejemplos se clasifiquen a través de uno de los caminos del árbol. El nodo final de cada camino será un nodo hoja, al que se le asignará la clase correspondiente. Así, el objetivo de los árboles de decisión es obtener reglas o relaciones que permitan clasificar a partir de los atributos. Este algoritmo permite el empleo del concepto razón de ganancia, construir árboles de decisión cuando algunos de los ejemplos presentan valores desconocidos para algunos de los atributos, trabajar con atributos que presenten valores continuos, la poda de los árboles de decisión y la obtención de reglas de clasificación. Antes de definir el algoritmo C4.5, tendríamos que nombrar la base fundamental de éste, que es el ID3. ID3 es capaz de tratar con atributos cuyos valores sean discretos o continuos. Para atributos discretos, el árbol de decisión tendrá tantas ramas como valores posibles tome el atributo. Y para el caso en el que los valores del atributo son continuos, el ID3 no clasifica correctamente los ejemplos dados. Por ello, se propuso el C4.5, como extensión del ID3, que permite: 1. El empleo del concepto razón de ganancia. 2. La construcción de árboles de decisión cuando algunos de los ejemplos presentan valores desconocidos para algunos de los atributos. 3. Trabajar con atributos que presenten valores continuos. 4. La poda de los árboles de decisión. Página 32

33 5. La obtención de Reglas de Clasificación. Razón de ganancia El test basado en el criterio de maximizar la ganancia tiene como sesgo la elección de atributos con muchos valores. Cuanto más fina sea la participación producida por los valores del atributo, la incertidumbre o entropía en cada nuevo nodo será menor, por tanto también será menor la media de la entropía a ese nivel. El algoritmo C4.5 modifica el criterio de selección del atributo empleando en lugar de la ganancia la razón de ganancia. Valores desconocidos Admitir ejemplos con atributos desconocidos tanto en el proceso de aprendizaje como en el de validación está contemplado en el algoritmo C4.5. Durante el proceso de aprendizaje podemos calcular la razón de ganancia de un atributo con valores desconocidos, de esta forma se redefinen sus dos términos: la ganancia, y la información de ruptura. No se toma el valor desconocido como significativo, sino que se supone una distribución probabilística del atributo de acuerdo con los valores de los ejemplos en la muestra de entrenamiento. Cuando se entrena, los casos con valores desconocidos se distribuyen con pesos de acuerdo a la frecuencia de aparición de cada posible valor del atributo en el resto de ejemplos de entrenamiento. En cuanto a la clasificación de un ejemplo de test, si se alcanza un nodo con un atributo que el ejemplo no tiene (desconocido), se distribuye el ejemplo (divide) en tantos casos como valores tenga el atributo, y se da un peso a cada resultado con el mismo criterio que en el caso del entrenamiento: la frecuencia de aparición de cada posible valor del atributo en los ejemplos de entrenamiento. El resultado de esta técnica es una clasificación con probabilidades, correspondientes a la distribución de ejemplos en cada nodo hoja. Poda del árbol de decisión A partir de un conjunto de ejemplos se ha construido el árbol de decisión, por tanto, reflejará correctamente todo el grupo de casos. Sin embargo, esos ejemplos pueden ser muy diferentes entre sí, y por tanto, el árbol resultante puede llegar a ser bastante complejo, con ramas muy largas y muy desbalanceado. La solución óptima sería la de realizar una poda del mismo para facilitar la comprensión del árbol. C4.5 efectúa la poda después de haber desarrollado el árbol completo (post-poda), a diferencia de otros sistemas que realizan la construcción del árbol y la poda a la vez (pre-poda); es decir, estiman la necesidad de seguir desarrollando un nodo aunque no posea el carácter de hoja. En C4.5 el proceso de podado comienza en los nodos hoja y recursivamente continúa hasta llegar al nodo raíz. Se consideran dos operaciones de poda en C4.5: reemplazo de sub-árbol por hoja (subtree replacement) y elevación de Página 33