Master Ingeniería y Tecnología del Software. Metodología para el análisis de ocurrencias de terremotos de gran magnitud.

Transcripción

1 ESCUELA TÉCNICA SUPERIOR DE INGENIERÍA INFORMÁTICA Master Ingeniería y Tecnología del Software Metodología para el análisis de ocurrencias de terremotos de gran magnitud. Realizado por D. Francisco Javier Galán Montaño Dirigido por Dra. Cristina Rubio Escudero Dr. Francisco Marínez Álvarez Departamento Lenguajes y Sistemas Informáticos Sevilla, (07/2013)

2 Agradecimientos Me resulta muy complicado enumerar a todos aquellos que han contribuido al buen fin del mismo. Por este motivo queremos disculparnos si alguien que ha resultado ser un apoyo a lo largo del proceso no aparece explícitamente en estas líneas. Sobre todo agradecer a mi familia la paciencia y la comprensión sin la cual no hubiera sido posible superar aquellas situaciones adversas que nos han surgido. Y por supuesto a todos esos amigos, compañeros de trabajo, etc.., que han soportado nuestras charlas acerca de algo tan desconocido para ellos comola minería de Datos. También agradecer a mis tutores, Cristina Rubio y Francisco Martinez su comprensión y apoyo durante todo el proceso de aprendizaje y desarrollo del proyecto. I

3

4 Resumen En este trabajo se ha realizado un proceso completo de Knowledge Discovery in Databases (KDD) aplicado a datos de origen sísmico. En particular, se han analizado las series temporales que describen los seísmos en Japón, una de las regiones con mayor actividad sísmica del mundo. 1. Obtención de datos. Para ello, de acuerdo con la literatura existente, se han dividido los datos en 6 conjuntos diferentes, todos ellos de dimensiones diferentes. 2. Limpieza de datos. Los datos proporcionados por los sitios web no son completos, por lo que se han eliminado atributos cuya significancia sea mínima, así como aquellos registros que han presentado errores de medición o valores ausentes. 3. Generación de nuevos atributos con la ayuda de expertos en materia sismológica. Se ha incorporado información geológica como input de los sistemas predictivos que se utilizarán. 4. Selección de atributos más significativos, mediante técnicas que miden la cantidad de información aportada por cada uno de los atributos que forman la base de datos. 5. Aplicación de algoritmos de minería de datos para la generación de un modelo predictivo. Se han evaluado los algoritmos KNN, una máquina de vector soporte, red neuronal artificial y el algoritmo J48. La elección de estos algoritmos se debe a su diferente naturaleza. III

5

6 Índice general Índice general V 1 Introduccción Motivación y Objetivos Estado del Arte Introducción Predicción Técnicas para la predicción Evaluación de las teorías de predicción Radón El método VAN Triboluminiscencia Minería de Datos Descripción general de las Técnicas KDD Selección de Atributos Algoritmo de Ranking Algoritmo de Primero el Mejor Clasificación Naives-Bayes Vecinos más cercanos Árboles de desición Propuesta Selección de datos Preprocesado de datos Algoritmos de minería de datos aplicados KNN, vecinos cercanos Redes Neuronales J SVM, máquinas de vectores de soportes V

7 VI Índice general 5 Experimentación y Resultados Programas Utilizados Medidas de Valoración Resultados por Zonas Zona A Zona B Zona C Zona D Zona E Resultados Globales Conclusiones 65 Bibliografía 67

8 CAPÍTULO 1 Introduccción 1.1 Motivación y Objetivos Los terremotos ocurren sin previo aviso y pueden llegar a destruir ciudades completas en pocos segundos, causando de esta manera importantes pérdidas humanas y económicas. Actualmente se está invirtiendo un gran esfuerzo para desarrollar técnicas para predecir estos, aparentemente, impredecibles desastres naturales, con el fin de poder tomar medidas preventivas con la suficiente antelación. Durante más de cien años se ha buscado encontrar métodos fiables para predecir terremotos. La utilización de datos de sismicidad histórica en la predicción deterremotos es absolutamente relevante hoy día. De hecho, hay un grupo de trabajo muy importante conocido como RELM (Regional Earthquake Likelihood Model), que ha surgido con el objetivo de desarrollar varios modelos de las estimaciones de riesgo. Debemos resaltar que un grupo de terremotos menores precediendo o siguiendo a un terremoto mayor se denomina clustering por los sismólogos. Sin embargo, este concepto no sedebe confundir con las técnicas de clustering, que son uno de los principales objetivos de la Minería de Datos y la Intenligencia Artifícial. El objetivo de este trabajo de investigación es encontrar patrones y poder realizar modelos del comportamientode las series temporales que comprenden la ocurrencia de terremotos de magnitud elevada (>= 4) [FMl12]. Una vez que se extraigan dichos patrones, se utilizarán para predecir elcomportamiento del sistema de modo tan preciso como sea posible dependiendo de la zona del terremoto y la magnitud de mismo. En particular, se han obtenido datos asociados a terremotos en Japón 1

9 2 1. Introduccción durante la última década y se pretende demostrar la utilidad de la aplicación de la minería de datos para este problema concreto. Se toma como inicio el trabajo realizado por D. José María Luna Romera como Trabajo Fin de Máster del curso 2011/2012 [Rom12]. En dicho trabajo, se implementaron los indicadores sísmicos presentados en [JR12] y se aplicaron a datos de Japón. El fundamental problema que presentaba es que no se realizó ningún estudio estadístico sobre la utilidad de dichos indicadores. Más bien estos indicadores se basaban en afirmaciones que tradicionalmente se daba por supuesto en el ámbito sismológico. Además, se han implementado un nuevo conjunto de indicadores sísmicos que fueron presentados en [AP09a]. Con ello, se pretende tener un conjunto de entrada con la mayor cantidad de información posible. No obstante, al igual que pasaba con el conjunto de indicadores presentados en [JR12], los autores no daban ninguna información acerca de la correlación real con la etiqueta de salida, en este caso si habrá o no un terremoto durante los próximos cinco días. De este modo, los objetivos de este trabajo se pueden resumir en los siguientes puntos: 1. Validar los indicadores sísmicos presentados en [AP09a], específicamente testados en la baja California, para Japón. 2. Utilización de técnicas de selección de atributos para determinar cuál es el conjunto de indicadores sísmicos óptimo para la predicción de terremotos en Japón. 3. Ordenar según importancia todos los atributos utilizados. Esto es, establecer un ranking para proporcionar el orden de relevancia de todos los indicadores sísmicos en Japón. 4. Aplicar distintos clasificadores, enmarcados dentro de la minería de datos, para determinar qué familia es capaz de realizar mejores predicciones para este problema particular.

10 CAPÍTULO 2 Estado del Arte 2.1 Introducción Hace años, multitud de ratones, serpientes e insectos huyeron de la ciudad griega de Hélice, en el Golfo de Corinto. Después, hubo un terremoto, escribió el autor romano Claudio Eliano. La ciudad se hundió, la inundó una inmensa ola y Hélice desapareció. Desde entonces se han utilizado una gran variedad de métodos para tratar de predecir terremotos. El comportamiento de los animales, los cambios del clima y los sismogramas se han quedado cortos. El sueño sería poder predecir terremotos igual que predecimos el tiempo. Unos pocos minutos bastarían para que los posibles afectados se apartaran de muros y techos que podrían atraparles o para cerrar plantas nucleares y otras instalaciones antes de que empiecen los temblores. Si se hiciera con días de antelación podrían incluso organizarse los planes de evacuación necesarios, igual que se hace en el caso de los huracanes. Los científicos acudieron en primer lugar a la sismología, con la intención de establecer patrones de los temblores que pudieran indicar si una falla se está moviendo. Sin embargo, hasta el momento no se ha conseguido distinguir entre las ondas de energía que preceden un terremoto y los posibles temblores inofensivos. Como afirmó Thomas Jordan, director del Centro de Terremotos del Sur de California, en una reunión de la Unión Geofísica de Estados Unidos en San Francisco el pasado mes de diciembre, los expertos no son capaces de responder con determinación ante la pregunta de si se producirá un terremoto. 3

11 4 2. Estado del Arte De este modo, algunos científicos han centrado su atención en otras señales, incluida la electricidad, que podrían estar relacionadas con la actividad que se desarrolla bajo tierra cuando una falla está a punto de deslizarse. Una teoría es que cuando se avecina un terremoto, las rocas experimentan extraños cambios, produciendo intensas corrientes eléctricas, señala Tom Bleier, ingeniero de QuakeFinder, un proyecto financiado por la empresa Stellar Solutions de Massachusetts (Estados Unidos). Las corrientes son muy fuertes, declaró Bleier en la misma reunión de la Unión Geofísica. Del orden de amperios para un terremoto de magnitud 6 y de un millón para uno de magnitud 7. Es como si hubiera relámpagos bajo tierra. Para medir estas corrientes, el equipo de Bleier ha invertido millones de dólares en la instalación de magnetómetros a lo largo de las líneas de fallas en California, Perú, Taiwán y Grecia. Estos instrumentos son lo suficientemente sensibles como para detectar pulsaciones magnéticas de descargas eléctricas de hasta 16 kilómetros de distancia. En un día normal en la falla de San Andrés, en California, pueden verse diez pulsaciones, declaró a National Geographic News. La falla siempre se está moviendo, crujiendo, estremeciéndose. Según el experto, antes de un gran terremoto, el nivel de descargas eléctricas aumentaría de considerablemente. Eso es precisamente lo que afirma haber observado antes de la media docena de terremotos de magnitud 5 y 6 que ha podido monotorizar. Llegan a 150 ó 200 pulsaciones al día, señala. El número de pulsaciones, añade, aumenta unas dos semanas antes del terremoto y vuelve a bajar poco antes de que se mueva la falla. Ése es el patrón que buscamos. Sin embargo, las pulsaciones magnéticas pueden tener otras posibles causas, como erupciones solares o interferencias eléctricas de equipos de mantenimiento de carreteras, cortadoras de césped o incluso el motor de un tractor. Y no sólo eso puede interferir: Las arañas se metieron en nuestros instrumentos una vez, así que tuvimos que poner pantallas enfrente, recuerda Bleier.

12 2.1. Introducción 5 Bleier también observó que las partículas cargadas llamadas iones producidas a partir de corrientes dentro de la Tierra acababan saliendo a la superficie, por lo que añadimos un sensor de iones negativos y uno de iones positivos, declara. Igualmente, debido a que la lluvia también puede provocar picos en las concentraciones de iones, el equipo instaló sensores de humedad para evitar una falsa alarma. Por último, descubrió que cuando los iones alcanzan el aire, las cargas positivas y negativas se neutralizan, lo que produce una explosión de radiación infrarroja que puede engañar a los satélites meteorológicos para que piensen que el terreno cercano a una falla se está calentando. Según él, esto se puede observar perfectamente a través de los satélites meteorológicos GOES. Si sucede todo esto, pensaremos que va a tener lugar un terremoto de magnitud 5 dos días más tarde, afirma. Su equipo, sin embargo, no ha monotorizado todavía suficientes terremotos como para asegurar que su descubrimiento es válido para todos. Pero el patrón resulta muy interesante, añade. En cualquier caso, considera que tiene las pistas necesarias para seguir adelante. A partir de enero su equipo intentará empezar a hacer predicciones. en lugar de mirar hacia atrás en el tiempo, vamos a mirar hacia delante. Otros científicos están llevando a cabo análisis para apoyar la teoría del campo magnético. Robert Dahlgren, ingeniero del SETI Institute, lleva 16 meses trabajando con otros expertos aplicando altas presiones a las rocas para ver si producen corrientes eléctricas, lo que ha confirmado en el caso de rocas secas. Sin embargo, no ha sido así con rocas mojadas del tipo que se encuentran en los epicentros de terremotos. Qué dice esto sobre la predicción de terremotos? No tiene ni idea. Yo soy el tío de los instrumentos, señala, aunque hace hincapié en que las señales que mide en el laboratorio pueden generar campos magnéticos en las condiciones adecuadas. Es una investigación muy minuciosa. Se necesita un año para preparar las muestras de roca, y mucho tiempo para obtener resultados, afirma. Hace unos años, algunos científicos pensaron que los terremotos podían

13 6 2. Estado del Arte predecirse a partir de los cambios en la ionosfera, una capa de la atmósfera situada unos 300 kilómetros por encima de la superficie de la Tierra. La teoría afirmaba que los iones producidos por la falla a punto de deslizarse perturban la ionosfera. Sin embargo, el análisis sobre las perturbaciones previas a terremotos confirmó que podían darse por algo distinto, normalmente el Sol. es una señal de física espacial, no relacionada con los terremotos, señala Jeremy Thomas, físico espacial de Northwest Research Associates y del Digipen Institute of Technologyde Washington (Estados Unidos). Thomas también presentó sus conclusiones en la reunión de la Unión Geofísica de Estados Unidos. Además, como él mismo indica, resulta muy indicativo que las mismas perturbaciones de la ionosfera puedan darse lejos del epicentro del terremoto. De guardar relación con el terremoto, la señal no estaría a miles de kilómetros de distancia, concluye. La falta de éxito, sin embargo, no significa que la predicción de terremotos sea pura palabrería. Hace 30 años el científico norteamericano Brian Brady realizó la predicción de la ocurrencia de un sismo de grandes proporciones para el Perú. Era la primera vez en la historia que se daba este hecho. Brady era un Físico que trabajaba como investigador principal en el Buró de Minas del gobierno americano con sede en Denver, no era sismólogo pero si una autoridad reconocida en la minería norteamericana en el campo de la explosión de las rocas; sus cálculos en este aspecto fueron casi siempre exactos logrando, de esta manera, que se evitaran tragedias en socavones de las minas. La historia se inició cuando aparecieron publicaciones en la revista Pure and Applied Geophysics con el título Theory of Earthquakes I,II,III y IV (Teoría de Terremotos) cuyo autor era Brian Brady. La primera publicación mostraba con mucho detalle y rigor físico, lo que ocurría en un proceso de fracturamiento de rocas en muestras de laboratorio. Las fases por las que pasaba la roca antes de su colapso, se asemejaban mucho a lo que se suponía ocurría a escala de los sismos. Realizó una descripción muy clara del proceso y luego lo cuantificó generando un esquema matemático muy interesante. En la segunda publicación mostró una analogía de los efectos que ocurrían antes del colapso con los efectos premonitorios que se observaban antes de la ocurrencia de los sismos; en otras palabras lo que trataba de mostrar era que el proceso en el fondo era similar. En la tercera publicación aplicó la teoría a escala de los sismos empleando el esquema físico matemático desarrollado, se mostró ecuaciones donde se consideraba el posible tamaño de fracturamiento en función del tiempo que debería durar el proceso y mostró una relación muy interesante que

14 2.1. Introducción 7 fue traducida a un gráfico. En un eje colocó el valor del tamaño de la ruptura considerando las muestras de laboratorio, lo que se había observado en las minas y finamente los procesos sísmicos. Y en el otro el tiempo que llevaban estos procesos. El resultado fue una recta muy bien ajustada por los puntos generados en el gráfico. Este resultado le sugirió a Brady que el mismo esquema físico gobernaba todos los procesos, es decir, el del laboratorio, las minas y los terremotos. Es aquí donde estuvo el problema de su teoría. Los procesos de la tierra son jerárquicos, caóticos y no lineales, por lo tanto la física que describía muy bien los procesos del laboratorio y las minas no servía para describir los sísmicos. Finalmente en la cuarta publicación aplica su teoría para un caso especifico y predice la ocurrencia de un sismo para el Perú en octubre de 1981 indicando la fecha, tamaño del sismo y lugar de ocurrencia. Esta predicción estaba condicionada con la ocurrencia de algunos sismos precedentes de determinada magnitud y ubicación. Por aquella época la información que manejaba el Instituto Geofísico del Perú (IGP) en relación a determinación de parámetros focales de los sismos adolecía de fuertes deficiencias por la limitada distribución de estaciones sísmicas y por la falta de calidad en los datos que se obtenían. En algunos casos se especulaba la ubicación del sismo porque había sido detectado por dos estaciones sísmicas siendo necesario para su ubicación un mínimo tres. Mi trabajo en aquella época era justamente ver la determinación de los parámetros focales y se daba en nosotros una gran inquietud por la predicción de Brady. Precisamente visitó el Perú y llego al IGP para ver la información que estábamos determinando. Al observarla indicó que era muy difícil determinar si las condiciones que él había dado estaban ocurriendo, no había precisión en los cálculos de los sismos que se tenían, existiendo una muy grande incertidumbre también en la magnitud. El staff de científicos que tenía el IGP, muchos de ellos con doctorados logrados en los Estados Unidos no se manifestaron en relación a la teoría de Brady, no porque no deseaban hacerlo sino por incapacidad. Allí pude comprobar lo que era la mediocridad, el miedo a opinar por la incapacidad de entender lo que había hecho un colega; ninguno de estos personajes, que hasta la actualidad siguen siendo mamíferos del estado porque continúan viviendo de sus arcas, opinó al respecto. Nunca fue escrita una publicación que mostrara el error de la teoría de Brady, ni un análisis de la misma. Brady era un hombre sencillo, en aquella época muy joven y como tal probablemente despojado de complejos y de capacidad de observar las consecuencias de aplicar una teoría desarrollada por él con la mejor intención y colocando toda su sapiencia sin pensar en las consecuencias sociales de la misma, considerando prácticamente el total analfabetismo científico

15 8 2. Estado del Arte que tenía el país. Cuando la noticia se filtró a la prensa se inició toda una cadena de imbecilidades que rayaron en lo más absurdo. Los que opinaban en la televisión y prensa escrita eran los adivinos, brujos, sacerdotes, sin conocer nada de lo que estaba ocurriendo, lo primero que hicieron fue crucificar a Brady generando un paradigma que hasta la fecha se tiene y se ve a este científico como un charlatán. Los científicos peruanos brillaban por su ausencia. En aquella época Lima tenía cinco millones de habitantes que empezaron a vivir una mala disimulada sicosis, se hablaba de un cataclismo de proporciones bíblicas. Miles empezaron a comprar alimentos de reserva en conservas, agua potable, medicamentos. Muchos empezaron a prepararse para salir de la ciudad, se copó prácticamente la capacidad del transporte aéreo. Se postergó un censo nacional que se tenía que hacer, la visita del presidente del Brasil fue acortada para evitar que permanezca en Lima en la fecha prevista para el terremoto. Tenía que realizarse un partido de futbol entre las selecciones de Chile y Perú el cual fue aplazado. Los empleados de las representaciones diplomáticas recibieron instrucciones escritas sobre cómo comportarse en caso de desastre e incluso se les entregó linternas, radios portátiles, frazadas y tintura de yodo para asegurar la potabilidad del agua. Finalmente el sismo no ocurrió y como siempre toda esta experiencia quedó en el olvido, volviéndose a cero en el aprendizaje de lo que debió significar esta predicción. Una de las experiencias exitosas, tal vez la única en predicción fue hecha por los chinos en Haicheng en Veamos cómo hacían nuestros colegas chinos para predecir los temblores. La estrategia que eligieron consistió en lo siguiente. Tomaron el Libro rojo y eligieron una frase, construyendo toda su teoría en torno a ella. La frase fue: Para agarrar los cachorros del tigre es necesario entrar a la cueva del tigre [Zed37]. Pero Cómo predecir temblores con ella? Tal pregunta no cuenta con el ingenio de nuestros sismólogos. Considérese la siguiente interpretación: el tigre es el sismo, los cachorros son los fenómenos precursores y la cueva del tigre es el epicentro del temblor. Por lo tanto, lo que el Gran Líder estaba tratando de decirnos era esto: para encontrar los fenómenos premonitorios es necesario entrar a la región epicentral del sismo. Pero cómo hacerlo si el epicentro del futuro sismo es precisamente lo que desearíamos saber? Oh, dirían los sismólogos, ahí está precisamente la genialidad del Líder. Puesto que no lo sabemos, es necesario cubrir todo el país con estaciones de aficionados, que son gente del pueblo cuya

16 2.1. Introducción 9 sabiduría debemos aprovechar. Miles de estaciones, con instrumentos caseros atendidos por analfabetos, no importaba, pero algunos registrarían los fenómenos precursores si estuvieran cerquita del epicentro. No se debe sonreír ante esto. La predicción por este método llamado el método de las galletas de la suerte dio resultados tan buenos como cualquier otro método conocido hasta ahora. Yo mismo he pensado que sería interesante probar este método, usando una cita china de hace 2,500 años: Los grandes capitanes de antes se hacían invulnerables y acechaban la vulnerabilidad del enemigo.tu propia defensa depende de ti; La vulnerabilidad del enemigo depende de él. Si bien el mejor comandante puede hacerse invulnerable. No podrá hacer vulnerable al enemigo Dicho de otra manera: uno puede saber jugar pero no puede tocar sus naipes. Sun Tse: El arte de la guerra. La interpretación es la siguiente: El enemigo es el sismo. El juego que jugamos es la estrategia de control del riesgo sísmico. El comandante es el sismólogo. El consejo que nos da Sun Tse desde su remota prehistoria es el siguiente: la invulnerabilidad contra los sismos puede hallarse solamente en la prevención. No busquemos predecir las movidas del enemigo (o sea, el temblor) hasta que no seamos invulnerable al sismo. Kagan et al. [Kag99] presentó una predicción a cinco años de terremotos de magnitud 5.0 o más para el sur de California. Este método está basado en un catálogo de espacialidad histórica de terremotos, y su principal característica recae en la observación de regularidades en aparición de terremotos. Un modelo basado en suposiciones similares puede encontrarse en [AHJ07] Muchos estudios [AMERE10] [DPG92] [SWH02a] han sido desarrollados sobre las variaciones temporales del valor b y algunos de ellos relacionando el valor b con la predicción de terremotos como en y muchos otros. Sigue existiendo algo de controversia entre los investigadores acerca de las variaciones de b en el espacio y tiempo. Es importante saber cómo se obtiene la secuencia de los valores de b antes de mostrar conclusiones sobre su variación. Además, el trabajo en [PNP05] hace un estudio profundo sobre los terremotos en la región de Andaman-Sumatra y demuestran que los terremotos suelen ir precedidos por un gran incremento de b además de, en algunos casos, un pequeño decremento de este valor precedido del temblor. Por otra parte Sammonds et al. [PRSM92] mostraron que un gran terremoto normalmente iba precedido por un incremento a medio plazo del valor b, seguido por un decremento de meses a semanas antes del te-

17 10 2. Estado del Arte rremoto. Los autores de [owi74] [SWH02b] concluyen que el valor b es un medidor de estrés que depende inversamente proporcional al diferencial del estrés [Lom90]. El trabajo en [WS07] presenta un modelo basado en probabilidad sobre California. Este método fue basado en tres hipótesis. La primera, el valor b es inversamente dependiente al estrés, consecuentemente, el valor b puede ser usado como medidor del estrés dentro de la corteza terrestre donde no existen medidas directas. En segundo lugar, las asperezas son encontradas para ser caracterizadas por un valor b bajo. Y finalmente, los datos de varios regímenes tectónicos sugieren que el valor b de pequeños terremotos son muy estacionarios sobre el tiempo. Wiemer y Wyss [WW02] han demostrado que significativas variaciones estadísticas para el valor b, ocurren en varios regímenes tectónicos desde local hasta escalas regionales. Frochlich y Davis [FD37] y Kagan [Kag99] sugieren que las diferencias observadas son debidas a los artefactos y a que hay pequeñas variaciones del valor b entre diferentes regímenes tectónicos. El estudio sobre los cambios temporales del valor b frente a cambios grandes antes que cambios temporales en sub-regiones [WW02]. Finalmente, Ogata e Iyetomi [SOI91] estudiaron las variaciones en el espacio tiempo del valor b simultáneamente. Por otra parte, muchas aproximaciones de reconocimiento de patrones que analizan el valor b como precursor de la activación de los seísmos han sido propuestos durante la última década. Así, en el trabajo [PNP05] se descubrió importantes significados espacio-temporales en las variaciones del valor b, precediendo a la aparición del terremoto de Diciembre del 2004 en NW Sumatra. Igualmente remarcable es la aproximación de los patrones informáticos, originariamente propuestos en [KFToK02]. Este método que identifica regiones correlativas de datos de seísmos registrados que preceden desde pocos a muchos como die años, el principal choque. Así, Holliday en [JRHD07] que previene en las regiones al sur de California donde los terremotos son probables en un periodo de 5 a 10 años. Una modificación del método del patrón informático tuvo también éxito aplicado al centro de Japón [KNT06], estrechando la posible localización donde el mayor terremoto podría ocurrir [YTK10]. En referencia al uso de modelos neuronales, sus aplicaciones han sido muy abundantes. Una red neuronal probabilística fue probada [AP09b] en haciendo uso de datos de la región sur de California. Este tipo de red neuronal es principalmente usada para clasificación de problemas, como

18 2.1. Introducción 11 se ha aplicado en este trabajo. De hecho, los autores predicen la magnitud de los terremotos como uno de los valores de salida de las clases. Se ha hecho uso de métodos de minería de datos en muchos campos diferentes para resolver complicados reconocimientos de patrones y clasificación de problemas en dominios como imagen y reconocimiento de objetos [VN07] [Wer07], reconocimiento de voz, robótica [YA07] y computer vision [Hua04] [Vil07], lenguaje natural y procesador de textos [TN07] [RPCB08], ingeniería biomédica y diagnóstico médico [HK08], neurociencia [BH07], actividad solar[ny05], seguridad informática [NB07], control de tráfico aéreo [CK08, MATMER11] entre otros. Numerosos autores han propuesto distintos métodos para predecir la ocurrencia de terremotos. En este apartado se describen brevemente modelos propuestos por el RELM. Es destacable el trabajo de Shen [She07b], en el cual los autores han trabajado sobre unos datos extraídos al sur de California a lo largo de un período de tiempo, una década concretamente. El trabajo de Ward [War07] añadió cinco modelos nuevos al RELM. El primero, similar al trabajo presentado por Kagan [Kag07], se basa en el estudio de la sismicidad pasada y predecía terremotos de magnitud mayor o igual a 5,0. El segundo modelo es similar al propuesto por Shen et al. [She07a]. El tercero se basa en el análisis de los datos de las fallas. El cuarto modelo es una combinación de los tres primeros modelos y, finalmente, el último se basa en simulaciones de terremotos [War00]. Helmstetter et al. [Hel07] han desarrollado un método incluyendo los terremotos más pequeños y eliminando las réplicas, independiente del tiempo, similar al del Kafka y Levin [Kaf00]. El grupo de trabajo California Earthquake Probability [Pet07] ha presentado el Uniform California Earthquake Rupture Forecast v. 1 compuesto de cuatro tipos de fuentes de terremotos con sismicidad distribuida, similar al National Seismic Hazard Map [Fra02]. También tenemos el Asperity-based Likelihood Method (ALM), otro modelo de predicción para cinco años que supone una distribución de los terremotos según la ley de Gutenberg-Richter [Wie07] y considera que la distribución de tamaños de microterremotos recientes es la información más importante para predecir terremotos de magnitud mayor o igual a 5,0. Holliday et al. [Hol07], desarrollaron el modelo de Pattern Informatics, centralizado en las zonas las zonas donde es más probable que suceda un terremoto en el futuro próximo basado en descubrir zonas con una actividad sísmica alta, llegando a hacer predicciones de 5 a 10 años.

19 12 2. Estado del Arte Otro de los métodos propuestos, en este caso por Bird y Liu [Bir07], consiste en estimar la sismicidad media a largo plazo de cualquier región en dos pasos, aplicando leyes de geofísica. Aplicando este método, los autores afirman que la las predicciones realizadas utilizando la teoría de la tectónica de placas son más exactas que aquellas basadas en muestras pasadas. También nos encontramos a, Gerstenberguer et al. [Ger07], que desarrollaron un método para predecir terremotos en las próximas 24 horas, situando sobre un mapa la probabilidad de ocurrencia de terremotos basándose en una estadística de réplicas y precursores. El método de Rhoades [Rho07] lleva a cabo predicciones para un año basándose en el concepto de que cada terremoto es un precursor según su escala. Para ese objetivo, los terremotos previos de menor magnitud se han utilizado para predecir los de mayor magnitud. Por otra parte tenemos a Ebel et al. [Ebe07], que proponen dos métodos para predecir terremotos. El primer método se basa en la asunción de que la media de varias variables estadísticas, tales como la ocurrencia espacial y temporal de terremotos de magnitud mayor o igual a 4,0, durante el período de predicción es la misma que la media de esas variables durante los últimos 70 años. El segundo método utiliza el modelo de Markov para realizar predicciones para el día siguiente. Y por último, Murru et al. [Mur08] han desarrollado un modelo de predicción a corto plazo basado en la propagación de secuencias de réplicas simulando la propagación de una epidemia. 2.2 Predicción En la actualidad, debido a la gran cantidad de información que se posee en las organizaciones, se hace necesario desarrollar y adaptar métodos eficientes para extraer conocimiento desde las bases de datos. Más aún, cuando se reconoce que existen en los datos un valor oculto, describible y explotable, que se podría utilizar para mejorar los procesos en dichas organizaciones. Históricamente al concepto de encontrar patrones útiles desde los datos, se le ha dado varios nombres, incluyendo el descubrimiento de conocimiento en bases de datos, minería de datos, extracción del conocimiento, descubrimiento de información, cosecha de información, arqueología de datos y procesamiento de patrones. El término Descubrimiento de Cono-

20 2.2. Predicción 13 cimiento en Bases de Datos o KDD, fue acuñado en 1989 para referirse al amplio proceso de encontrar conocimiento en los datos. El término Minería de Datos ha sido comúnmente usado por la comunidad estadística, los analistas de datos y por la comunidad de los MIS (Sistemas de Información Gerencial), mientras que el término KDD ha sido más usado por los investigadores en el área del Aprendizaje Automático [Nil98]. En los últimos años se adoptó que KDD se refiere a todo el proceso del descubrimiento de conocimiento útil desde los datos, mientras que Minería de Datos se refiere a la aplicación de algoritmos para extraer patrones desde los datos, como un paso dentro del proceso del KDD. KDD ha sido de interés para los investigadores en aprendizaje automático, reconocimiento de patrones, bases de datos, estadística, adquisición del conocimiento para la creación de sistemas expertos, entre otros. Los primeros trabajos relacionados con el Descubrimiento de Conocimiento en Bases de Datos (KDD) se presentaron en Detroit en 1989 [PS91]. Luego se hicieron algunos trabajos sobre predicción a partir de bases de datos en 1991, 1993 y En 1995 se llevó a cabo la Primera Conferencia sobre Descubrimiento de Conocimiento (KDD) y Minería de Datos [Fay95]. Entre las publicaciones iniciales en esta área se encuentran: [Inm91], [PS92], [Par93], [Cer93], [PS94], [PS95]. Uno de los grupos de investigación más importantes del KDD se encuentra conformado por Usama Fayyad, Gregory Piatetsky-Shapiro, Padharic Smyth y Ramasamy Uthurusamy quienes han realizado grandes aportes en esta área [Fay96], [Fra91], [PSGE96], [PS91], [PS92]. El KDD es el resultado de un proceso de investigación y desarrollo de tecnologías. La evolución comienza en la década de 1960, cuando los datos en los negocios fueron primero almacenados en computadores, continuando en 1980 con herramientas como las bases de datos relacionales (RDBMS) y los lenguajes de consulta estructurados (SQL), que facilitaban acceder a los datos y más recientemente la generación de tecnologías que permiten al usuario navegar a través de sus datos en tiempo real. El KDD va más allá del acceso de datos y la navegación retrospectiva, para descubrir información en forma prospectiva y proactiva. El KDD puede ser aplicado en la actualidad debido a que existen tres elementos que ahora se encuentran lo suficientemente maduros, como son: herramientas que permiten la colección masiva de datos, computadores potentes con multiprocesadores y algoritmos para el KDD.

21 14 2. Estado del Arte Diversas herramientas y sistemas para descubrimiento de conocimiento se encuentran disponibles en la literatura. Algunas de ellas ofrecen soporte únicamente en la etapa de descubrimiento de patrones del proceso de KDD y requieren de un pre y un post procesamiento para los datos. Otras herramientas dan soporte a diferentes etapas del descubrimiento y otras ofrecen una variedad de tareas, combinando como por ejemplo, clasificación, visualización y agrupamiento. Dentro de KDD existen varias herramientas tanto comerciales como académicas, entre las que se pueden mencionar: Darwin (Thinking Machines Corp) - contiene las siguientes componentes: StarTree: Construye árboles de decisión usando el criterio CART. StarNet: Entrena una red neuronal feed-forward. El usuario especifica el número de capas y las neuronas por capa. La regla de entrenamiento puede ser: Backpropagation, modified Newton, steepest descent y conjugate gradient. StarMatch: Encuentra los ejemplos prototípicos usando razonamiento basado en casos o instancias usando la medida de los vecinos más cercanos (k-nearest neighbours). La distancia es euclidiana y los pesos los puede asignar el usuario. StarGene: Usa algoritmos genéticos para optimizar los parámetros asociados con otras técnicas (número de capas ocultas, pesos de los parámetros en StarMatch, etc.). StarView: Diversas herramientas de visualización de datos. StarData: Herramientas para manipular bases de datos. Sirve de interfaz entre Darwin y manejadores comerciales de bases de datos y deja una base de datos en un formato entendible por todas las herramientas de Darwin. MineSet 3.0 (Silicon Graphics) - Algoritmos para la Minería de Datos: como árboles de decisión, reglas de asociación, agrupamiento y el método de Naive Bayes el cual determina la probabilidad de un evento basado en un atributo dado. Herramientas de Visualización: las cuales permiten visualización de mapas, árboles, reglas, scatter-plots.

22 2.2. Predicción 15 Clementine - ISL/SPSS (Intelligenza, S.A.) - Posee menús para la selección de: Datos: Ascii o tablas de bases de datos tomadas de Oracle, Ingres, Sybase, Informix, etc. Registros: Selecciona, mezcla, muestrea y balancea. Campos: Filtra, deriva nuevos campos, selecciona por tipo, llena información faltante. Gráficas: Permite realizar gráficas como histogramas, grafos, etc. Algoritmos de Minería de Datos: Redes Neuronales, Árboles de Decisión (C4.5) y generación de reglas. Salidas: Tablas, análisis, matrices, estadísticas. DBMiner (Simon Fraser University, Canada) Es un sistema de KDD para la extracción interactiva de conocimiento en múltiples niveles de abstracción en grandes bases de datos relacionales [Han96], [Fu96]. La arquitectura de DBMiner consta de una interfaz gráfica de usuario (GUI), un motor del sistema y un módulo de comunicación de datos. El motor, que es el núcleo del sistema, contiene módulos para el análisis de consultas, para la generalización y para el descubrimiento de patrones. El módulo de comunicación maneja la transmisión de datos entre el motor y el servidor. Herramientas: Caracterizador: Encuentra relaciones generales entre datos. Discriminador: Encuentra reglas que distinguen clases. Clasificador: Construye modelos de clases basados en reglas. Reglas de Asociación: Del tipo X => Y, en donde X y Y son conjuntos. Meta-reglas: Usa formato de lógica de segundo orden para buscar relaciones en los datos. Predictor: Predice valores faltantes basándose en información relacionada. Evaluador de evolución de datos: Encuentra tendencias en los datos. Evaluador de desviaciones: Encuentra desviaciones de tendencias en los datos. También utiliza Data- Cube (Una generalización de consultas en SQL)

23 16 2. Estado del Arte DataMine (Rutgers University) Encuentra reglas de asociación con medidas de soporte (cuantos ejemplos la satisfacen) y confianza (relación entre cuantos ejemplos satisfacen la reglas y cuantos sólo satisfacen la parte izquierda de la regla). Su objetivo es ofrecer a los desarrolladores de aplicaciones de KDD las ventajas que ofrecen SQL y las API s (Application Programming Interface) relacionales [Imi96]. DataMine soporta M-SQL una extensión de SQL, por medio del operador MINE el cual genera y recupera conjuntos de reglas a partir de la base de datos dentro de una arquitectura, que de acuerdo con los autores, está débilmente acoplada al manejador de la base de datos. Quest Es un sistema de soporte en la toma de decisiones [Agr96] que ofrece algoritmos para el descubrimiento de reglas de asociación y clasificación, patrones secuenciales, patrones en series de tiempo y descubrimiento activo e incremental en grandes bases de datos. Los algoritmos que Quest utiliza se caracterizan por descubrir y verificar la existencia de patrones de asociación en grandes bases de datos, por identificar todos los patrones existentes y ocultos de cierto tipo y por ser eficientes y escalables en grandes bases de datos (varios gigabytes). Este tipo de herramienta requiere de un potente soporte físico (procesamiento en paralelo) para realizar el descubrimiento. Intelligent Miner for Data Es una herramienta propuesta por IBM [Cab97] que ofrece una variedad de técnicas para realizar el descubrimiento, soporta grandes volúmenes de datos y ofrece al usuario una interfaz para programación de aplicaciones, pero no trabaja sobre ningún manejador de bases de datos relacional. Entre las técnicas que maneja se tienen: reglas de asociación, agrupamiento, análisis de secuencias de tiempos, clasificación (árboles de decisión y redes neuronales), predicción (RBF y redes neuronales) y de visualización estadística. DBLearn En esta herramienta [Han92] se integra un paradigma de aprendizaje automático, a partir de ejemplos, con operaciones de bases de datos, bajo un modelo de inducción orientada por atributos. El método

24 2.2. Predicción 17 reúne el conjunto de datos de interés en una relación inicial, aplica generalización basada en jerarquías conceptuales, atributo por atributo, para construir una relación generalizada, extrae reglas generalizadas y descubre regularidades a alto nivel. DBLearn utiliza SQL en la tarea inicial para extraer los datos relevantes de la base de datos. En éste sentido está débilmente acoplado a un manejador de bases de datos relacional. Una vez se ha encontrado el conjunto de datos objetivo, se lleva a cabo un proceso de generalización orientado por atributos con base en una jerarquía de conceptos de cada atributo. Finalmente, se extraen las reglas a partir de la generalización. La mayoría de las herramientas existentes de KDD tienen un conjunto predefinido de algoritmos para realizar el proceso de descubrimiento, siendo esto una desventaja, ya que no existe un método o un conjunto de métodos que sirvan para todas las tareas, por lo que a veces es necesario probar para una determinada tarea, varios métodos. Por éste motivo, una de las líneas de investigación actual, consiste en crear Sistemas Extensibles. En donde Extensible significa que se puedan incluir nuevas herramientas sin exceso de programación. En la tabla 1 se encuentran algunas empresas que ofrecen soluciones comerciales a la Minería de Datos [Cor97]. En general, se han desarrollado numerosas aplicaciones en las áreas de: Finanzas, Telecomunicaciones, Ingeniería, Medicina, Farmacología, Ciencias Ambientales, Biología Molecular, Química, Física, análisis de riesgos, segmentación de consumidores de un producto, clasificación de consumidores, detección de fraudes, pronósticos de ventas, control de la producción, desempeño de redes en telecomunicaciones, reconocimiento de patrones en textos, diagnóstico de enfermedades, etc. Para el soporte a la toma de decisiones se han desarrollado aplicaciones para el análisis de la canasta de mercados, en donde el proceso consiste en examinar las ventas para identificar afinidades entre productos y los servicios de compra ofrecidos a un consumidor. Después del análisis se puede examinar en cuánto incrementaron las ventas de un determinado producto, dado que las ventas de otros disminuyeron. Los resultados obtenidos en el análisis de mercados, se pueden utilizar en la planeación y organización del negocio, en operaciones de manufactura y distribución, lanzamiento de promociones, entre otros. En el área bancaria y de tarjetas de crédito: Detección de fraudes: Encontrar los patrones y tendencias de compra para detectar comportamientos fraudulentos en el momento de compras con tarjetas de crédito.

25 18 2. Estado del Arte Análisis de morosidad o incumplimiento de pagos en los créditos: Identificar los patrones específicos para predecir cuándo y por qué los clientes no cumplen sus pagos. Segmentación del mercado: Segmentar correctamente a los clientes en grupos con motivos promocionales o de evaluación. En el área de telecomunicaciones: Control de fuga de clientes: Predecir qué clientes probablemente cambien a otro proveedor en el futuro, basado en el uso y el perfil de clientes que ya se han cambiado. De esta manera se pueden realizar esfuerzos de mercadeo para mantener estos clientes. Control de redes: Identificar patrones de usos que permitan predecir usos futuros y determinen configuraciones óptimas de las redes. Detección de fraudes: Descubre los patrones asociados con comportamientos fraudulentos pasados para así identificar las razones de los fraudes presentes y futuros. Ventas cruzadas: Predecir qué clientes se pueden suscribir a productos y servicios (internet, video, larga distancia) basados en el uso y perfiles de clientes que ya utilizan estos servicios. En el ámbito nacional, en la universidad del Valle se han realizado varios trabajos, entre ellos El Descubrimiento de Conocimiento en Bases de Datos Médicas, en el cual se utilizó la técnica de rough sets, que consiste en una teoría matemática para descubrir patrones de comportamiento a partir de una base de datos [Bau98]. También en la misma institución se desarrolló una arquitectura relacional para el descubrimiento de conocimiento en bases de datos voluminosas. 2.3 Técnicas para la predicción Se han producido muchas teorías y predicciones pseudocientíficas. La aleatoriedad natural de los terremotos y la actividad sísmica frecuente en ciertas áreas pueden ser utilizadas para hacer predicciones que pueden generar credibilidad injustificada. Generalmente, tales predicciones dejan ciertos detalles sin especificar, lo que incrementa la probabilidad de que los vagos criterios de predicción se reúnan y se ignoren los terremotos que no fueron previstos.

26 2.3. Técnicas para la predicción Evaluación de las teorías de predicción En California, se ha establecido un Consejo de evaluación de predicción de terremotos y Estados Unidos cuenta con un consejo similar a nivel federal, aunque ninguno de ellos han adoptado algún método fiable para predecir terremotos. Las evaluaciones científicas de las supuestas predicciones buscan los siguientes elementos: una ubicación o área específica, un lapso de tiempo determinado, un rango de magnitud particular y una probabilidad específica de ocurrencia [Tor01] Radón La concentración de radón en el suelo ha sido utilizado de manera experimental para ubicar fallas geológicas cercanas a la superficie, ya que la concentración es generalmente más alta sobre las fallas.8 Algunos investigadores han tratado de probar que las concentraciones elevadas de radón en el suelo o los cambios rápidos en las concentraciones de radón en el suelo o agua subterránea pueden servir para predecir terremotos. La hipótesis consiste en que la compresión en torno a una falla cercana a romperse podría producir emisiones de radón, como si el suelo estuviera siendo exprimido por una esponja; por tanto, una mayor emisión de radón anticiparía la llegada de un terremoto. Tal hipótesis ha sido estudiada en los años 1970 y 1980, cuando se realizaron mediciones científicas de las emisiones de radón cerca de fallas geológicas hallaron que los terremotos ocurrieron a menudo sin señal de radón. Asimismo, se detectaron emisiones de radón sin que fueran seguidas por un terremoto. Dada la ausencia de resultados fiables, la hipótesis fue desestimada por la mayoría de sismólogos hasta hace poco;10 sin embargo, esta fue retomada debido a que el terremoto de LÁquila de 2009 fue precedido por las predicciones del sismólogo italiano Giampaolo Giuliani sobre un inminente terremoto, quien basó su pronóstico en los aumentos de las concentraciones de gas radón en zonas sísmicamente activas. En diciembre de 2009, Giampaolo Giuliani [Giu09] presentó su investigación a la American Geophysical Union en San Francisco y fue, posteriormente, invitado por dicha organización a participar en desarrollar un sistema de alerta temprana de sismos a nivel mudial. A pesar de ello, Emilio Carreño, director de la Red Sísmica Española, declaró que las emisiones de radón no pueden utilizarse como un método de predicción preciso; mientras que la geofísica María José Jurado manifestó que se trató de una coincidencia. En 2009, la hipótesis seguía siendo investigada por la NASA como una

27 20 2. Estado del Arte posible herramienta de predicción de terremotos El método VAN El método VAN es un método experimental de predicción de terremotos propuesto por el profesor Varotsos, Alexopoulos y Nomicos [PVL86] en los años 1980, cuyas iniciales le dieron nombre. Se basa en la detección de señales sísmicas eléctricas a través de una red telemétrica de barras de metal conductor insertas en el suelo. El método se origina en las predicciones teóricas de P. Varotsos, un físico de la Universidad de Atenas Triboluminiscencia Un posible método para predecir terremotos, aunque todavía no ha sido aplicado, es la triboluminiscencia. Estudios del Instituto de Investigación Nacional Industrial de Chugoky llevados a cabo por Yoshizo Kawaguchi han mostrado que al fracturarse, el dióxido de silicio libera luz roja y azul por un período de unos 100 milisegundos. Kawaguchi lo atribuyó a la relajación de las uniones libres y de átomos de oxígeno inestable que quedan cuando las uniones de oxígeno y dióxido de silicio se rompen debido a las tensiones dentro de la roca.

28 CAPÍTULO 3 Minería de Datos 3.1 Descripción general de las Técnicas En muchas áreas del saber, el conocimiento se ha venido obteniendo por el clásico método hipotético-deductivo de la ciencia positiva. En él es fundamental el paso inductivo inicial: a partir de un conjunto de observaciones y de unos conocimientos previos, la intuición del investigador le conduce a formular la hipótesis. Esta intuición resulta inoperante cuando no se trata de observaciones aisladas y casuales, sino de millones de datos almacenados en soporte informático. En el fondo de todas las investigaciones sobre inducción en bases de datos subyace la idea de automatizar ese paso inductivo. Las técnicas de análisis estadístico, desarrolladas hace tiempo, permiten obtener ciertas informaciones útiles, pero no inducir relaciones cualitativas generales, o leyes, previamente desconocidas; para esto se requieren técnicas de análisis inteligente que todavía no han sido perfectamente establecidas. Por ello, se incrementa de forma continua la diferencia existente entre la cantidad de datos disponibles y el conocimiento extraído de los mismos. Pero cada vez más investigaciones dentro de la inteligencia artificial están enfocadas a la inducción de conocimiento en bases de datos. Consecuencia de esta creciente necesidad ha aparecido un nuevo campo de interés: la minería de datos (data mining), que incluye los nuevos métodos matemáticos y técnicas software para análisis inteligente de datos. La minería de datos surge a partir de sistemas de aprendizaje inductivo en ordenadores, al ser aplicados a bases de datos, y su importancia crece de tal forma que incluso es posible que, en el futuro, los sistemas de aprendizaje se usen de forma masiva como herramientas para analizar datos a gran escala. 21

29 22 3. Minería de Datos Se denomina descubrimiento de conocimiento en bases de datos (KDD) al proceso global de búsqueda de nuevo conocimiento a partir de los datos de una base de datos. Este proceso incluye no sólo el análisis inteligente de los datos con técnicas de minería de datos, sino también los pasos previos, como el filtrado y preprocesado de los datos, y los posteriores, como la interpretación y validación del conocimiento extraído. Normalmente el término minería de datos lo usan estadísticos, analistas de datos, y la comunidad de sistemas de gestión de información, mientras que KDD es más utilizado en inteligencia artificial y aprendizaje en ordenadores KDD El término descubrimiento de conocimiento en bases de datos (knowledge discovery in databases, o KDD para abreviar) empezó a utilizarse en para referirse al amplio proceso de búsqueda de conocimiento en bases de datos, y para enfatizar la aplicación a alto nivel de métodos específicos de minería de datos. En general, el descubrimiento es un tipo de inducción de conocimiento, no supervisado, que implica dos procesos: búsqueda de regularidades interesantes entre los datos de partida, formulación de leyes que las describan. Entre la literatura dedicada al tema, se pueden encontrar varias definiciones para descubrimiento: El descubrimiento implica observar, recoger datos, formar hipótesis para explicar las observaciones, diseñar experimentos, comprobar la corrección de las hipótesis, comparar nuestros hallazgos con los de otros investigadores y repetir el ciclo. Los ordenadores son capaces de observar y recoger datos, a veces mejor que los observadores humanos; los programas estadísticos pueden generar agrupaciones de forma automática entre los datos recogidos, aunque no siempre se corresponden con las clasificaciones hechas por los hombres; también hay programas con cierta capacidad para diseñar experimentos; y algunos sistemas robóticos realizan las manipulaciones necesarias en ciertos experimentos. Pero ningún ordenador reúne todas estas habilidades ni es capaz de adaptarse para aplicarlas a nuevos problemas; en este sentido, los ordenadores no serían capaces de descubrir. Sin embargo, el descubrimiento no requiere realizar simultáneamente todas estas tareas. De igual modo que un investigador puede descubrir nuevo conocimiento a través del análisis de sus datos, un ordenador puede examinar los datos disponibles o recogidos por otros ordenadores y en-

30 3.1. Descripción general de las Técnicas 23 contrar relaciones y explicaciones previamente desconocidas, realizando así descubrimiento en un sentido más restringido. La capacidad de los ordenadores para realizar búsquedas exhaustivas de forma incansable entre grandes cantidades de datos ofrece buenas expectativas para obtener descubrimiento de forma automática. El descubrimiento de conocimiento es la extracción no trivial de información implícita, previamente desconocida y potencialmente útil, a partir de un conjunto de datos. Dado un conjunto de hechos (datos) H, un lenguaje L, y alguna medida de la certidumbre C, definimos una regularidad (pattern) como una sentencia S en L que describe relaciones dentro de un subconjunto Hs de H con una certidumbre c, de forma que S es más sencillo que la enumeración de todos los hechos de Hs. Una regularidad que sea interesante y bastante cierta (según criterios definidos por el usuario) se denomina conocimiento. Un sistema de descubrimiento será un programa que toma como entrada el conjunto de hechos y extrae las regularidades existentes. Cuando el conocimiento se extrae partiendo de los datos de una base de datos, se tiene KDD. Los conceptos de lenguaje, certeza, simplicidad e interés, con los que se define el descubrimiento de conocimiento, son lo suficientemente vagos como para que esta definición cubra una amplia variedad de tendencias. Sin embargo, son ideas fundamentales que diferencian el KDD de otros sistemas de aprendizaje: Lenguaje de alto nivel: El conocimiento descubierto se representa en un lenguaje de alto nivel, inteligible desde el punto de vista humano. Por tanto, quedan descartadas, dentro del KDD, representaciones de bajo nivel como las generadas por redes neuronales (a pesar de que éstas son un método válido de minería de datos). Precisión: Los descubrimientos representan el contenido de la base de datos que, como reflejo de la realidad, puede contener imperfecciones y ruido. Por tanto, será raro que algún conocimiento se cumpla con todos los datos. El grado de certidumbre medirá el crédito o confianza que el sistema o usuario puede asignar a cierto descubrimiento; si la certeza no es lo suficientemente alta, los patrones descubiertos no llegarán a ser conocimiento. Interés: Aunque es posible extraer numerosos patrones de cualquier base de datos, sólo se consideran como conocimiento aquéllos que resulten interesantes según ciertos criterios del usuario. En particular, un patrón interesante debe ser nuevo, potencialmente útil y no trivial.

31 24 3. Minería de Datos Eficiencia: Son deseables procesos de descubrimiento que puedan ser eficientemente implementados en un ordenador. Se considera que un algoritmo es eficiente cuando su tiempo de ejecución y el espacio de memoria requerido crecen de forma polinómica con el tamaño de los datos de entrada. No es posible aprender de forma eficiente cualquier concepto booleano (problema NP-completo), sin embargo, sí existen algoritmos eficientes para clases restringidas de conceptos, como los representables en forma conjuntiva, etc. Otra posibilidad es el uso de heurísticos y algoritmos aproximados para la inducción de conocimiento. Cualquier algoritmo usado en un proceso de KDD debe considerar que conocimiento es una sentencia S expresada en un lenguaje L, cuyo interés I (según criterios del usuario) supera cierto umbral i (definido también por el usuario). A su vez, el interés depende de criterios de certeza, simplicidad y utilidad, establecidos por el usuario. Según se definan los umbrales para estos criterios, se puede enfatizar la búsqueda de información precisa (gran certeza), o útil, etc. Se define el proceso de KDD, desde un punto de vista práctico, como üna tarea intensiva en conocimiento que consta de complejas interacciones, prolongadas en el tiempo, entre un humano y una (gran) base de datos, posiblemente con la ayuda de un conjunto heterogéneo de herramientas. Los principales pasos dentro del proceso interactivo e iterativo del KDD son los siguientes: 1. Desarrollo y entendimiento del dominio de la aplicación, el conocimiento relevante y los objetivos del usuario final. Este paso requiere cierta dependencia usuario/analista, pues intervienen factores como: conocer los cuellos de botella del dominio, saber qué partes son susceptibles de un procesado automático y cuáles no, cuáles son los objetivos, los criterios de rendimiento exigibles, para qué se usarán los resultados que se obtengan, compromisos entre simplicidad y precisión del conocimiento extraído, etc. 2. Creación del conjunto de datos objetivo, seleccionando el subconjunto de variables o ejemplos sobre los que se realizará el descubrimiento. Esto implica consideraciones sobre la homogeneidad de los datos, su variación a lo largo del tiempo, estrategia de muestreo, grados de libertad, etc. 3. Preprocesado de los datos: eliminación de ruido, estrategias para manejar valores ausentes, normalización de los datos, etc.

32 3.1. Descripción general de las Técnicas Transformación y reducción de los datos. Incluye la búsqueda de características útiles de los datos según sea el objetivo final, la reducción del número de variables y la proyección de los datos sobre espacios de búsqueda en los que sea más fácil encontrar una solución. Este es un paso crítico dentro del proceso global, que requiere un buen conocimiento del problema y una buena intuición, y que, con frecuencia, marca la diferencia entre el éxito o fracaso de la minería de datos. 5. Elección del tipo de sistema para minería de datos. Esto depende de si el objetivo del proceso de KDD es la clasificación, regresión, agrupamiento de conceptos (clustering), detección de desviaciones, etc.pueden verse en detalle los diferentes métodos de minería de datos). 6. Elección del algoritmo de minería de datos. 7. Minería de datos. En este paso se realiza la búsqueda de conocimiento con una determinada representación del mismo. El éxito de la minería de datos depende en gran parte de la correcta realización de los pasos previos, por parte del usuario. 8. Interpretación del conocimiento extraído, con posibilidad de iterar de nuevo desde el primer paso. La obtención de resultados aceptables dependerá de factores como: definición de medidas del interés del conocimiento (de tipo estadístico, en función de su sencillez, etc.) que permitan filtrarlo de forma automática, existencia de técnicas de visualización para facilitar la valoración de los resultados o búsqueda manual de conocimiento útil entre los resultados obtenidos. 9. Consolidación del conocimiento descubierto, incorporándolo al sistema, o simplemente documentándolo y enviándolo a la parte interesada. Este paso incluye la revisión y resolución de posibles inconsistencias con otro conocimiento extraído previamente. Muchas veces los pasos que constituyen el proceso de KDD no están tan claramente diferenciados como se muestra en la figura anterior. Las interacciones entre las decisiones tomadas en diferentes pasos, así como los parámetros de los métodos utilizados y la forma de representar el problema suelen ser extremadamente complejos. Pequeños cambios en una parte pueden afectar fuertemente al resto del proceso. Sin quitar importancia a ninguno de estos pasos del proceso de KDD, se puede decir que la minería de los datos es la parte fundamental, en la que más esfuerzos se han realizado.

33 26 3. Minería de Datos Figura 3.1: Diagrama KDD Históricamente, el desarrollo de la estadística nos ha proporcionado métodos para analizar datos y encontrar correlaciones y dependencias entre ellos. Sin embargo, el análisis de datos ha cambiado recientemente y ha adquirido una mayor importancia, debido principalmente a tres factores: Incremento de la potencia de los ordenadores. Aunque la mayoría de los métodos matemáticos fueron desarrollados durante los años 60 y 70, la potencia de cálculo de los grandes ordenadores de aquella época (equivalente a la de los ordenadores personales de hoy en día) restringía su aplicación a pequeños ejemplos de juguete, fuera de los cuales los resultados resultaban demasiado pobres. Algo similar ha ocurrido con la capacidad de almacenamiento de los datos y su coste asociado. Incremento del ritmo de adquisición de datos. El crecimiento de la cantidad de datos almacenados se ve favorecido no sólo por el abaratamiento de los discos y sistemas de almacenamiento masivo, sino también por la automatización de muchos experimentos y técnicas de recogida de datos. Se estima que la cantidad de información almacenada en todo el mundo se duplica cada 20 meses; el número y tamaño de las bases de datos probablemente crece más rápidamente. Por ejemplo, se espera que los satélites de observación de la Tierra generen, a final de siglo, aproximadamente un petabyte (1015 bytes) de datos diariamente, por lo que una persona trabajando 24 horas al día, todos los días del año, a un ritmo de procesamiento de una imagen por segundo, necesitaría varios años para mirar las

34 3.2. Selección de Atributos 27 imágenes generadas en sólo un día. Por último, han surgido nuevos métodos, principalmente de aprendizaje y representación de conocimiento, desarrollados por la comunidad de inteligencia artificial, estadística y física de dinámicas no lineales. Estos métodos complementan a las tradicionales técnicas estadísticas en el sentido de que son capaces de inducir relaciones cualitativas generales, o leyes, previamente desconocidas. Estos nuevos métodos matemáticos y técnicas software, para análisis inteligente de datos y búsqueda de regularidades en los mismos, se denominan actualmente técnicas de minería de datos o data mining. A su vez, la minería de datos ha permitido el rápido desarrollo de lo que se conoce como descubrimiento de conocimiento en bases de datos. Las técnicas de minería de datos han surgido a partir de sistemas de aprendizaje inductivo en ordenadores, siendo la principal diferencia entre ellos los datos sobre los que se realiza la búsqueda de nuevo conocimiento. En el caso tradicional de aprendizaje en ordenadores (machine learning), se usa un conjunto de datos pequeño y cuidadosamente seleccionado para entrenar al sistema. Por el contrario, en la minería de datos se parte de una base de datos, generalmente grande, en la que los datos han sido generados y almacenados para propósitos diferentes del aprendizaje con los mismos. 3.2 Selección de Atributos Partiendo de la premisa de que en el proceso de selección de atributos se escoge un subconjunto de atributos del conjunto original, este proceso pretende elegir atributos que sean relevantes para una aplicación y lograr el máximo rendimiento con el mínimo esfuerzo. Se debe tener en cuenta que los atributos irrelevantes y redundantes pueden tener un efecto negativo en los algoritmos de clasificación: Al tener mas atributos, normalmente implica la necesidad de tener más instancias para garantizar la fiabilidad de los patrones obtenidos (variabilidad estadística entre patrones de diferente clase). Por consiguiente, el algoritmo de clasificación tardará más tiempo. Los atributos irrelevantes y los redundantes, pueden confundir a los algoritmos de aprendizaje. Por lo que en general, el clasificador obtenido es menos exacto que otro que aprenda sobre datos relevantes. Además, con la presencia de atributos redundantes o de irrelevantes,

35 28 3. Minería de Datos el clasificador obtenido será más complejo, dificultando el entendimiento de los resultados. Además, la reducción de características se podría tener en cuenta en futuras capturas de datos, reduciendo el coste de almacenamiento y tal vez el económico. Un resumen sería: Menos datos para que los algoritmos puedan aprender más rápidamente. Mayor exactitud para que el clasificador generaliza mejor. Resultados más simples para que más fácil de entender. Para la selección de atributos existen múltiples algoritmos usados en minería de datos, Nos centraremos el el agoritmo de Ranking, ya que es el más usado en la míneria de datos Algoritmo de Ranking Los algoritmos de la categoría de ranking de atributos proporcionan una lista de características ordenada según alguna medida de evaluación. Dash-Liu realizan una clasificación de las medidas en: consistencia, información, distancia, dependencia y exactitud de algún algoritmo de aprendizaje. Los métodos de ranking asignan pesos a los atributos individualmente y los ordenan basándose en su relevancia con respecto al concepto destino o atributo clase. Los k primeros atributos formarán el subconjunto final Algoritmo de Primero el Mejor El algoritmo de búsqueda primero el mejor, o BF (Best First), es una especialización del algoritmo general de búsqueda en grafos (propuesto por N. J. Nilsson [Nil01], [Nil98], [Nil87], [Nil71] aunque su principal difusor fue J. Pearl [Pea84]. En él se parte de un grafo definido implícitamente; es decir, se conoce un nodo llamado inicial y un modo de generar el resto de los nodos mediante un conjunto finito de reglas de producción u operadores capaces de producir los sucesores de un nodo. El algoritmo trata de encontrar un nodo solución, meta u objetivo. El conjunto de estos objetivos puede ser vacío (en cuyo caso fracasará el intento) o tener uno o más elementos; en este último caso trataremos de encontrar la mejor solución. Comparar dos métodos de selección de subconjuntos de atributos es trivial. Se generan los modelos de clasificación con los subconjuntos de

36 3.3. Clasificación 29 atributos obtenidos y se evalúa la predicción de exactitud de ambos. Sin embargo, no está clara la comparación entre dos métodos de ranking de atributos, dado que la predicción de exactitud de los modelos de clasificación dependen del número (k) y de la calidad de las características seleccionas del ranking. 3.3 Clasificación Aprender cómo clasificar objetos a una de las categorías o clases previamente establecidas, es una característica de la inteligencia de máximo interés para investigadores tanto de psicología como de informática, dado que la habilidad de realizar una clasificación y de aprender a clasificar, otorga el poder de tomar decisiones. Definición 2.7 Sea E un conjunto de datos, el objetivo de la clasificación es aprender una función L : X > Y, denominada clasificador, que represente la correspondencia existente en los ejemplos entre los vectores de entrada y el valor de salida correspondiente, es decir, para cada valor de x tenemos un único valor de Y. Además, Y es nominal, es decir, puede tomar un conjunto de valores y1, y2,..., yk denominados clases o etiquetas. La función aprendida será capaz de determinar la clase para cada nuevo ejemplo sin etiquetar. Sin lugar a dudas, el éxito de un algoritmo de aprendizaje para clasificación depende en gran medida de la calidad de los datos que se le proporciona. La aplicación de un algoritmo de aprendizaje tiene como objetivo extraer conocimiento de un conjunto de datos y modelar dicho conocimiento para su posterior aplicación en la toma de decisiones. Existen distintas formas de representar el modelo generado, representación proposicional, árboles de decisión, reglas de decisión, listas de decisión, reglas con excepciones, reglas jerárquicas de decisión, reglas difusas y probabilidades, están entre las estructuras más utilizadas. Sin embargo, dado que este trabajo se enmarca dentro de la preparación de datos, no se entrará en detalle en este área. En este trabajo definiremos los que más se utilizan, tres algoritmos de aprendizaje clasificadores para comparar los efectos de la selección de atributos, uno probabilístico (naive Bayes), otro basado en las técnicas de vecinos más cercanos y un tercero basado en árboles de decisión. Los algoritmos de aprendizaje empleados se han elegido por ser representativos de diferentes tipos de clasificadores, y se usan con frecuencia en los estudios comparativos y en bastantes aplicaciones de minería.

37 30 3. Minería de Datos Naives-Bayes Naive-Bayes es una técnica de clasificación descriptiva y predictiva basada en la teoría de la probabilidad del análisis de T. Bayes, que data de Esta teoría supone un tamaño de la muestra asintóticamente infinito e independencia estadística entre variables independientes, refiriéndose en nuestro caso a los atributos, no a la clase. Con estas condiciones, se puede calcular las distribuciones de probabilidad de cada clase para establecer la relación entre los atributos (variables independientes) y la clase (variable dependiente). Concretamente, dado el ejemplo e = (x1,..., xn), donde xi es el valor observado para el i-ésimo atributo, la probabilidad a posteriori de que ocurra la clase yl teniendo k valores posibles {y1,..., yk}, viene dada por la regla de Bayes, P (y t x 1,..., x n ) = P (y t) n i=1 P (x i y l ) P (x 1,..., x n ) Como se puede observar, el clasificador bayesiano es un método sencillo y rápido. Además, puede demostrarse teóricamente que maximiza la exactitud de la predicción de manera óptima. Sin embargo, la suposición de independencia estadística de las variables es una limitación importante, ya que este hecho es relativamente infrecuente Vecinos más cercanos Las técnicas de vecinos más cercanos (NN, Nearest Neighbours ) basan su criterio de aprendizaje en la hipótesis de que los miembros de una población suelen compartir propiedades y características con los individuos que los rodean, de modo que es posible obtener información descriptiva de un individuo mediante la observación de sus vecinos más cercanos. Los fundamentos de la clasificación por vecindad fueron establecidos por E. Fix y J. L. Hodges a principio de los años 50. Sin embargo, no fue hasta 1967 cuando T. M. Cover y P. E. Hart enuncian formalmente la regla del vecino más cercano y la desarrollan como herramienta de clasificación de patrones. Desde entonces, este algoritmo se ha convertido en uno de los métodos de clasificación más usados. La regla de clasificación NN se resume básicamente en el siguiente enunciado:

38 3.3. Clasificación 31 Sea ξ = {e 1,..., e m } un conjunto de datos con m ejemplos etiquetados, donde cada ejemplo ej contiene n atributos (x j1,..., x jn ), pertenecientes al espacio métrico χ, y una clase y t ϵ {y 1,..., y k }. La clasificación de un nuevo ejemplo e cumple que e y l j i d(e, e i )d(e, e j ) donde e yt indica la asignación de la etiqueta de clase yl al ejemplo e, y d expresa una distancia definida en el espacio n-dimensional χ. Así, un ejemplo es etiquetado con la clase de su vecino más cercano según la métrica definida por la distancia d. La elección de esta métrica es primordial, ya que determina qué significa más cercano. La aplicación de métricas distintas sobre un mismo conjunto de entrenamiento puede producir resultados diferentes. Sin embargo, no existe una definición previa que indique si una métrica es buena o no. Esto implica que es el experto quien debe seleccionar la medida de distancia más adecuada. La regla NN puede generalizarse calculando los k vecinos más cercanos y asignando la clase mayoritaria entre esos vecinos. Tal generalización se denomina k-nn. Este algoritmo necesita la especificación a priori de k, que determina el número de vecinos que se tendrán en cuenta para la predicción. Al igual que la métrica, la selección de un k adecuado es un aspecto determinante. El problema de la elección del k ha sido ampliamente estudiado en la bibliografía. Existen diversos métodos para la estimación de k. Otros autores han abordado el problema incorporando pesos a los distintos vecinos para mitigar los efectos de la elección de un k inadecuado. Otras alternativas intentan determinar el comportamiento de k en el espacio de características para obtener un patrón que determine a priori cuál es el número de vecinos más adecuado para clasificar un ejemplo concreto dependiendo de los valores de sus atributos. En otro estudio, F. J. Ferrer et al. desarrollan un algoritmo de clasificación NN no parametrizado que adapta localmente el valor k. El algoritmo k-nn se engloba dentro de las denominadas técnicas de aprendizaje perezoso (lazy learning), ya que no genera una estructura de conocimiento que modele la información inherente del conjunto de entrenamiento, sino que el propio conjunto de datos representa el modelo. Cada vez que se necesita clasificar un nuevo ejemplo, el algoritmo recorre el conjunto de entrenamiento para obtener los k vecinos y predecir su clase. Esto hace que el algoritmo sea computacionalmente costoso tanto en tiempo, ya que necesita recorrer los ejemplos en cada predicción, como en espacio, por la necesidad de mantener almacenado todo el conjunto de entrenamiento. Pese a los numerosos inconvenientes respecto a la eficiencia (coste computacional) y la eficacia (elección de la métrica y el k adecuados), k-nn tiene en general un buen comportamiento. Cover y

39 32 3. Minería de Datos Hart demostraron que, cuando el número de ejemplos tiende a infinito, el error asintótico de NN está acotado superiormente por el doble del error de Bayes (óptimo) Árboles de desición Los árboles de decisión, son una de las formas más sencillas de representación del conocimiento adquirido. Dentro de los sistemas basados en árboles de decisión, se pueden destacar dos familias o grupos: la familia ID3, cuyos máximos representantes son el propio algoritmo ID3 propuesto por Quinlan y el sistema CLS de Hunt et al., y la familia de árboles de regresión, cuyo exponente más significativo es Cart, desarrollado por Breiman et al. Los árboles de desición se caracterizan por utilizar una estrategia de divide y vencerás descendente, es decir, partiendo de los descriptores hacia los ejemplos, dividen el conjunto de datos en subconjuntos siguiendo un determinado criterio de división. A medida que el algoritmo avanza, el árbol crece y los subconjuntos de ejemplos son menos numerosos. ID3 puede considerarse como una versión preliminar de C4.5, el cual resuelve algunos inconvenientes de su antecesor sobre el uso de atributos continuos, el tratamiento de valores ausentes y el proceso de poda. Los pertenecientes a la familia ID3 son los más referenciados en el campo del aprendizaje, por lo que serán expuestos con más detalle a continuación. ID3 El método de clasificación experimental ID3 (Induction Decision Trees), desarrollado por J. R. Quinlan, genera un árbol de decisión paralelo de forma recursiva, aplicando un criterio de división basado en el concepto de medida de la información de Shannon. Cada nodo interno de dicho árbol contiene un test sobre uno de los atributos, de cuyo valor dependerá el camino a seguir para clasificar un ejemplo, y cada hoja contiene una etiqueta de clase. Así, la clasificación de un ejemplo se lleva a cabo recorriendo el árbol desde la raíz hasta una de las hojas que determinará la clase del mismo. Inicialmente, el algoritmo toma todo el conjunto de datos ξ. Si todos los ejemplos pertenecen a una misma clase, el proceso finaliza, insertando un nodo hoja con dicha clase. En caso contrario, se selecciona aquel atributo X i que mejor divide el conjunto de datos y se inserta un nodo con dicho atributo para establecer un test. Una vez creado el nodo, para cada valor distinto x iw del atributo X i, se traza un arco y se invoca recursivamente al algoritmo para generar el subárbol que clasifica los ejemplos de ξ que cumplen que X i = x iv. Dicha invocación es realizada sin tener en cuenta el atributo X i y substrayendo del conjunto de datos ξ todos aquellos ejemplos donde Xi x iv. El proceso se detiene cuando

40 3.3. Clasificación 33 todas las instancias de un conjunto pertenecen a la misma clase. ID3 utiliza una propiedad estadística denominada ganancia de información como heurística de selección de atributos para fijar un test. Esta propiedad no es más que la reducción esperada de la entropía (desorden) de los datos al conocer el valor de un atributo. Así, el atributo X i seleccionado para determinar la división será aquel que mayor ganancia obtenga respecto al conjunto E. X i Ganancia(ξ, X i ) = Ent(ξ) v=1 ξ(x iv ) XEnt(ξ(x iv )) ξ donde X i es el número de valores distintos de del atributo X i ; ξ(x iv ) es el subconjunto de ξ para el cual X i = x iv, siendo ξ(x iv ) su cardinal; ξ es el número total de ejemplos; y Ent(.) es la entropía. Pese a su simplicidad y bajo coste computacional, ID3 presenta inconvenientes importantes, algunos de los cuales son corregidos por su sucesor C4.5. Los más evidentes son la incapacidad para trabajar con atributos continuos y tratar valores ausentes. Sin embargo, presenta una serie de problemas que afectan directamente a la precisión del árbol generado. En primer lugar, la heurística usada para establecer los test es propensa a seleccionar aquellos atributos con mayor número de valores distintos, ya que a mayor número de particiones, la entropía de cada subconjunto tiende a ser menor. En segundo lugar, ID3 resulta muy vulnerable a la presencia de ruido e inconsistencia en los datos, lo cual ocasiona la generación de hojas muertas que clasifican ejemplos de más de una clase. Por último, la limitada capacidad de generalización del algoritmo provoca la aparición de hojas vacías, que no clasifican ningún ejemplo del conjunto de entrenamiento y, por lo tanto, no se les asigna etiqueta de clase. Esto implica que no se podrán realizar predicciones sobre aquellos ejemplos incluidos en las zonas del espacio cubiertas por hojas vacías por no aparecer en el conjunto de entrenamiento. Por otra parte, el algoritmo obliga a que todos los ejemplos sean clasificados correctamente. Esto, unido a los problemas de generalización y ruido, hace que ID3 produzca árboles de mucha profundidad sin que esto beneficie a la precisión de los mismos. Quinlan propuso como solución un método de poda para reducir el error y el tamaño de los árboles. Dicho método sustituía un subárbol completo por una hoja etiquetada con la case mayoritaria del subárbol si ésta sustitución mejoraba o al menos iguala la clasificación original. C4.5 El algoritmo C4.5 fue propuesto por Quinlan a finales de los años 80 para mejorar las carencias de su predecesor ID3. Desde entonces, ha

41 34 3. Minería de Datos sido uno de los sistemas clasificadores más referenciados en la bibliografía, principalmente debido a su extremada robustez en un gran número de dominios y su bajo coste computacional. C4.5 introduce principalmente las siguientes mejoras: 1. Trata eficazmente los valores desconocidos calculando la ganancia de información para los valores presentes. 2. Maneja los atributos continuos, aplicando una discretización previa. 3. Corrige la tendencia de ID3 a seleccionar los atributos con muchos valores distintos para establecer los test cambiando el criterio de división. C4.5 produce un árbol de decisión similar al de ID3, con la salvedad de que puede incluir condiciones sobre atributos continuos. Así, los nodos internos pueden contener dos tipos de test según el dominio del atributo seleccionado para la partición. Si el atributo X i es discreto, la representación es similar a la de ID3, presentando un test con una condición de salida (rama X i = x iv ) por cada valor x iv diferente del atributo. Por contra, si el atributo X i es continuo, el test presenta dos únicas salidas, X i Z y X i > Z, que comparan el valor de X i con el umbral Z. Para calcular Z, se aplica un método similar al usado en, el cual ordena el conjunto de t valores distintos del atributo X i presentes en el conjunto de entrenamiento, obteniendo el conjunto de valores {x i1, x i2,..., x in }. Cada par de valores consecutivos aporta un posible umbral Z = x iv + x i(v+1) 2 teniendo en total t - 1 umbrales, donde t es como mucho igual al número de ejemplos. Una vez calculados los umbrales, C4.5 selecciona aquel que maximiza el criterio de separación. Como se mencionó anteriormente, el criterio de maximización de la ganancia de información usado en ID3 produce un sesgo hacia los atributos que presentan muchos valores distintos. C4.5 resuelve este problema usando la razón de ganancia (gain ratio ) como criterio de separación a la hora de establecer un test. Esta medida tiene en cuenta tanto la ganancia de información como las probabilidades de los distintos valores del atributo. Dichas probabilidades son recogidas mediante la denominada información de separación, que no es más que la entropía del conjunto de datos ϵ respecto a los valores del atributo X i en consideración, siendo calculada como X i InformacionDeSeparacion(ξ, X i ) = v=1 ξ(x iv ) ξ Xlog 2 ( ξ(x iv) )) ξ donde X i es el número de valores distintos del atributo X i ; ξ(x iv ) es el subconjunto de ξ para el cual X i = x iv, siendo ξ(x iv ) su cardinal; y

42 3.3. Clasificación 35 ξ es el número total de ejemplos. La información de separación simboliza la información potencial que representa dividir el conjunto de datos, y es usada para compensar la menor ganancia de aquellos test con pocas salidas. RazonDeGanancia(ξ, X i ) = Ganancia(ξ, X i ) InformacionDeSeparacion(ξ, X i ) C4.5 maximiza este criterio de separación, premiando así a aquellos atributos que, aun teniendo una ganancia de información menor, disponen también de menor número de valores para llevar a cabo la clasificación. Sin embargo, si el test incluye pocos valores, la información de separación puede ser cercana a cero, y por tanto el cociente sería inestable. Para evitar tal situación, el criterio selecciona un test que maximice la razón de ganancia pero obligando a que la ganancia del mismo sea al menos igual a la ganancia media de todos los test examinados. C4.5 ha resultado ser un sistema muy efectivo en la práctica, capaz de ofrecer una representación relativamente simple de los resultados con un bajo coste computacional. En concreto, para un conjunto de datos con m ejemplos y n atributos, el coste medio de construcción del árbol es de Φ(mnlog2m), mientras que la complejidad del proceso de poda es de Φ(m(log 2 m) 2 ). Por contra, el algoritmo presenta también dos inconvenientes importantes derivados de la representación del conocimiento que obtiene y la metodología seguida para ello: 1. La representación mediante árboles de decisión paralelos puede provocar que zonas contiguas en el espacio no puedan ser unidas para simplificar la regla. Esto hace que el árbol tienda a crecer sustancialmente en aplicaciones reales, complicando la compresión del mismo. 2. La estrategia seguida establece en cada paso una única frontera de decisión para un solo atributo, sin posibilidad de reajustar el modelo en pasos posteriores. Es decir, C4.5 establece en un momento dado una condición sobre un atributo porque en ese instante entiende que es la mejor, sin tener en consideración que en el proceso posterior de establecer condiciones sobre los demás atributos, esa primera opción pudiera no ser la mejor.

43

44 CAPÍTULO 4 Propuesta Nuestra propuesta, incluye todo lo comentado en los capitulos anteriores (Capítulos 2 y 3), siguiendo los pasos descritos en el KDD (figura 3.1) para generar predicciones de terremotos, a partir de unos nuevos atributos Selección de datos Japón es nuestra base de estudio, fundamentalmente por la escasez de trabajos relacionados con la aplicación de la minería de datos existente en la actualidad. Dicho país ha sido dividido en cinco grandes zonas, debido a las diferencias entre las zonas geográficas de un extremo y otro. No sería correcto comparar la actividad sismológica de Hokkaido, con la de Kyushu, ya que son islas situadas a más de 1000 km y con una actividad sísmica totalmente diferente. En nuestro entorno sería algo parecido a comparar la actividad de sismológica de Sevilla con la de la isla de La Palma en las Islas Canarias [AME13]. Además, la división geográfica, nos ayudará a que la predicción sea en un área más concreta. Es decir, se está intentando que la incertidumbre espacial sea lo menor posible para que la obtención del modelo sea lo más preciso y particular posible, ya que buscan zonas que exhiban patrones de comportamiento similares. Las diferentes zonas vienen delimitadas por la latitud y la longitud que mostramos en la siguiente tabla (Cuadro 4.1). De esta forma, tenemos todos los parámetros a introducir en [PNP05], seleccionando como fecha de inicio el 1 de Enero del Es importante resaltar, igualmente, que siguiendo las recomendaciones de expertos en 37

45 38 4. Propuesta Figura 4.1: Mapa de Japón según Zonas Zona Latitud(N) Longitud(E) A (25.6, 29) (126.5, 130.5) B (29, 35) (128.5, 132.2) C (32.5, 39) (132.2, 143) D (39, 45.7) (138.7, 148) E (43.5, 47) (148, 151.5) Cuadro 4.1: Tabla Zonas, longitud y latitud sismología, sólo se han obtenido terremotos con magnitud M > 2.9 ya que por debajo de ese umbral son muchas veces imperceptibles por el ser humano y es prácticamente imposible que ocasionen daños materiales. En resumen, la búsqueda realizada de acuerdo con los parámetros anteriormente comentados generó: 1. Para la zona A, un total de 730 terremotos. 2. Para la zona B, un total de 651 terremotos. 3. Para la zona C, un total de 6904 terremotos. 4. Para la zona D, un total de 3260 terremotos. 5. Para la zona E, un total de 668 terremotos.

46 4.2. Preprocesado de datos 39 Desde este punto podemos ver que son las zonas C y D las que más datos hemos obtenido, quedando las otras tres zonas restantes con un número de terremotos mucho menor. 4.2 Preprocesado de datos Una vez hemos obtenido los datos de los terremotos de las diferentes zonas, el siguiente paso del proceso KDD es la limpieza de los mismos. Este paso consiste en la eliminación del mayor número posible de datos erróneos, inconsistentes e irrelevantes. En este paso realizaremos un muestreo tanto vertical como horizontalmente, eliminando aquellas tuplas que no nos aporten la suficiente información. De esta forma, detectaremos datos anómalos y redefiniremos algún atributo, agrupándolos o separándolos. Observando el fichero de salida de la base de datos de la que hemos extraído los datos], vemos que contiene la siguiente información: año, mes, día, hora (hhmmss,mm), latitud, longitud, magnitud, profundidad, b. Los parámetros nos aparecen separados por comas y cada registro del fichero representa un terremoto. Analizando los datos, se observa que hay filas a las que le faltan parámetros importantes como la magnitud del terremoto. Al tratarse de un dato de suma importancia, se ha decidido por la eliminación de las tuplas que les falte este dato, ya que la sustitución por un valor podría introducir ruido en los resultados finales. De la zona A, se eliminan un total de 57 registros, de la zona B 77 registros, de la zona C 563 registros, de la zona D 244 registros y de la zona E 58 registros. Por lo tanto, finalmente se va a trabajar con 673 terremotos para la zona A, 574 terremotos para la zona B, para la zona C 6341 terremotos, 3016 para la D y 610 para la zona E. Teniendo todas los registros completos, se pasa a darle un formato. Con ayuda de un programa realizado específicamente para este proyecto, se formatean la fecha y la hora en formato americano, de forma que se muestren de la siguiente manera: Mes/Día/Año Hora:Minutos, quedándonos con los dos últimos dígitos para el año y despreciando el dato de las milésimas en la hora. Otra modificación que hacemos en los datos de todas las zonas es el delimitador de los decimales, cambiando el punto por la coma. Y por último se ordenan los resultados cronológicamente para tener una perspectiva del tiempo, es decir, para poder interpretarlos como una serie temporal o, concretamente en este contexto, como una secuencia de eventos en la que cada evento viene representado por la ocurrencia de un terremoto y

47 40 4. Propuesta caracterizado por todos los atributos asociados a dicho sismo. Se han creado nuevos atributos a partir de los datos de entrada. En particular, se han codificado los atributos descritos en [FMl13], [JR12] y [AP09a]. Nótese que la creación de estos atributos no se justificó en ninguno de los trabajos anteriores. Se trataba más bien de una eleccción arbitraria e intuitiva que resultó tener buenos resultados. Sin embargo, aquí se hará un estudio de los mismos mediante técnicas de selección de atributos, tal y como se detalla más adelante. Así, todos los datos están limpios de atributos ausentes y tienen un formato para trabajar con ellos cómodamente. 4.3 Algoritmos de minería de datos aplicados Una vez superadas las etapas anteriores, los datos ya están en disposición de ser procesados mediante diferentes técnicas de minería de datos. En el caso particular abordado en esta memoria, nos encontramos ante un problema de aprendizaje supervisado. En concreto hemos utilizado diferentes clasificadores para predecir la ocurrencia de terremotos durante los próximos 5 días. Y es que, como se adelantó en la sección anterior, a cada instancia se le ha asignado una etiqueta que indica si durante los próximos 5 días hubo o no un terremoto. Por tanto, al clasificar correctamente esa etiqueta estaremos, indirectamente, prediciendo la ocurrencia de terremotos. Se han aplicado diferentes métodos de clasificación para encontrar el resultado óptimo que más se adapte a la resolución del problema. Los métodos usados son los siguientes: vecinos más cercanos (KNN, K-Nearest Neighbors); redes neuronales artificiales (ANN, Artificial Neural Networks); máquinas de vectores de soporte (SVM, Support Vector Machines); algoritmo J48 (algoritmo C4.5). A continuación se proporciona una breve descripción de los fundamentos matemáticos que subyacen a todos los métodos que se van a utilizar KNN, vecinos cercanos El método considerado como un buen representante de los métodos clasificadores es el denominado k-vecinos más cercanos (KNN, [k-nearestneighbor]), además destaca por su gran sencillez conceptual. Se denomina método porque es el esqueleto de un algoritmo que admite el intercambio de la función

48 4.3. Algoritmos de minería de datos aplicados 41 de proximidad dando lugar a múltiples variantes. Atendiendo a la clasificación del ejemplo o de la mayoría de los k ejemplos más cercanos, la función de proximidad puede decidir la clasificación de un nuevo ejemplo. Además admite funciones de proximidad que consideren el coste de los atributos que intervienen o el peso, lo que permite, eliminar los atributos irrelevantes. Una función de proximidad clásica entre dos instancias x i y x j, si suponemos que un ejemplo viene representado por una n-tupla de la forma (a1(x), a2(x),..., an(x)) en la que ar(x) es el valor de la instancia para el atributo ar, es la distancia euclídea, que se muestra en la siguiente ecuación. d(x i, x j ) = n (x ij ) x 2 ji i=1 Un sistema de dos atributos del algoritmo KNN se muestra representado en la figura 3.2, representándose por ello en un plano. En este ejemplo se ve cómo el proceso de aprendizaje consiste en el almacenamiento de todos los ejemplos de entrenamiento. Partiendo de las clases + y -, se han representado los ejemplos de acuerdo a los valores de sus dos atributos. En este caso la clasificación consiste en la búsqueda de los 3 elementos más cercanos al ejemplo a clasificar, siendo más concretos, a y b se clasificaría como y + respectivamente.

49 42 4. Propuesta Redes Neuronales Desde 1930, las redes de neuronas constituyen una técnica inspirada en los trabajos de investigación, que pretendían, a través de las neuronas en el cerebro, modelar computacionalmente el aprendizaje humano. Se comprobó a posteriori que tales modelos no eran del todo adecuados para describir el aprendizaje humano. A diferencia de las técnicas tradicionales, las redes de neuronas constituyen una nueva forma de analizar la información, son capaces de detectar y aprender complejos patrones y características dentro de los datos. Aprendiendo de la experiencia y del pasado, se comportan de forma parecida a nuestro cerebro, y se aplica tal conocimiento a la resolución de problemas nuevos. Como resultado del adiestramiento ( training ), el aprendizaje se obtiene y permite la sencillez y la potencia de adaptación y evolución ante una realidad cambiante y dinámica. Las redes de neuronas pueden hacer previsiones, clasificaciones y segmentación una vez adiestradas. Presentan además, una eficiencia y fiabilidad similar a los métodos estadísticos y sistemas expertos, incluso mejor en la mayoría de los casos. En aquellos casos de muy alta complejidad las redes neuronales se muestran como especialmente útiles dada la dificultad de modelado que supone para otras técnicas. Como conveniente, las redes de neuronas tienen de la dificultad de acceder y comprender los modelos que generan y presentan dificultades para extraer reglas de tales modelos. Otra característica es que son capaces de trabajar con datos incompletos e, incluso, contradictorios lo que, dependiendo del problema, puede resultar una ventaja o un inconveniente. Las redes de neuronas poseen las dos formas de aprendizaje: supervisado y no supervisado. Actualmente las redes de neuronas se utilizan en distintos sectores como el ejército, las comunicaciones, la industria, el gobierno, la investigación aeroespacial, la banca y las finanzas, los seguros, la medicina, la distribución, la robótica, el marketing, etc. Actualmente se está estudiando la posibilidad de utilizar técnicas avanzadas y novedosas como los Algoritmos Genéticos para crear nuevos paradigmas que mejoren el adiestramiento y la propia selección y diseño de la arquitectura de la red (número de capas y neuronas), diseño que ahora debe realizarse en base a la experiencia del analista y para cada problema concreto. Las redes de neuronas se construyen estructurando una serie de nive-

50 4.3. Algoritmos de minería de datos aplicados 43 les o capas, al menos tres: entrada, procesamiento u oculta y salida. Estas capas están compuestas por nodos o neurona. Cada neurona está conectada a todas las neuronas de las capas anterior y posterior a través de los pesos o dendritas. Figura 4.2: Esquema Redes Neuronales con Capa oculta Cuando un nodo recibe las entradas o estímulos de otras los procesa para producir una salida que transmite a la siguiente capa de neuronas. La señal de salida tendrá una intensidad fruto de la combinación de la intensidad de las señales de entrada y de los pesos que las transmiten. Los pesos o dendritas tienen un valor distinto para cada par de neuronas que conectan pudiendo así fortalecer o debilitar la conexión o comunicación entre neuronas particulares. Los pesos son modificados durante el proceso de adiestramiento. El diseño de la red de neuronas consistirá, entre otras cosas, en la definición del número de neuronas de las tres capas de la red. Las neuronas de la capa de entrada y las de la capa de salida vienen dadas por el problema a resolver, dependiendo de la codificación de la información. En cuanto al número de neuronas ocultas (y/o número de capas ocultas) se determinará por prueba y error. Por último, debe tenerse en cuenta que la estructura de las neuronas de la capa de entrada se simplifica, dado que su salida es igual a su entrada: no hay umbral ni función de salida.