Escuela Técnica Superior de Ingeniería Informática. Máster en Ingeniería y Tecnología del Software TRABAJO FIN DE MÁSTER

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Escuela Técnica Superior de Ingeniería Informática. Máster en Ingeniería y Tecnología del Software TRABAJO FIN DE MÁSTER"

Transcripción

1 Escuela Técnica Superior de Ingeniería Informática Máster en Ingeniería y Tecnología del Software TRABAJO FIN DE MÁSTER Minería de datos aplicada a la predicción de terremotos Autor: D. José María Luna Romera Tutores: Dr. José C. Riquelme Santos Dr. Francisco Martínez Álvarez Convocatoria de Junio Curso 2011/2012

2

3

4

5 Agradecimientos Quisiera dar las gracias a Pepe no solo por su labor como tutor, sino por su labor como docente del máster, ya que ha sido uno de los que me ha introducido en el mundo de la investigación. A Paco tengo demasiadas cosas que agradecer, pero destacaré el tiempo invertido en el presente trabajo, ya que su dedicación e implicación, así como su disponibilidad han sido absolutas y sin ello esto no hubiera sido posible. Dar las gracias por animarme a participar en un proyecto de estas características ya que me ha aportado un gran valor tanto en lo profesional como en lo personal. Quiero agradecer también a Alicia su colaboración en el trabajo ya que sus conocimientos y experiencia han sido de gran ayuda en la elaboración del proyecto. Aprovechar la ocasión para agradecer el trabajo desempeñado como docente en mis años de carrera ya que sus aportaciones han sido de gran importancia para mí formación profesional. Agradecer a Antonio Morales por su valiosa aportación en diferentes capítulos del trabajo. Dar las gracias por el apoyo recibido a mis compañeros del máster Ale, David y Fede, ya que su compañerismo y amistad me han ayudado a sobrellevar este año académico que ya acaba. A mis padres y hermana, dar las gracias por todos los ánimos, cariño y apoyo que recibo de ellos a diario. Y no solo durante este año, sino en todos los anteriores desde que comencé mi formación. Y para acabar agradecer a todas esas personas que me han apoyado y ayudado a llegar a esta meta. Gracias Página 5

6 Página 6

7 Resumen En este trabajo se ha realizado un proceso completo de Knowledge Discovery in Databases (KDD) aplicado a datos de origen sísmico. En particular, se han analizado las series temporales que describen los seísmos en Japón, una de las regiones con mayor actividad sísmica del mundo. Siguiendo con el modelo KDD, las tareas realizadas han sido: 1. Obtención de datos. Para ello, de acuerdo con la literatura existente, se han dividido los datos en 6 conjuntos diferentes, todos ellos de dimensiones diferentes. 2. Limpieza de datos. Los datos proporcionados por los sitios web no son completos, por lo que se han eliminado atributos cuya significancia sea mínima, así como aquellos registros que han presentado errores de medición o valores ausentes. 3. Generación de nuevos atributos con la ayuda de expertos en materia sismológica. Se ha incorporado información geológica como input de los sistemas predictivos que se utilizarán. 4. Selección de atributos más significativos, mediante técnicas que miden la cantidad de información aportada por cada uno de los atributos que forman la base de datos. 5. Aplicación de algoritmos de minería de datos para la generación de un modelo predictivo. Se han evaluado los algoritmos KNN, una máquina de vector soporte, red neuronal artificial, un algoritmo Naive Bayes, una clasificación por regresión usando M5P, un clasificador por clustering usando k-means y el algoritmo J48. La elección de estos algoritmos se debe a su diferente naturaleza. 6. Evaluación de los modelos obtenidos por medio de test estadísticos. Página 7

8 Página 8

9 Contenido Trabajo fin de máster: Minería de datos aplicada a la predicción de terremotos Capítulo 1: Introducción Motivación y objetivos El proceso KDD y la minería de datos Predicción de terremotos Capítulo 2: Estado del Arte Capítulo 3: Aplicación de un proceso KDD a la predicción de terremotos Selección de datos Preprocesado de datos Transformación de datos Algoritmos de minería de datos aplicados KNN, vecinos cercanos ANN, redes neuronales artificiales Naive Bayes J48, algoritmo C Clasificación vía regresión (usando el método M5P) Clasificación vía clustering (usando el método k-means) SVM, máquinas de vectores de soportes Capítulo 4: Resultados Medidas de calidad Discusión de los resultados por zonas Capítulo 5: Conclusiones Referencias Página 9

10 Lista de Figuras 1.1 Etapas de un proceso KDD Mapa de Japón dividido por zonas Ejemplo de KNN Estructura de la red neuronal Ejemplo de clustering con k-means Hiperplano equidistante a dos clases, margen y vectores soporte..33 Página 10

11 Lista de Tablas 3.1 Latitud y longitud de las zonas analizadas Zona C -M Zona C -M Zona C -M Zona C -M Zona D -M Zona D -M Zona D -M Zona D -M7..42 Página 11

12 Capítulo 1: Introducción 1. 1 Motivación y objetivos Los terremotos ocurren sin previo aviso y pueden llegar a destruir ciudades completas en pocos segundos, causando de esta manera importantes pérdidas humanas y económicas. Actualmente se está invirtiendo un gran esfuerzo para desarrollar técnicas para predecir estos, aparentemente, impredecibles desastres naturales, con el fin de poder tomar medidas preventivas con la suficiente antelación. Durante más de cien años se ha buscado encontrar métodos fiables para predecir terremotos [32]. La utilización de datos de sismicidad histórica en la predicción deterremotos es absolutamente relevante hoy día. De hecho, hay un grupo de trabajo muyimportante conocido como RELM (Regional Earthquake Likelihood Model), que ha surgido con el objetivo de desarrollar varios modelos de las estimaciones de riesgo [33]. Debemos resaltar que un grupo de terremotos menores precediendo o siguiendo a unterremoto mayor se denomina clustering por los sismólogos. Sin embargo, este concepto no sedebe confundir con las técnicas de clustering, que son uno de losprincipales objetivos de la inteligencia artificial. El objetivo de este trabajo de investigación es encontrar patrones y poder realizar modelos del comportamientode las series temporales que comprenden la ocurrencia de terremotos de magnitud elevada ( 4). Una vez que se extraigan dichos patrones, se utilizarán para predecir elcomportamiento del sistema de modo tan preciso como sea posible. En particular, se han obtenido datos asociados a terremotos en Japón durante la última década y se pretende demostrar la utilidad de la aplicación de la minería de datos para este problema concreto El proceso KDD y la minería de datos En la sociedad actual se ha producido un gran crecimiento de las bases de datos yuna necesidad de aumento de las capacidades de almacenamiento que no puedenresolverse por métodos manuales. Por este motivo se hacen necesarias técnicasy herramientas informáticas que ayuden, de forma automática, en el análisis deesas grandes cantidades de datos, la mayoría de las veces infrautilizados. La minería de datos (en inglés data mining) es una de las técnicas másutilizadas actualmente para analizar la información de las bases de datos. Sefundamenta en varias disciplinas, como la estadística, la visualización de datos,sistemas para tomas de decisión, el aprendizaje automático o la computaciónparalela y distribuida, beneficiándose de los avances en estas tecnologías perodifiriendo de ellas en la finalidad que persigue: extraer patrones, describir tendencias, predecir Página 12

13 comportamientos y, sobre todo, ser provechosa en la investigación automatizada que envuelve la sociedad actual con amplias bases dedatos de gran utilidad. La minería de datos no es más que una etapa, aunque la más importante, deldescubrimiento de la información en bases de datos (KDD o Knowledge discovery in databases), entendiendo por descubrimiento la existencia de una informaciónvaliosa pero desconocida y escondida con anterioridad. Este proceso constade varias fases, como se detalla más adelante, e incorpora distintas técnicasdel aprendizaje automático, las bases de datos, la estadística, la inteligenciaartificial y otras áreas de la informática y de la información en general. Una de las causas que ha hecho más popular las aplicaciones de la mineríade datos ha sido la difusión de herramientas y paquetes como Intelligent Miner de IBM, Enterpriser Miner de SAS o DM Suite (Darwin) de Oracle, por ponersolo algunos ejemplos, que pueden servir para que analicen sus datos tanto unprofesional, una empresa, una institución como un particular. Por tanto, el éxito está asegurado al ser los usuarios tan numerosos y variados. El KDD hace referencia a un amplio proceso de búsqueda de conocimiento en grandes bases de datos. Este proceso consta de diversas etapas, pero sin duda la que sobresale por encima de todas es la minería de datos, tal y como ya se ha destacado con anterioridad. La Figura 1.1 ilustra la secuencia de etapas seguidas en un proceso KDD. Cada una de las fases que forman dicho proceso, se describen a continuación. Figura 1.1. Etapas de un proceso KDD. Como se señaló al comienzo del capítulo, la minería de datos es sólo una fase de un proceso más amplio cuya finalidad es el descubrimiento de conocimiento en bases de Página 13

14 datos. Independientemente de la técnica que se use en el proceso de extracción de datos, los pasos que deben ser seguidos son siempre los mismos: 1. Definición del problema. En el proceso de minería de datos el primer paso consiste en definir claramente el problema que se intenta abordar. Ésta sería casi una fase Integración y recopilación de datos.en un primer momento, hay que localizar las fuentes de información, y los datos obtenidos se llevan a un formato común para que resulten más operativos. Lo más frecuente es que los datos necesarios para llevar a cabo un proceso de KDD pertenezcan a distintos departamentos, a diferentes organizaciones o incluso nunca hayan sido recopilados por no considerarlos interesantes. Es posible también que haya que buscar datos complementarios de informaciones oficiales. Por tanto, resulta conveniente utilizar algún método de automatización para la exploración de esos datos y encontrar posibles incoherencias. 3. Filtrado.Selección de datos, limpieza y transformación. Una vez homogeneizados los datos, se filtran y se rechazan los no válidos o los incorrectos, según las necesidades, o bien se corrigen o se reduce el número de variables posibles mediante clustering, redondeo... Este proceso previo es necesario porque el coste computacional es alto para obtener conclusiones si se trabajara con todos los datos. Al subconjunto de datos que se va a minar se denomina vista minable. Aunque se haya procesado, la mayoría de las veces se tiene una gran cantidad de datos. 4. Fase de minería de datos.algoritmos de extracción de conocimiento. Esta fase es la más característica y por ese motivo se suele denominar minería de datos a todo el proceso en KDD. 5. Obtención de un modelo de conocimiento.una vez realizado el filtrado, se tiene que producir nuevo conocimiento que pueda ser utilizado por el usuario. Hay que obtener un modelo de conocimiento que se base en los datos recopilados y para ello hay que determinar la tarea de minería más adecuada, descriptiva o predictiva; posteriormente, elegir el tipo de modelo aunque pueden también usarse varias técnicas a la vez para generar distintos modelos teniendo en cuenta que cada técnica obliga a un preprocesado diferente de los datos. Y, por último, hay que elegir el algoritmo de minería que solucione la tarea y logre el tipo de modelo que se esté buscando. Las componentes básicas de los métodos de minería son, por tanto: a. Lenguaje de representación del modelo. es muy importante que se sepan las suposiciones y restricciones en la representación empleada para construir modelos. b. Evaluación del modelo.en cuanto a capacidad predictiva se basa en técnicas de validación cruzada (cross-validation). En cuanto a calidad Página 14

15 descriptiva del modelo se basan en principios como el de máxima verosimilitud (maximum likelihood) o en el principio de longitud de descripción mínima o MDL (minimum description length). Actualmente se estánutilizando también las curvas ROC (receiver operating characteristics) para evaluar algoritmos. c. Método de búsqueda. Algunas de las técnicas más comunesson las siguientes: i) árboles de decisión y reglas de clasificación que realizan cortes sobre una variable; ii) análisis preliminar de datos usando herramientas de consultas.éste puede ser el caso de realizar una consulta SQL sobre unconjunto de datos con el fin de rescatar algunos aspectos relevantes; iii) redes neuronales artificiales: son modelos predecibles, no lineales,que aprenden a través del entrenamiento; iv) métodos de clasificación y regresiones no-lineales; v) Métodos gráficos de dependencias probabilísticas en los que seusan sobre todo redes bayesianas; vi) modelos relacionales: programación lógica inductiva o ILP endonde la búsqueda del modelo se basa en lógica y heurística; vii) reglas de asociación que relacionan un conjunto de pares querelacionan atributo-valor con otros pares atributo-valor; viii) clustering: agrupan datos cuya distancia multidimensional dentrode la clase es pequeña y entre clases es grande. 6. Fase de interpretación y evaluación del modelo.una vez que yahemos obtenido el modelo hay que proceder a su validación, comprobandoque las conclusiones son válidas y satisfactorias, es decir, verificando silos resultados obtenidos son coherentes. Si se hubieran obtenido variosmodelos por utilizar diferentes técnicas habría que buscar el que mejorse ajuste alos datos de estudio. Así, habría que comparar esos resultados con losobtenidos por métodos estadísticos y de visualización gráfica. 1.3 Series temporales de origen sísmico Una serie temporal es una secuencia de valores observados a lo largo del tiempo y, portanto, ordenados cronológicamente. Dada esta definición, es fácil encontrar datos que puedenser representados como series temporales en muchas áreas de investigación. El estudio del comportamiento pasado de una variable puede ser muy valioso para lapredicción de su comportamiento futuro. Si, dado un conjunto de valores pasados, no sepueden predecir sus valores futuros con fiabilidad, se dice que la serie temporal es estocástica.este estudio se encuadra en este contexto. Si asumimos que la naturaleza de las series temporales de los terremotos es altamente estocástica, laaproximación propuesta intenta demostrar que estas series temporales poseen algunospatrones temporales, posibilitando la realización de un modelo y, por tanto, haciendo posiblesu predicción. Para evitar los datos dependientes, tanto las Página 15

16 réplicas como los precursores hansido eliminados de las series temporales de los terremotos utilizadas [34]. Las series temporales de los terremotos y su predicción se analizan mediante la aplicaciónde técnicas de minería de datos. Para ser exacto, diferentes zonas sismogenéticas de Japón se han utilizado como fuentes de terremotos. Una zona sismogenética es una fuente de terremotos concaracterísticas sísmicas y tectónicas homogéneas. Esto quiere decir que el proceso degeneración de terremotos es homogéneo espacial y temporalmente en cada zona. Puede serlineal, como una falla, una línea de fallas o un conjunto de fallas paralelas. Sin embargo, unazona puede ser un área donde las fallas sean demasiado numerosas, estén orientadas de modoaleatorio o no estén bien definidas. Desde un punto de vista tectónico, una zona sismogenética puede incluir una o varias estructuras tectónicas y su geometría se basa en informaciónhistórica, sísmica y tectónica. Página 16

17 Página 17

18 Capítulo 2: Estado del Arte El estudio de la predicción de terremotos abarca muchos campos de la investigación, desde teoremas puramente geofísicos, mutaciones genéticas y biológicas, métodos estadísticos y matemáticos, hasta modelos computacionales de parámetros de terremotos registrados en un histórico en regiones sísmicas. Los esfuerzos más significativos en predecir los tres parámetros principales de terremotos, es decir, el tiempo de aparición, la localización del epicentro y la magnitud de futuros terremotos, fueron revisados en un artículo [35]. No hay un acuerdo general sobre cómo los investigadores construyen modelos de previsión hasta ahora. Por tanto, diferentes tipos de aproximaciones para extraer conocimiento han sido propuestas durante la última década. A través de un estudio publicado recientemente [1] que divide estas técnicas en dos categorías, admitiendo un solapamiento entre ellas: Por una parte tenemos aquellas que usan estrategias para identificar procesos físicos particulares, y por otra tenemos aquellas que están basadas en suavizado sísmico. La Regional Earthquake Likelihood Models (RELM), proyecto del Southern California Earthquake Center (SCEC) ha publicado diferentes modelos de predicción ara el sur de California desde que se fundó en el año 2000, basado en la observación de procesos físicos. Bajo el RELM, el U.S. Geological Survey (USGS) y el California Geological Survey (CGS) han desarrollado a un modelo independiente del tiempo asumiendo que los terremotos suceden siguiendo una distribución de Poisson [2]. Los autores también presentaron una aproximación dependiente del tiempo basada en los modelos sísmicos nacionales incluyendo información recurrente. Kagan et al. [3] presento una predicción a cinco años de terremotos de magnitud 5.0 o más para el sur de California. Este método está basado en un catálogo de espacialidad histórica de terremotos, y su principal característica recae en la observación de regularidades en aparición de terremotos. Un modelo basado en suposiciones similares puede encontrarse en [4]. Muchos estudios han sido desarrollados sobre las variaciones temporales del valor b y algunos de ellos relacionando el valor b con la predicción de terremotos como en [5, 6, 7, 8, 9] y muchos otros. Sigue existiendo algo de controversia entre los investigadores acerca de las variaciones de b en el espacio y tiempo. Es importante saber cómo se obtiene la secuencia de los valores de b antes de mostrar conclusiones sobre su variación. Además, el trabajo en [10] hace un estudio profundo sobre los terremotos en la región de Andaman-Sumatra y demuestran que los terremotos suelen ser ir precedidos por un gran incremento de b además de, en algunos casos, un pequeño decremento de este valor precedido del temblor. Por otra parte Sammonds et al. [11] mostraron que un gran terremoto normalmente iba precedido por un incremento a medio plazo del valor b, seguido por un decremento de meses a semanas antes del terremoto. Los estudios en [12] y [8] sobre las variaciones del valor b sobre el tiempo hace referencia a las réplicas. Los autores concluyen que el valor b es un medidor de estrés que depende inversamente proporcional al diferencial del estrés [27, 10, 14]. Página 18

19 El trabajo en [9] presente un modelo basado en probabilidad sobre california. Este método fue basado en tres hipótesis. La primera, el valor b es inversamente dependiente al estrés, consecuentemente, el valor b puede ser usado como medidor del estrés dentro de la corteza terrestre donde no existen medidas directas [14]. En segundo lugar, las asperezas son encontradas para ser caracterizadas por un valor b bajo [15]. Y finalmente, los datos de varios regímenes tectónicos sugieren que el valor b de pequeños terremotos son muy estacionarios sobre el tiempo [16]. Wiemer y Wyss [17] han demostrado que significativas variaciones estadísticas para el valor b, ocurren en varios regímenes tectónicos desde local hasta escalas regionales. Frochlich y Davis [18] y Kagan en [19] sugieren que las diferencias observadas son debidas a los artefactos y a que hay pequeñas variaciones del valor b entre diferentes regímenes tectónicos. El estudio sobre los cambios temporales del valor b frente a cambios grandes antes que cambios temporales en sub-regiones [17]. Finalmente, Ogata et al. [20] estudiaron las variaciones en el espacio tiempo del valor b simultáneamente. Por otra parte, muchas aproximaciones de reconocimiento de patrones que analizan el valor b como precursor de la activación de los seísmos han sido propuestos durante la última década. Así, en trabajo en [10] descubrió importantes significados espaciotemporales en las variaciones del valor b, precediendo a la aparición del terremoto de Diciembre del 2004 en NW Sumatra. Igualmente remarcable es la aproximación de los patrones informáticos, originariamente propuestos en [21]. Este método identifica regiones correlativas de datos de seísmos registrados que preceden desde pocos a muchos como die años, el principal choque. Hence, el trabajo en [22] previene en las regiones al sur de California donde los terremotos son probables en un periodo de 5 a 10 años. Una modificación del método del patrón informático tuvo también éxito aplicado al centro de Japón en [23], estrechando la posible localización donde el mayor terremoto podría ocurrir. En 2010, otra versión del patrón informático extendido al trato con zonas 3D fue presentado en [24]. Algunos patrones asociados con las variaciones del valor b fueron descubiertos en [5] por medias, del bien conocido algoritmo de clustering K-means. Los autores evalúan sus hipótesis sobre datos de la península Ibérica. Estos patrones son capaces de predecir a un medio plazo la aparición de terremotos con gran confiabilidad. Los datos de la península Ibérica fueron también examinados en [25], pero esta vez, usando el algoritmo M5P, y reglas de asociación cuantificadas. Los autores mostraron la fuerte relación existente entre las variaciones negativas del valor b y los grandes terremotos. Debido a las múltiples pruebas descubiertas, se decidió a que las variaciones del valor b fueran los datos de entrada de diferentes algoritmos aplicados en el presente trabajo. Página 19

20 En referencia al uso de modelos neuronales, sus aplicaciones han sido muy abundantes. Una red neuronal probabilística fue probada en [26] haciendo uso de datos de la región sur de California. Este tipo de red neuronal es principalmente usada para clasificación de problemas, como se ha aplicado en este trabajo. De hecho, los autores predicen la magnitud de los terremotos como uno de los valores de salida de las clases. Se ha hecho uso de métodos de minería de datos en muchos campos diferentes para resolver complicados reconocimientos de patrones y clasificación de problemas en dominios como imagen y reconocimiento de objetos [36 y 37], reconocimiento de voz [38], robótica y computer vision [39 y 40], lenguaje natural y procesador de textos [41 y 42], ingeniería biomédica y diagnóstico médico [43], neurociencia [44], actividad solar [45], seguridad informática [46] y control de tráfico aéreo [47], entre otros. Numerosos autores han propuesto distintos métodos para predecir la ocurrencia de terremotos. En este apartado se describen brevemente modelos propuestos por el RELM. Es destacable el trabajo de Shen at al. [48], en el cual los autores han trabajado sobre unos datos extraídos al sur de California a lo largo de un período de tiempo, una década concretamente. El trabajo de Ward [49] añadió cinco modelos nuevos al RELM. El primero, similar al trabajo presentado por Kagan [50], se basa en el estudio de la sismicidad pasada y predecía terremotos de magnitud mayor o igual a 5,0. El segundo modelo es similar al propuesto por Shen et al. [51]. El tercero se basa en el análisis de los datos de las fallas. El cuarto modelo es una combinación de los tres primeros modelos y, finalmente, el último se basa en simulaciones de terremotos [52]. Helmstetter et al. [53] han desarrollado un método incluyendo los terremotos más pequeños y eliminando las réplicas, independiente del tiempo, similar al del Kafka y Levin [54]. El grupo de trabajo California Earthquake Probability [55] ha presentado el Uniform California Earthquake Rupture Forecast v. 1 compuesto de cuatro tipos de fuentes de terremotos con sismicidad distribuida, similar al National Seismic Hazard Map [56]. También tenemos el Asperity-based Likelihood Method (ALM), otro modelo de predicción para cinco años que supone una distribución de los terremotos según la ley de Gutenberg-Richter [57] y considera que la distribución de tamaños de microterremotos recientes es la información más importante para predecir terremotos de magnitud mayor o igual a 5,0. Holliday et al., [58] desarrollaron el modelo de Pattern Informatics, centralizado en las zonas las zonas donde es más probable que suceda un terremoto en el futuro próximo basado en descubrir zonas con una actividad sísmica alta, llegando a hacer predicciones de 5 a 10 años. Página 20

21 Otro de los métodos propuestos, en este caso por Bird y Liu [59], consiste en estimar la sismicidad media a largo plazo de cualquier región en dos pasos, aplicando leyes de geofísica. Aplicando este método, los autores afirman que la las predicciones realizadas utilizando la teoría de la tectónica de placas son más exactas que aquellas basadas en muestras pasadas. También nos encontramos a, Gerstenberguer et al. [60], que desarrollaron un método para predecir terremotos en las próximas 24 horas, situando sobre un mapa la probabilidad de ocurrencia de terremotos basándose en una estadística de réplicas y precursores. El método de Rhoades [61] lleva a cabo predicciones para un año basándose en el concepto de que cada terremoto es un precursor según su escala. Para ese objetivo, los terremotos previos de menor magnitud se han utilizado para predecir los de mayor magnitud. Por otra parte tenemos a Ebel et al. [62], que proponen dos métodos para predecir terremotos. El primer método se basa en la asunción de que la media de varias variables estadísticas, tales como la ocurrencia espacial y temporal de terremotos de magnitud mayor o igual a 4,0, durante el período de predicción es la misma que la media de esas variables durante los últimos 70 años. El segundo método utiliza el modelo de Markov para realizar predicciones para el día siguiente. Y por último, Murru et al. [63] han desarrollado un modelo de predicción a corto plazo basado en la propagación de secuencias de réplicas simulando la propagación de una epidemia. Página 21

22 Página 22

23 Capítulo 3: Aplicación de un proceso KDD a la predicción de terremotos Se presenta en este capítulo una descripción exhaustiva de la aplicación de todos los pasos seguidos para predecir terremotos, siguiendo el modelo KDD descrito en el Capítulo Selección de datos La obtención de datos es el primero de los pasos dentro del proceso KDD. Consiste en la recopilación de la mayor cantidad posible de datos para su procesamiento posterior. En nuestro caso, se han recogido todos los datos sismológicos relativos al área geográfica de Japón. Se ha hecho uso de la base de datos pública de U.S. Geological Survey, que se trata de la agencia científica del gobierno de Estados Unidos dedicada a estudiar el terreno de Estados Unidos, los recursos naturales y los peligros naturales. Una de las disciplinas que abarca es la geografía, y dentro de ella tiene un programa dedicado al peligro que suponen los terremotos. Dicho programa pone a libre disposición sus bases de datos, dándonos la posibilidad de descargarnosdatos de terremotos a través de un sencillo formulario [10] seleccionado e introduciendo diferentes parámetros: desde el propio formulario se elige el formato de salida, en nuestro caso se escoge spread sheet format con vistas a la manipulación de los datos; los datos fueron extraídos de la propia base de datos de USGS/NEIC que contiene datos de terremotos desde 1973; por último, latitud y longitud según el área que se quiera abarcar. Japón es nuestra base de estudio, fundamentalmente por la escasez de trabajos relacionados con la aplicación de la minería de datos existente en la actualidad.dicho país ha sido dividido en cinco grandes zonas, debido a las diferencias entre las zonas geográficas de un extremo y otro. No sería correcto comparar la actividad sismológica de Hokkaido, con la de Kyushu, ya que son islas situadas a más de 1000 km y con una actividad sísmica totalmente diferente. En nuestro entorno sería algo parecido a comparar la actividad de sismológica de Sevilla con la de la isla de La Palma en las Islas Canarias. Además, la división geográfica, nos ayudará a que la predicción sea en un área más concreta. Es decir, se está intentando que la incertidumbre espacial sea lo menor posible para que la obtención del modelo sea lo más preciso y particular posible, ya que buscan zonas que exhiban patrones de comportamiento similares. Página 23

24 Figura 3.1. Mapa de Japón dividido porzonas. Las zonas se han delimitado siguiendo la figura 3.1. Las longitudes y latitudes que delimitan dichas zonas se pueden encontrar en la Tabla 3.1. Tabla 3.1. Latitud y longitud de las zonas analizadas. ZONA Latitud (N) Longitud (E) A (29, 25.6) (126.5, 130.5) B (35,29) (128.5,132.2) C (39,32.5) (132.2, 143) D (45.7, 39) (138.7, 148) E (47, 43.5) (148, 151.5) De esta forma, tenemos todos los parámetros a introducir en [10], seleccionando como fecha de inicio el 1 de Enero del Es importante resaltar, igualmente, que siguiendo las recomendaciones de expertos en sismología, sólo se han obtenido terremotos con magnitud M > 2.9 ya que por debajo de ese umbral son muchas veces imperceptibles por el ser humano y es prácticamente imposible que ocasionen daños materiales. En resumen, la búsqueda realizada de acuerdo con los parámetros anteriormente comentados generó: 1. Para la zona A, un total de 730 terremotos. 2. Para la zona B, un total de 651 terremotos. 3. Para la zona C, un total de 6904 terremotos. 4. Para la zona D, un total de 3260 terremotos. Página 24

25 5. Para la zona E, un total de 668 terremotos. Desde este punto podemos ver que son las zonas C y D las que más datos hemos obtenido, quedando las otras tres zonas restantes con un número de terremotos mucho menor. 3.2 Preprocesado de datos Una vez hemos obtenido los datos de los terremotos de las diferentes zonas, el siguiente paso del proceso KDD es la limpieza de los mismos. Este paso consiste en la eliminación del mayor número posible de datos erróneos, inconsistentes e irrelevantes. En este paso realizaremos un muestreo tanto vertical como horizontalmente, eliminando aquellas tuplas que no nos aporten la suficiente información. De esta forma, detectaremos datos anómalos y redefiniremos algún atributo, agrupándolos o separándolos. Observando el fichero de salida de la base de datos de la que hemos extraído los datos [10], vemos que contiene la siguiente información: año, mes, día, hora (hhmmss,mm) UTC, latitud, longitud, magnitud, profundidad, catálogo. Los parámetros nos aparecen separados por comas y cada registro del fichero representa un terremoto. Analizando los datos, se observa que hay filas a las que le faltan parámetros importantes como la magnitud del terremoto. Al tratarse de un dato de suma importancia, se ha decidido por la eliminación de las tuplas que les falte este dato, ya que la sustitución por un valor podría introducir ruido en los resultados finales. De la zona A, se eliminan un total de 57 registros, de la zona B 77 registros, de la zona C 563 registros, de la zona D 244 registros y de la zona E 58 registros. Por lo tanto, finalmente se va a trabajar con 673 terremotos para la zona A, 574 terremotos para la zona B, para la zona C 6341 terremotos, 3016 para la D y 610 para la zona E. Teniendo todas los registros completos, se pasa a darle un formato. Con ayuda de unprograma realizado específicamente para este proyecto, se formatean la fecha y la hora en formato americano, de forma que se muestren de la siguiente manera: Mes/Día/Año Hora:Minutos, quedándonos con los dos últimos dígitos para el año y despreciando el dato de las milésimas en la hora. Otramodificación que hacemos en los datos de todas las zonas es el delimitador de los decimales, cambiando el punto por la coma. Y por último se ordenan los resultados cronológicamente para tener una perspectiva del tiempo, es decir, para poder interpretarlos como una serie temporal o, concretamente en este contexto, como una secuencia de eventos en la que cada evento viene representado por la ocurrencia de un terremoto y caracterizado por todos los atributos asociados a dicho sismo. Así, todos los datos están limpios de atributos ausentes y tienen un formato para trabajar con ellos cómodamente. Página 25

26 3.3 Transformación de datos A continuación se pasa a la fase de transformación de datos y, en nuestro caso particular, a la generación de atributos que es la fase del proceso KDD en la que, a partir de los datos que ya tenemos, se obtienen otros que pueden aportar información de gran valor e interés. Es importante resaltar que todos los atributos generados han sido obtenidos siguiendo los consejos de expertos en geofísica, en concreto, los consejos de los doctores Antonio Morales Esteban (Universidad de Sevilla) y Jorge Reyes Molina (Universidad de Chile). En primer lugar se va a generar el atributo b, que representará el parámetro b de la ley de Gutenberg-Richter, que es un parámetro que refleja propiedades tectónicas y geofísicas de las rocas y de la variación de la presión de fluidos en una región concreta [64 y 65]. Así, el análisis de su variación ha sido usado normalmente en la predicción de terremotos [66]. Es importante saber como se han obtenido la secuencia de los valores b antes de presentar conclusiones sobre su variación. Los estudios de Gibowitz [67] y Wiemer et al.[68] en las variaciones de b desembocan en réplicas del terremoto. Encontraron un incremento en b después de un gran terremoto en Nueva Zelanda y una reducción después de importantes réplicas. En general, mostraron que b tiende a reducirse cuando muchos terremotos ocurren en un área local durante un corto periodo de tiempo. Sammonds, Meredith y Main [69] clarificaron los cambios y variaciones de b, postulando que: un estudio sistemático de cambios temporales en b ha mostrado que un gran terremoto suele ir precedido a medio plazo de un incremento en b, seguido de una reducción en los meses a semanas antes del terremoto. Un descenso pronunciado de b puede preceder a la aparición de terremotos de hasta siete años. De lo que no cabe ninguna duda en la actualidad, es que dicho parámetro posee una capacidad de predicción muy importante y que su análisis es crucial para la predicción exitosa de terremotos. Dada la importancia de este parámetro se ha añadido como atributo para nuestro estudio. El valor b es calculado haciendo uso de los últimos cincuenta terremotos guardados. Para calcularlo, se aplica la siguiente fórmula: b = log(e) M 3 donde M la magnitud del i-ésimo terremoto y 3 es la magnitud referencia, M. Además de calcular b, se van a calcular los diferentes incrementos de b en el tiempo en intervalos de 4 terremotos, a los que llamaremos x x x x x : Página 26

27 b = b b x b = b b x b = b b x b = b b x b = b b x De esta forma, podemos concluir que los primeros 70 terremotos se requieren para calcular los diferentes x. Además se va a incluir el atributo x que medirá la magnitud máxima de los terremotos ocurridos durante la última semana dentro del área analizada. El uso de este atributo viene definido por las leyes de Omori-Utsu y Bath. Definiremos x como: donde t es el tiempo medido en días. x = max{m }, cuando t [ 7,0) (28) Otro de los atributos que se ha añadido es x que identifica la probabilidad de registrar un terremoto con una magnitud mayor o igual a 5.0. La adición de esta información es para incluir la ley de Gutenberg-Ritcher de forma dinámica, y es calculada como la función de densidad de probabilidad: x = P(M 5.0) = e / ( ) (29) Además se ha añadido un atributo al que llamaremos y, el cual representa la magnitud máxima observada en los próximos cinco días. Esto de manera formal se podría representar de la siguiente forma: Donde t es el tiempo medido en días. y = max{m }, cuando t (0,5] (30) Nótese que la utilización de estos atributos es novedosa, ya que aunque el valor b ya se había utilizado en anteriores trabajos, nunca se había utilizado de esta forma ni se había combinado con el resto de atributos generados. Además de los nuevos atributos hemos generado una etiqueta de clase que servirá para identificar si en un periodo determinado (este periodo se estudiará con posterioridad en los resultados) posterior a dicho terremoto sucede otro terremoto de magnitud mayor o igual a un determinado umbral. Dicho umbral se analizará en la sección de resultados. Evidentemente, este último atributo será de tipo binario. Esta etiqueta nos servirá, en última instancia, para evaluar la calidad de nuestras predicciones. Página 27

28 3.4 Algoritmos de minería de datos aplicados Una vez superadas las etapas anteriores, los datos ya están en disposición de ser procesados mediante diferentes técnicas de minería de datos. En el caso particular abordado en esta memoria, nos encontramos ante un problema de aprendizaje supervisado. En concreto hemos utilizado diferentes clasificadores para predecir la ocurrencia de terremotos durante los próximos 5 días. Y es que, como se adelantó en la sección anterior, a cada instancia se le ha asignado una etiqueta que indica si durante los próximos 5 días hubo o no un terremoto. Por tanto, al clasificar correctamente esa etiqueta estaremos, indirectamente, prediciendo la ocurrencia de terremotos. Se han aplicado diferentes métodos de clasificación para encontrar el resultado óptimo que más se adapte a la resolución del problema. Los métodos usados son los siguientes: vecinos más cercanos (KNN, K-Nearest Neighbors); redes neuronales artificiales (ANN, Artificial Neural Networks); Naive Bayes; algoritmo J48 (algoritmo C4.5); un clasificador vía regresión, usando el método M5P; un clasificador vía clustering usando el método K-means; y máquinas de vectores de soporte (SVM, Support Vector Machines). A continuación se proporciona una breve descripción de los fundamentos matemáticos que subyacen a todos los métodos que se van a utilizar. KNN, vecinos cercanos El método considerado como un buen representante de los métodos clasificadores es el denominado k-vecinos más cercanos (KNN, [k-nearestneighbor]), además destaca por su gran sencillez conceptual. Se denomina método porque es el esqueleto de un algoritmo que admite el intercambio de la función de proximidad dando lugar a múltiples variantes. Atendiendo a la clasificación del ejemplo o de la mayoría de los k ejemplos más cercanos, la función de proximidad puede decidir la clasificación de un nuevo ejemplo. Además admite funciones de proximidad que consideren el coste de los atributos que intervienen o el peso, lo que permite, eliminar los atributos irrelevantes. Una función de proximidad clásica entre dos instancias xi y xj, si suponemos que un ejemplo viene representado por una n-tupla de la forma (a1(x), a2(x),..., an(x)) en la que ar(x) es el valor de la instancia para el atributo ar, es la distancia euclídea, que se muestra en la siguiente ecuación. Página 28

29 Un sistema de dos atributos del algoritmo KNN se muestra representado en la figura 3.2, representándose por ello en un plano. En este ejemplo se ve cómo el proceso de aprendizaje consiste en el almacenamiento de todos los ejemplos de entrenamiento. Partiendo de las clases + y -, se han representado los ejemplos de acuerdo a los valores de sus dos atributos. En este caso la clasificación consiste en la búsqueda de los 3 elementos más cercanos al ejemplo a clasificar, siendo más concretos, a y b se clasificaría como y + respectivamente. Figura 3.2. Ejemplo de KNN Para realizar una aclaración más ténica, a continuación se detalla, en pseudocódigo, la implementación del algoritmo empleado para definir la distancia entre dos ejemplos: Página 29

30 ANN, redes neuronales artificiales Desde 1930, las redes de neuronas constituyen una técnica inspirada en los trabajos de investigación, que pretendían, a través de las neuronas en el cerebro, modelar computacionalmente el aprendizaje humano. Se comprobó a posteriori que tales modelos no eran del todo adecuados para describir el aprendizaje humano. A diferencia de las técnicas tradicionales, las redes de neuronas constituyen una nueva forma de analizar la información, son capaces de detectar y aprender complejos patrones y características dentro de los datos. Aprendiendo de la experiencia y del pasado, se comportan de forma parecida a nuestro cerebro, y se aplica tal conocimiento a la resolución de problemas nuevos. Como resultado del adiestramiento ("training"), el aprendizaje se obtiene y permite la sencillez y la potencia de adaptación y evolución ante una realidad cambiante y dinámica. Las redes de neuronas pueden hacer previsiones, clasificaciones y segmentación una vez adiestradas. Presentan además, una eficiencia y fiabilidad similar a los métodos estadísticos y sistemas expertos, incluso mejor en la mayoría de los casos. En aquellos casos de muy alta complejidad las redes neuronales se muestran como especialmente útiles dada la dificultad de modelado que supone para otras técnicas. Como conveniente, las redes de neuronas tienen de la dificultad de acceder y comprender los modelos que generan y presentan dificultades para extraer reglas de tales modelos. Otra característica es que son capaces de trabajar con datos incompletos e, incluso, contradictorios lo que, dependiendo del problema, puede resultar una ventaja o un inconveniente. Las redes de neuronas poseen las dos formas de aprendizaje: supervisado y no supervisado. Actualmente las redes de neuronas se utilizan en distintos sectores como el ejército, las comunicaciones, la industria, el gobierno, la investigación aeroespacial, la banca y las finanzas, los seguros, la medicina, la distribución, la robótica, el marketing, etc. Actualmente se está estudiando la posibilidad de utilizar técnicas avanzadas y novedosas como los Algoritmos Genéticos para crear nuevos paradigmas que mejoren el adiestramiento y la propia selección y diseño de la arquitectura de la red (número de capas y neuronas), diseño que ahora debe realizarse en base a la experiencia del analista y para cada problema concreto. Las redes de neuronas se construyen estructurando una serie de niveles o capas, al menos tres: entrada, procesamiento u oculta y salida. Estas capas están compuestas por nodos o "neurona. Cada neurona está conectada a todas las neuronas de las capas anterior y posterior a través de los pesos o "dendritas", tal y como se muestra en la figura 3.3. Página 30

31 Figura 3.3. Estructura de la red neuronal Cuando un nodo recibe las entradas o "estímulos" de otras los procesa para producir una salida que transmite a la siguiente capa de neuronas. La señal de salida tendrá una intensidad fruto de la combinación de la intensidad de las señales de entrada y de los pesos que las transmiten. Los pesos o dendritas tienen un valor distinto para cada par de neuronas que conectan pudiendo así fortalecer o debilitar la conexión o comunicación entre neuronas particulares. Los pesos son modificados durante el proceso de adiestramiento. El diseño de la red de neuronas consistirá, entre otras cosas, en la definición del número de neuronas de las tres capas de la red. Las neuronas de la capa de entrada y las de la capa de salida vienen dadas por el problema a resolver, dependiendo de la codificación de la información. En cuanto al número de neuronas ocultas (y/o número de capas ocultas) se determinará por prueba y error. Por último, debe tenerse en cuenta que la estructura de las neuronas de la capa de entrada se simplifica, dado que su salida es igual a su entrada: no hay umbral ni función de salida. Naive Bayes En técnicas de aprendizaje, normalmente se quiere saber es cuál es la mejor hipótesis (más probable) dados unos datos. Siendo P(D) la probabilidad a priori de los datos (i.e., cuales datos son más probables que otros), P(D h) la probabilidad de los datos dada una hipótesis, y lo que queremos estimar es: P(h D), la probabilidad posterior de h dados los datos. Para estimar la hipótesis más probable se busca el mayor P(h D). Esto se puede estimar con el teorema de Bayes, definido con la siguiente ecuación: El clasificador naive Bayes se utiliza cuando se quiere clasificar un ejemplo descrito por un conjunto de atributos (ai's) en un conjunto finito de clases (V). Clasificar un nuevo ejemplo de acuerdo con el valor más probable dados los valores de sus atributos. Los clasificadores naive Bayes asumen que el efecto de un valor del atributo en una clase dada es independiente de los valores de los otros atributos. Esta suposición se Página 31

32 llama independencia condicional de clase. Ésta simplifica los cálculos involucrados y, en este sentido, es considerado "ingenuo (naive). Esta asunción es una simplificación de la realidad. A pesar del nombre del clasificador y de la simplificación realizada, el naive Bayes funciona muy bien, sobre todo cuando se filtra el conjunto de atributos seleccionado para eliminar redundancia, con lo que se elimina también dependencia entre datos. Una ventaja de las grandes ventajas de este clasificador es la cuestión de los valores perdidos o desconocidos. Si se intenta clasificar un ejemplo con un atributo sin valor el clasificador naive Bayes simplemente el atributo en cuestión no entra en el productorio que sirve para calcular las probabilidades. Respecto a los atributos numéricos, se suele suponer que siguen una distribución Normal o Gaussiana. Para estos atributos se calcula la media μ y la desviación típica σ obteniendo los dos parámetros de la distribución N(μ, σ). J48, algoritmo C4.5 El método J48 es un procedimiento para generar un árbol de decisión.generar un árbol de decisión consiste en seleccionar un atributo como raíz del árbol y crear una rama con cada uno de los posibles valores de dicho atributo. Con cada rama resultante (nuevo nodo del árbol), se realiza el mismo proceso, se selecciona otro atributo y se genera una nueva rama para cada posible valor del atributo. Este procedimiento continúa hasta que los ejemplos se clasifiquen a través de uno de los caminos del árbol. El nodo final de cada camino será un nodo hoja, al que se le asignará la clase correspondiente. Así, el objetivo de los árboles de decisión es obtener reglas o relaciones que permitan clasificar a partir de los atributos. Este algoritmo permite el empleo del concepto razón de ganancia, construir árboles de decisión cuando algunos de los ejemplos presentan valores desconocidos para algunos de los atributos, trabajar con atributos que presenten valores continuos, la poda de los árboles de decisión y la obtención de reglas de clasificación. Antes de definir el algoritmo C4.5, tendríamos que nombrar la base fundamental de éste, que es el ID3. ID3 es capaz de tratar con atributos cuyos valores sean discretos o continuos. Para atributos discretos, el árbol de decisión tendrá tantas ramas como valores posibles tome el atributo. Y para el caso en el que los valores del atributo son continuos, el ID3 no clasifica correctamente los ejemplos dados. Por ello, se propuso el C4.5, como extensión del ID3, que permite: 1. El empleo del concepto razón de ganancia. 2. La construcción de árboles de decisión cuando algunos de los ejemplos presentan valores desconocidos para algunos de los atributos. 3. Trabajar con atributos que presenten valores continuos. 4. La poda de los árboles de decisión. Página 32

33 5. La obtención de Reglas de Clasificación. Razón de ganancia El test basado en el criterio de maximizar la ganancia tiene como sesgo la elección de atributos con muchos valores. Cuanto más fina sea la participación producida por los valores del atributo, la incertidumbre o entropía en cada nuevo nodo será menor, por tanto también será menor la media de la entropía a ese nivel. El algoritmo C4.5 modifica el criterio de selección del atributo empleando en lugar de la ganancia la razón de ganancia. Valores desconocidos Admitir ejemplos con atributos desconocidos tanto en el proceso de aprendizaje como en el de validación está contemplado en el algoritmo C4.5. Durante el proceso de aprendizaje podemos calcular la razón de ganancia de un atributo con valores desconocidos, de esta forma se redefinen sus dos términos: la ganancia, y la información de ruptura. No se toma el valor desconocido como significativo, sino que se supone una distribución probabilística del atributo de acuerdo con los valores de los ejemplos en la muestra de entrenamiento. Cuando se entrena, los casos con valores desconocidos se distribuyen con pesos de acuerdo a la frecuencia de aparición de cada posible valor del atributo en el resto de ejemplos de entrenamiento. En cuanto a la clasificación de un ejemplo de test, si se alcanza un nodo con un atributo que el ejemplo no tiene (desconocido), se distribuye el ejemplo (divide) en tantos casos como valores tenga el atributo, y se da un peso a cada resultado con el mismo criterio que en el caso del entrenamiento: la frecuencia de aparición de cada posible valor del atributo en los ejemplos de entrenamiento. El resultado de esta técnica es una clasificación con probabilidades, correspondientes a la distribución de ejemplos en cada nodo hoja. Poda del árbol de decisión A partir de un conjunto de ejemplos se ha construido el árbol de decisión, por tanto, reflejará correctamente todo el grupo de casos. Sin embargo, esos ejemplos pueden ser muy diferentes entre sí, y por tanto, el árbol resultante puede llegar a ser bastante complejo, con ramas muy largas y muy desbalanceado. La solución óptima sería la de realizar una poda del mismo para facilitar la comprensión del árbol. C4.5 efectúa la poda después de haber desarrollado el árbol completo (post-poda), a diferencia de otros sistemas que realizan la construcción del árbol y la poda a la vez (pre-poda); es decir, estiman la necesidad de seguir desarrollando un nodo aunque no posea el carácter de hoja. En C4.5 el proceso de podado comienza en los nodos hoja y recursivamente continúa hasta llegar al nodo raíz. Se consideran dos operaciones de poda en C4.5: reemplazo de sub-árbol por hoja (subtree replacement) y elevación de Página 33

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. UNIVERSIDAD DE CARABOBO FACULTAD DE CIENCIA Y TECNOLOGÍA DIRECCION DE EXTENSION COORDINACION DE PASANTIAS Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. Pasante:

Más detalles

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios "Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios Miguel Alfonso Flores Sánchez 1, Fernando Sandoya Sanchez 2 Resumen En el presente artículo se

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

forma de entrenar a la nuerona en su aprendizaje.

forma de entrenar a la nuerona en su aprendizaje. Sistemas expertos e Inteligencia Artificial,Guía5 1 Facultad : Ingeniería Escuela : Computación Asignatura: Sistemas expertos e Inteligencia Artificial Tema: SISTEMAS BASADOS EN CONOCIMIENTO. Objetivo

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT REACCIONES ADVERSAS DE LOS MEDICAMENTOS Los fármacos por naturaleza

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión...

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión... Tema 8 Análisis de dos variables: dependencia estadística y regresión Contenido 8.1. Introducción............................. 1 8.2. Dependencia/independencia estadística.............. 2 8.3. Representación

Más detalles

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama. Diagrama de Flujo La presentación gráfica de un sistema es una forma ampliamente utilizada como herramienta de análisis, ya que permite identificar aspectos relevantes de una manera rápida y simple. El

Más detalles

Ingeniería en Informática

Ingeniería en Informática Departamento de Informática Universidad Carlos III de Madrid Ingeniería en Informática Aprendizaje Automático Junio 2007 Normas generales del examen El tiempo para realizar el examen es de 3 horas No se

Más detalles

Adaptación al NPGC. Introducción. NPGC.doc. Qué cambios hay en el NPGC? Telf.: 93.410.92.92 Fax.: 93.419.86.49 e-mail:atcliente@websie.

Adaptación al NPGC. Introducción. NPGC.doc. Qué cambios hay en el NPGC? Telf.: 93.410.92.92 Fax.: 93.419.86.49 e-mail:atcliente@websie. Adaptación al NPGC Introducción Nexus 620, ya recoge el Nuevo Plan General Contable, que entrará en vigor el 1 de Enero de 2008. Este documento mostrará que debemos hacer a partir de esa fecha, según nuestra

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

5.4. Manual de usuario

5.4. Manual de usuario 5.4. Manual de usuario En esta sección se procederá a explicar cada una de las posibles acciones que puede realizar un usuario, de forma que pueda utilizar todas las funcionalidades del simulador, sin

Más detalles

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual Introducción Algunas de las personas que trabajan con SGBD relacionales parecen preguntarse porqué deberían preocuparse del diseño de las bases de datos que utilizan. Después de todo, la mayoría de los

Más detalles

revista transparencia transparencia y... 3.3. UNIVERSIDADES

revista transparencia transparencia y... 3.3. UNIVERSIDADES revista transparencia transparencia y... 3.3. UNIVERSIDADES 35 revista transparencia Mónica López del Consuelo Documentalista Open Data Universidad de Granada 3.3.1. El filtro básico de la transparencia.

Más detalles

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas. El primer paso en el diseño de una base de datos es la producción del esquema conceptual. Normalmente, se construyen varios esquemas conceptuales, cada uno para representar las distintas visiones que los

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Elementos requeridos para crearlos (ejemplo: el compilador)

Elementos requeridos para crearlos (ejemplo: el compilador) Generalidades A lo largo del ciclo de vida del proceso de software, los productos de software evolucionan. Desde la concepción del producto y la captura de requisitos inicial hasta la puesta en producción

Más detalles

Base de datos en Excel

Base de datos en Excel Base de datos en Excel Una base datos es un conjunto de información que ha sido organizado bajo un mismo contexto y se encuentra almacenada y lista para ser utilizada en cualquier momento. Las bases de

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Funcionalidades Software PROYECTOS GotelGest.Net Software para la gestión de Proyectos GotelGest.Net

Funcionalidades Software PROYECTOS GotelGest.Net Software para la gestión de Proyectos GotelGest.Net 2012 Funcionalidades Software PROYECTOS GotelGest.Net Software para la gestión de Proyectos GotelGest.Net Servinet Sistemas y Comunicación S.L. www.softwaregestionproyectos.com Última Revisión: Febrero

Más detalles

Covarianza y coeficiente de correlación

Covarianza y coeficiente de correlación Covarianza y coeficiente de correlación Cuando analizábamos las variables unidimensionales considerábamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas también

Más detalles

TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones.

TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones. TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones. La herramienta que nos indica si el proceso está o no controlado o Estado de Control son

Más detalles

TEMA 3: MÉTODO CONTABLE. LAS CUENTAS

TEMA 3: MÉTODO CONTABLE. LAS CUENTAS TEMA 3: MÉTODO CONTABLE. LAS CUENTAS 1. HECHOS CONTABLES En el tema 1 se señalaba que, dentro de la función de elaboración de la información contable, la contabilidad se ocupaba, en una primera etapa,

Más detalles

Sistemas de Información Geográficos (SIG o GIS)

Sistemas de Información Geográficos (SIG o GIS) Sistemas de Información Geográficos (SIG o GIS) 1) Qué es un SIG GIS? 2) Para qué sirven? 3) Tipos de datos 4) Cómo trabaja? 5) Modelos de datos, Diseño Conceptual 6) GeoDataase (GD) 7) Cómo evaluamos

Más detalles

FASES DEL PROCESO DE RESOLUCIÓN DE PROBLEMAS

FASES DEL PROCESO DE RESOLUCIÓN DE PROBLEMAS FASES DEL PROCESO DE RESOLUCIÓN DE PROBLEMAS Varios autores han tratado de identificar y describir las distintas fases en el proceso de resolución de problemas. Polya (1945), en su modelo descriptivo,

Más detalles

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Introducción Las Compañías aseguradoras determinan sus precios basadas en modelos y en información histórica

Más detalles

SÍNTESIS Y PERSPECTIVAS

SÍNTESIS Y PERSPECTIVAS SÍNTESIS Y PERSPECTIVAS Los invitamos a observar, a identificar problemas, pero al mismo tiempo a buscar oportunidades de mejoras en sus empresas. REVISIÓN DE CONCEPTOS. Esta es la última clase del curso.

Más detalles

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI La segunda fase del NIPE corresponde con la adecuación de las intervenciones de enfermería del sistema de clasificación N.I.C. (Nursing Intervention

Más detalles

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES Tema: Cartas de Servicios Primera versión: 2008 Datos de contacto: Evaluación y Calidad. Gobierno de Navarra. evaluacionycalidad@navarra.es

Más detalles

EL MODELO DE DATOS RASTER

EL MODELO DE DATOS RASTER EL MODELO DE DATOS RASTER El modelo de datos raster, como señala Bosque (1992), es el modelo de datos complementario al modelo vectorial presentado anteriormente. Tiene como principal característica el

Más detalles

Análisis y cuantificación del Riesgo

Análisis y cuantificación del Riesgo Análisis y cuantificación del Riesgo 1 Qué es el análisis del Riesgo? 2. Métodos M de Análisis de riesgos 3. Método M de Montecarlo 4. Modelo de Análisis de Riesgos 5. Qué pasos de deben seguir para el

Más detalles

MATEMÁTICAS ESO EVALUACIÓN: CRITERIOS E INSTRUMENTOS CURSO 2014-2015 Colegio B. V. María (Irlandesas) Castilleja de la Cuesta (Sevilla) Página 1 de 7

MATEMÁTICAS ESO EVALUACIÓN: CRITERIOS E INSTRUMENTOS CURSO 2014-2015 Colegio B. V. María (Irlandesas) Castilleja de la Cuesta (Sevilla) Página 1 de 7 Página 1 de 7 1 CRITERIOS DE EVALUACIÓN 1.1 SECUENCIA POR CURSOS DE LOS CRITERIOS DE EVALUACION PRIMER CURSO 1. Utilizar números naturales y enteros y fracciones y decimales sencillos, sus operaciones

Más detalles

ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE

ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE MARZO 2007 Este documento contesta las preguntas más frecuentes que se plantean las organizaciones que quieren

Más detalles

TEMA 2: Representación de la Información en las computadoras

TEMA 2: Representación de la Información en las computadoras TEMA 2: Representación de la Información en las computadoras Introducción Una computadora es una máquina que procesa información y ejecuta programas. Para que la computadora ejecute un programa, es necesario

Más detalles

Validation. Validación Psicométrica. Validation. Central Test. Central Test. Centraltest CENTRAL. L art de l évaluation. El arte de la evaluación

Validation. Validación Psicométrica. Validation. Central Test. Central Test. Centraltest CENTRAL. L art de l évaluation. El arte de la evaluación Validation Validación Psicométrica L art de l évaluation Validation Central Test Central Test Centraltest L art de l évaluation CENTRAL test.com El arte de la evaluación www.centraltest.com Propiedades

Más detalles

App para realizar consultas al Sistema de Información Estadística de Castilla y León

App para realizar consultas al Sistema de Información Estadística de Castilla y León App para realizar consultas al Sistema de Información Estadística de Castilla y León Jesús M. Rodríguez Rodríguez rodrodje@jcyl.es Dirección General de Presupuestos y Estadística Consejería de Hacienda

Más detalles

MÁQUINA DE VECTORES DE SOPORTE

MÁQUINA DE VECTORES DE SOPORTE MÁQUINA DE VECTORES DE SOPORTE La teoría de las (SVM por su nombre en inglés Support Vector Machine) fue desarrollada por Vapnik basado en la idea de minimización del riesgo estructural (SRM). Algunas

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

ANÁLISIS DE DATOS NO NUMERICOS

ANÁLISIS DE DATOS NO NUMERICOS ANÁLISIS DE DATOS NO NUMERICOS ESCALAS DE MEDIDA CATEGORICAS Jorge Galbiati Riesco Los datos categóricos son datos que provienen de resultados de experimentos en que sus resultados se miden en escalas

Más detalles

Capítulo VI. Diagramas de Entidad Relación

Capítulo VI. Diagramas de Entidad Relación Diagramas de Entidad Relación Diagramas de entidad relación Tabla de contenido 1.- Concepto de entidad... 91 1.1.- Entidad del negocio... 91 1.2.- Atributos y datos... 91 2.- Asociación de entidades...

Más detalles

Enfoque del Marco Lógico (EML)

Enfoque del Marco Lógico (EML) Enfoque del Marco Lógico (EML) Qué es el EML? Es una herramienta analítica que se utiliza para la mejorar la planificación y la gestión de proyectos tanto de cooperación al desarrollo como de proyectos

Más detalles

1. INTRODUCCIÓN 1.1 INGENIERÍA

1. INTRODUCCIÓN 1.1 INGENIERÍA 1. INTRODUCCIÓN 1.1 INGENIERÍA Es difícil dar una explicación de ingeniería en pocas palabras, pues se puede decir que la ingeniería comenzó con el hombre mismo, pero se puede intentar dar un bosquejo

Más detalles

Módulo 7: Los activos de Seguridad de la Información

Módulo 7: Los activos de Seguridad de la Información Módulo 7: Los activos de Seguridad de la Información Se explica en este tema cómo deben abordarse la elaboración de un inventario de activos que recoja los principales activos de información de la organización,

Más detalles

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007 Enunciado Se desea efectuar el testing funcional de un programa que ejecuta transferencias entre cuentas bancarias. El programa recibe como parámetros la cuenta de origen, la de cuenta de destino y el

Más detalles

Planificación de Sistemas de Información

Planificación de Sistemas de Información Planificación de Sistemas de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS...1 ACTIVIDAD 1: INICIO DEL PLAN DE SISTEMAS DE INFORMACIÓN...4 Tarea 1.1: Análisis de la Necesidad del...4 Tarea 1.2: Identificación

Más detalles

FACULTAD DE CONTADURIA Y CIENCIAS ADMINISTRATIVAS FINANZAS I NORMAS DE INFORMACION FINANCIERA

FACULTAD DE CONTADURIA Y CIENCIAS ADMINISTRATIVAS FINANZAS I NORMAS DE INFORMACION FINANCIERA Normas de Información Financiera Durante más de 30 años, la Comisión de Principios de Contabilidad (CPC) del Instituto Mexicano de Contadores Públicos A. C. (IMCP) fue la encargada de emitir la normatividad

Más detalles

El programa Minitab: breve introducción a su funcionamiento. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos

El programa Minitab: breve introducción a su funcionamiento. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos El programa Minitab: breve introducción a su funcionamiento Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos estadísticos en la actualidad, el libro se acompaña, en todo

Más detalles

Planificación de Sistemas de Información

Planificación de Sistemas de Información Planificación de Sistemas de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 1 ACTIVIDAD 1: INICIO DEL PLAN DE SISTEMAS DE INFORMACIÓN... 4 Tarea 1.1: Análisis de la Necesidad del... 4 Tarea 1.2: Identificación

Más detalles

PRODUCTIVIDAD DE PROYECTOS DE DESARROLLO DE SOFTWARE: FACTORES DETERMINANTES E INDICADORES

PRODUCTIVIDAD DE PROYECTOS DE DESARROLLO DE SOFTWARE: FACTORES DETERMINANTES E INDICADORES PRODUCTIVIDAD DE PROYECTOS DE DESARROLLO DE SOFTWARE: FACTORES DETERMINANTES E INDICADORES Raúl Palma G. y Guillermo Bustos R. Escuela de Ingeniería Industrial Universidad Católica de Valparaíso Casilla

Más detalles

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II BASE DE DATOS Comenzar presentación Base de datos Una base de datos (BD) o banco de datos es un conjunto

Más detalles

by Tim Tran: https://picasaweb.google.com/lh/photo/sdo00o8wa-czfov3nd0eoa?full-exif=true

by Tim Tran: https://picasaweb.google.com/lh/photo/sdo00o8wa-czfov3nd0eoa?full-exif=true by Tim Tran: https://picasaweb.google.com/lh/photo/sdo00o8wa-czfov3nd0eoa?full-exif=true I. FUNDAMENTOS 3. Representación de la información Introducción a la Informática Curso de Acceso a la Universidad

Más detalles

Indicadores para la generación de conocimiento acerca de la evaluación de la calidad de las instituciones educativas

Indicadores para la generación de conocimiento acerca de la evaluación de la calidad de las instituciones educativas Indicadores para la generación de conocimiento acerca de la evaluación de la calidad de las instituciones educativas Por Antonio Millán Arellano Nov 25 de 2006 Resumen El uso de indicadores es cada día

Más detalles

REPRODUCCIÓN DE LAS TABLAS DE CRECIMENTO INFANTIL QUE UTILIZAN LOS PEDIATRAS CON LOS DATOS DE LOS NIÑOS DEL COLEGIO XX

REPRODUCCIÓN DE LAS TABLAS DE CRECIMENTO INFANTIL QUE UTILIZAN LOS PEDIATRAS CON LOS DATOS DE LOS NIÑOS DEL COLEGIO XX Página 1 de 12 REPRODUCCIÓN DE LAS TABLAS DE CRECIMENTO INFANTIL QUE UTILIZAN LOS PEDIATRAS CON LOS DATOS DE LOS NIÑOS DEL COLEGIO XX Autoras: Curso: 3º ESO Escuela: Tutora: Fecha: 08 Mayo 2015 Página

Más detalles

Análisis interno de una empresa: diagnóstico de los recursos disponibles

Análisis interno de una empresa: diagnóstico de los recursos disponibles Análisis interno de una empresa: diagnóstico de los recursos disponibles Javier Osorio UNIVERSIDAD DE LAS PALMAS DE GRAN CANARIA Análisis de los recursos internos Las principales investigaciones que sobre

Más detalles

MEDICION DEL TRABAJO

MEDICION DEL TRABAJO MEDICION DEL TRABAJO Habíamos dicho al comenzar el curso que habían 4 técnicas que permiten realizar una medición del trabajo 1 Técnicas Directas: - Estudio de tiempos con cronómetro - Muestreo del trabajo

Más detalles

Sistemas de Gestión de Calidad. Control documental

Sistemas de Gestión de Calidad. Control documental 4 Sistemas de Gestión de Calidad. Control documental ÍNDICE: 4.1 Requisitos Generales 4.2 Requisitos de la documentación 4.2.1 Generalidades 4.2.2 Manual de la Calidad 4.2.3 Control de los documentos 4.2.4

Más detalles

Práctica del paso de generación de Leads

Práctica del paso de generación de Leads Práctica del paso de generación de Leads La parte práctica de este módulo consiste en poner en marcha y tener en funcionamiento los mecanismos mediante los cuales vamos a generar un flujo de interesados

Más detalles

Métodos Heurísticos en Inteligencia Artificial

Métodos Heurísticos en Inteligencia Artificial Métodos Heurísticos en Inteligencia Artificial Javier Ramírez rez-rodríguez Ana Lilia Laureano-Cruces Universidad Autónoma Metropolitana Métodos Heurísticos en Inteligencia Artificial Los problemas de

Más detalles

Capítulo 9. Archivos de sintaxis

Capítulo 9. Archivos de sintaxis Capítulo 9 Archivos de sintaxis El SPSS permite generar y editar archivos de texto con sintaxis SPSS, es decir, archivos de texto con instrucciones de programación en un lenguaje propio del SPSS. Esta

Más detalles

Cómo sistematizar una experiencia?

Cómo sistematizar una experiencia? Cómo sistematizar una experiencia? Una sistematización puede llevarse a cabo de múltiples formas, y además puede ser llevada a cabo por cualquier persona sin necesidad de ser especialista en la materia.

Más detalles

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2 K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2 Historia de revisiones Fecha VersiónDescripción Autor 08/10/2009 1.0 Creación del documento.

Más detalles

Contenidos. INFORME ENCUESTA TELEFÓNICA. Curso 2009 10

Contenidos. INFORME ENCUESTA TELEFÓNICA. Curso 2009 10 ENCUESTA DE OPINIÓN DEL ALUMNADO SOBRE LA ACTUACIÓN DOCENTE DEL PROFESORADO UNIVERSIDAD DE SEVILLA Curso 2009-2010 ENCUESTA TELEFÓNICA Contenidos Introducción.... 4 El Cuestionario... 5 El muestreo...

Más detalles

GUIA GENERAL PARA LA EVALUACION DE PROGRAMAS

GUIA GENERAL PARA LA EVALUACION DE PROGRAMAS GUIA GENERAL PARA LA EVALUACION DE PROGRAMAS A. Introducción La evaluación de un programa supone la colección sistemática de datos y el análisis e interpretación de los mismos, con el propósito de determinar

Más detalles

Análisis de Datos. Práctica de métodos predicción de en WEKA

Análisis de Datos. Práctica de métodos predicción de en WEKA SOLUCION 1. Características de los datos y filtros Una vez cargados los datos, aparece un cuadro resumen, Current relation, con el nombre de la relación que se indica en el fichero (en la línea @relation

Más detalles

Unidad VI: Supervisión y Revisión del proyecto

Unidad VI: Supervisión y Revisión del proyecto Unidad VI: Supervisión y Revisión del proyecto 61. Administración de recursos La administración de recursos es el intento por determinar cuánto, dinero, esfuerzo, recursos y tiempo que tomará construir

Más detalles

ANALIZANDO GRAFICADORES

ANALIZANDO GRAFICADORES ANALIZANDO GRAFICADORES María del Carmen Pérez E.N.S.P.A, Avellaneda. Prov. de Buenos Aires Instituto Superior del Profesorado "Dr. Joaquín V. González" Buenos Aires (Argentina) INTRODUCCIÓN En muchos

Más detalles

Diseño orientado al flujo de datos

Diseño orientado al flujo de datos Diseño orientado al flujo de datos Recordemos que el diseño es una actividad que consta de una serie de pasos, en los que partiendo de la especificación del sistema (de los propios requerimientos), obtenemos

Más detalles

CAPITULO 6 SISTEMA DE DETECCION DE INTRUSOS

CAPITULO 6 SISTEMA DE DETECCION DE INTRUSOS Capitulo 6. Sistema de Detección de Intrusos con Redes Neuronales. 69 CAPITULO 6 SISTEMA DE DETECCION DE INTRUSOS USANDO REDES NEURONALES. En este capítulo se realiza la preparación adecuada de toda la

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

QUÉ ES LA RENTABILIDAD Y CÓMO MEDIRLA. La rentabilidad mide la eficiencia con la cual una empresa utiliza sus recursos financieros.

QUÉ ES LA RENTABILIDAD Y CÓMO MEDIRLA. La rentabilidad mide la eficiencia con la cual una empresa utiliza sus recursos financieros. QUÉ ES LA RENTABILIDAD Y CÓMO MEDIRLA La rentabilidad mide la eficiencia con la cual una empresa utiliza sus recursos financieros. Qué significa esto? Decir que una empresa es eficiente es decir que no

Más detalles

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse.

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse. TABLA DE DECISION La tabla de decisión es una herramienta que sintetiza procesos en los cuales se dan un conjunto de condiciones y un conjunto de acciones a tomar según el valor que toman las condiciones.

Más detalles

RESULTADOS CONSULTA CIUDADANA VIRTUAL. Consulta Laboral en Línea

RESULTADOS CONSULTA CIUDADANA VIRTUAL. Consulta Laboral en Línea RESULTADOS CONSULTA CIUDADANA VIRTUAL Consulta Laboral en Línea Septiembre, 2015 1 Agradecimientos Ponemos a disposición de ustedes los resultados de la Consulta Ciudadana Virtual, efectuada en julio de

Más detalles

Proyecto Scratch: http://scratch.mit.edu/projects/38518614/

Proyecto Scratch: http://scratch.mit.edu/projects/38518614/ Proyecto Scratch: http://scratch.mit.edu/projects/38518614/ SISTEMAS DE NUMERACÍON Dos de los sistemas de numeración más utilizados son el sistema decimal, que se emplea en la vida cotidiana, y el sistema

Más detalles

7. Conclusiones. 7.1 Resultados

7. Conclusiones. 7.1 Resultados 7. Conclusiones Una de las preguntas iniciales de este proyecto fue : Cuál es la importancia de resolver problemas NP-Completos?. Puede concluirse que el PAV como problema NP- Completo permite comprobar

Más detalles

David Erosa García Programador del C.G.A. de la D.G. de Innovación Educativa y Formación del Profesorado. Consejería de Educación, Junta de Andalucía

David Erosa García Programador del C.G.A. de la D.G. de Innovación Educativa y Formación del Profesorado. Consejería de Educación, Junta de Andalucía CENTRO DE GESTIÓN AVANZADO (C.G.A.) : LA GESTIÓN CENTRALIZADA DE LOS ORDENADORES DE LOS CENTROS TIC S DE LA CONSEJERÍA DE EDUCACIÓN DE LA JUNTA DE ANDALUCÍA Director del C.G.A. y jefe del Departamento

Más detalles

CAPÍTUL07 SISTEMAS DE FILOSOFÍA HÍBRIDA EN BIOMEDICINA. Alejandro Pazos, Nieves Pedreira, Ana B. Porto, María D. López-Seijo

CAPÍTUL07 SISTEMAS DE FILOSOFÍA HÍBRIDA EN BIOMEDICINA. Alejandro Pazos, Nieves Pedreira, Ana B. Porto, María D. López-Seijo CAPÍTUL07 SISTEMAS DE FILOSOFÍA HÍBRIDA EN BIOMEDICINA Alejandro Pazos, Nieves Pedreira, Ana B. Porto, María D. López-Seijo Laboratorio de Redes de Neuronas Artificiales y Sistemas Adaptativos Universidade

Más detalles

Su éxito se mide por la pertinencia y la oportunidad de la solución, su eficacia y eficiencia.

Su éxito se mide por la pertinencia y la oportunidad de la solución, su eficacia y eficiencia. APUNTES PARA EL CURSO PROCESOS COGNITIVOS: RESOLUCIÓN DE PROBLEMAS Y TOMA DE DECISIONES Elaborado por Vicente Sisto Campos. Se trata de la confluencia de la capacidad analítica del equipo de identificar

Más detalles

Unidad 1. Fundamentos en Gestión de Riesgos

Unidad 1. Fundamentos en Gestión de Riesgos 1.1 Gestión de Proyectos Unidad 1. Fundamentos en Gestión de Riesgos La gestión de proyectos es una disciplina con la cual se integran los procesos propios de la gerencia o administración de proyectos.

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Aproximación local. Plano tangente. Derivadas parciales.

Aproximación local. Plano tangente. Derivadas parciales. Univ. de Alcalá de Henares Ingeniería de Telecomunicación Cálculo. Segundo parcial. Curso 004-005 Aproximación local. Plano tangente. Derivadas parciales. 1. Plano tangente 1.1. El problema de la aproximación

Más detalles

Indicaciones específicas para los análisis estadísticos.

Indicaciones específicas para los análisis estadísticos. Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por

Más detalles

CAPÍTULO VI PREPARACIÓN DEL MODELO EN ALGOR. En este capítulo, se hablará acerca de los pasos a seguir para poder realizar el análisis de

CAPÍTULO VI PREPARACIÓN DEL MODELO EN ALGOR. En este capítulo, se hablará acerca de los pasos a seguir para poder realizar el análisis de CAPÍTULO VI PREPARACIÓN DEL MODELO EN ALGOR. En este capítulo, se hablará acerca de los pasos a seguir para poder realizar el análisis de cualquier modelo en el software Algor. La preparación de un modelo,

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

Caso práctico de Cuadro de Mando con Tablas Dinámicas

Caso práctico de Cuadro de Mando con Tablas Dinámicas 1 Caso práctico de Cuadro de Mando con Tablas Dinámicas Luis Muñiz Socio Director de SisConGes & Estrategia Introducción Hay una frase célebre que nos permite decir que: Lo que no se mide no se puede controlar

Más detalles

Gestión de la Configuración

Gestión de la Configuración Gestión de la ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 1 ESTUDIO DE VIABILIDAD DEL SISTEMA... 2 ACTIVIDAD EVS-GC 1: DEFINICIÓN DE LOS REQUISITOS DE GESTIÓN DE CONFIGURACIÓN... 2 Tarea EVS-GC 1.1: Definición de

Más detalles

MUESTREO TIPOS DE MUESTREO

MUESTREO TIPOS DE MUESTREO MUESTREO En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una población), se selecciona una muestra, entendiendo por tal una parte representativa de

Más detalles

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora Plataforma e-ducativa Aragonesa Manual de Administración Bitácora ÍNDICE Acceso a la administración de la Bitácora...3 Interfaz Gráfica...3 Publicaciones...4 Cómo Agregar una Publicación...4 Cómo Modificar

Más detalles

CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de

CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de inventarios para lograr un control de los productos.

Más detalles

Técnicas de valor presente para calcular el valor en uso

Técnicas de valor presente para calcular el valor en uso Normas Internacionales de Información Financiera NIC - NIIF Guía NIC - NIIF NIC 36 Fundación NIC-NIIF Técnicas de valor presente para calcular el valor en uso Este documento proporciona una guía para utilizar

Más detalles

MODELOS DE SIMULACIÓN

MODELOS DE SIMULACIÓN MODELOS DE SIMULACIÓN En general, se llama modelo a la imagen o representación de un sistema, generalmente simplificada e incompleta. Y se llama simulación a la experimentación con un modelo para extraer

Más detalles

La calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad.

La calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad. MINERIA DE DATOS PREPROCESAMIENTO: LIMPIEZA Y TRANSFORMACIÓN El éxito de un proceso de minería de datos depende no sólo de tener todos los datos necesarios (una buena recopilación) sino de que éstos estén

Más detalles

Test de Idioma Francés. Manual del evaluador

Test de Idioma Francés. Manual del evaluador Test de Idioma Francés Manual del evaluador 1 CONTENIDO Introducción Qué mide el Test de idioma francés? Qué obtienen el examinado y el examinador? Descripción de los factores Propiedades psicométricas

Más detalles

UNIVERSIDAD DE SALAMANCA

UNIVERSIDAD DE SALAMANCA UNIVERSIDAD DE SALAMANCA FACULTAD DE CIENCIAS INGENIERÍA TÉCNICA EN INFORMÁTICA DE SISTEMAS Resumen del trabajo práctico realizado para la superación de la asignatura Proyecto Fin de Carrera. TÍTULO SISTEMA

Más detalles

CAPITULO IV. HERRAMIENTAS DE CÓDIGO ABIERTO

CAPITULO IV. HERRAMIENTAS DE CÓDIGO ABIERTO CAPITULO IV. HERRAMIENTAS DE CÓDIGO ABIERTO En la actualidad la mayoría de las grandes empresas cuentan con un sin número de servicios que ofrecen a sus trabajadores y clientes. Muchos de estos servicios

Más detalles

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería

Más detalles

Un primer acercamiento a la CMDB.

Un primer acercamiento a la CMDB. Un Versión primer 1.2 acercamiento a la CMDB. 20/07/2005 Un primer acercamiento a la CMDB. Versión 1.1 1.2 18/02/05 20/02/05 Fecha Jose Autores Carlos Manuel García Viejo García Lobato http://ars.viejolobato.com

Más detalles

PENDIENTES DE MATEMÁTICAS DE 2º ESO (CURSO 2014-2015)

PENDIENTES DE MATEMÁTICAS DE 2º ESO (CURSO 2014-2015) PENDIENTES DE MATEMÁTICAS DE 2º ESO (CURSO 2014-2015) CRITERIOS E INDICADORES Se detallan a continuación los criterios de evaluación junto con sus indicadores de contenidos asociados. En negrita se indican

Más detalles