Una metaheurística para la extracción de reglas de asociación. Aplicación a terremotos.

Save this PDF as:
 WORD  PNG  TXT  JPG

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Una metaheurística para la extracción de reglas de asociación. Aplicación a terremotos."

Transcripción

1 Escuela Técnica Superior de Ingeniería Informática Máster Oficial en Ingeniería y Tecnología del Software TRABAJO FIN DE MÁSTER Una metaheurística para la extracción de reglas de asociación. Aplicación a terremotos. Autor: D. Álvaro Pita Martín Tutores: Dr. José C. Riquelme Santos Dr. Francisco Martínez Álvarez Convocatoria de Junio Curso 2011/2012

2 2

3 Título: Una metaheurística para la extracción de reglas de asociación. Aplicación a terremotos. Autor: Álvaro Pita Martín Tutor Cotutor Profesores de la asignatura Tribunal: Nombre:.. Firma: Nombre:.. Firma: Nombre:.. Firma: 3

4 4

5 Agradecimientos. Debo agradecer de manera especial a mi tutor, D. José C. Riquelme, por haber confiado en mi persona, y haber aceptado mi petición para realizar este proyecto. Su labor como docente, sus consejos y su capacidad para guiarme a lo largo de esta investigación, han sido un aporte excepcional, tanto en el desarrollo de esta memoria, como en mi propio desarrollo personal y profesional. A Francisco Martínez Álvarez, por su permanente disponibilidad, por el esfuerzo invertido, por animarme en el transcurso de este trabajo en los malos momentos y por lo más importante: brindarme la oportunidad de realizar este proyecto. Sin ti, este trabajo no habría sido posible, gracias amigo mío. A Alicia Troncoso Lora, por su disposición y ayuda, por su absoluta profesionalidad y por la dedicación empleada en este trabajo. Gracias por tus desinteresados consejos. Sin tus aportes, este proyecto tampoco habría sido posible. Por ultimo, mis más sinceros agradecimientos a mis más allegados, mi familia, por su incondicional apoyo, por estar siempre, en los buenos y en los malos momentos, por su cariño, y por demostrarme que siempre puedo contar con ellos, y a María, que ya forma parte de mi familia, por aguantarme a diario, por su paciencia, por su comprensión y por el amor que me brinda. A todos vosotros, gracias. 5

6 6

7 Resumen. Este trabajo final de Máster se incluye dentro de la disciplina de la Extracción Automática de Conocimiento (KDD, Knowledge Discovery in Databases) y más concretamente se centra en la etapa de Minería de Datos (MD). La MD es una de las áreas que más éxito y aplicación ha tenido a la hora de analizar información con el objetivo de extraer nuevo conocimiento. El objetivo de este trabajo es encontrar patrones y relaciones dentro de los datos permitiendo la creación de modelos en los que la representación del conocimiento esté basada en reglas de asociación. Concretamente, la extracción de reglas de asociación consiste en descubrir relaciones interesantes, y previamente inesperadas, entre los diferentes atributos de un conjunto de datos. Las reglas obtenidas pueden servir de ayuda para poder tomar posteriores decisiones en cualquier área en la que se esté trabajando. Además por la sencillez que presentan junto con el importante valor del conocimiento que se consigue extraer de los datos, hacen que el estudio de esta técnica sea continuo objeto de investigación. No existen muchos algoritmos en la literatura para encontrar este tipo de reglas, pero la mayoría de los trabajos se basan en modificaciones del algoritmo A Priori y en técnicas basadas en computación evolutiva y además la mayoría han sido aplicados a bases de datos con atributos discretos, mientras que en el mundo real existen numerosas bases de datos donde la información es numérica como por ejemplo las series temporales de eventos relacionados con desastres naturales como los terremotos. 7

8 8

9 Tabla de contenido Agradecimientos Resumen Lista de figuras Lista de tablas Introducción Objetivos Estructura de la memoria Contexto de investigación Minería de datos Qué es la minería de datos? Relación con otras disciplinas Etapas del proceso KDD Tareas de la minería de datos Aplicaciones Reglas de asociación Introducción Medidas de calidad de las reglas de asociación Reglas de asociación cuantitativas Algoritmo a priori Otros algoritmos de extracción de reglas de asociación Herramientas de uso de Reglas de Asociación Estado del arte Metodología Descripción del algoritmo Formalización del algoritmo Obtención de reglas de asociación raras Obtención de reglas de asociación compensadas Resultados Descripción de la base de datos Tablas de resultados Estrategia 1. Reglas de asociación raras Estrategia 2. Reglas de asociación compensadas Conclusiones

10 7 Bibliografía

11 Lista de figuras. Figura 1. Etapas del proceso KDD Figura 3. Estrategia1.txt. Ejemplo de resultados obtenidos Figura 4. Estrategia2.txt. Ejemplo de resultados obtenidos

12 12

13 Lista de tablas. Tabla 1. Base de datos de ejemplo Tabla 2. Datos de ejemplo Tabla 3. Conjunto de datos de ejemplo Tabla 4. Conjunto de datos ordenados de menor a mayor Tabla 5. Reglas obtenidas de forma aleatoria. Provisional Tabla 6. Reglas obtenidas de forma aleatoria. Definitiva Tabla 7. Reglas de asociación raras con consecuente Tabla 8. Reglas de asociación compensadas con consecuente Tabla 9. Reglas de asociación compensadas con consecuente Tabla 10. Reglas de asociación compensadas con consecuente

14 14

15 1 Introducción. Se presenta en este capítulo la motivación para realizar este trabajo de investigación. En concreto, este capítulo se dividirá en dos secciones. Una primera en la que se fijan los objetivos que se quieren cumplir y una segunda en la que se describe la estructura del resto de la memoria. 1.1 Objetivos. Este trabajo se centrará en los siguientes aspectos: Desarrollar una metaheurística para la extracción de reglas de asociación. Una de las principales características de esta técnica será su capacidad para trabajar con atributos continuos, a diferencia de la mayoría de algoritmos existentes en la literatura. Esta metaheurística de optimización estará basada en la función k-ésimo mayor y k- ésimo menor para obtener reglas de asociación en conjunto de datos con atributos numéricos. La metaheurística consiste en calcular los parámetros k de tal forma que las medidas que midan que la calidad de las reglas sean óptimas. Análisis de cuáles son las medidas a partir de las cuales se obtienen las reglas con mayor calidad y que, por tanto, mejor modelan a los datos estudiados. Para validar la calidad de la metaheurística, se aplicará a una base datos de terremotos. En concreto, se pretende predecir el comportamiento de series temporales de terremotos con las reglas de asociación obtenidas mediante un proceso automático. 1.2 Estructura de la memoria. La presente memoria se divide en los siguientes apartados: En el capitulo 2, Contexto de investigación, se describe el ámbito en el que se desarrolla el trabajo. Se estudia en primer lugar el área de la minería de datos, centrada en el proceso completo de extracción de conocimiento a partir de bases de datos. El capitulo se centra en aportar una visión general sobre la minería de datos a modo de introducción, relacionándola con otras disciplinas y estudiando las diferentes etapas que se acontecen en proceso de extracción de conocimiento a partir de bases de datos. Por ultimo, se desarrolla un breve estudio sobre las tareas y aplicaciones de la minería de datos. En el capitulo 2 además, se estudian las reglas de asociación, de forma que se describe de manera más amplia la parte de la minería de datos que se desarrolla posteriormente en la metodología y que supone foco de estudio de esta memoria. En este capitulo se estudian además las medidas de calidad utilizadas en la metodología, que permiten medir la calidad de las reglas de asociación. Por ultimo, se realiza un breve estudio sobre algunos algoritmos de extracción de reglas de asociación, como pueden ser el algoritmo A Priori, Eclat o FP Growth El capitulo 3, Metodología, se centra en el algoritmo desarrollado para este trabajo. Se desarrolla una explicación detallada del funcionamiento de este algoritmo, detallando cada una de las estrategias seguidas en la generación de reglas de asociación. Por un 15

16 lado, se detalla el proceso de generación de reglas de asociación raras. En segundo lugar, se detalla el proceso de generación de reglas de asociación compensadas. Por ultimo, se describe la formulación matemática para dicho algoritmo. En el capitulo 4, Resultados, se realizan una serie de experimentos con el fin de comprobar el algoritmo desarrollado. En este capitulo se describen los datos utilizados para la generación de los experimentos, así como los resultados obtenidos tanto en la generación de reglas de asociación raras como en la generación de reglas de asociación compensadas. En el capitulo 5, Conclusiones, se concluye la memoria del trabajo realizado, aportando unas pequeñas conclusiones sobre el trabajo llevado a cabo. Se presentan además algunas líneas de trabajos futuros. 16

17 2 Contexto de investigación. En este capítulo se proporciona el contexto en el que se ha desarrollado la investigación. Para ello, se hará una breve introducción a la minería de datos y al papel crucial que juega en el proceso conocido como Knowledge Discovery in Databases (KDD). A continuación, se presentarán las técnicas basadas en reglas de asociación, objetivo fundamental de este trabajo. En concreto, se formalizará el problema y se describirán las principales medidas que se utilizan para evaluar la calidad de dichas reglas. Se hará especial hincapié en aquellas técnicas que se centren en el manejo de atributos cuantitativos. 2.1 Minería de datos. En esta sección será estudiada el área de la Minería de datos centrada en el concepto de Minería de Datos dentro del proceso completo de extracción de conocimiento a partir de bases de datos. Obviamente, es imposible tratar y abarcar toda el área en profundidad puesto que es demasiado extensa, por lo que se dará una visión general como introducción acerca de las distintas fases, técnicas, etc. y posteriormente nos centraremos en las partes que están relacionadas con el trabajo Qué es la minería de datos? En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos, debido básicamente al gran poder de procesamiento de las máquinas y a su bajo costo de almacenamiento. El aumento del volumen y variedad de información que se encuentra informatizada en bases de datos digitales ha crecido de manera espectacular en la última década, siendo gran parte de esta información histórica, es decir, en la mayoría de los casos transacciones o situaciones que se han producido. Esta información a parte tener función de memoria de la organización, es útil para predecir la información futura. Además las empresas suelen generar grandes cantidades de información sobre sus procesos productivos, desempeño operacional, mercados y clientes. Esto implica que la mayoría de los sistemas, produzcan una cantidad inmensa de datos, dentro delos cuales existe una gran cantidad de información oculta, de gran importancia estratégica, a la que no se puede acceder por las técnicas clásicas de recuperación de la información, ya que en muchas situaciones el método tradicional de convertir los datos en conocimiento consiste en un análisis e interpretación realizada de forma manual. Por tanto, se llegó a un punto en el que las dimensiones de las bases de datos grandes y sus velocidades de crecimiento, hacían muy difícil para un humano el análisis y la extracción de alguna información importante, desbordando la capacidad de los mismos, y como consecuencia surgen diferentes técnicas de manejo automático de la información: OLPT (On- Line Transactional Processing),OLAP (On-Line Analytical Processing)y herramientas estadísticas. En principio, se pensó que estas técnicas serían la solución ante el crecimiento dela información, sin embargo, presentan una serie de limitaciones e inconvenientes, ya que con SQL por ejemplo, sólo podemos realizar un primer análisis aproximadamente del 80%de la 17

18 información, quedando un 20% restante donde la mayoría de las veces se contiene la información más importante. Este 20% restante requiere utilizar técnicas más avanzadas. Esta serie de problemas y limitaciones de las aproximaciones clásicas, son la causa de la necesidad de una nueva generación de herramientas y técnicas para soportar la extracción de conocimiento útil desde la información disponible, y que se engloban bajo la denominación de minería de datos. Surgen una serie de herramientas y técnicas capaces de identificar tendencias y comportamientos, no sólo para extraer información, sino también para descubrir las relaciones en bases de datos que pueden identificar comportamientos que no son muy evidentes, combinando las técnicas tradicionales con numerosos recursos desarrollados en el área de la inteligencia artificial, para encontrar patrones y relaciones dentro de los datos permitiendo la creación de modelos, es decir, representaciones abstractas de la realidad. Pero en realidad el que se encarga de la preparación de los datos y la interpretación delos resultados obtenidos, los cuales dan un significado a estos patrones encontrados es lo que se conoce como Descubrimiento de Conocimiento a partir de Bases de Datos (KDD, del inglés Knowledge Discovery from Databases). Con la aparición de estas nuevas técnicas no se requiere que el usuario final sea un experto en aprendizaje automático y en estadística. Aunque desde un punto de vista académico el término minería de datos es una etapa dentro de un proceso mayor llamado extracción de conocimiento en bases de datos, KDD, estos términos se suelen usar indistintamente. El término KDD se define como un proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles a partir de los datos. Mientras que la Minería de Datos es la etapa de descubrimiento en el proceso de KDD. Es el paso consistente en el uso de algoritmos concretos que generan una enumeración de patrones a partir de los datos pre-procesados. El resultado de la exploración no debe ser afectada por mayores volúmenes de datos o por ruido en los datos, por lo que los algoritmos de descubrimiento de información deben ser altamente robustos. El objetivo fundamental del KDD es encontrar conocimiento: Útil: El conocimiento debe servir de algo, es decir, debe conducir a acciones de las cuales se pueda obtener algún tipo de beneficio para el usuario. Valido: Los patrones deben seguir siendo precisos para datos nuevos, no solo para aquellos que han sido usados en su obtención. El conocimiento debe verificarse en todos los datos que se tienen. Comprensible: Debe posibilitar la interpretación, revisión, validación y uso en la toma de decisiones. Una información incomprensible no proporciona conocimiento. Nuevo: Debe aportar algo desconocido para el sistema y preferiblemente para el usuario. La minería de datos puede aplicarse a cualquier tipo de información, siendo las técnicas de minería diferentes para cada una de ellas. La información se puede distinguir entre datos estructurados, por ejemplo, provenientes de bases de datos relacionales, otros tipos de datos 18

19 estructurados en bases de datos (espaciales, temporales, textuales y multimedia) y datos no estructurados provenientes de la Web o de otros tipos de repositorios de documentos. El conocimiento extraído por la minería de datos puede ser en forma de relaciones, patrones o reglas inferidos de los datos y previamente desconocidos, o bien en forma de una descripción más concisa, es decir, un resumen de los mismos. Estas relaciones o resúmenes constituyen el modelo de los datos analizados. Existen muchas formas diferentes de representar los modelos y cada una de ellas determina el tipo de técnica que puede usarse para inferirlos. Los modelos pueden ser de dos tipos: 1. Un modelo predictivo. Pretende estimar valores futuros o desconocidos de variables de interés, denominadas como variables objetivo o dependientes, usando otras variables o campos de la base de datos, referidas como variables independientes o predictivas. Un modelo predictivo sería aquel que permite estimar la demanda de un nuevo producto en función del gasto en publicidad. 2. Un modelo descriptivo. Sirve para explorar las propiedades de los datos examinados, no para predecir nuevos datos. En el caso de una agencia de viajes, se desea identificar grupos de personas con unos mismos gustos, con el objeto de organizar diferentes ofertas para cada grupo y poder así remitirles esta información; para ello analiza los viajes que han realizado sus clientes e infiere un modelo descriptivo que caracteriza estos grupos Relación con otras disciplinas KDD nace como interfaz y se nutre de diferentes disciplinas. Es un aspecto muy interesante de esta metodología, ya que involucra distintas áreas de investigación como la estadística, los sistemas de información y bases de datos, el aprendizaje automático, la inteligencia artificial, el reconocimiento de patrones, la visualización de datos, la computación paralela y distribuida, los sistemas de toma de decisiones, la recuperación de información, etc. Para extraer el conocimiento durante estos procesos se utilizan técnicas tales como redes neuronales, lógica difusa, algoritmos genéticos, razonamiento probabilístico, árboles de decisión, etc Etapas del proceso KDD. El proceso de KDD consiste en usar métodos de minería de datos (algoritmos)para extraer (identificar) lo que se considera como conocimiento de acuerdo a la especificación de ciertos parámetros usando una base de datos junto con pre-procesamientos y post-procesamientos. El proceso de KDD es un proceso iterativo e interactivo: Iterativo ya que la salida de alguna de las fases puede hacer volver a pasos anteriores y porque a menudo son necesarias varias iteraciones para extraer conocimiento de alta calidad. Interactivo porque el usuario, o más generalmente un experto en el dominio del problema, debe ayudar en la preparación de los datos, validación del conocimiento extraído, etc. 19

20 Los pasos que se deben seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada. En la siguiente imagen pueden verse las etapas básicas de la minería de datos. Figura 1. Etapas del proceso KDD. 1. Determinar las fuentes de información que pueden ser útiles y dónde conseguirlas. 2. Diseñar el esquema de un almacén de datos (Data Warehouse) que consiga unificar de manera operativa toda la información recogida. 3. Implantación del almacén de datos que permita la navegación y visualización previa de sus datos, para discernir qué aspectos pueden ser interesantes para su estudio. 4. Selección, limpieza y transformación de los datos que se van a analizar. La selección incluye tanto una criba o fusión horizontal (filas) como vertical (atributos). 5. Seleccionar y aplicar el método de minería de datos apropiado. 6. Interpretación, transformación y representación de los patrones extraídos. 7. Difusión y uso del nuevo conocimiento Integración y recopilación de datos. La familiarización con el dominio del problema y la obtención de conocimiento apriori disminuye el espacio de soluciones posibles y por tanto la eficiencia es mayor en el resto del proceso. Las primeras fases del KDD determinan que las fases sucesivas sean capaces de extraer conocimiento válido y útil a partir de la información original. Generalmente, la información que se quiere investigar sobre un cierto dominio dela organización se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas y muchas de estas fuentes son las que se utilizan para el trabajo transaccional. 20

21 Aparte de información interna de la organización, los almacenes de datos pueden recoger información externa, como por ejemplo, demografías (censo), páginas amarillas, psicografías, gráficos Web, información de otras organizaciones; datos compartidos en una industria o área de negocio, organizaciones y colegios profesionales, catálogos, etc.; datos resumidos de áreas geográficas, distribución de la competencia, evolución de la economía, información de calendarios y climatológicas, programaciones televisivas-deportivas, catástrofes; bases de datos externas compradas a otras compañías. El análisis posterior será mucho más sencillo si la fuente es unificada, accesible(interna) y desconectada del trabajo transaccional. El data warehouse es conveniente para KDD aunque no imprescindible, ya que a veces se trabaja directamente con la base de datos o con las bases de datos en formatos heterogéneos. Hay que considerar una serie de cuestiones al realizar la integración de datos desde distintas fuentes. Por ejemplo para la integración del esquema se deben utilizar los metadatos que normalmente se almacenan en las bases de datos y en los data warehouse, para asegurar que entidades equivalentes se emparejan correctamente cuando se produce la fusión desde distintas fuentes. Otro aspecto importante es la redundancia, que se produce cuando un atributo se puede obtener a partir de otros atributos. Una forma de detectarla, es mediante análisis de correlaciones, cuyo objetivo es medir la fuerza con la que un atributo implica a otro en función de los datos disponibles. También es importante la detección y resolución de conflictos en los valores de los datos, ya que un atributo puede diferir según la fuente de procedencia, debido a diferencias en la representación, escala o forma de codificar. Cuidar el proceso de integración a partir de múltiples fuentes reducirá y evitará redundancias e inconsistencias en los datos resultantes, mejorando la exactitud y velocidad del proceso de Minería de Datos Preprocesamiento [1]. La calidad del conocimiento descubierto no depende sólo del algoritmo de minería de datos sino de la calidad de los datos minados. Es decir, aunque el algoritmo de minería de datos sea muy bueno, si los datos no son adecuados, el conocimiento extraído no será válido. Este paso es necesario ya que algunos datos coleccionados en la etapa anterior son irrelevantes o innecesarios para la tarea de minería que se desea realizar. Por tanto el objetivo general de esta fase será seleccionar el conjunto de datos adecuado para el resto del proceso de KDD. Las tareas de esta etapa se agrupan en: 1) Limpieza de datos (data cleaning). Las bases de datos reales en la actualidad suelen contener datos ruidosos, perdidos. Se deben eliminar el mayor número posible de datos erróneos o inconsistentes (limpieza) e irrelevantes (criba). Algunos de los algoritmos de Minería de Datos tienen métodos propios para tratar con datos incompletos o ruidosos. Pero en general estos métodos no son muy robustos, lo normal es realizar previamente la limpieza de los datos. Los objetivos de esta subetapa son rellenar valores perdidos, suavizar el ruido de los datos, identificar o eliminar outliers (datos anómalos) y resolver inconsistencias. 21

22 2) Transformación de los datos. El objetivo de la transformación de datos es poner los datos de la mejor forma posible para la aplicación de los algoritmos de Minería de Datos. Algunas de las operaciones típicas que se suelen realizar: a) Agregación, generalización de los datos: Se trata de obtener datos de más alto nivel a partir de los actuales, utilizando jerarquías de conceptos. b) Normalización: El objetivo de esta operación es pasar los valores de un atributo a un rango mejor. Es bastante útil para técnicas como AANN o métodos basados en distancias. Entre las técnicas de normalización cabe destacar la normalización minmáx., que realiza una transformación lineal, la normalización zero-mean, que normaliza en función de la media y la desviación estándar, y la normalización por escala decimal que consiste en normalizar moviendo el punto decimal de los valores del atributo. c) Construcción de atributos: Consiste en construir nuevos atributos aplicando alguna operación a los atributos originales tales como agrupación, separación, etc. Puede ser interesante cuando los atributos no tienen mucho poder predictivo por sí solos o cuando los patrones dependen de variaciones lineales de las variables globales. Se utiliza para mejorar la exactitud y la comprensibilidad de la estructura al trabajar con datos con muchas dimensiones. d) Discretización: Se basa en pasar atributos continuos (o discretos con muchos valores) a casos discretos manejables o a categóricos. Esta técnica es imprescindible para muchos algoritmos de Minería de Datos, puesto que muchos no pueden trabajar con valores continuos. Hay que tener especial cuidado ya que una mala discretización puede invalidar los datos. 3) Reducción de la dimensionalidad: En esta etapa el objetivo principal es obtener una representación reducida del conjunto de datos, de volumen mucho menor, pero sin perder en gran medida la integridad de los datos originales. La minería sobre el conjunto reducido resultante debe ser mucho más eficiente pero obteniendo conclusiones iguales o al menos aproximadas. La reducción de la dimensionalidad se puede llevar a cabo mediante un tipo basado en selección de instancias o selección de características. a) La selección de instancias consiste en obtener una representación más pequeña del conjunto de datos. Dentro de este tipo se pueden distinguir dos tipos de técnicas: i) Técnicas paramétricas: Consisten en estimar un modelo a partir de los datos, de forma que se almacenan sólo los parámetros y no los datos reales. Se pueden distinguir dos tipos de modelos, los cuales son la regresión lineal múltiple y los modelos log-lineales que aproximan distribuciones de probabilidad multidimensionales. ii) Técnicas no paramétricas: Sirven para reducir la cantidad de datos mediante el uso de algoritmos basados en clustering y muestreo. El clustering consiste en crear grupos de ejemplos similares seleccionando un representante de cada grupo el cual pasará a formar parte del nuevo conjunto de ejemplos. El objetivo del muestreo es seleccionar un conjunto del total de casos presentes en la base de datos original, pudiendo realizarse mediante varios métodos, como por ejemplo de forma estratificada, por grupos, etc. 22

23 b) La selección de características o variables consiste en encontrar un subconjunto de las variables del problema que optimice la probabilidad de clasificar correctamente. Es necesaria, ya que el hecho de tener más atributos no significa que se tenga más éxito en la clasificación, además el trabajar con menos variables reduce la complejidad del problema, disminuye el tiempo de ejecución y aumenta la capacidad de generalización. c) Un algoritmo de selección de características se compone de dos componentes principales como son la estrategia de búsqueda, para seleccionar subconjuntos candidatos y la función objetivo que evalúe la calidad de los mismos. Existen un gran número de algoritmos para llevar a cabo la selección de características basados en búsqueda, árboles de decisión, etc. d) Otras técnicas que se utilizan para reducir la dimensionalidad del conjunto de datos son la discretización, la compresión de datos, etc Minería de datos La fase de minería de datos es la más característica del KDD, y por esta razón, muchas veces se utiliza esta fase para nombrar todo el proceso. El objetivo de esta etapa es producir nuevo conocimiento que pueda utilizar el usuario, construyendo un modelo, basado en los datos recopilados, que sea una descripción de los patrones y relaciones entre los datos con los que se puedan hacer predicciones, entender mejor los datos o explicar situaciones pasadas. Se deben tomar una serie de decisiones antes de empezar el proceso. En primer lugar se tiene que determinar que tipo de conocimiento buscamos, ya que puede ser predictivo o descriptivo. Según el tipo, en segundo lugar hay que seleccionar la técnica más idónea para dicho tipo de conocimiento. Existen un gran número de técnicas entre las que se encuentran clasificación, regresión agrupamiento, asociaciones. También es necesario identificar de qué tipo de modelo se trata dentro de cada técnica. Por ejemplo, para clasificación, puede tratarse de un modelo basado en reglas, redes neuronales, árboles de decisión, etc. Por último hay que elegir el algoritmo de minería que resuelva la tarea y obtenga el tipo de modelo que se está buscando. Es en esta fase donde mejor vemos el carácter iterativo del proceso de KDD, ya que será necesario explorar modelos alternativos hasta encontrar aquel que resulte más útil para resolver nuestro problema. En la búsqueda del buen modelo, puede que tengamos que retroceder hasta fases anteriores y hacer cambios en los datos que estamos usando o incluso modificar la definición del problema. Además la elección de la tarea a realizar y del algoritmo a usar puede influir en la preparación de los datos Evaluación e interpretación La fase de Minería de Datos puede producir varias hipótesis de modelos por lo que es necesario establecer qué modelos son los más válidos. Medir la calidad de los patrones descubiertos por un algoritmo de Minería de Datos no es un problema trivial, ya que esta medida puede atañer a varios criterios, algunos de ellos bastante subjetivos. 23

24 Idealmente, los patrones descubiertos deben tener tres cualidades; deben ser precisos, comprensibles (es decir, inteligibles) e interesantes (útiles y novedosos). Según las aplicaciones puede interesar mejorar algún criterio y sacrificar ligeramente otro. Se utilizan técnicas de evaluación que consisten en dividir el conjunto de datos en dos conjuntos, de entrenamiento, que sirve para extraer el conocimiento y el de test, que prueba la validez del conocimiento extraído. Existen varias alternativas de estas técnicas, entre las cuales destacan: Validación simple donde se reserva un porcentaje de la base de datos como conjunto de prueba, y no se usa para construir el modelo. Validación cruzada que es recomendable cuando tenemos una cantidad no muy elevada de datos para construir el modelo y puede que no podamos permitirnos el poder reservar parte de los mismos para la etapa de evaluación. Los datos se dividen aleatoriamente en dos conjuntos equitativos con los que se estima la precisión predictiva del modelo. Bootstrapping Consiste en construir primero un modelo con todos los datos iniciales, posteriormente, se crean numerosos conjuntos de datos, llamados bootstrap samples, haciendo un muestreo de los datos originales con reemplazo, por lo que los conjuntos construidos pueden contener datos repetidos. A continuación se construye un modelo con cada conjunto y se calcula su ratio de error sobre el conjunto de test. El error final se calcula promediando los errores obtenidos para cada muestra. Dependiendo de la tarea de minería de datos, existen diferentes medidas de evaluación de los modelos. Por ejemplo en clasificación, lo habitual es evaluar la calidad de los patrones encontrados con respecto a su precisión predictiva, que se calcula como el número de instancias del conjunto de prueba clasificadas correctamente, dividido por el número de instancias totales en el conjunto de prueba. En el caso de reglas de asociación, se suele evaluar de forma separada cada una de las reglas con objeto de restringirnos a aquellas que pueden aplicarse a un número mayor de instancias y que tienen una precisión relativamente alta sobre estas instancias. Se hace en base a dos conceptos, los cuales son soporte y confianza. La interpretación puede beneficiarse de procesos de visualización, y sirve también para borrar patrones redundantes o irrelevantes Difusión y uso del nuevo conocimiento Una vez construido y validado el modelo puede usarse principalmente con dos finalidades: para que un analista recomiende acciones basándose en el modelo y en sus resultados, o bien para aplicar el modelo a diferentes conjuntos de datos, de forma manual o automática. Tanto en el caso de una aplicación manual o automática del modelo, es necesario su difusión, es decir, que se distribuya y se comunique a los posibles usuarios, la utilización del nuevo conocimiento de forma independiente, y la incorporación a sistemas ya existentes, aunque hay que tener especial atención para evitar inconsistencias y posibles conflictos. También es importante medir la calidad de evolución del modelo, por lo que se debe tener un cierto mantenimiento para comprobar las prestaciones del mismo. 24

25 2.1.4 Tareas de la minería de datos. Dentro de la minería de datos se han de distinguir tipos de tareas, cada una delas cuales puede considerarse como un tipo de problema a ser resuelto por un algoritmo de minería de datos. Esto significa que cada tarea tiene sus propios requisitos, y que el tipo de información obtenida con una tarea puede diferir mucho de la obtenida con otra. Como se ha visto anteriormente, las distintas tareas pueden ser predictivas o descriptivas, dichas tareas se describen en las siguientes subsecciones Clasificación. Es probablemente la tarea más utilizada. En ella, cada instancia (o registro de la base de datos) pertenece a una clase, la cual se indica mediante el valor de un atributo que llamamos clase de la instancia. Este atributo puede tomar diferentes valores discretos, cada uno de los cuales corresponde a una clase. El resto de los atributos de la instancia (los relevantes a la clase) se utilizan para predecir la clase. El objetivo es predecir la clase de nuevas instancias de las que se desconoce la clase. Más concretamente, el objetivo del algoritmo es maximizar la razón de precisión de la clasificación de las nuevas instancias, la cual se calcula como el cociente entre las predicciones correctas y el número total de predicciones (correctas e incorrectas). Se trata de una tarea de aprendizaje supervisado, ya que es necesario conocer las clases a las que pertenecen los ejemplos utilizados para obtener y evaluar el modelo Regresión. Se utiliza para designar de forma general el problema de predecir una variable de tipo continuo. Se trata de aproximar el valor numérico de dicha variable conociendo el resto de atributos. Implica el aprendizaje de una función para establecer la correspondencia entre los datos y el valor a predecir. En algunos casos, se fija el tipo de función y se determina la función del tipo que mejor se adapta a los datos. El objetivo en este caso es minimizar el error entre el valor predicho y el valor real. Al igual que la clasificación, se trata de una tarea de aprendizaje supervisado. Un caso particular de regresión es el análisis de series temporales. El objetivo de esta tarea, consiste en observarla variación del valor de un atributo en el tiempo. Normalmente los valores que se analizan, están distribuidos en el tiempo. Se suelen visualizar, lo cual permite utilizar medidas de distancia para determinar la similitud entre diferentes series temporales, y para determinar y predecir comportamiento. Se diferencian de la regresión en que los datos tienen una relación temporal Agrupamiento o clustering. Es la tarea descriptiva por excelencia y consiste en obtener grupos naturales a partir de los datos. Se diferencia de la clasificación en que en este caso los grupos no están definidos. En lugar de analizar datos etiquetados con una clase, los analiza para generar esa etiqueta. Se trata de aprendizaje no supervisado si no se conoce el número de clúster, y supervisado en otro caso. Los datos son agrupados basándose en el principio de maximizar la similitud entre los elementos de un grupo minimizando la similitud 25

26 Reglas de asociación. Son también una tarea descriptiva, cuyo objetivo es identificar relaciones no explícitas entre atributos categóricos. Regla de asociación se define como un modelo que identifica tipos de asociaciones específicas en los datos. Las reglas de asociación no implican una relación causaefecto, es decir, puede no existir una causa para que los datos estén asociados. Una asociación entre dos atributos ocurre cuando la frecuencia de que seden dos valores determinados de cada uno conjuntamente es relativamente alta. Es muy común en los análisis de cestas de mercados. Un caso especial, son las reglas de asociación secuenciales, las cuales se usan para determinar patrones secuenciales en los datos. Se basan en secuencias temporales de acciones y difieren de las reglas de asociación en que las relaciones entre los datos son temporales Correlaciones. Se usan para examinar el grado de similitud de los valores de dos variables numéricas. El análisis de correlaciones, sobre todo las negativas, puede ser muy útil para establecer reglas de ítems correlacionados Categorización. Se trata de aprender una correspondencia entre los ejemplos y un conjunto de categorías. Se diferencia de la clasificación en que en la categorización, un mismo ejemplo puede tener asociadas varias etiquetas Priorización o aprendizaje de preferencias. Consiste en determinar un orden de preferencia a partir de dos o más ejemplos. Cada ejemplo es una secuencia de valores donde el orden de la secuencia representa la preferencia Aplicaciones. La integración de las técnicas de Minería de Datos en las actividades del día adía se está convirtiendo en algo habitual. Tradicionalmente los negocios de la distribución y la publicidad dirigida han sido las áreas que más han empleado técnicas de minería de datos para reducir costes o aumentar la receptividad de ofertas. Podemos encontrar ejemplos en todo tipo de aplicaciones: financieras, seguros, científicas (medicina, farmacia, astronomía, psicología, etc.), políticas económicas, sanitarias o demográficas, educación, policiales, procesos industriales, etc. A continuación se incluye una lista de ejemplos en algunas de las áreas mencionadas para ilustrar en qué ámbitos se puede usar la minería de datos. Aplicaciones financieras y banca: Detectar patrones de uso fraudulento de tarjetas de crédito, identificar clientes leales, identificar reglas de mercado de valores a partir de históricos, etc. Análisis de mercado, distribución y comercio: Identificar patrones de compra de los clientes, buscar asociaciones entre clientes y características demográficas, etc. Seguros y salud privada: Análisis de procedimientos médicos solicitados conjuntamente, predecir qué clientes compran nuevas pólizas, etc. Medicina: Identificación de terapias médicas satisfactorias para diferentes enfermedades, asociación de síntomas y clasificación diferencial de patologías, etc. 26

27 Minería de texto: Análisis de log de servidores para análisis del patrón de recorrido y consumo del cibernauta, contenido de los documentos, etc. Transportes: Determinar la planificación de la distribución entre tiendas, analizar patrones de carga. Otras áreas: Toma de decisiones, investigación científica, mejora de calidad de datos, etc. 2.2 Reglas de asociación Introducción. En el campo de la minería de datos y aprendizaje automático, las reglas de asociación se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos. Se han investigado ampliamente diversos métodos para aprendizaje de reglas de asociación que han resultado ser muy interesantes para descubrir relaciones entre variables en grandes conjuntos de datos. Dentro del aprendizaje automático se encuadran en el aprendizaje no supervisado. A diferencia de la clasificación, las reglas de asociación son descriptivas. Las tareas de minería descriptivas caracterizan las propiedades generales de los datos [3]. La extracción de reglas de asociación encuentra asociaciones interesantes y/o relaciones de correlación entre elementos de grandes conjuntos de datos. Las reglas de asociación muestran condiciones de valores en los atributos que ocurren juntos con frecuencia en los conjuntos de datos dados. Los primeros estudios sobre las reglas de asociación se centraron en datos con atributos binarios, principalmente aplicados a datos en forma transaccional. Un ejemplo típico y ampliamente utilizado en la extracción de reglas de asociación es el análisis de la cesta de la compra [4] sobre el cual se han desarrollado una variedad de métodos para tratarlo. Los datos se recolectan a través de escáneres de códigos de barras en los supermercados obteniendo bases de datos con un gran número de registros de transacciones. Cada registro contiene todos los artículos comprados por un cliente en una transacción de compra única. A partir de estos datos sería interesante saber si ciertos grupos de artículos se compran juntos constantemente, ya que se podrían utilizar para ajustar el diseño de la tienda (colocación de elementos de forma óptima con respecto otras), venta cruzada, promociones, para el diseño de catálogos e identificar segmentos de clientes basados en los patrones de compra. Un caso muy famoso sobre reglas de asociación es el de la cerveza y los pañales, basado en el comportamiento de los compradores en el supermercado. Se descubrió que muchos hombres acaban comprando pañales por encargo de sus esposas. En la cadena de supermercados Wal- Mart, donde se descubrió este hecho, se adoptó la medida de colocar la cerveza junto a los pañales. De esta manera consiguió aumentar la venta de cerveza. Las reglas de asociación proporcionan información de este tipo de la forma si entonces. Estas reglas se calculan a partir de los datos y, a diferencia de las reglas si entonces de la lógica, las reglas de asociación son de naturaleza probabilística. Algunos términos básicos en la terminología de las reglas de asociación son: Ítem, que corresponde a pares atributo-valor. 27

28 Instancia, que corresponde aun conjunto de ítems, corresponde a un ejemplo o registro de la base de datos. El objetivo del proceso de extracción de las reglas de asociación (AR) consiste precisamente en descubrir la presencia de pares de conjunciones (atributo (A) valor (v))que aparecen en un conjunto de datos con cierta frecuencia para formular las reglas que describen las relaciones existentes entre los atributos. Las reglas de asociación (AR) fueron definidas por primera vez por Agrawal et al. [4] como sigue: Sea I = {i 1, i 2,,i n } un conjunto de ítems y D = {t 1, t 2,,t n } un conjunto de N transacciones, donde cada t j contiene un subconjunto de ítems. Esto es, una regla puede ser definida como X Y, donde X, Y I y X Y =. Finalmente, X y Y se llaman antecedente (o parte izquierda de la regla) y consecuente (o parte derecha de la regla), respectivamente. En [5] el problema de descubrir las reglas de asociación se divide en dos subtareas: Encontrar todos los conjuntos que superan el valor mínimo de soporte. Dichos conjuntos se denominan conjuntos frecuentes. Partiendo de los conjuntos frecuentes encontrados, generar las reglas que superan el valor mínimo de confianza. La generación de los conjuntos frecuentes es la tarea más importante y la que requiere más tiempo de computación, de ahí que sea la más estudiada entre la comunidad científica. A diferencia de la estrategia que siguen la mayoría de los investigadores en sus herramientas de extracción de reglas de asociación, el algoritmo propuesto que presentamos en este trabajo, desde el principio del proceso se obtienen reglas de asociación sin tener que realizar el proceso de construcción de los conjuntos frecuentes. Los dos estadísticos utilizados inicialmente para describir las relaciones entre antecedente y consecuente son el soporte (o apoyo, denotado Sop) y la confianza (Conf), los cuales son valores numéricos comprendidos en el intervalo [0,1]. Se define Sop(X) como la proporción de transacciones que contienen el conjunto X. Por tanto, el soporte de una regla de asociación es la proporción de transacciones que contienen tanto el antecedente como el consecuente. La confianza de una regla de asociación es la proporción de transacciones que contienen el antecedente, y que también contienen al consecuente. A continuación se muestra el cálculo del soporte con una pequeña base de datos de ejemplo que contiene 10 transacciones. Se puede observar aquí que, si se quiere obtener manzanas, de 10 transacciones disponibles 4 contienen manzanas, por lo que sop(manzanas)=4/10 = 0.4, igualmente para el sop(zanahoria) hay 3 transacciones que la contienen, así sop(zanahoria)=3/10=0.3 sop(dulcería)= 0.6 sop(manzana dulcería)=0.3 sop(manzana tomates)=0.3 28

29 Tabla 1. Base de datos de ejemplo. {ciruelas, lechugas, tomates} {apio, dulcería} {manzanas, zanahorias, tomates, papas, dulcería} {manzanas, naranjas, lechugas, tomates, dulcería} {duraznos, naranjas, apio, papas} {frijoles, lechuga, tomates} {naranjas, lechuga, zanahorias, tomates, dulcería} {manzanas, plátanos, ciruelas, zanahorias, tomates, cebollas, dulcería} {manzanas, papas} Si el soporte es suficientemente alto y la base de datos es grande, entonces la confianza es un estimado de la probabilidad de cualquier transacción futura que contenga el antecedente, también contendrá la conclusión. De la base de datos de ejemplo, vemos que: conf(manzanas )dulcería= sop(manzana dulcería)/ sop(manzanas)= 0.3/0.4 = 0.75, conf(manzanas )tomates= 0.75, conf(zanahorias )dulcería = 1. El algoritmo de asociación tratará de descubrir todas las reglas que excedan las cotas mínimas especificadas para el soporte y la confianza. La búsqueda exhaustiva de reglas de asociación consideraría simplemente todas las combinaciones posibles de elementos, poniéndolas como antecedentes y consecuentes, entonces se evaluaría el soporte y la confianza de cada regla, y se descartarían todas las asociaciones que no satisfacen las restricciones. Sin embargo el número de combinaciones crece rápidamente con el número de elementos, por lo que si hay 1000 elementos, se tendrán combinaciones (aproximadamente ). Para cada antecedente existe la posibilidad de formar una regla poniendo como consecuente cualquier conjunto de elementos que no contenga algún elemento que ya se encuentra en el antecedente. Así, este procedimiento para la búsqueda de reglas de asociación es muy costoso computacionalmente, por lo que se necesita otro procedimiento más eficiente Medidas de calidad de las reglas de asociación. Se han utilizado una serie de medidas de interés para evaluar las reglas de asociación [6][7]. Todas las que vamos a describir están basadas en la probabilidad que miden la generalidad y fiabilidad de la regla. Soporte(A)[6]: El soporte de un conjunto A se define como el porcentaje de instancias de la base de datos que contienen A. En general, el soporte de A se conoce como la probabilidad de A. 29

30 Soporte(A C)[6]: El soporte de la regla es el porcentaje de instancias de la base de datos que contienen A C. Se conoce como la probabilidad de A y C a la vez. Confianza(A C)[6]: Es la probabilidad condicional de C dado A. Se refiere al número de registros de la base de datos que cubre la regla entre el número de registros que cubre el antecedente de la misma. Lift (A C)[8]:Se refiere a cuántas veces el antecedente y el consecuente aparecen juntos más a menudo de lo esperado en el conjunto de datos suponiendo independencia estadística entre antecedente y consecuente. Mide el grado de dependencia entre el entre el antecedente y el consecuente. Un valor superior a 1 indica dependencia positiva, mientras que un valor inferior a 1 indica dependencia negativa. Conviction(A C)[9]: Es una medida que tiene en cuenta tanto el soporte del antecedente como el soporte del consecuente de la regla. Valores en el intervalo (0,1)significa dependencia negativa, valores superiores a 1 significa dependencia positiva, y un valor igual a 1 significa independencia. Gain(A C)[9]: Se calcula a partir de la diferencia entre la confianza de la regla y el soporte del consecuente Reglas de asociación cuantitativas Normalmente, las reglas de asociación se han extraído sobre bases de datos nominales o bien datos discretos como el ejemplo expuesto anteriormente, sin embargo, cuando el dominio es continuo, las reglas de asociación se conocen como reglas de asociación cuantitativas (QAR, Quantitative Association Rules). En este contexto, sea F = {F 1,,F n } un conjunto de características, con valores en R. Sea A y C dos subconjuntos disjuntos de F, esto es, A F, C F, y A C =. Una QAR es una regla X Y, en la que las características en A pertenecen al antecedente X, y las características en C pertenecen al consecuente Y, tales que: [ ] 30

31 donde l i y l j representan el límite inferior de los intervalos para F i y F j respectivamente y la pareja u i y u j el límite superior. Por ejemplo, una QAR podría ser numéricamente expresada como: F1 [12, 25] F3 [5, 9] F2 [3, 7] F5 [2,8] donde F1 y F3 constituyen las características que aparecen en el antecedente y F2 y F5 lasque aparecen en el consecuente. Sin embargo, la mayoría de las aplicaciones a datos que contienen atributos numéricos suelen ser abordados por una previa discretización de estos atributos numéricos. Como se comentó al inicio de esta memoria, la propuesta desarrollada, a diferencia de estos métodos, tratará los atributos continuos sin necesidad de discretizar los datos previamente. Tabla 2. Datos de ejemplo. Transacción F1 F2 F3 t t t t t t t t t t Si estamos trabajando con Reglas de Asociación Cuantitativas (QAR) consideremos una regla ejemplo: F1 [180; 189] F2 [85; 95] F3 [33; 36] Para este caso, el soporte del antecedente es del 20 %, ya que2 transacciones, t2 y t9, simultáneamente satisface que F1 y F2 pertenece a los intervalos[180,189] y [85,95], respectivamente (2 transacciones de 19, sop(a) = 0.2). En cuanto al soporte del consecuente, sop(c) = 0.2 porque sólo las transacciones t6 y t9 satisfacen quef3 [33, 36]. En cuanto a la confianza, sólo una transacción t9 satisface los tres atributos (F1 y F2 en el antecedente, y F3 en el consecuente) que aparecen en la regla. En otras palabras, sop(a C) = 0.1. Consecuentemente, conf(a C) = 0.1/0.2 = 0.5, esto es, la regla tiene una confianza del 50%. Finalmente, el lift (o interés) es lift(a C) = 0.1/(0.2*0.2) = 2.5,ya que sop(a C = 0.1, sop(a) = 0.2 y sop(c) = 0.2, como se discutió antes. 31

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

Minería de Datos. Universidad Politécnica de Victoria

Minería de Datos. Universidad Politécnica de Victoria Minería de Datos Universidad Politécnica de Victoria 1 Motivación Nuevas Necesidades del Análisis de Grandes Volúmenes de Datos El aumento del volumen y variedad de información que se encuentra informatizada

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) Autor: Lic. Manuel Ernesto Acosta Aguilera Entidad: Facultad de Economía, Universidad de La Habana Dirección: Edificio

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 14-I. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 24

Más detalles

APOYO PARA LA TOMA DE DECISIONES

APOYO PARA LA TOMA DE DECISIONES APOYO PARA LA TOMA DE DECISIONES Cátedra: Gestión de Datos Profesor: Santiago Pérez Año: 2006 Bibliografía: Introducción a las Bases de Datos. DATE - 1 - 1. INTRODUCCION APOYO PARA LA TOMA DE DECISIONES

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA M.ª del Pilar Cantero Blanco Jefa de Servicio de Sistemas Informáticos. Subdirección General de Planificación

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Botón menú Objetivo de la Minería de datos.

Botón menú Objetivo de la Minería de datos. Titulo de Tutorial: Minería de Datos N2 Botón menú: Introducción. Las instituciones y empresas privadas coleccionan bastante información (ventas, clientes, cobros, pacientes, tratamientos, estudiantes,

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

Informática II Ing. Industrial. Data Warehouse. Data Mining

Informática II Ing. Industrial. Data Warehouse. Data Mining Data Warehouse Data Mining Definición de un Data Warehouses (DW) Fueron creados para dar apoyo a los niveles medios y altos de una empresa en la toma de decisiones a nivel estratégico en un corto o mediano

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Francisco J. Martín Mateos Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Qué es la (KE)? Definición de Wikipedia: La es una disciplina cuyo objetivo es integrar conocimiento

Más detalles

ETL: Extractor de datos georreferenciados

ETL: Extractor de datos georreferenciados ETL: Extractor de datos georreferenciados Dr. Juan Pablo Díaz Ezcurdia Doctor Honoris Causa Suma Cum Laude Master en Telecomunicaciones Master en Gestión Educativa Coordinador de la comisión de CSIRT de

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

Evaluación de modelos para la predicción de la Bolsa

Evaluación de modelos para la predicción de la Bolsa Evaluación de modelos para la predicción de la Bolsa Humberto Hernandez Ansorena Departamento de Ingeniería Telemática Universidad Carlos III de Madrid Madrid, España 10003975@alumnos.uc3m.es Rico Hario

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Capítulo 1. Introducción

Capítulo 1. Introducción Capítulo 1. Introducción El WWW es la mayor fuente de imágenes que día a día se va incrementando. Según una encuesta realizada por el Centro de Bibliotecas de Cómputo en Línea (OCLC) en Enero de 2005,

Más detalles

NORMA INTERNACIONAL DE AUDITORÍA 530 MUESTREO DE AUDITORÍA

NORMA INTERNACIONAL DE AUDITORÍA 530 MUESTREO DE AUDITORÍA NORMA INTERNACIONAL DE AUDITORÍA 530 MUESTREO DE AUDITORÍA (NIA-ES 530) (adaptada para su aplicación en España mediante Resolución del Instituto de Contabilidad y Auditoría de Cuentas, de 15 de octubre

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP Universidad Politécnica de Puebla UPP JESÚS ANTONIO GONZÁLEZ BERNAL 1 2 Evolución de la Tecnología BD 1960 s y antes Creación de las BD en archivos primitivos 1970 s hasta principios de los 1980 s BD Jerárquicas

Más detalles

Estimación de parámetros, validación de modelos y análisis de sensibilidad

Estimación de parámetros, validación de modelos y análisis de sensibilidad Tema 6 Estimación de parámetros, validación de modelos y análisis de sensibilidad 6.1 Calibración Una vez que se ha identificado el modelo y se ha programado, necesitamos aplicarlo al problema concreto

Más detalles

STATMEDIA: UN CURSO MULTIMEDIA DE ESTADÍSTICA

STATMEDIA: UN CURSO MULTIMEDIA DE ESTADÍSTICA 27 Congreso Nacional de Estadística e Investigación Operativa Lleida, 8-11 de abril de 2003 STATMEDIA: UN CURSO MULTIMEDIA DE ESTADÍSTICA M. Calvo, A.Villarroya, A.Miñarro, S.Vives, A.Arcas Departamento

Más detalles

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático? Ingeniería del conocimiento Sesión 1 Por qué estudiar aprendizaje automático? 1 Agenda Qué vamos a ver en la asignatura? Para qué sirve todo esto? Cómo aprobar la asignatura? 2 Extracción del conocimiento

Más detalles

Este documento describe el proceso completo a seguir para analizar la existencia de una relación lógica entre dos variables. www.fundibeq.

Este documento describe el proceso completo a seguir para analizar la existencia de una relación lógica entre dos variables. www.fundibeq. DIAGRAMA DE DISPERSIÓN 1.- INTRODUCCIÓN Este documento describe el proceso completo a seguir para analizar la existencia de una relación lógica entre dos variables. Describe la construcción de los Diagramas

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

El diseño de la base de datos de un Data Warehouse. Marta Millan millan@eisc.univalle.edu.co www.eisc.univalle.edu.co/materias

El diseño de la base de datos de un Data Warehouse. Marta Millan millan@eisc.univalle.edu.co www.eisc.univalle.edu.co/materias El diseño de la base de datos de un Data Warehouse Marta Millan millan@eisc.univalle.edu.co www.eisc.univalle.edu.co/materias El modelo Multidimensional Principios básicos Marta Millan millan@eisc.univalle.edu.co

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 12-O. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 21

Más detalles

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería

Más detalles

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo 1 Algoritmos de minería de datos incluidos en SQL Server 2008 Los algoritmos que aquí se presentan son: Árboles de decisión de Microsoft, Bayes naive de Microsoft, Clústeres de Microsoft, Serie temporal

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software J. Cuadrado Gallego 1, Miguel Ángel Sicilia 1, Miguel Garre Rubio 1 1 Dpto de Ciencias de la Computación,

Más detalles

Estudio comparativo de los currículos de probabilidad y estadística español y americano

Estudio comparativo de los currículos de probabilidad y estadística español y americano Estudio comparativo de los currículos de probabilidad y estadística español y americano Jaldo Ruiz, Pilar Universidad de Granada Resumen Adquiere las mismas capacidades en Probabilidad y Estadística un

Más detalles

Análisis del Sistema de Información

Análisis del Sistema de Información Análisis del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 2 ACTIVIDAD ASI 1: DEFINICIÓN DEL SISTEMA... 6 Tarea ASI 1.1: Determinación del Alcance del Sistema... 6 Tarea ASI 1.2: Identificación

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

Gestión de Proyectos A Guide to the Project Management Body of Knowledge (Pmbok Guide) Profesor Guillermo E. Badillo Astudillo

Gestión de Proyectos A Guide to the Project Management Body of Knowledge (Pmbok Guide) Profesor Guillermo E. Badillo Astudillo Gestión de Proyectos A Guide to the Project Management Body of Knowledge (Pmbok Guide) Profesor Guillermo E. Badillo Astudillo Todas las slides siguientes están tomadas de la guía de los fundamentos para

Más detalles

Inicio de MO Inicio de MD Inicio de MF. Documento de Análisis. Base de datos de las especificaciones OMT. MO, MD, MF Detallados. Librería de Clases

Inicio de MO Inicio de MD Inicio de MF. Documento de Análisis. Base de datos de las especificaciones OMT. MO, MD, MF Detallados. Librería de Clases 3.2 TÉCNICA DE MODELADO DE OBJETOS (OMT) (JAMES RUMBAUGH). 3.2.1 Introducción. En este documento se trata tanto el OMT-1 como el OMT-2, el primero contenido en el Libro Modelado y Diseño Orientado (Metodología

Más detalles

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Álvaro J. Méndez Services Engagement Manager IBM SPSS / Profesor Econometría UAM Jecas, 22 Oct 2010 Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Business Analytics software Agenda Minería

Más detalles

1. PRESENTACIÓN GLOBAL LEAN.

1. PRESENTACIÓN GLOBAL LEAN. GLOBAL LEAN APPS 1. PRESENTACIÓN GLOBAL LEAN. GLOBALLEAN apuesta por mejorar la competitividad de las empresas. Y una herramienta clave para conseguir mejoras de competitividad que deriven en resultados

Más detalles

1. La administración para la toma de decisiones

1. La administración para la toma de decisiones Objetivo general de la asignatura: El alumno analizará los conceptos fundamentales de la dirección y la toma de decisiones que le permitirán ser líderes de equipos; así como aplicar las herramientas y

Más detalles

Introducción a la Prospección de Datos Masivos ( Data Mining )

Introducción a la Prospección de Datos Masivos ( Data Mining ) Objetivos Introducción a la Prospección de Datos Masivos ( Data Mining ) José Hernández Orallo jorallo@dsic.upv.es Transparencias y otra documentación en: http://www.dsic.upv.es/~jorallo/master/ Máster

Más detalles

CICLO DE VIDA DEL SOFTWARE

CICLO DE VIDA DEL SOFTWARE CICLO DE VIDA DEL SOFTWARE 1. Concepto de Ciclo de Vida 2. Procesos del Ciclo de Vida del Software 3. Modelo en cascada 4. Modelo incremental 5. Modelo en espiral 6. Prototipado 7. La reutilización en

Más detalles

Preguntas y respuestas (rebatibles) sobre metodologías de desarrollo de software

Preguntas y respuestas (rebatibles) sobre metodologías de desarrollo de software Preguntas y respuestas (rebatibles) sobre metodologías de desarrollo de software Introducción Este documento recopila las preguntas, opiniones y respuestas que se produjeron en un pequeño curso sobre las

Más detalles

Master de Ingeniería Biomédica Sistemas de ayuda al diagnóstico clínico

Master de Ingeniería Biomédica Sistemas de ayuda al diagnóstico clínico Master de Ingeniería Biomédica Sistemas de ayuda al diagnóstico clínico Emilio Soria Olivas! Antonio José Serrano López! Departamento de Ingeniería Electrónica! Escuela Técnica Superior de Ingeniería!

Más detalles

Tema 2. Ingeniería del Software I feliu.trias@urjc.es

Tema 2. Ingeniería del Software I feliu.trias@urjc.es Tema 2 Ciclo de vida del software Ingeniería del Software I feliu.trias@urjc.es Índice Qué es el ciclo de vida del Software? El Estándar 12207 Modelos de proceso Qué es el Ciclo de Vida del SW? Definición

Más detalles

Redes de Kohonen y la Determinación Genética de las Clases

Redes de Kohonen y la Determinación Genética de las Clases Redes de Kohonen y la Determinación Genética de las Clases Angel Kuri Instituto Tecnológico Autónomo de México Octubre de 2001 Redes Neuronales de Kohonen Las Redes de Kohonen, también llamadas Mapas Auto-Organizados

Más detalles

Socioestadística I Análisis estadístico en Sociología

Socioestadística I Análisis estadístico en Sociología Análisis estadístico en Sociología 1. INTRODUCCIÓN. Definición e historia. 1.1. Que es la Sociestadística?. La estadística es la ciencias de las regularidades que se observan en conjuntos de fenómenos

Más detalles

TEMA 1. Introducción

TEMA 1. Introducción TEMA 1. Introducción Francisco José Ribadas Pena, Santiago Fernández Lanza Modelos de Razonamiento y Aprendizaje 5 o Informática ribadas@uvigo.es, sflanza@uvigo.es 28 de enero de 2013 1.1 Aprendizaje automático

Más detalles

Listado de comprobación para informes de Evaluación de Tecnologías Sanitarias. Introducción

Listado de comprobación para informes de Evaluación de Tecnologías Sanitarias. Introducción Listado de comprobación para informes de Evaluación de Tecnologías Sanitarias Introducción Objetivo INAHTA ha diseñado este listado de comprobación con el propósito de facilitar la obtención de información

Más detalles

www.fundibeq.org En estos casos, la herramienta Gráficos de Control por Variables" no es aplicable.

www.fundibeq.org En estos casos, la herramienta Gráficos de Control por Variables no es aplicable. GRAFICOS DE CONTROL POR ATRIBUTOS 1.- INTRODUCCIÓN Este documento describe la secuencia de construcción y las pautas de utilización de una de las herramientas para el control de procesos, los Gráficos

Más detalles

TEMA 9: Desarrollo de la metodología de Taguchi

TEMA 9: Desarrollo de la metodología de Taguchi TEMA 9: Desarrollo de la metodología de Taguchi 1 La filosofía de la calidad de Taguchi 2 Control de calidad Off Line y On Line Calidad Off Line Calidad On Line 3 Función de pérdida 4 Razones señal-ruido

Más detalles

www.fundibeq.org Además se recomienda su uso como herramienta de trabajo dentro de las actividades habituales de planificación y control.

www.fundibeq.org Además se recomienda su uso como herramienta de trabajo dentro de las actividades habituales de planificación y control. ESTUDIOS DE CAPACIDAD POTENCIAL DE CALIDAD 1.- INTRODUCCIÓN Este documento proporciona las pautas para la realización e interpretación de una de las herramientas fundamentales para el control y la planificación

Más detalles

Introducción a la Minería de Datos (Data Mining)

Introducción a la Minería de Datos (Data Mining) a la Minería de Datos (Data Mining) IT-Nova Facultad de Ingeniería Informática y Telecomunicaciones Iván Amón Uribe, MSc Minería de Datos Diapositivas basadas parcialmente en material de Inteligencia Analítica

Más detalles

Ingeniería en Informática

Ingeniería en Informática Departamento de Informática Universidad Carlos III de Madrid Ingeniería en Informática Aprendizaje Automático Junio 2007 Normas generales del examen El tiempo para realizar el examen es de 3 horas No se

Más detalles

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA Pablo F. Provasi 1 Lucio J. Kleisinger 1 Francisco R. Villatoro 2 1 Dpto. de Informática, Universidad

Más detalles

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA Qué es inteligencia de negocios? (BI) Business Intelligence es la habilidad para transformar los datos en información, y la información en

Más detalles

PLANEACIÓN DE SISTEMAS INFORMÁTICOS ING. KARINA RAMÍREZ DURÁN

PLANEACIÓN DE SISTEMAS INFORMÁTICOS ING. KARINA RAMÍREZ DURÁN PLANEACIÓN DE SISTEMAS INFORMÁTICOS ING. KARINA RAMÍREZ DURÁN Principios y criterios para la evaluación del ciclo de vida de desarrollo de sistemas Se pueden enunciar algunos principios para desarrollar

Más detalles

República Bolivariana de Venezuela Ministerio Popular de Educación y Deportes UNEFA Cátedra: Base de Datos Unidad I. Introducción

República Bolivariana de Venezuela Ministerio Popular de Educación y Deportes UNEFA Cátedra: Base de Datos Unidad I. Introducción República Bolivariana de Venezuela Ministerio Popular de Educación y Deportes UNEFA Cátedra: Base de Datos Unidad I. Introducción Dato: Hecho o valor a partir del cual se puede inferir una conclusión.

Más detalles

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productivity in Construction Companies: Knowledge acquired from the databases Hernando Camargo Mila, Rogelio Flórez

Más detalles

UNIDAD DIDÁCTICA 7 ANÁLISIS DE ÍTEMS Y BAREMACIÓN DE UN TEST

UNIDAD DIDÁCTICA 7 ANÁLISIS DE ÍTEMS Y BAREMACIÓN DE UN TEST UNIDAD DIDÁCTICA 7 ANÁLISIS DE ÍTEMS Y BAREMACIÓN DE UN TEST 7.1. ANÁLISIS DE LOS ÍTEMS Al comenzar la asignatura ya planteábamos que uno de los principales problemas a los que nos enfrentábamos a la hora

Más detalles

Los pronósticos pueden ser utilizados para conocer el comportamiento futuros en muchas fenómenos, tales como:

Los pronósticos pueden ser utilizados para conocer el comportamiento futuros en muchas fenómenos, tales como: TEMA 1: PRONÓSTICOS 1.1. Introducción Pronostico es un método mediante el cual se intenta conocer el comportamiento futuro de alguna variable con algún grado de certeza. Existen disponibles tres grupos

Más detalles

Habilidades y Herramientas para trabajar con datos

Habilidades y Herramientas para trabajar con datos Habilidades y Herramientas para trabajar con datos Marcelo Ferreyra X Jornadas de Data Mining & Business Intelligence Universidad Austral - Agenda 2 Tipos de Datos Herramientas conceptuales Herramientas

Más detalles

LA GESTIÓN DEL CONOCIMIENTO

LA GESTIÓN DEL CONOCIMIENTO Plan de Formación 2006 ESTRATEGIAS Y HABILIDADES DE GESTIÓN DIRECTIVA MÓDULO 9: 9 LA ADMINISTRACIÓN ELECTRÓNICA EN LA SOCIEDAD DE LA INFORMACIÓN LA GESTIÓN DEL CONOCIMIENTO José Ramón Pereda Negrete Jefe

Más detalles

Credit scoring. por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar)

Credit scoring. por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar) Credit scoring por Dr. Marcelo Dabós, Ph.D. (marcelo.dabos@comunidad.ub.edu.ar) En base a que los bancos modernos otorgan tarjetas de crédito y créditos personales o los niegan? Qué límite de crédito le

Más detalles

MODELACION Y ANALISIS DE PROCESOS EMPRESARIALES MAPE

MODELACION Y ANALISIS DE PROCESOS EMPRESARIALES MAPE MODELACION Y ANALISIS DE PROCESOS EMPRESARIALES MAPE Thomas A. Little Ph. D Traducción Autorizada por el Autor. Traductor: MANUEL H RAMIREZ Alta Via Consulting-América Latina La Modelación y Análisis de

Más detalles

Evaluación de Gestión, Resultados e Impactos de Programas Públicos

Evaluación de Gestión, Resultados e Impactos de Programas Públicos Curso internacional PLANIFICACION ESTRATÉGICA Y POLÍTICAS PÚBLICAS La Antigua, Guatemala, mayo 2010 Evaluación de Gestión, Resultados e Impactos de Programas Públicos Eduardo Aldunate Experto ILPES/CEPAL

Más detalles

CA ERwin Data Profiler

CA ERwin Data Profiler RESUMEN DEL PRODUCTO: CA ERWIN DATA PROFILER CA ERwin Data Profiler CA ERWIN DATA PROFILER AYUDA A LAS ORGANIZACIONES A REDUCIR LOS COSTOS Y RIESGOS ASOCIADOS CON LA INTEGRACIÓN DE DATOS, AL BRINDAR CAPACIDADES

Más detalles

SUPLEMENTO EUROPASS AL TÍTULO

SUPLEMENTO EUROPASS AL TÍTULO SUPLEMENTO EUROPASS AL TÍTULO DENOMINACIÓN DEL TÍTULO Técnico Superior en Gestión de Ventas y Espacios Comerciales --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Más detalles

ADMINISTRACIÓN DE PROYECTOS

ADMINISTRACIÓN DE PROYECTOS ADMINISTRACIÓN DE PROYECTOS QUÉ ES LA ADMINISTRACIÓN DE PROYECTOS? Es la planeación, organización, dirección y control de los recursos para lograr un objetivo a corto plazo. También se dice que la administración

Más detalles

Modelos de Ciclo de Vida de Desarrollo de Software en el Contexto de la Industria Colombiana de Software

Modelos de Ciclo de Vida de Desarrollo de Software en el Contexto de la Industria Colombiana de Software Modelos de Ciclo de Vida de Desarrollo de Software en el Contexto de la Industria Colombiana de Software Hugo F. Arboleda Jiménez. MSc. Docente-Investigador, Facultad de Ingenierías, Universidad de San

Más detalles

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por

Más detalles

Tema 1 Introducción a la Ingeniería de Software

Tema 1 Introducción a la Ingeniería de Software Tema 1 Introducción a la Ingeniería de Software Curso Ingeniería de Software UMCA Profesor Luis Gmo. Zúñiga Mendoza 1. Software En la actualidad todo país depende de complejos sistemas informáticos. Podemos

Más detalles

www.fundibeq.org Además, se recomienda su uso como herramienta de trabajo dentro de las actividades habituales de gestión.

www.fundibeq.org Además, se recomienda su uso como herramienta de trabajo dentro de las actividades habituales de gestión. DIAGRAMA DE FLECHAS 1.- INTRODUCCIÓN Este documento sirve de guía para el proceso de planificación de proyectos. Describe desde la visualización de la secuencia de acciones a desarrollar en dichos proyectos

Más detalles

Web mining y obtención de información para la generación de

Web mining y obtención de información para la generación de Web mining y obtención de información para la generación de inteligencia Miguel Ángel Esteban (Universidad de Zaragoza) mesteban@unizar.es Instituto Juan Velázquez de Velasco de Investigación en Inteligencia

Más detalles

Arquitectura de Aplicaciones

Arquitectura de Aplicaciones 1 Capítulo 13: Arquitectura de aplicaciones. - Sommerville Contenidos del capítulo 13.1 Sistemas de procesamiento de datos 13.2 Sistemas de procesamiento de transacciones 13.3 Sistemas de procesamiento

Más detalles

Ingeniería de Software I

Ingeniería de Software I Ingeniería de Software I Agenda Objetivo. Unidades de aprendizaje. Formas de evaluación. Bibliografía. 2 Datos del profesor Correo electrónico: egonzalez@upemor.edu.mx Asesorías Jueves de 11:00 a 13:00

Más detalles

CAPITULO 1. Introducción a los Conceptos Generales de Bases de Datos Distribuidas

CAPITULO 1. Introducción a los Conceptos Generales de Bases de Datos Distribuidas CAPITULO 1 Introducción a los Conceptos Generales de 1.1 Preliminares Las empresas necesitan almacenar información. La información puede ser de todo tipo. Cada elemento informativo es lo que se conoce

Más detalles

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II BASE DE DATOS Comenzar presentación Base de datos Una base de datos (BD) o banco de datos es un conjunto

Más detalles

CLASIFICACIÓN NO SUPERVISADA

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA CLASIFICACION IMPORTANCIA PROPÓSITO METODOLOGÍAS EXTRACTORES DE CARACTERÍSTICAS TIPOS DE CLASIFICACIÓN IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL

Más detalles

Sybase IQ Servidor analítico con arquitectura basada en columnas

Sybase IQ Servidor analítico con arquitectura basada en columnas Sybase IQ Servidor analítico con arquitectura basada en columnas www.sybase.es Sybase IQ Descripción Tener acceso a toda la información de que dispone su organización, con el fin de analizarla no es hoy

Más detalles

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES Actualmente se vive una época donde se tiene una enorme cantidad de datos que se generan diariamente (del orden de Terabytes, Petabytes 1 (Han, Kamber, & Pei, 2012))

Más detalles

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio Hidrocarburos: Análisis de Pablo Burgos Casado (Jefe de Área Desarrollo (SGTIC - MITYC)) María Teresa Simino Rueda Rubén Pérez Gómez Israel Santos Montero María Ángeles Rodelgo Sanchez 1. INTRODUCCIÓN

Más detalles

BASES DE DATOS TEMA 4 DISEÑO DE BASES DE DATOS RELACIONALES

BASES DE DATOS TEMA 4 DISEÑO DE BASES DE DATOS RELACIONALES BASES DE DATOS TEMA 4 DISEÑO DE BASES DE DATOS RELACIONALES El modelo relacional se basa en dos ramas de las matemáticas: la teoría de conjuntos y la lógica de predicados de primer orden. El hecho de que

Más detalles

Mantenimiento de Sistemas de Información

Mantenimiento de Sistemas de Información de Sistemas de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 1 ACTIVIDAD MSI 1: REGISTRO DE LA PETICIÓN...4 Tarea MSI 1.1: Registro de la Petición... 4 Tarea MSI 1.2: Asignación de la Petición... 5 ACTIVIDAD

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source Inteligencia Artificial y Seguridad Informática en plataformas Open Source Jornadas de Software Libre y Seguridad Informática Santa Rosa La Pampa 4 y 5 de Diciembre de 2009 AGENDA Primera Parte Definiciones

Más detalles

PLAN DE PRUEBAS SISTEMA DE GESTIÓN HOSPITALARIA. Plan de Pruebas. File: 20130211-QA-INF-V2-PLAN DE PRUEBAS.odt STD-INF-GENERAL Versión: 1.

PLAN DE PRUEBAS SISTEMA DE GESTIÓN HOSPITALARIA. Plan de Pruebas. File: 20130211-QA-INF-V2-PLAN DE PRUEBAS.odt STD-INF-GENERAL Versión: 1. Cliente: FCM-UNA Página 1 de 14 PLAN DE PRUEBAS SISTEMA DE GESTIÓN HOSPITALARIA Cliente: FCM-UNA Página 2 de 14 Tabla de contenido 1. INTRODUCCIÓN 1.1. PROPÓSITO 1.2. ALCANCE 1.3. DEFINICIONES, ACRÓNIMOS

Más detalles

activuspaper Text Mining and BI Abstract

activuspaper Text Mining and BI Abstract Text Mining and BI Abstract Los recientes avances en lingüística computacional, así como la tecnología de la información en general, permiten que la inserción de datos no estructurados en una infraestructura

Más detalles