RESUMEN ABSTRACT. CRISP, KDD, Business Intelligence, Data Mining, SEMMA

Tamaño: px
Comenzar la demostración a partir de la página:

Download "RESUMEN ABSTRACT. CRISP, KDD, Business Intelligence, Data Mining, SEMMA"

Transcripción

1 Rev. Tecnol. Journal of Technology Volumen 9 No. 1 Dos caminos en la búsqueda de patrones por medio de Minería de Datos: SEMMA y CRISP Two paths in search of patterns through Data Mining: SEMMA and CRISP Hernando Camargo 1, Mario Silva 2. RESUMEN Este documento discute los resultados de la investigación analítica sobre los dos caminos comúnmente usados en la búsqueda de la mejor guía disponible para lograr llevar a cabo un proyecto de minería de datos. Estas dos propuestas son SEMMA (Sample, Explore, Modify, Model, Asses) y CRISP (Cross Industry Standard Process for Data Mining). Son las más aceptadas en la comunidad de desarrolladores de proyectos de Minería de Datos. Índice de Términos: CRISP, KDD, Inteligencia de Negocios, Minería de datos, SEMMA. ABSTRACT This paper discusses results of the analytical research on two ways commonly used in the search for the best guide available to carry out a data mining project. The two proposals are SEMMA (Sample, Explore, Modify, Model, Asses) and CRISP (Cross Industry Standard Process for Data Mining). They are the most widely accepted in the community of developers of data mining projects. Index Terms: CRISP, KDD, Business Intelligence, Data Mining, SEMMA 1 Universidad El Bosque 2 Vehículos del camino Concesionario Mazda 11

2 Ingeniería de Sistemas Dos caminos en la búsqueda de patrones por medio de Minería de Datos: SEMMA y CRISP Two paths in search of patterns through Data Mining: SEMMA and CRISP I. INTRODUCCIÓN Un proyecto, sea el que sea, para que pueda lograr el éxito en los resultados, debe plantear su camino en un concepto llamado metodología. Esta no es la excepción en el caso de los proyectos de minería de datos. Cuando se tiene una gran cantidad de datos estos deben ser contenidos en grandes almacenes informáticos (bodegas de datos) que están diseñados para contener enormes cantidades de información. Su diseño está, entre muchas otras variables, enfocado a satisfacer una inversión a corto plazo pero de larga duración [1]. En esta gran cantidad de información la apreciación visual deja de ser suficiente para analizar todos los datos. Para lograr un resultado que sea interesante para la organización propietaria de la información, se deben aplicar técnicas y métodos estadísticos, de modo que sea más fácil apreciar patrones ocultos en estos datos. Debido a que este tipo de análisis apenas empieza a ser interesante en las organizaciones, la alternativa comúnmente usada para hacer estos estudios es ingresar los datos en las herramientas disponibles como WEKA (Universidad de Waikato) [2] o Business Intelligence Development Studio (Microsoft) [3], entre otros. Sin embargo, si no se cuenta con una guía que le indique al analista cuáles pasos debe seguir para obtener un resultado que genere conocimiento, la tarea de ingresar datos en una herramienta informática no tendría mucho sentido. Se debe usar una metodología que muestre ese camino (no necesariamente la meta). Al buscar el mejor camino para resolver este problema, salen a la luz dos metodologías, CRISP y SEMMA. Las dos permiten tomar la información, aplicar métodos estadísticos y lograr un resultado. Pero cuál de estas dos es mejor, o por lo menos cual es más conveniente para aplicar en un proyecto de minería de datos? Para visualizar una respuesta a esta inquietud se empieza por iniciar el entendimiento sobre lo que se busca en un proyecto de minería de datos. II. MINERÍA DE DATOS La minería de datos se define como el proceso de exploración y análisis, por medios automáticos o semiautomáticos, de grandes volúmenes de información con el objetivo de descubrir e identificar patrones y reglas significativas [4]. La minería de datos, en un primer acercamiento, aparenta ser un tema ya conocido y nada novedoso por implementar tecnologías ya conocidas en las áreas de la Probabilidad y la Estadística, sin embargo se le reconoce un nuevo potencial: el valor que le asigna a la cantidad de datos almacenados en los garajes informáticos de las empresas en general. Mediante este esquema los datos pasan de ser un producto para convertirse en materia prima por explotar. Las nuevas necesidades y características de los datos en volumen y tipología hacen que las disciplinas que integran y aprovechan la minería de datos sean numerosas y heterogéneas. El objetivo principal de la minería de datos es el de analizar los datos para extraer conocimiento, este puede encontrarse en forma de relaciones, patrones o reglas, que precisamente serán inferidas de los datos, o bien en forma de una descripción mas concisa. Los modelos pueden ser de dos tipos: Predictivos y Descriptivos [5]. Los modelos predictivos pretenden estimar valores futuros o desconocidos de variables de interés, que se denominan variables objetivo o dependientes, usando otras variables o campos de las bases de datos que se denominan variables independientes o predictivas. Como ejemplo, un modelo predictivo sería aquel que permite estimar la demanda de un nuevo producto en función del gasto en publicidad. Los modelos descriptivos identifican patrones que explican o resumen los datos, sirven para explorar las propiedades de los datos examinados, no para predecir nuevos datos. Como ejemplo, una agencia de viajes puede estar interesada en identificar grupos de personas con unos mismos gustos, con el objeto de organizar diferentes ofertas para cada grupo y poder remitirles información relacionada; para ello analiza los viajes que han realizado sus clientes e infiere un modelo descriptivo que caracteriza estos grupos. La minería de datos tiene una serie de tareas que pueden interpretarse como un tipo de problema a ser resuelto por un algoritmo de minería de datos. Esto significa que cada tarea tiene sus propios requisitos, y que el tipo de información obtenida con una tarea puede diferir mucho de la obtenida con otra. La clasificación es la tarea más utilizada. En esta tarea cada instancia o registro de la base de datos pertenece a una clase, la cual se indica mediante el valor de un atributo 12

3 Rev. Tecnol. Journal of Technology Volumen 9 No. 1 que se llama clase de la instancia. Este atributo puede tomar diferentes valores discretos, cada uno de los cuales corresponde a una clase. El resto de los atributos de la instancia (los relevantes a la clase) se utilizan para predecir la clase. El objetivo es predecir la clase de nuevas instancias de las que se desconoce la clase. En otras palabras, el objetivo del algoritmo es maximizar la razón de precisión de la clasificación de las nuevas instancias la cual se calcula como el cociente entre las predicciones correctas y el número total de las predicciones. Como ejemplo se puede considerar un oftalmólogo que desea disponer de un sistema que le sirva para determinar la conveniencia o no de recomendar la cirugía ocular para sus pacientes. Para ello dispone de una base de datos de sus antiguos pacientes clasificados en operados satisfactoriamente y operados no satisfactoriamente en función del tipo de problema que padecían y de su edad. El modelo encontrado se utiliza para clasificar nuevos pacientes, es decir, para decidir si es conveniente operarlos o no. La regresión es otra tarea, del orden predictivo, que consiste en aprender una función real que asigna a cada instancia un valor real. Esta es la principal diferencia respecto a la clasificación, el valor a predecir es numérico. El objetivo en este caso es minimizar el error (generalmente el error cuadrático medio) entre el valor predicho y el valor real. A manera de ejemplo, un empresario quiere conocer cuál es el costo de un nuevo contrato basándose en los datos correspondientes a contratos anteriores. Para ello usa una fórmula de regresión lineal, ajustando con los datos pasados la función lineal y usándola para predecir el costo en el futuro. El agrupamiento es la tarea descriptiva por excelencia y consiste en obtener grupos naturales a partir de los datos. En este caso se habla de grupos y no de clases, porque a diferencia de la clasificación, en lugar de analizar datos etiquetados con una clase, los analiza para generar esta etiqueta. Por ejemplo, una librería que ofrece sus servicios a través de la red usa el agrupamiento para identificar grupos de clientes con base en sus preferencias de compras que le permita dar un servicio más personalizado. Así, cada vez que un cliente se interesa por un libro, el sistema identifica a qué grupo pertenece y le recomienda otros libros comprados por clientes de su mismo grupo. Las correlaciones son una tarea descriptiva, que se usa para examinar el grado de similitud de los valores de dos variables numéricas. Una formula estándar para medir la correlación lineal es el coeficiente de correlación r, el cual es un valor comprendido entre -1 y 1. Si r es 1 (respectivamente, -1) las variables están perfectamente correlacionadas (perfectamente correlacionadas negativamente), mientras que si su valor es 0 no hay correlación. Esto quiere decir que cuando r es positivo, las variables tienen un comportamiento similar, mientras que cuando r es negativo, si una variable crece, la otra decrece. Como ejemplo de las correlaciones, un inspector de incendios que desea obtener información útil para la prevención de ellos, probablemente esté interesado en conocer correlaciones negativas entre el empleo de distintos grosores de protección de material eléctrico y la frecuencia de ocurrencia de incendios. Las reglas de asociación son también tareas descriptivas similares a las correlaciones, que tienen como objeto identificar relaciones no explícitas entre atributos categóricos. Pueden ser de muchas formas aunque la formulación más común es del estilo si el atributo X toma el valor d entonces el atribuyo Y toma el valor b. Las reglas de asociación no implican una relación causa-efecto, es decir, puede no existir una causa para que los datos estén asociados. Como ilustración, una compañía de asistencia sanitaria desea analizar las peticiones de servicios médicos solicitados por sus asegurados. Cada petición contiene información sobre las pruebas médicas que fueron realizadas al paciente durante una visita. Toda esta información se almacena en una base de datos en la que cada petición es un registro cuyos atributos expresan si se realiza o no cada una de las posibles pruebas médicas que pueden ser realizadas a un paciente. Mediante reglas de asociación, un sistema encontraría aquellas pruebas médicas que frecuentemente se realizan juntas, por ejemplo que un 70 por ciento de las veces que se pide un análisis de orina también se solicita uno de sangre, y esto ocurre en dos de cada diez pacientes. La precisión de esta regla es del 70 por ciento y el soporte del 20 por ciento. Como caso especial de estas reglas de asociación se encuentran las reglas de asociación secuencial, las cuales se usan para determinar patrones secuenciales en los datos. Estos patrones se basan en secuencias temporales de 13

4 Ingeniería de Sistemas Dos caminos en la búsqueda de patrones por medio de Minería de Datos: SEMMA y CRISP Two paths in search of patterns through Data Mining: SEMMA and CRISP acciones y difieren de las reglas de asociación en que las relaciones entre los datos se basan en el tiempo. Para mostrar esta tarea, asumamos que una tienda de venta de electrodomésticos y equipos de audio analiza las ventas que ha efectuado usando análisis secuencial y descubre que el 30 por ciento de los clientes que compraron un televisor hace seis meses compraron un DVD en los siguientes dos meses. Sin embargo, la minería de datos es solamente una etapa de lo que se ha venido llamando el proceso de extracción de conocimiento a partir de datos. Este proceso se conoce como KDD. III. KDD Se define la KDD o Knowledge Discovery in Databases como el proceso no trivial de identificar patrones válidos, novedosos potencialmente útiles y, en última instancia, comprensibles a partir de los datos [6]. La KDD es un término que se confunde muy comúnmente con la minería de datos. Como se puede apreciar en la Fig. 1, de manera correcta la KDD es un proceso que consta de una serie de fases [5], mientras que la minera de datos es solo una de esas fases. Fig 1. Proceso de KDDFigura 5. Proceso de KDD Del conocimiento extraído se desean las siguientes propiedades [5]: Válido: Hace referencia a que los patrones deben seguir siendo precisos para los datos nuevos (con un cierto grado de incertidumbre), y no sólo para aquellos que han sido usados en su obtención. de decisiones. De hecho, una información incomprensible no proporciona conocimiento (al menos desde el punto de vista de su utilidad). El KDD involucra un proceso iterativo e interactivo [7] de búsqueda de modelos, patrones o parámetros. Sus metas son procesar grandes cantidades de datos, identificar los patrones más significativos y relevantes, y presentarlos como conocimiento para satisfacer los objetivos del usuario. El proceso ya empieza a definir, para alguien que no se encuentra completamente familiarizado con el tema, cómo debería ser el camino para realizar un análisis por medio de la aplicación de técnicas de minería de datos. Para resolver la pregunta inicial sobre que metodología debiera seguirse, se debería mostrar ahora cuales fueron las metodologías en evaluación. IV. CRISP - DM Esta metodología inicialmente fue desarrollada por tres empresas que iniciaron sus investigaciones en el tema de la Minería de Datos: DaimlerChrysler (luego conocido como DaimlerBenz) quien siempre implementó principios y técnicas de minería de datos en sus negocios, SPSS quien provee servicios basados en Minería de Datos desde 1990, y NCR. La metodología CRISP DM, como lo muestra la Fig. 2 [8], está descrita en términos de un modelo de proceso jerárquico, que consiste en una serie de tareas descritas en cuatro niveles de abstracción (de lo general a lo específico): Fases, tareas genéricas, tareas especializadas e instancias de proceso. Novedoso: Que aporte algo desconocido tanto para el sistema y preferiblemente para el usuario. Potencialmente útil: la información debe conducir a acciones que reporten algún tipo de beneficio para el usuario. Comprensible: La extracción de patrones no comprensibles dificulta o imposibilita su interpretación, revisión, validación y uso en la toma Fig 2. Modelo Jerárquico de la metodología CRISP.Figura 1. Modelo Jerárquico de la metodología CRISP Las fases que trata la metodología CRISP DM se resumen en la Tabla1. 14

5 Rev. Tecnol. Journal of Technology Volumen 9 No. 1 Tabla 1. Fases de la metodología CRISP Fase Entendimiento del negocio Entendimiento de los datos Preparación de los datos Modelado Evaluación Despliegue Descripción Esta fase inicial se centra en el entendimiento de los objetivos del proyecto y los requerimientos desde una perspectiva del negocio, para convertir este conocimiento en un problema de definición de minería de datos y un plan preliminar diseñado para alcanzar los objetivos. Esta fase inicia con una colección inicial de datos y procede con actividades para familiarizarse con ellos, identificar problemas de calidad en los mismos, descubrir una primera idea de estos o detectar conjuntos interesantes que permitan formar hipótesis en la búsqueda de información escondida. Cubre todas las actividades para construir la base final de datos (datos que serán el alimento de las herramientas de modelado) desde una base en bruto. Es preferible que las tareas de preparación de datos se realicen varias veces y no en un orden preestablecido. Estas tareas incluyen tabulación, documentación y selección de atributos, también como transformación y limpieza de datos para las herramientas de modelado. Se seleccionan y aplican varias técnicas, y sus parámetros son calibrados a los valores óptimos. Por lo general hay varias técnicas para el mismo tipo de problema. Algunas técnicas tienen requerimientos específicos en la forma de los datos, por lo tanto será a menudo necesario devolverse a la fase de preparación de datos Al llegar a esta fase se ha construido un modelo (o modelos) que aparentan tener una alta calidad desde la perspectiva del análisis de datos. Antes de proceder a la entrega final del modelo es importante evaluarlo más a fondo y revisar los pasos ejecutados para construirlo, de tal forma que este lo más cercano posible de alcanzar los objetivos del negocio. Un objetivo clave es determinar si hay algún evento importante del negocio que no haya sido considerado lo suficiente. Al final de esta fase, se debe tener una decisión sobre el uso de los resultados de minería de datos. La creación del modelo por lo general no es el final del proyecto. Incluso si el propósito del modelo es incrementar conocimiento sobre los datos, el conocimiento ganado necesitará ser organizado y presentado de una manera que el cliente lo pueda usar. A menudo implica aplicar modelos en vivo dentro del proceso de toma de decisiones de una organización, por ejemplo, en la personalización en tiempo real de las páginas web o la puntuación repetida en bases de datos de mercadeo. Sin embargo, dependiendo de los requerimientos, la fase de despliegue puede ser tan simple como generar un reporte o tan compleja como implementar un proceso repetible de minería de datos a través de la empresa. En muchos casos es el cliente, no el analista de datos, quien realiza los pasos de despliegue. Sin embargo, incluso si el analista no carga con el esfuerzo de despliegue, es importante que el cliente entienda que acciones deben ser llevadas a cabo para hacer uso de los modelos creados. La figura 3 ilustra el comportamiento [8] y la relación de las fases descritas en la Tabla 1. Fig. 3. Fases y ciclo de la Metodología CRISP V. SEMMA El acrónimo SEMMA surge de las iniciales de las palabras Sample (muestra), Explore (explorar), Modify (modificar), Model (modelar) y Assess (evaluar). Es un proceso que se sigue para realizar minería de datos [9]. Principalmente SEMMA es una organización lógica para el manejo de una herramienta funcional de SAS llamada Enterprise Manager para el manejo de tareas de minería de datos. SEMMA intenta hacer fácil de aplicar la exploración estadística y la visualización de técnicas, seleccionando y transformando las variables predictivas más relevantes, modelándolas para obtener resultados, y finalmente confirmar la precisión del modelo [1]. SEMMA se enfoca en los aspectos de desarrollo del modelo de minería de datos: muestreo, explorar, modificar, modelar y evaluar, detallados en la Tabla 2. 15

6 Ingeniería de Sistemas Dos caminos en la búsqueda de patrones por medio de Minería de Datos: SEMMA y CRISP Two paths in search of patterns through Data Mining: SEMMA and CRISP Tabla 2. Aspectos de desarrollo de SEMMATabla 1. Fases de la metodología Muestreo Explorar Modificar Modelar Evaluar Se busca extraer una porción de datos lo suficientemente grande para contener información significativa, pero reducida para manipularla rápidamente. Si los patrones generales aparecen en los datos en su conjunto, estos se pueden distinguir en una muestra representativa. Si un nicho es tan pequeño que no es representable con una muestra y aun así es tan importante que influencia la imagen completa, puede ser descubierto por medio de métodos de síntesis. También se pueden crear conjuntos de datos así: Entrenamiento Usado para modelos adecuados Validación Usado para comprobar Prueba Usado para obtener comprobaciones honestas y para mostrar que tan bien puede generalizar un modelo. Se desea explorar los datos buscando tendencias y anomalías imprevistas para obtener una comprensión total de los mismos. Esta fase ayuda a refinar el proceso de descubrimiento. Si visualmente no hay un resultado claro se pueden tratar los datos por medio de técnicas estadísticas como el análisis factorial, de correspondencias y agrupaciones. A manera de ejemplo, en la minería de datos de campañas de correo directo, el agrupamiento podría revelar grupos de compradores con distintos patrones de ordenamiento, y sabiendo esto, se crea la oportunidad de generar correos personalizados o promociones. Se modifican los datos por medio de la creación, selección y transformación de variables, para centrar el proceso de selección del modelo. Basado en los descubrimientos en la fase de exploración, puede haber la necesidad de manipular los datos para incluir información como la de agrupamiento de compradores y subgrupos significativos, o introducir nuevas variables. También puede ser necesario buscar valores extremos (bordes) y reducir el número de variables, para reducir a los más significativos. También puede ser necesario modificar datos cuando la información minada cambie. Debido a que la minería de datos es un proceso dinámico e iterativo, puede actualizar los métodos o los modelos cuando esté disponible nueva información. Se modelan los datos permitiendo que el software busque automáticamente una combinación de datos que prediga con cierta certeza un resultado deseado. Las técnicas de modelado en minería de datos incluyen las redes neuronales, modelos de arboles de decisión, modelos lógicos y otros modelos estadísticos (como los análisis de serie de tiempo, razonamiento basado en memoria y componentes principales). Cada uno tiene sus fortalezas, y dependiendo de la información se debe aplicar el más adecuado según las situaciones concretas para el análisis con la minería de datos. Por ejemplo, las redes neuronales son muy buenas en la conexión de relaciones no lineales de gran complejidad. Se califican los datos mediante la evaluación de la utilidad y fiabilidad de los resultados del proceso de minería de datos. Una forma común de evaluación de un modelo es la de aplicar el modelo a una porción aparte de resultados obtenidos durante el muestreo. Si el modelo es válido, debería funcionar para esta muestra, así como para la muestra utilizada en la construcción del modelo. De manera similar, se puede probar el modelo nuevamente con los datos conocidos. Por ejemplo, si se sabe cuales clientes tienen altas tasas de retención y su modelo predice la retención, puede probar si el modelo selecciona estos clientes acertadamente. Cuando se haya desarrollado el modelo usando SEMMA basado en la aproximación de minería, se necesita desplegar la solución para calificar los nuevos casos. El despliegue del modelo es el resultado final de la minería de datos. La Fig. 4 muestra el flujo del proceso de Minería de Datos mediante la metodología SEMMA [9]. Fig 4. Fases de SEMMA 16

7 Rev. Tecnol. Journal of Technology Volumen 9 No. 1 VI. RESULTADOS Las metodologías CRISP-DM y SEMMA fueron comparadas y se obtuvieron los resultados sintetizados en la Tabla 3 que contrasta los aspectos principales de ambos esquemas. Se puede ver que ambas metodologías mantienen la misma esencia al mantener los lineamientos de KDD: son fases relacionadas en un orden similar y funcionan de manera iterativa (por la retroalimentación). Abierta Tabla 3. Comparación CRISP DM y SEMMA CRISP - DM Funciona en cualquier esquema que aplique minería de datos. Permite que cualquier sistema informático pueda seguir estos pasos Implica retroalimentación, es cíclica Fases: Entendimiento del negocio, Entendimiento de los datos, Preparación de los datos, Modelado, Evaluado, Despliegue Metodología Permite aplicar cualquier modelo estadístico Enfocada a resultados empresariales Sigue el esquema propuesto en KDD Libre distribución SEMMA Cerrada (Abierta en los aspectos generales únicamente) Funciona específicamente en SAS Implica retroalimentación, es cíclica Fases: Muestreo, Explorar, Modificar, Modelar, Evaluar Secuencia Lógica Está obligado a los modelos estadísticos que tenga incorporados la herramienta Enterprise Miner Enfocada a resultados del proceso Sigue el esquema propuesto en KDD Distribución en clientes SAS Se aprecia una diferencia marcada en CRISP, que tiene en cuenta aspectos del negocio (en la fase inicial principalmente Entendimiento del negocio). De este modo, CRISP puede percibir para el proyecto de minería de datos los datos que debe buscar, cuáles son los objetivos que debe alcanzar y cuáles podrían ser los resultados esperados. Otra diferencia muy importante es que para acceder a la metodología CRISP se puede hacer directamente desde la página web. Para acceder a la metodología SEMMA solo es posible cuando se tiene una solución SAS con la cual se puede trabajar. Solo se permite el acceso a las generalidades del proceso como muestra de cuál es el camino a seguir. VII. CONCLUSIÓN De los dos caminos, no resulta justo definir cuál es el mejor en términos absolutos. Ambos son bastante sólidos, sin embargo en la práctica es la metodología SEMMA un poco más reducida en el alcance de resultados que la metodología CRISP. SEMMA funciona perfectamente cuando se tiene un sistema SAS, el cual es muy popular en empresas grandes. Sin embargo es posible que este sea el Talón de Aquiles de este estándar, ya que los demás esquemas quedan por fuera de la solución. CRISP DM no sólo se ajusta un poco más a los parámetros de la KDD, sino también a los procesos que una empresa realiza en su trabajo con los datos. También se puede percibir cierta similitud en el proceso de CRISP con otros de desarrollo de proyectos de software como RUP (Proceso Unificado Racional) en donde las fases de CRISP aparentan ser similares al ciclo de vida de RUP. SAS es una empresa que tiene mucha trayectoria en el mercado para el manejo de información. Particularmente tienen experiencia en temas de negocios complejos. Inician actividades en 1976 y hasta hoy en día siempre han sido conocedores de soluciones de sistemas. El conocimiento de cómo abarcar un proyecto de análisis con minería de datos lo han dejado por escrito en el estándar SEMMA, de modo que no se puede descartar fácilmente esta metodología. La minería de datos es una herramienta desarrollada en principio para el análisis de datos aplicando métodos estadísticos. La naturaleza de estos métodos hacía que para que una empresa solicitara este tipo de análisis a una entidad experta en la materia, se vería forzosamente obligada a pagar altos costos por los resultados. Sin embargo la automatización de los procesos generó grandes cantidades de información que incluso estos analizadores no tenían la capacidad de procesar. Los grandes fabricantes de motores de bases de datos como Microsoft (con SQL Server), Oracle, y demás se han visto obligados a incluir en sus soluciones paquetes que permiten aplicar las técnicas de minería de datos dentro de sus tareas comunes. La minería de datos hace parte de la tendencia Business Intelligence (Inteligencia de Negocio) y particularmente resuelve el área de predicción [10], sobre la que las empresas tienen interés en el desarrollo de soluciones. 17

8 Ingeniería de Sistemas Transferencia de tecnología informática: Entorno colombiano Information Technology Transfer: Colombian environment La minería de datos no se debe percibir como una solución a todos los problemas ya que en la práctica puede tener varios inconvenientes, por ejemplo, si la información ingresada no es correcta, o no es verídica, los resultados pueden conducir a caminos falsos. Además, los patrones muestran tendencias, que pueden cambiar por múltiples motivos, por ejemplo en el mercado automotriz colombiano no se esperaba en su momento que se pudiera presentar problemas en temas de negociación con los países vecinos. Esto no encaja en modelos que se vinieran trabajando y cambia radicalmente los resultados. Sin embargo, si una empresa registra datos y sus operaciones diarias, podrán relacionarse en tiempo real, y así encontrar información de las tendencias para identificar posibles clientes nuevos, nuevos mercados, fraudes, nuevas oportunidades, por ejemplo. REFERENCIAS [1] D. Olson, D.Delen, Advanced Data Mining Techniques. Berlin: Springer - Verlag, 2008, pp 19. [2] The University of Waikato. (25/05/2010). WEKA [Online] Disponible: [3] Microsoft Corporation. (25/05/2010). Introducing Business Intelligence Development Studio [Online] Disponible: technet.microsoft.com/es-es/library/ms aspx [4] M. Berry, G. Linoff, Mastering data mining: the art and science of customer relationship management. West Susex: John Wiley & Sons, [5] J. Hernández, M. Ramirez, C. Ferri, Introducción a la Minería de Datos. Madrid: Pearson Prentice Hall, 2007, pp 13-14, [6] U. Fayad, G. Piateski-Shapiro, P. Smyth, From Data Mining to Knowledge Discovery: An Overview. Menlo Park: American Association for Artificial Intelligence Press, [7] C. Perez, D. Santin, Data Mining Soluciones con Enterprise Miner. Madrid: Alfaomega Grupo Editor S.A., 2006, pp [8] P. Chapman, J. Clinton, R. Kerber, T. Khabaza, T. Reinartz, C. Shearer, R. Wirth, CRISP-DM 1.0 Step by step data mining guide. SPSS Inc, 2000, pp 9, 13. [9] SAS Institute Inc. (27/04/2010). SAS SEMMA [Online] Disponible: /analytics/datamining/miner/semma.html [10] L. Vieira, L. Ortiz, S. Ramirez, Introducción a la Minería de Datos. Rio de Janeiro: E-Papers Servicios Editoriales, 2009, pp 20. Tipo de Artículo: Tipo I: Artículo de Investigación científica y tecnológica. Los autores declaran que no tienen conflicto de interés. Los Autores Hernando Camargo Mila Docente del programa Ingeniería de Sistemas de la Universidad El Bosque desde 2002 a la fecha, Distinción de la Universidad El Bosque a la Excelencia en la Docencia en el año Especialista en Informática y Ciencias de la Computación, Fundación Universitaria Konrad Lorenz, Bogotá Ingeniero de Sistemas, Universidad Nacional de Colombia, Bogotá 1988, Docente del Programa en Ingeniería de Sistemas de la Fundación Universitaria Konrad Lorenz desde 2001 a la fecha y desde el 2003 Coordinador Académico de las Facultades de Ingeniería y Matemáticas. Jefe del Departamento de Sistemas de Petróleos Colombianos Limited, Bogotá, desde 1990 a Gerencia de proyectos informáticos en Comcel durante Gerencia de proyectos de Outsourcing informático en Gestiontek S. A., desde 1999 a Carrera 7 B Bis , Edificio El Campito, Bogotá D.C., Colombia. Mario Andrés Silva Montoya Asesor de sistemas de Vehículos del Camino, concesionario Mazda. Ingeniero de Sistemas, Universidad El Bosque, Experiencia en implementación de redes de computadores, con conocimientos en Dirección de Proyectos según el estándar del Project Management Institute (PMBOK, 3ª edición), con amplio conocimiento de desarrollo de software y manejo de plataformas y programas de desarrollo Visual Studio. NET 2008 (C++, C#), JCreator (Java), SQL Server 2005 (SQL), Oracle 10g, especial interés en el trabajo con Bases de datos. 18

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productivity in Construction Companies: Knowledge acquired from the databases Hernando Camargo Mila, Rogelio Flórez

Más detalles

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Ing. Juan Miguel Moine Ing. Cristian Germán Bigatti Ing. Guillermo Leale Est. Graciela Carnevali Est. Esther Francheli

Más detalles

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) Autor: Lic. Manuel Ernesto Acosta Aguilera Entidad: Facultad de Economía, Universidad de La Habana Dirección: Edificio

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 14-I. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 24

Más detalles

METODOLOGÍAS PARA LA REALIZACIÓN DE PROYECTOS DE DATA MINING

METODOLOGÍAS PARA LA REALIZACIÓN DE PROYECTOS DE DATA MINING METODOLOGÍAS PARA LA REALIZACIÓN DE PROYECTOS DE DATA MINING Rodríguez Montequín, Mª Teresa; Álvarez Cabal, J. Valeriano; Mesa Fernández, José Manuel; González Valdés, Adolfo Resumen La gran cantidad de

Más detalles

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Álvaro J. Méndez Services Engagement Manager IBM SPSS / Profesor Econometría UAM Jecas, 22 Oct 2010 Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Business Analytics software Agenda Minería

Más detalles

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA PF-3808 Minería de Datos II Semestre del 2009 Profesor: Dr. Francisco J. Mata (correo: fmatach@racsa.co.cr;

Más detalles

UN MODELO DE PROCESOS DE EXPLOTACIÓN DE INFORMACIÓN

UN MODELO DE PROCESOS DE EXPLOTACIÓN DE INFORMACIÓN UN MODELO DE PROCESOS DE EXPLOTACIÓN DE INFORMACIÓN Juan Ángel Vanrell, Rodolfo Bertone, Ramón García-Martínez Escuela de Postgrado. Universidad Tecnológica Nacional (FRBA) Facultad de Informática. Universidad

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

(3300) Posadas. Argentina 1 gpautsch@fceqyn.unam.edu.ar, 2 hdkuna@unam.edu.ar,

(3300) Posadas. Argentina 1 gpautsch@fceqyn.unam.edu.ar, 2 hdkuna@unam.edu.ar, Resultados Preliminares del Proceso de Minería de Datos Aplicado al Análisis de la Deserción en Carreras de Informática Utilizando Herramientas Open Source J. Germán A. Pautsch 1, Horacio D. Kuna 2, Antonia

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

Introducción a la Minería de Datos (Data Mining)

Introducción a la Minería de Datos (Data Mining) a la Minería de Datos (Data Mining) IT-Nova Facultad de Ingeniería Informática y Telecomunicaciones Iván Amón Uribe, MSc Minería de Datos Diapositivas basadas parcialmente en material de Inteligencia Analítica

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre: : : lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. 12 6 lemas propios de la. 12 6 lemas propios de la.

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

Habilidades y Herramientas para trabajar con datos

Habilidades y Herramientas para trabajar con datos Habilidades y Herramientas para trabajar con datos Marcelo Ferreyra X Jornadas de Data Mining & Business Intelligence Universidad Austral - Agenda 2 Tipos de Datos Herramientas conceptuales Herramientas

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

Detección de Patrones de Daños y Averías en la Industria Automotriz

Detección de Patrones de Daños y Averías en la Industria Automotriz Universidad Tecnológica Nacional Facultad Regional Buenos Aires Tesis de Magister en Ingeniería en Sistemas de Información Detección de Patrones de Daños y Averías en la Industria Automotriz Directora:

Más detalles

OPTATIVA I: MINERIA DE DATOS

OPTATIVA I: MINERIA DE DATOS UNIVERSIDAD AUTÓNOMA DE CHIHUAHUA Clave: 08MSU007H Clave: 08USU4053W FACULTAD DE INGENIERÍA PROGRAMA DEL CURSO: OPTATIVA I: MINERIA DE DATOS DES: Programa(s) Educativo(s): Tipo de materia: Clave de la

Más detalles

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial Universidad del Cauca Facultad de Ingeniería Electrónica y Telecomunicaciones Programas de Maestría y Doctorado en Ingeniería Telemática Seminario de Investigación Evaluación, limpieza y construcción de

Más detalles

Secretaría de Docencia Dirección de Estudios Profesionales

Secretaría de Docencia Dirección de Estudios Profesionales I. IDENTIFICACIÓN DEL CURSO PROGRAMA DE ESTUDIO POR COMPETENCIAS Minería de Datos ORGANISMO ACADÉMICO: FACULTAD DE INGENIERÍA Programa Educativo: Ingeniería en Computación Área de docencia: Tratamiento

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

GESTIÓN ASISTIDA DE DOCUMENTOS EN UNA METODOLOGÍA DE EXPLOTACIÓN DE INFORMACIÓN

GESTIÓN ASISTIDA DE DOCUMENTOS EN UNA METODOLOGÍA DE EXPLOTACIÓN DE INFORMACIÓN GESTIÓN ASISTIDA DE DOCUMENTOS EN UNA METODOLOGÍA DE EXPLOTACIÓN DE INFORMACIÓN E. Fernández 1,2, H. Merlino 1,2, M. Ochoa 1,2, E. Diez 1, P. Britos 1 y R. García-Martínez 1 1 Centro de Ingeniería de Software

Más detalles

Resumen. 1.1 Knowledge discovery in databases

Resumen. 1.1 Knowledge discovery in databases KDD (Knowledge Discovery in Databases): Un proceso centrado en el usuario Héctor Oscar Nigro, Daniel Xodo, Gabriel Corti, Damián Terren INCA/INTIA - Departamento de Computación y Sistemas Facultad de Ciencias

Más detalles

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil Osvaldo M. Spositto spositto@unlam.edu.ar Martín E. Etcheverry metcheverry@unlam.edu.ar

Más detalles

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES Actualmente se vive una época donde se tiene una enorme cantidad de datos que se generan diariamente (del orden de Terabytes, Petabytes 1 (Han, Kamber, & Pei, 2012))

Más detalles

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos Published on Dataprix (http://www.dataprix.com) Principal > Artículos de Minería de Datos de Dataprix By Dataprix Created 26/12/2009-17:13 Artículos de Minería de Datos de Dataprix Introducción a la minería

Más detalles

Modelo de Procesos para la Gestión de Requerimientos en Proyectos de Explotación de Información

Modelo de Procesos para la Gestión de Requerimientos en Proyectos de Explotación de Información Modelo de Procesos para la Gestión de Requerimientos en Proyectos de Explotación de Información Pollo-Cattaneo, M. F. 1,2, Mansilla, D 2,Vegega, C 2, Pesado, P. 3, García-Martínez, R. 4, P. Britos, P.

Más detalles

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS Por qué es importante la Minería de Datos? 2 La Minería de Datos es un proceso que permite obtener conocimiento a partir de los datos

Más detalles

Anexo 1: MATRIZ DE CONGRUENCIA. Objetivo. Problema. Problema. Objetivos. Hipótesis General. Teórico. General. Especifico. Específicos.

Anexo 1: MATRIZ DE CONGRUENCIA. Objetivo. Problema. Problema. Objetivos. Hipótesis General. Teórico. General. Especifico. Específicos. 170 Anexo 1: MATRIZ DE CONGRUENCIA Problema Problema Objetivo Objetivos Hipótesis Variables Hipótesis Variables Marco General Especifico General Específicos General Especificas Teórico En qué medida el

Más detalles

Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos

Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos Britos, P. 1,2 ; Fernández, E. 2,1 ; García Martínez, R 1,2 1 Centro de Ingeniería del Software e Ingeniería del Conocimiento.

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

Minería de datos para la determinación del grado de exclusión social

Minería de datos para la determinación del grado de exclusión social Minería de datos para la determinación del grado de exclusión social Data mining to determine the degree of social exclusion * Jorge Enrique Rodríguez Rodríguez Fecha de recepción: 23 de agosto de 2008

Más detalles

2. CLASIFICACIÓN DE LA ACTIVIDAD CURRICULAR, FORMACIÓN PRÁCTICA Y CARGA HORARIA

2. CLASIFICACIÓN DE LA ACTIVIDAD CURRICULAR, FORMACIÓN PRÁCTICA Y CARGA HORARIA CÓDIGO ASIGNATURA 1131-3 DEPARTAMENTO: Ingeniería e Investigaciones Tecnológicas ASIGNATURA: DATA MINING y DATA WAREHOUSE Plan 2009 Ingeniería en Informática Año: 5 (Electiva - Ingeniería de Software)

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio Hidrocarburos: Análisis de Pablo Burgos Casado (Jefe de Área Desarrollo (SGTIC - MITYC)) María Teresa Simino Rueda Rubén Pérez Gómez Israel Santos Montero María Ángeles Rodelgo Sanchez 1. INTRODUCCIÓN

Más detalles

Minería de Datos. Universidad Politécnica de Victoria

Minería de Datos. Universidad Politécnica de Victoria Minería de Datos Universidad Politécnica de Victoria 1 Motivación Nuevas Necesidades del Análisis de Grandes Volúmenes de Datos El aumento del volumen y variedad de información que se encuentra informatizada

Más detalles

GUÍA DOCENTE TITULACIONES DE GRADO

GUÍA DOCENTE TITULACIONES DE GRADO GUÍA DOCENTE TITULACIONES DE GRADO TITULACIÓN: GRADO EN INGENIERIA INFORMATICA DE SISTEMAS DE INFORMACIÓN CURSO 2015/2016 ASIGNATURA: MINERÏA DE DATOS Nombre del Módulo o Materia al que pertenece la asignatura.

Más detalles

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo 1 Algoritmos de minería de datos incluidos en SQL Server 2008 Los algoritmos que aquí se presentan son: Árboles de decisión de Microsoft, Bayes naive de Microsoft, Clústeres de Microsoft, Serie temporal

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

KDD y MD. Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA 2005. Juan Pedro Febles KDD y MD

KDD y MD. Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA 2005. Juan Pedro Febles KDD y MD KDD y MD Dr. Juan Pedro Febles Rodríguez BIOINFO febles@bioinfo.cu http://www.bioinfo.cu CITMA 2005 Temas a tratar Algunos antecedentes académicos. El proceso de descubrimiento de conocimientos en Datos

Más detalles

Informática II Ing. Industrial. Data Warehouse. Data Mining

Informática II Ing. Industrial. Data Warehouse. Data Mining Data Warehouse Data Mining Definición de un Data Warehouses (DW) Fueron creados para dar apoyo a los niveles medios y altos de una empresa en la toma de decisiones a nivel estratégico en un corto o mediano

Más detalles

Botón menú Objetivo de la Minería de datos.

Botón menú Objetivo de la Minería de datos. Titulo de Tutorial: Minería de Datos N2 Botón menú: Introducción. Las instituciones y empresas privadas coleccionan bastante información (ventas, clientes, cobros, pacientes, tratamientos, estudiantes,

Más detalles

Análisis de Incidentes Informáticos usando Modelos de Asociación y Métodos del Análisis de Datos Multivariante.

Análisis de Incidentes Informáticos usando Modelos de Asociación y Métodos del Análisis de Datos Multivariante. Análisis de Incidentes Informáticos usando Modelos de Asociación y Métodos del Análisis de Datos Multivariante. García, Alejandro (1), Corso, Cynthia Lorena (2), Gibellini, Fabián (3), Rapallini, Marcos

Más detalles

LA MINERÍA DE DATOS COMO HERRAMIENTA PARA LA TOMA DE DECISIONES ESTRATÉGICAS

LA MINERÍA DE DATOS COMO HERRAMIENTA PARA LA TOMA DE DECISIONES ESTRATÉGICAS 1 MINERÍA DE DATOS LA MINERÍA DE DATOS COMO HERRAMIENTA PARA LA TOMA DE DECISIONES Gustavo Adolfo Valencia Zapata (info@gustavovalencia.com) 2 LA MINERÍA DE DATOS COMO HERRAMIENTA PARA LA TOMA DE DECISIONES

Más detalles

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza IBM Software Information Management White Paper Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza Un enfoque de appliance simplifica el uso de la analítica avanzada Cómo aprovechar la

Más detalles

PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN.

PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN. PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN. Objetivo: Al final de la unidad el alumno comprenderá la presencia de estas herramientas informáticas (programas Datamining))

Más detalles

Aparte de lo anterior, dos aspectos justifican el estudio de la Estadística en la FUNLAM: la investigación y la interdisciplinaridad.

Aparte de lo anterior, dos aspectos justifican el estudio de la Estadística en la FUNLAM: la investigación y la interdisciplinaridad. CARTA DESCRIPTIVA Código: FO-MI-108 Versión: 3 Fecha: 25-10-2013 1. PRESENTACIÓN FACULTAD: Vicerrectoría de Investigaciones PROGRAMA: Cursos electivos de investigación NOMBRE DEL CURSO: Estadística Descriptiva

Más detalles

OBTENCIÓN DE PATRONES Y REGLAS EN EL PROCESO ACADÉMICO DE LA UNIVERSIDAD DE LAS CIENCIAS INFORMÁTICAS UTILIZANDO TÉCNICAS DE MINERÍA DE DATOS

OBTENCIÓN DE PATRONES Y REGLAS EN EL PROCESO ACADÉMICO DE LA UNIVERSIDAD DE LAS CIENCIAS INFORMÁTICAS UTILIZANDO TÉCNICAS DE MINERÍA DE DATOS OBTENCIÓN DE PATRONES Y REGLAS EN EL PROCESO ACADÉMICO DE LA UNIVERSIDAD DE LAS CIENCIAS INFORMÁTICAS UTILIZANDO TÉCNICAS DE MINERÍA DE DATOS Ernesto González Díaz 1, Zady Pérez Hernández 2, Ivet Espinosa

Más detalles

Clase 1 Módulo: Data Warehouse & Datamart Docente: Gustavo Valencia Zapata

Clase 1 Módulo: Data Warehouse & Datamart  Docente: Gustavo Valencia Zapata v.1.0 Clase 1 Docente: Gustavo Valencia Zapata Temas Clase 1: El Rol de TI en BI BI Retos de TI en BI Evolución de la Información Arquitectura de BI Referencias www.gustavovalencia.com Evolución de la

Más detalles

LA GESTIÓN DEL CONOCIMIENTO

LA GESTIÓN DEL CONOCIMIENTO Plan de Formación 2006 ESTRATEGIAS Y HABILIDADES DE GESTIÓN DIRECTIVA MÓDULO 9: 9 LA ADMINISTRACIÓN ELECTRÓNICA EN LA SOCIEDAD DE LA INFORMACIÓN LA GESTIÓN DEL CONOCIMIENTO José Ramón Pereda Negrete Jefe

Más detalles

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático? Ingeniería del conocimiento Sesión 1 Por qué estudiar aprendizaje automático? 1 Agenda Qué vamos a ver en la asignatura? Para qué sirve todo esto? Cómo aprobar la asignatura? 2 Extracción del conocimiento

Más detalles

opinoweb el poder de sus datos Descubra LA NECESIDAD DE PREDECIR

opinoweb el poder de sus datos Descubra LA NECESIDAD DE PREDECIR opinoweb SOFTWARE FOR MARKET RESEARCH LA NECESIDAD DE PREDECIR Actualmente las empresas no sólo necesitan saber con exactitud qué aconteció en el pasado para comprender mejor el presente, sino también

Más detalles

TÓPICOS AVANZADOS DE BASES DE DATOS

TÓPICOS AVANZADOS DE BASES DE DATOS TÓPICOS AVANZADOS DE BASES DE DATOS 1. DATOS DE LA ASIGNATURA. Nombre de la asignatura: TÓPICOS AVANZADOS DE BASES DE DATOS Carrera: Ingeniería en Sistemas Computacionales Clave de la asignatura: Modulo

Más detalles

Ingeniería de Software I

Ingeniería de Software I Ingeniería de Software I Agenda Objetivo. Unidades de aprendizaje. Formas de evaluación. Bibliografía. 2 Datos del profesor Correo electrónico: egonzalez@upemor.edu.mx Asesorías Jueves de 11:00 a 13:00

Más detalles

Weka como herramienta de data mining

Weka como herramienta de data mining Weka como herramienta de data mining Lic. Aldave Rojas Isaac Alberto Instituto Tecnológico Superior de Ciudad Serdán Abstract El presente trabajo muestra un ejemplo introductorio a la herramienta de Data

Más detalles

ASEGURAMIENTO DE LA CALIDAD PARA PROYECTOS DE EXPLOTACIÓN DE INFORMACIÓN

ASEGURAMIENTO DE LA CALIDAD PARA PROYECTOS DE EXPLOTACIÓN DE INFORMACIÓN WICC 2012 212 ASEGURAMIENTO DE LA CALIDAD PARA PROYECTOS DE EXPLOTACIÓN DE INFORMACIÓN Diez, E., Pytel, P., Rodríguez, D., García, R., Lacabanne, M., Leonardis, L., Martins, S., Cartanilica, A., García-Martínez,

Más detalles

Título: Árboles de Decisión automáticos para el Pronóstico del Rendimiento Docente (aplicable al Control de Procesos).

Título: Árboles de Decisión automáticos para el Pronóstico del Rendimiento Docente (aplicable al Control de Procesos). Título: Árboles de Decisión automáticos para el Pronóstico del Rendimiento Docente (aplicable al Control de Procesos). Autores: - MsC. Ing. Mario L. Basulto Núñez (ETECSA) mario.basulto@etecsa.cu - Lic.

Más detalles

Trabajo Practico N 12

Trabajo Practico N 12 Trabajo Practico N 12 Minería de Datos CATEDRA: Actualidad Informática Ingeniería del Software III Titular: Mgter. Horacio Kuna JTP: Lic. Sergio Caballero Auxiliar: Yachesen Facundo CARRERAS: Analista

Más detalles

Ingeniería en Informática Proyecto Fin de Carrera CREACIÓN DE MODELOS DE PREDICCIÓN ORIENTADOS A LAS APUESTAS EN EVENTOS DEPORTIVOS

Ingeniería en Informática Proyecto Fin de Carrera CREACIÓN DE MODELOS DE PREDICCIÓN ORIENTADOS A LAS APUESTAS EN EVENTOS DEPORTIVOS UNIVERSIDAD CARLOS III DE MADRID ESCUELA POLITÉCNICA SUPERIOR Ingeniería en Informática Proyecto Fin de Carrera CREACIÓN DE MODELOS DE PREDICCIÓN ORIENTADOS A LAS APUESTAS EN EVENTOS DEPORTIVOS Autor:

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA

CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA PROGRAMACIÓN DIDACTICA ANUAL Parte específica del módulo: 0485. Programación Departamento de Familia Profesional de Informática Curso: 2014-15

Más detalles

Propuesta de Métricas para Proyectos de Explotación de Información

Propuesta de Métricas para Proyectos de Explotación de Información Propuesta de Métricas para Proyectos de Explotación de Información Diego Martín Basso 1. Maestría en Ingeniería de Sistemas de Información. Universidad Tecnológica Nacional, FRBA Buenos Aires, Argentina

Más detalles

Evaluación de modelos para la predicción de la Bolsa

Evaluación de modelos para la predicción de la Bolsa Evaluación de modelos para la predicción de la Bolsa Humberto Hernandez Ansorena Departamento de Ingeniería Telemática Universidad Carlos III de Madrid Madrid, España 10003975@alumnos.uc3m.es Rico Hario

Más detalles

Tome mejores decisiones mediante la inteligencia predictiva

Tome mejores decisiones mediante la inteligencia predictiva IBM SPSS Modeler Professional Funciones destacadas Acceda, prepare y cree modelos de datos estructurados fácilmente con este conjunto de programas de minería de datos intuitivo y visual. Crea y valide

Más detalles

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA Qué es inteligencia de negocios? (BI) Business Intelligence es la habilidad para transformar los datos en información, y la información en

Más detalles

Propuesta de Proceso de Ingeniería de Explotación de Información Centrado en Control y Gestión del Proyecto

Propuesta de Proceso de Ingeniería de Explotación de Información Centrado en Control y Gestión del Proyecto Propuesta de Proceso de Ingeniería de Explotación de Información Centrado en Control y Gestión del Proyecto Sebastian Martins 1,2, Patricia Pesado 1,3, Ramón García-Martínez 2 1. Programa de Doctorado

Más detalles

Una metaheurística para la extracción de reglas de asociación. Aplicación a terremotos.

Una metaheurística para la extracción de reglas de asociación. Aplicación a terremotos. Escuela Técnica Superior de Ingeniería Informática Máster Oficial en Ingeniería y Tecnología del Software TRABAJO FIN DE MÁSTER Una metaheurística para la extracción de reglas de asociación. Aplicación

Más detalles

LA MINERÍA DE DATOS EN LA EXTRACCIÓN DE CONOCIMIENTOS APLICADOS A PROBLEMAS RELACIONADOS CON LA EDUCACIÓN

LA MINERÍA DE DATOS EN LA EXTRACCIÓN DE CONOCIMIENTOS APLICADOS A PROBLEMAS RELACIONADOS CON LA EDUCACIÓN LA MINERÍA DE DATOS EN LA EXTRACCIÓN DE CONOCIMIENTOS APLICADOS A PROBLEMAS RELACIONADOS CON LA EDUCACIÓN Blanca Maricela Ibarra Murrieta, Ricardo Blanco Vega y María Angélica García Fierro Departamento

Más detalles

Introducción de la Propuesta

Introducción de la Propuesta Introducción de la Propuesta La evolución de la tecnología en los años recientes ha provocado cambios drásticos en muchas actividades y zonas geográficas, debido a que ha abierto nuevas posibilidades en

Más detalles

[ ] introducción. Desarrollo de un sistema de información con inteligencia de negocios para la oficina de egresados de la FUKL.

[ ] introducción. Desarrollo de un sistema de información con inteligencia de negocios para la oficina de egresados de la FUKL. [ ] resumen Se describe el Sistema de Información de Egresados (SIE) realizado como respuesta a una problemática de gestión y análisis de datos que se presentaba en la Oficina de Egresados de la Fundación

Más detalles

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source Inteligencia Artificial y Seguridad Informática en plataformas Open Source Jornadas de Software Libre y Seguridad Informática Santa Rosa La Pampa 4 y 5 de Diciembre de 2009 AGENDA Primera Parte Definiciones

Más detalles

ETL: Extractor de datos georreferenciados

ETL: Extractor de datos georreferenciados ETL: Extractor de datos georreferenciados Dr. Juan Pablo Díaz Ezcurdia Doctor Honoris Causa Suma Cum Laude Master en Telecomunicaciones Master en Gestión Educativa Coordinador de la comisión de CSIRT de

Más detalles

Alicia Iriberri Dirección de Tecnologías de Información. I.- Definición del foco estratégico

Alicia Iriberri Dirección de Tecnologías de Información. I.- Definición del foco estratégico Alicia Iriberri Dirección de Tecnologías de Información I.- Definición del foco estratégico II.- Establecimiento de mediciones a través del Balanced Scorecard (Tablero de Comando) III.- Despliegue del

Más detalles

MODELO PREDICTIVO DE DESERCIÓN ESTUDIANTIL

MODELO PREDICTIVO DE DESERCIÓN ESTUDIANTIL MODELO PREDICTIVO DE DESERCIÓN ESTUDIANTIL APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS Yegny Amaya, Edwin Barrientos, Universidad Francisco de Paula Santander, Colombia Diana Heredia Vizcaíno, Universidad

Más detalles

Introducción Qué es Minería de Datos?

Introducción Qué es Minería de Datos? Conceptos Básicos Introducción Qué es Minería de Datos? Extracción de información o de patrones (no trivial, implícita, previamente desconocida y potencialmente útil) de grandes bases de datos. Introducción

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

CATÁLOGO DE CURSOS. Centro de Prácticas y Capacitación Profesional

CATÁLOGO DE CURSOS. Centro de Prácticas y Capacitación Profesional CATÁLOGO DE CURSOS Centro de Prácticas y Capacitación Profesional Actual Solutions Actual Solutions, con el objeto de brindar un mejor servicio y complementar el esfuerzo en la integración de soluciones

Más detalles

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

METODOLOGÍA DE EXPLOTACIÓN DE INFORMACIÓN GESTOR DE DOCUMENTOS

METODOLOGÍA DE EXPLOTACIÓN DE INFORMACIÓN GESTOR DE DOCUMENTOS METODOLOGÍA DE EXPLOTACIÓN DE INFORMACIÓN GESTOR DE DOCUMENTOS Enrique Fernández 1,2 1 Centro de Ingeniería de Software e Ingeniería del Conocimiento. Escuela de Postgrado. Instituto Tecnológico de Buenos

Más detalles

v.1.0 Clase 1 Docente: Gustavo Valencia Zapata

v.1.0 Clase 1 Docente: Gustavo Valencia Zapata v.1.0 Clase 1 Docente: Gustavo Valencia Zapata Temas Clase 1: Introducción a la Inteligencia de Negocios Hitos y personajes Arquitectura de BI Evolución de la Información Inteligencia de Negocios (BI)

Más detalles

LA MINERÍA DE DATOS COMO HERRAMIENTA PARA LA TOMA DE DECISIONES ESTRATÉGICAS

LA MINERÍA DE DATOS COMO HERRAMIENTA PARA LA TOMA DE DECISIONES ESTRATÉGICAS 1 MINERÍA DE DATOS LA MINERÍA DE DATOS COMO HERRAMIENTA PARA LA TOMA DE DECISIONES Gustavo Adolfo Valencia Zapata (info@gustavovalencia.com) 2 LA MINERÍA DE DATOS COMO HERRAMIENTA PARA LA TOMA DE DECISIONES

Más detalles

Curso del Data Mining al Big Data

Curso del Data Mining al Big Data Curso del Data Mining al Big Data Instructor: Dr. Luis Carlos Molina Félix Presentación. Las bases de datos y los sistemas de administración de datos han jugado un papel primordial en el crecimiento y

Más detalles

IBM SPSS Modeler Professional

IBM SPSS Modeler Professional IBM SPSS Modeler Professional Características Cree estrategias más efectivas evaluando tendencias y resultados Acceda, prepare y cree modelos de datos estructurados fácilmente con este conjunto de programas

Más detalles

Minería de Datos. Abstract. Existencia de herramientas automáticas que no hacen necesario el ser un experto en estadística Potencia de computo

Minería de Datos. Abstract. Existencia de herramientas automáticas que no hacen necesario el ser un experto en estadística Potencia de computo Minería de Datos Óscar Palomo Miñambres Universidad Carlos III de Madrid Avda. De la Universidad, 30 28911, Leganés (Madrid-España) 100049074@alumnos.uc3m.es Abstract En este artículo analizaremos las

Más detalles

Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado

Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado 1. Introducción Unified Modeling Languaje Fuente: Booch- Jacobson-Rumbauch y diversos sitios Internet, entre otros:

Más detalles

Diploma en Business Analytics

Diploma en Business Analytics Diploma en Business Analytics JULIO 2010 FACULTAD DE INGENIERÍA Y CIENCIAS www.uai.cl Por qué un Diploma en Business Analytics? El análisis metódico e inteligente de datos es una actividad estratégica

Más detalles