INSTITUTO POLITÉCNICO NACIONAL

Tamaño: px
Comenzar la demostración a partir de la página:

Download "INSTITUTO POLITÉCNICO NACIONAL"

Transcripción

1 INSTITUTO POLITÉCNICO NACIONAL UNIDAD PROFESIONAL INTERDISCIPLINARIA DE INGENIERÍA Y CIENCIAS SOCIALES Y ADMINISTRATIVAS SECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN ESTUDIO DEL DESEMPEÑO DE MODELOS DE MINADO DE DATOS IMPLEMENTADOS CON SQL, FUNCIONES DEFINIDAS POR EL USUARIO Y FUNCIONES NATIVAS T E S I S QUE PARA OBTENER EL GRADO DE: MAESTRO EN CIENCIAS EN INFORMÁTICA PRESENTA: JAVIER LEÓN COTONIETO DIRECTOR DE TESIS: DR. JAVIER GARCÍA GARCÍA México D.F. Otoño de 2011

2

3

4 There are only two kinds of people who are really fascinating: people who know absolutely everything, and people who know absolutely nothing. The picture of Dorian Gray - Oscar Wilde Yo por desdicha nací sentenciada a investigar, a atormentarme, a pensar y a no aceptar el misterio; pero a mi humano criterio le está vedado el volar. Décimas a Dios Pita Amor Giudico che la fortuna sia arbitra della metà delle azioni nostre, ma che ce ne lasci governare l'altra metà. Il Principe - Niccolò Machiavelli Agradecimientos A todos los miembros del comité revisor y director de tesis. A mis papás, hermanos y amigos que con su simple presencia influyen en mi crecimiento personal y me motivan a seguirme superando. A mi amigo, cómplice, anima gemella y revisor de mi tesis: Aldo Jimenez Arteaga por su apoyo y sabios consejos para mejorar la estructura y contenido de este trabajo. Gracias por tantas conversaciones inspiradoras.

5 J.L.C Resumen Resumen A lo largo de este trabajo de tesis se explora y evalúa una nueva tendencia en cuanto a la aplicación de la minería de datos. Esta tendencia consiste en evitar que los datos salgan del sistema manejador de base de datos (SMBD), donde ya residen, y aplicar el análisis de minería dentro del propio SMBD. Bajo este enfoque se eliminan algunas tareas involucradas en la construcción de modelos de minería y se reduce el tiempo de procesamiento 1 de los datos. Existen otras ventajas inherentes al hecho de no sacar los datos del SMBD, por ejemplo, no se requiere aumentar el número de controles para administrar el acceso a los mismos.sin embargo, la alternativa para realizar análisis de minería dentro del SMBD se enfrentan a ciertas limitaciones del propio SMBD. El SMBD no provee soporte para ciertas operaciones necesarias en minería de datos (Ejemplo, operaciones con matrices). La mayoría de los SMBD proveen soporte a alguna versión del lenguaje de consulta SQL (lenguaje estructurado de consulta, por sus siglas en inglés), pero éste no fue diseñado para ejecutar eficientemente dichas operaciones. Se muestran los resultados de implementar algunas técnicas descritas en los artículos de investigación [1, 2, 3, 4]. En estos artículos se presentan propuestas para extender la funcionalidad del SMBD utilizando UDFs (funciones definidas por el usuario, por sus siglas en inglés) y combinar estas funciones con consultas SQL para construir algunos modelos de minado de datos dentro del SMBD. Así mismo, se proponen algunas adecuaciones a estas técnicas, y diseños propios para la implementación otras técnicas no cubiertas en estos artículos. Finalmente, se evalúa el desempeño de dichas técnicas en dos SMBD: Oracle (versión comercial) y PostgreSQL(de código libre), y se compara el desempeño de éstas técnicas contra una herramienta comercial llamada Oracle Data Mining (ODM) que soporta análisis de minería de datos dentro del sistema manejador Oracle. 1 Esto se logra al eliminar el tiempo de extracción e importación de los datos que se requiere para que una herramienta externa procese los datos (miles o millones de registros). SEPI-UPIICSA-M.C. Informática I

6 Abstract J.L.C Abstract Throughout this work it is explored and evaluated a new trend in the application of data mining. This trend consists in preventing the data from leaving the database management system (DBMS), where they already reside, and apply the data mining analysis inside the DBMS. Under this approach some tasks involved in the process of building data mining models are eliminated. As a result the time 2 required to process the data is shortened. There are other advantages inherent in the fact of not taking the data out of the DBMS, for example, it is not necessary to increase the number of controls to manage access to them. However, the alternative of mining within the DBMS face certain limitations of the DBMS. The DBMS does not provide support for certain operations necessary for data mining (for example, matrix operations). Most DBMS provide support to some version of the query language SQL (structured query language), but it was not designed to efficiently compute such operations. It shows the results of implementing some techniques described in research papers [1, 2, 3, 4]. On these papers there are proposals to extend the functionality of the DBMS using UDFs (user-defined functions) and combine these functions with SQL queries to build some data mining models within the DBMS. Also, It is proposed some adjustments to these techniques, and designs for implementing other techniques not covered in those papers. Finally, we evaluate the performance of these techniques in two DBMS: Oracle (commercial version) and PostgreSQL (open source), and this performance is compared against a commercial tool called Oracle Data Mining (ODM) that supports data mining analysis inside the Oracle DBMS. 2 This is achieved by eliminating the extraction and import time of the data that is required by an external data mining tool for processing the data (thousands or millions of records) SEPI-UPIICSA-M.C. Informática II

7 Índice general Introducción 1 1. Conceptos Generales Minería de Datos El Proceso de la Minería de Datos Clasificación de las Técnicas de Minería Niveles de Mediciones en los Datos Funciones de Minería de Datos a Evaluar Regresión Lineal Ejemplo de Regresión con Regresión Lineal K-Means Ejemplo de Agrupamiento con K-Means Naïve-Bayes Ejemplo de Clasificación con NB Apriori III

8 Contenido J.L.C Ejemplo de Reglas de Asociación con Apriori Regresión Logística Ejemplo de Clasificación Binaria con Regresión Logística Funciones Definidas por el Usuario Generalidades de las UDFs Clasificación de UDFs UDFs en Oracle Manejo de Memoria Dinámica UDFs en PostgreSQL Ventajas y Desventajas de las UDFs Funcionamiento de Oracle Data Mining Introducción a Oracle Data Mining El Paquete DBMS DATA MINING El Paquete DBMS DATA TRANSFORM Funciones de Oracle para Manipular Modelos de Minería de Datos Ejemplo: Construcción de Modelo en ODM Crear la Tabla de Datos Definir Valores de Configuración para el Modelo Construir el Modelo Experimentación 81 SEPI-UPIICSA-M.C. Informática IV

9 J.L.C Contenido 5.1. Modelos de Regresión con Regresión Lineal Implementación Pruebas de Desempeño Modelos de Agrupamiento con K-Means Implementación Pruebas de Desempeño Modelos de Clasificación con Naïve Bayes Implementación Pruebas de Desempeño Modelos de Reglas de Asociación con Apriori Implementación Pruebas de Desempeño Conclusiones 117 Anexo A. Especificaciones de Software y Hardware Utilizado 127 SEPI-UPIICSA-M.C. Informática V

10

11 Índice de figuras 1.1. Relación de la minería de datos con algunas disciplinas Fases de un proyecto de Minería de Datos de acuerdo a la metodología CRISP-DM.[14] Algunos algoritmos para crear modelos de minería de datos Niveles de Medición Características de los 4 niveles de medición Ejemplos de diferentes niveles de medición Datos para construir un modelo de regresión lineal Datos de clientes de una compañía de seguros Representación gráfica de los grupos en WEKA Comparación de un modelo de regresión lineal y logístico Datos para construir un modelo de regresión logística Construcción y operaciones con matrices para estimar un vector de coeficientes de regresión B Valor de probabilidad obtenida en modelos intermedios VII

12 Contenido J.L.C 2.8. Valores de los coeficientes en cada iteración (paso) Tabla y gráficas del desempeño (en segundos) del algoritmo de RL implementado en Oracle para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de RL implementado en PostgreSQL para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de RL de la herramienta ODM para diversos valores de escalamiento de n y d Ejemplo de representación horizontal y vertical de datos Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en Oracle para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en PostgreSQL para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means de la herramienta ODM para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en Oracle para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en PostgreSQL para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means de la herramienta ODM para diversos valores de escalamiento de n y d Transformación a formato especial (binaria) de los 2 formatos de datos de entrada soportados por la implementación de Apriori SEPI-UPIICSA-M.C. Informática VIII

13 J.L.C Contenido Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en Oracle para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en PostgreSQL para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means de la herramienta ODM para diversos valores de escalamiento de n y d Sistema Operativo Utilizado SEPI-UPIICSA-M.C. Informática IX

14

15 Introducción La minería de datos es una tecnología que nos permite extraer conocimiento a partir de un conjunto de datos. El conocimiento, que potencialmente se puede extraer, está implícito en los datos, y por ello, la extracción de dicho conocimiento se convierte en una tarea no trivial. Para poder extraer el conocimiento, la minería de datos ha heredado técnicas de diversas disciplinas para poder construir modelos que resuelven problemas de clasificación, regresión, agrupamiento (clustering), reglas de asociación, etc. Con ayuda de los modelos creados se pueden caracterizar (describir/predecir) los datos. Este proceso nos permitirá, paulatinamente, encontrar los patrones ocultos en ellos. Para realizar análisis de minería de datos, comúnmente, se requiere que los datos deban ser importados a una herramienta capaz de realizar dicho análisis. Hoy en día, la información de las organizaciones se encuentra almacenada en diversas bases de datos (fuentes) y es común que se construya un almacén de datos (data warehouse) para concentrar la información de toda la organización. Estos almacenes de datos son una fuente rica en conocimiento para la minería de datos, ya que los modelos creados a partir de un conjunto de datos suficientemente representativo tendrán un mejor valor de confianza para ayudar adescribircomportamiento,yencontrarrelaciones ocultas enlosdatos. 1

16 Introducción J.L.C Objetivos 1. Instrumentar algoritmos de minería de datos usando SQL (lenguaje estructurado de consulta, por sus siglas en inglés) y UDFs (funciones definidas por el usuario, por sus siglas en inglés) en los sistemas manejadores de bases de datos (SMBDs) Oracle ypostgresql,usandolastécnicaspropuestasen[3,4,2]. 2. Explorar alternativas para implementar algoritmos de minado de datos no cubiertos en los artículos [3, 4, 2]. 3. Comparar los algoritmos implementados, en relación a su tiempo de ejecución, entre ambos SMBDs y en Oracle contra los algoritmos incluidos en la herramienta de minería de datos ODM (oracle data mining). 4. De acuerdo a los resultados de la evaluación experimental concluir qué implementación es la más eficiente, y en su caso, establecer escenarios en los que será más conveniente el uso de cada una de ellas. Planteamiento del Problema Existen muchos estudios que proponen alternativas diferentes para realizar análisis estadístico de grandes cantidades de datos. De acuerdo a [3, 1] el problema de la implementación de funciones estadísticas que manipulen matrices 3 se puede resolverse básicamente de 4 formas: 1. No realizar las operaciones de matrices dentro del SMBD y exportar los registros a una herramienta externa de minería de datos. 2. Integrar todas las operaciones de matrices dentro del SMBD haciendo modificaciones al código fuente del mismo. 3. Ejecutar todas las operaciones de matrices sólo con consultas SQL considerando las matrices como tablas relacionales. 3 Asumiendo que la matriz está almacenada en un SMBD SEPI-UPIICSA-M.C. Informática 2

17 J.L.C Introducción 4. Ejecutar las operaciones combinando SQL y UDFs. En [3] se menciona que se ha hecho mucha investigación en algoritmos de éste tipo, pero que en su mayoría trabajan fuera del SMBD, procesando archivos planos. Oracle Data Mining (ODM) [5] es una herramienta de minería de datos integrada en el SMBD Oracle. Los algoritmos de ODM operan nativamente en tablas o vistas relacionales. Esto permite que la ejecución del proceso de minería de datos se haga directamente en la base de datos, eliminando el costo de exportar la información para que sea analizada por una herramienta de manera externa. De acuerdo a [5], ODM trabaja nativamente en el SMBD y de manera similar las soluciones propuestas en [3, 4, 2] describen técnicas para ejecutar algoritmos de minería de datos dentro del SMBD, haciendo uso de SQL y UDFs. Al crear modelos de minado de datos dentro del SMBD se obtiene una disminución de tiempo, debido a la eliminación del costo de extracción e importación de los datos a una herramienta externa al SMBD. Así mismo, se mantiene sin cambios la seguridad de los datos (los datos no saldrán del SMBD y el acceso a los mismos sigue resguardado éste) y los datos estarán actualizados para realizar el análisis en el momento deseado. El objetivo de la evaluación experimental es determinar si los resultados obtenidos en [3, 4, 2] son válidos también en los SMBDs Oracle y PostgreSQL, así como determinar si la herramienta ODM (módulo opcional y de costo extra 4 )esmejoralassoluciones propuestas en [3, 4, 2]. 4 ODM (USD 23,000 por procesador) es módulo opcional para la versión Enterprise Edition de Oracle 11g (USD 47,500 por procesador)[6]. SEPI-UPIICSA-M.C. Informática 3

18 Introducción J.L.C Trabajos Relacionados Entre los trabajos relacionados al estudio propuesto se pueden mencionar los siguientes: 1. El artículo [1] habla sobre la implementación de técnicas descritas en [2, 3] y menciona la aplicación de dichas técnicas en una herramienta de minería de datos comercial llamada Teradata Warehouse Miner. 2. El articulo [2] analiza las características y limitaciones de implementar operaciones sobre vectores y matrices con UDFs. Muestra que las UDFs son más rápidas que funciones de agregación en SQL estándar e igual de rápidas que expresiones aritméticas en SQL. 3. El artículo [3] propone técnicas para calcular de manera eficiente 5 modelos estadísticos fundamentales dentro de un SMBD, explotando funciones definidas por el usuario. Las técnicas incluyen la definición de dos matrices fundamentales para los 5 modelos, y propone cómo construir dichas matrices a partir de consultas SQL y UDFs con sólo una lectura de los datos de entrada. Las técnicas propuestas son comparadas experimentalmente contra C++ que realiza el análisis sobre archivos planos. De acuerdo a los resultados de la comparación experimental, el autor concluye que las UDFs son mas rápidas que las consultas SQL y sólo un poco mas lentas a C++. Pero considerando el tiempo requerido para extraer los datos, C++ es mucho más lento que las UDFs. 4. Los artículos [4, 7] hablan sobre implementaciones de 2 algoritmos de minería de datos de agrupamiento (K-Means y EM) usando SQL. Justificación de la Tesis El proceso de análisis de minería de datos es por sí mismo un proceso costoso ya que debe manipular una gran cantidad de datos. Por ello resulta muy importante saber qué alternativa (ver objetivos) es la mejor en cuanto a desempeño. Considerando que de acuerdo SEPI-UPIICSA-M.C. Informática 4

19 J.L.C Introducción a [7, 8, 9] sólo pocas propuestas han abordado el problema de la integración de minería de datos en el SMBD resulta interesante la comparación entre ODM y la propuesta de UDFs hecha en [3]. Los resultados de la comparación pueden tener varias implicaciones, por ejemplo: Si las funciones nativas de ODM tienen el mejor desempeño, la evaluación puede servir como apoyo para justificar un nuevo paradigma de minería de datos embebido en el SMBD. Si las funciones nativas de ODM y UDFs tienen resultados semejantes. UDFs será una excelente alternativa para ejecutar análisis de minería de datos dentro del SMBD ya que la mayoría de los SMBD modernos cuentan con soporte de UDFs. Los resultados de la evaluación experimental del desempeño de las propuestas anteriores resultarán muy interesantes, ya que servirán como apoyo para determinar qué alternativa es la que tiene mejores resultados en una implementación de análisis de minería de datos dentro del SMBD. Alcances y Limitaciones El presente trabajo mostrará los resultados de la evaluación del desempeño de modelos de minado de datos construidos con SQL y UDFs en los SMBDs Oracle y PostgreSQL. También se evaluará el desempeño de modelos construidos con ODM en el SMBD Oracle. Para las evaluaciones se utilizará una base de datos sintética 5.Paraquelosresultados sean representativos, la evaluación se hará sobre una arquitectura idéntica 6 para los 2 SMBDs. La generalización de los resultados en otras arquitecturas está fuera del alcance de ésta investigación. 5 Una base de datos sintética es un conjunto de datos previamente generados de manera artificial para hacer pruebas de desempeño. Ver el capítulo 5 para el detalle de las bases de datos sintéticas utilizadas 6 En el Anexo 5.4.2, se puede consultar el detalle de hardware y configuración del software utilizado. SEPI-UPIICSA-M.C. Informática 5

20 Introducción J.L.C Debido a que los estudios hechos en [3, 2, 4] han arrojado resultados que indican que las implementaciones con UDFs son muy eficientes, una comparación interesante y poco estudiada es entre funciones nativas de una herramienta comercial (ODM) y la combinación de SQL con UDFs. Con estas 3 comparaciones (SQL, UDF y ODM) se podrá tener una perspectiva más amplia sobre el desempeño del análisis de minería de datos dentro del SMBD. Se hará la evaluación experimental de los siguientes algoritmos de minería de datos bien conocidos: 1. Regresión: Regresión lineal (linear regression). 2. Agrupamiento (clustering): K-Means. 3. Clasificación: Naïve Bayes. 4. Reglas de asociación: Apriori. 5. Clasificación binaria: Regresión Logística (logistic regression). Estructura del Trabajo El trabajo está dividido en 5 capítulos. El capítulo 1 contiene el marco teórico relacionado con la minería de datos. Este capítulo servirá como introducción para aquellos lectores poco familiarizados con esta tecnología. En el capítulo 2 se describen los algoritmos de minería de datos que serán implementados y de los cuales se hará la evaluación de desempeño. Para ayudar a que el lector comprenda el funcionamiento de cada algoritmo, se incluye un ejemplo que muestra el funcionamiento y los resultados que se obtienen al ejecutar cada algoritmo sobre un conjunto de datos simple. En el capítulo 3 se explica cómo implementar funciones definidas por el usuario en Oracle y PostgreSQL. El uso de UDFs es importante ya que las implementaciones de los algoritmos de minado de datos, SEPI-UPIICSA-M.C. Informática 6

21 J.L.C Introducción que se exponen en este trabajo, hacen uso en mayor o menor medida de esta alternativa para poder extender la funcionalidad del SMBD y lograr construir los modelos de minado dentro del SMBD. El capítulo 4 presenta una introducción al manejo del módulo de ODM para construir modelos de minado de datos a partir de la API (interfaz de programación de aplicaciones, por sus siglas en inglés) para PL/SQL que dispone. El capítulo 5 es el capítulo fundamental de este trabajo de tesis, en él se describen los detalles más importantes de la implementación de cada algoritmo, así como varios de los problemas encontrados durante la implementación y la evaluación de los mismos. Finalmente, se muestra el detalle de desempeño (tiempo de ejecución) de los algoritmos implementados en Oracle y PostgreSQL, así como la comparación en el desempeño de estos algoritmos con su versión equivalente en ODM. Las pruebas de desempeño incluyen diferentes niveles de escalamiento para ver cómo cambia el comportamiento del algoritmo con distintos tamaños de datos de estrada. En un último apartado se explican las conclusiones del trabajo yselistanunaseriedeposiblestrabajosfuturosquepudierandefinirseenfuncióndelos resultados obtenidos en esta investigación. En los anexos se pueden consultar el detalle de versiones y configuración de la plataforma donde se realizaron las pruebas de desempeño, partes del código fuente de los algoritmos de minería de datos implementados, así como algunos ejemplos para la invocación de los mismos y sus equivalentes en ODM. SEPI-UPIICSA-M.C. Informática 7

22

23 Capítulo 1 Conceptos Generales En este capítulo se muestra un panorama general de las disciplinas y temas relacionados con este trabajo de tesis. Se debe considerar que no se pretende explicar con amplio detalle cada uno de los temas, pero de ser necesario se pueden consultar las referencias propuestas en cada sección para un estudio más profundo. La necesidad de definir a la minería de datos, las disciplinas relacionadas y las diversas formas en las que puede estar representada la información (niveles de medición), surge por la importancia de comprender el contexto dentro del cual se desarrollará el presente trabajo, y con ello se entiendan los alcances y resultados del trabajo que se exponen a lo largo del capítulo 5 y las conclusiones. 9

24 Capítulo 1. Conceptos Generales J.L.C 1.1. Minería de Datos 1 La minería de datos es una disciplina cuyo objetivo primordial es la extracción de conocimiento a partir de un conjunto de datos. Este conocimiento es desconocido a priori, sin embargo, es potencialmente útil. La extracción de dicho conocimiento no es una actividad trivial debido a que éste se encuentra implícito en los de datos. El conocimiento extraído es útil, si ha sido obtenido a partir de un conjunto de datos válido y lo suficientemente representativo. Es común que el conjunto de datos utilizado como base para extraer conocimiento, a través de la utilización de técnicas de minería de datos, sea un almacén de datos (data warehouse) con la información histórica de ciertas transacciones de una organización. Esto implica que uno de los problemas importantes de la minería de datos sea el manejo de grandes cantidades de registros (elementos/puntos) con muchos atributos (dimensiones). El conocimiento que nos ayuda a descubrir la minería de datos se encuentra implícito en los datos, por lo que sería muy difícil extraerlo con técnicas comunes de reporteo. Es por ello que, las técnicas de minería de datos surgieron por la necesidad de extraer el conocimiento contenido en bases de datos. Hoy en día es común ver que el tamaño de las bases de datos, utilizadas por todo tipo de organizaciones, se ha incrementado notablemente gracias a los avances en el manejo, capacidad y precio de los medios de almacenamiento físico. El reto actual, por tanto, es contar con herramientas que puedan Figura 1.1: Relación de la minería de datos con algunas disciplinas. 1 Se puede consultar [10, 11, 12, 13] para mayor detalle del tema. SEPI-UPIICSA-M.C. Informática 10

25 J.L.C Capítulo 1. Conceptos Generales explotar eficientemente la información contenida en dichas bases de datos. La minería de datos se desarrolló heredando técnicas de otras disciplinas y en realidad existen pocas técnicas que hayan sido desarrolladas específicamente para minería de datos. Dentro de las disciplinas de las cuales la minería de datos ha adoptado técnicas podemos mencionar a la estadística, la inteligencia artificial, el aprendizaje automático y las bases de datos, entre otras. La importancia de la minería de datos, en el mundo empresarial, está en el hecho de que el conocimiento que es factible extraer de las bases de datos (que en muchos casos representan el registro de muchos años de operación) puede ser traducido en estrategias de negocio, por ejemplo: incrementar los clientes, las ventas o las utilidades; descubrir nuevos nichos de mercado; crear productos nuevos o personalizarlos de acuerdo a las características de y necesidades de sus clientes, etc. Es importante señalar que la minería de datos también es utilizada en diversas áreas de investigación como la biología, genética, meteorología y áreas de ingeniería en general. Por ejemplo, para encontrar patrones que se encuentran en los datos recolectados por un experimento de un laboratorio. Podemos concluir que la minería de datos se vuelve muy importante en un entorno donde la acumulación de información crece a un ritmo muy acelerado, y existe la necesidad de extraer el conocimiento implícito en esas colecciones de datos. Hoy en día existen un gran número de herramientas que ayudan a aplicar estas técnicas de minería de datos; se les encuentra en soluciones empresariales y de pago, así como muchas propuestas en el ámbito del software libre y de código abierto. Aunque las herramientas existentes en el mercado son muy buenas, y se ha hecho un gran trabajo en la optimización y modificación de las técnicas heredadas de otras disciplinas para facilitar su uso en minería de datos, hay temas que hoy en día resultan de suma importancia plantear. Muchas de las herramientas existentes requieren que la información sea exportada (comúnmente en archivos planos o con un formato propio de la herramienta) SEPI-UPIICSA-M.C. Informática 11

26 Capítulo 1. Conceptos Generales J.L.C para que pueda ser manipulada por la herramienta de minería. Éste proceso implica principalmente un consumo de tiempo considerable ya que estamos hablando de bases de datos de un gran volumen. Considerando que el proceso de análisis de minería es un proceso dinámico y que muchas veces requiere que se vayan probando diferentes escenarios para los datos (mas dimensiones, diferentes combinaciones, cambiar parámetros del análisis, etc) o bien aplicar el modelo, previamente creado, a nuevos datos (scoring) para evaluar su efectividad, implicará que durante estos ciclos la información deba ser importada y exportada a la herramienta deseada cada vez que los datos hayan cambiado obienhastaobtenerunmodeloquesealosuficientementeconsistente. Alolargodeloscapítulos3y5seabordaránlosbeneficiosdeintegrarlastécnicasde minería de datos para que sean ejecutadas dentro del sistema manejador de base de datos (SMBD). Se presentan los resultados obtenidos al evaluar el desempeño de algunos algoritmos y se comparan con una herramienta comercial llamada Oracle Data Mining (ODM). Esta herramienta es una de las pocas herramientas integradas al propio SMBD, aunque debido a su precio no estaría al alcance de empresas medianas o centros de investigación con presupuesto limitado. SEPI-UPIICSA-M.C. Informática 12

27 J.L.C Capítulo 1. Conceptos Generales 1.2. El Proceso de la Minería de Datos 2 Para aplicar la minería de datos es necesario reconocer que se necesitan algunos elementos mínimos, sin los cuales, los resultados obtenidos por un proceso de minería de datos pueden ser poco útiles dando como resultado que la inversión asignada a un proyecto de minería de datos no se justifique con los resultados obtenidos. Para minimizar el riesgo de que esto ocurra, el proyecto de minería de datos debe identificar y definir (o adecuar) los elementos que intervienen en el proyecto. Por ejemplo: Datos. Es un elemento fundamental y se debe considerar todo lo necesario para almacenar y procesar un gran volumen de los mismos. Los datos serán la materia prima para construir y aplicar modelos de minado de datos. Usuarios. Son todas aquellas personas que intervengan en el proceso de minería. Se deben considerar desde los especialistas (técnicos) y analistas (minero de datos) hasta los consumidores o beneficiados por los resultados. Los usuarios no se limitan a personas individuales pueden tomar este papel áreas completas de una organización u otros sistemas de información. Metodología. Es importante adoptar una metodología que permita identificar los objetivos del negocio. La metodología debe guiar las actividades a lo largo del proyecto para asegurar el logro de los objetivos del proyecto. Herramientas de Minería Se refiere propiamente a las técnicas de minería de datos (ver sección 1.3) así como a herramientas que ayuden a validar los modelos construidos, por ejemplo, validación cruzada (cross validation 3 ). Para estas herramientas, una 2 Para mayor información se puede consultar [12, 13] 3 Cross Validation es una técnica utilizada para validar la fortaleza de un modelo. El proceso consiste en dividir el conjunto de datos de entrenamiento en n particiones. Se debe aplicar el modelo a cada partición y cada vez que se aplica el modelo a una partición, el resultado se valida con el resto de los datos. En cada ciclo se mide el error y al final se obtiene un promedio del mismo. SEPI-UPIICSA-M.C. Informática 13

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

Informática II Ing. Industrial. Data Warehouse. Data Mining

Informática II Ing. Industrial. Data Warehouse. Data Mining Data Warehouse Data Mining Definición de un Data Warehouses (DW) Fueron creados para dar apoyo a los niveles medios y altos de una empresa en la toma de decisiones a nivel estratégico en un corto o mediano

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Arquitectura para análisis de información. Zombi es una arquitectura que proporciona de manera integrada los componentes

Arquitectura para análisis de información. Zombi es una arquitectura que proporciona de manera integrada los componentes Capítulo 4 Arquitectura para análisis de información propuesta 4.1 Arquitectura Zombi es una arquitectura que proporciona de manera integrada los componentes necesarios para el análisis de información

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3 Capítulo 3 1. Introducción El análisis de regresión lineal, en general, nos permite obtener una función lineal de una o más variables independientes o predictoras (X1, X2,... XK) a partir de la cual explicar

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

APOYO PARA LA TOMA DE DECISIONES

APOYO PARA LA TOMA DE DECISIONES APOYO PARA LA TOMA DE DECISIONES Cátedra: Gestión de Datos Profesor: Santiago Pérez Año: 2006 Bibliografía: Introducción a las Bases de Datos. DATE - 1 - 1. INTRODUCCION APOYO PARA LA TOMA DE DECISIONES

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

UNIVERSIDAD ALBERT EINSTEIN FACULTAD DE INGENIERIA

UNIVERSIDAD ALBERT EINSTEIN FACULTAD DE INGENIERIA UNIVERSIDAD ALBERT EINSTEIN FACULTAD DE INGENIERIA Estudio de las herramientas TOAD y DBArtisan para la administración e integración de bases de datos relacionales. PREVIA OPCION AL TÍTULO DE: INGENIERO

Más detalles

Inteligencia de Negocios Introducción. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Inteligencia de Negocios Introducción. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Inteligencia de Negocios Introducción Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Agenda 1.Introducción 2.Definición 3.ETL 4.Bodega de Datos 5.Data Mart

Más detalles

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productivity in Construction Companies: Knowledge acquired from the databases Hernando Camargo Mila, Rogelio Flórez

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Habilidades y Herramientas para trabajar con datos

Habilidades y Herramientas para trabajar con datos Habilidades y Herramientas para trabajar con datos Marcelo Ferreyra X Jornadas de Data Mining & Business Intelligence Universidad Austral - Agenda 2 Tipos de Datos Herramientas conceptuales Herramientas

Más detalles

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA M.ª del Pilar Cantero Blanco Jefa de Servicio de Sistemas Informáticos. Subdirección General de Planificación

Más detalles

Programación en Capas.

Programación en Capas. Programación en Capas. Ricardo J. Vargas Del Valle Universidad de Costa Rica, Ciencias de Computación e Informática, San José, Costa Rica, 506 ricvargas@gmail.com Juan P. Maltés Granados Universidad de

Más detalles

Identificación fácil de los clientes adecuados

Identificación fácil de los clientes adecuados PASW Direct Marketing 18 Especificaciones Identificación fácil de los clientes adecuados Sabemos que le gustaría que sus programas de marketing sean lo más rentables posible y sabemos que conocer la información

Más detalles

República Bolivariana de Venezuela Ministerio Popular de Educación y Deportes UNEFA Cátedra: Base de Datos Unidad I. Introducción

República Bolivariana de Venezuela Ministerio Popular de Educación y Deportes UNEFA Cátedra: Base de Datos Unidad I. Introducción República Bolivariana de Venezuela Ministerio Popular de Educación y Deportes UNEFA Cátedra: Base de Datos Unidad I. Introducción Dato: Hecho o valor a partir del cual se puede inferir una conclusión.

Más detalles

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA Pablo F. Provasi 1 Lucio J. Kleisinger 1 Francisco R. Villatoro 2 1 Dpto. de Informática, Universidad

Más detalles

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA PF-3808 Minería de Datos II Semestre del 2009 Profesor: Dr. Francisco J. Mata (correo: fmatach@racsa.co.cr;

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 14-I. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 24

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería

Más detalles

WebRatio. Otro camino para el BPM. Web Models s.r.l. www.webratio.com contact@webratio.com 1 / 8

WebRatio. Otro camino para el BPM. Web Models s.r.l. www.webratio.com contact@webratio.com 1 / 8 WebRatio Otro camino para el BPM Web Models s.r.l. www.webratio.com contact@webratio.com 1 / 8 El BPM El BPM (Business Process Management) no es solo una tecnología, además a grandes rasgos es una disciplina

Más detalles

Data Warehousing - Marco Conceptual

Data Warehousing - Marco Conceptual Data Warehousing - Marco Conceptual Carlos Espinoza C.* Introducción Los data warehouses se presentan como herramientas de alta tecnología que permiten a los usuarios de negocios entender las relaciones

Más detalles

Capítulo 1. Introducción. 1.1. Antecedentes

Capítulo 1. Introducción. 1.1. Antecedentes Capítulo 1. Introducción En este capítulo se presenta una descripción general del problema a investigar y el enfoque con el que se aborda. Se establece la necesidad de incorporar técnicas de análisis novedosas

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

Alicia Iriberri Dirección de Tecnologías de Información. I.- Definición del foco estratégico

Alicia Iriberri Dirección de Tecnologías de Información. I.- Definición del foco estratégico Alicia Iriberri Dirección de Tecnologías de Información I.- Definición del foco estratégico II.- Establecimiento de mediciones a través del Balanced Scorecard (Tablero de Comando) III.- Despliegue del

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

Sistemas de Información para la Gestión. UNIDAD 2: RECURSOS DE TI Información y Aplicaciones

Sistemas de Información para la Gestión. UNIDAD 2: RECURSOS DE TI Información y Aplicaciones UNIDAD 2: RECURSOS DE TI Información y Aplicaciones UNIDAD 2: RECURSOS DE TI Información y Aplicaciones 1. La Información: Propiedades de la Información. Sistemas de Información. Bases de Datos. 2. Administración

Más detalles

Botón menú Objetivo de la Minería de datos.

Botón menú Objetivo de la Minería de datos. Titulo de Tutorial: Minería de Datos N2 Botón menú: Introducción. Las instituciones y empresas privadas coleccionan bastante información (ventas, clientes, cobros, pacientes, tratamientos, estudiantes,

Más detalles

BASE DE DATOS RELACIONALES

BASE DE DATOS RELACIONALES BASE DE DATOS RELACIONALES Una base de datos relacional es una base de datos que cumple con el modelo relacional, el cual es el modelo más utilizado en la actualidad para implementar bases de datos ya

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos

Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos Britos, P. 1,2 ; Fernández, E. 2,1 ; García Martínez, R 1,2 1 Centro de Ingeniería del Software e Ingeniería del Conocimiento.

Más detalles

Inteligencia de Negocio

Inteligencia de Negocio UNIVERSIDAD DE GRANADA E.T.S. de Ingenierías Informática y de Telecomunicación Departamento de Ciencias de la Computación e Inteligencia Artificial Inteligencia de Negocio Guión de Prácticas Práctica 1:

Más detalles

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida Por: Prof. Elena del C. Coba Encuestas y estudios aplicados al VIH/sida Definir la fuente de los datos: Datos

Más detalles

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Introducción Las Compañías aseguradoras determinan sus precios basadas en modelos y en información histórica

Más detalles

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source Inteligencia Artificial y Seguridad Informática en plataformas Open Source Jornadas de Software Libre y Seguridad Informática Santa Rosa La Pampa 4 y 5 de Diciembre de 2009 AGENDA Primera Parte Definiciones

Más detalles

Redes de Kohonen y la Determinación Genética de las Clases

Redes de Kohonen y la Determinación Genética de las Clases Redes de Kohonen y la Determinación Genética de las Clases Angel Kuri Instituto Tecnológico Autónomo de México Octubre de 2001 Redes Neuronales de Kohonen Las Redes de Kohonen, también llamadas Mapas Auto-Organizados

Más detalles

A partir de este capítulo se introducen términos, probablemente nuevos para el

A partir de este capítulo se introducen términos, probablemente nuevos para el CAPITULO 3. PSP 0 Y PSP 0.1 A partir de este capítulo se introducen términos, probablemente nuevos para el lector que tienen que ver en su totalidad con PSP. También se dan a conocer los formatos, "scripts

Más detalles

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio Hidrocarburos: Análisis de Pablo Burgos Casado (Jefe de Área Desarrollo (SGTIC - MITYC)) María Teresa Simino Rueda Rubén Pérez Gómez Israel Santos Montero María Ángeles Rodelgo Sanchez 1. INTRODUCCIÓN

Más detalles

Capítulo 1. Introducción

Capítulo 1. Introducción Capítulo 1. Introducción El WWW es la mayor fuente de imágenes que día a día se va incrementando. Según una encuesta realizada por el Centro de Bibliotecas de Cómputo en Línea (OCLC) en Enero de 2005,

Más detalles

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases

Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Naive Bayes Multinomial para Clasificación de Texto Usando un Esquema de Pesado por Clases Emmanuel Anguiano-Hernández Abril 29, 2009 Abstract Tratando de mejorar el desempeño de un clasificador Naive

Más detalles

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo 1 Algoritmos de minería de datos incluidos en SQL Server 2008 Los algoritmos que aquí se presentan son: Árboles de decisión de Microsoft, Bayes naive de Microsoft, Clústeres de Microsoft, Serie temporal

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

Álgebra lineal. Stanley I. Grossman. Esta sexta edición de Álgebra lineal ofrece nuevas características, y conserva la

Álgebra lineal. Stanley I. Grossman. Esta sexta edición de Álgebra lineal ofrece nuevas características, y conserva la Álgebra lineal Stanley I. Grossman Esta sexta edición de Álgebra lineal ofrece nuevas características, y conserva la estructura ya probada y clásica que tenía la quinta edición. Los estudiantes aprenden

Más detalles

Pero que es el Data Mining? Como esta tecnología puede resolver los problemas diarios de las organizaciones? Cuál es el ciclo de vida de un DM?

Pero que es el Data Mining? Como esta tecnología puede resolver los problemas diarios de las organizaciones? Cuál es el ciclo de vida de un DM? Introducción En vista de los comentarios y sugerencias que nos hicieron, via mail y por chat, sobre la posibilidad de la creación de nuevo conocimiento, he creido conveniente introducir el tema Data Mining

Más detalles

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos Published on Dataprix (http://www.dataprix.com) Principal > Artículos de Minería de Datos de Dataprix By Dataprix Created 26/12/2009-17:13 Artículos de Minería de Datos de Dataprix Introducción a la minería

Más detalles

Ingeniería de Software

Ingeniería de Software Ingeniería de Software MSDN Ingeniería de Software...1 Ingeniería del Software_/_ Ingeniería y Programación...1 Análisis de Requerimientos...2 Especificación...3 Diseño...4 Desarrollo en Equipo...5 Mantenimiento...6

Más detalles

Inicio de MO Inicio de MD Inicio de MF. Documento de Análisis. Base de datos de las especificaciones OMT. MO, MD, MF Detallados. Librería de Clases

Inicio de MO Inicio de MD Inicio de MF. Documento de Análisis. Base de datos de las especificaciones OMT. MO, MD, MF Detallados. Librería de Clases 3.2 TÉCNICA DE MODELADO DE OBJETOS (OMT) (JAMES RUMBAUGH). 3.2.1 Introducción. En este documento se trata tanto el OMT-1 como el OMT-2, el primero contenido en el Libro Modelado y Diseño Orientado (Metodología

Más detalles

Métodos y Diseños utilizados en Psicología

Métodos y Diseños utilizados en Psicología Métodos y Diseños utilizados en Psicología El presente documento pretende realizar una introducción al método científico utilizado en Psicología para recoger información acerca de situaciones o aspectos

Más detalles

BIG DATA. Jorge Mercado. Software Quality Engineer

BIG DATA. Jorge Mercado. Software Quality Engineer BIG DATA Jorge Mercado Software Quality Engineer Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A Big Data - Introducción Que es Big Data? Big data es el termino

Más detalles

Diseño del Sistema de Información

Diseño del Sistema de Información Diseño del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS...2 ACTIVIDAD DSI 1: DEFINICIÓN DE LA ARQUITECTURA DEL SISTEMA...7 Tarea DSI 1.1: Definición de Niveles de Arquitectura...9 Tarea DSI 1.2:

Más detalles

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS Por qué es importante la Minería de Datos? 2 La Minería de Datos es un proceso que permite obtener conocimiento a partir de los datos

Más detalles

Software generador de documentos a través de la Web

Software generador de documentos a través de la Web Julia Patricia Melo Morín 1 Software generador de documentos a través de la Web 1 Contacto: patricia.melo@itspanuco.edu.mx Resumen Uno de los mayores problemas a los que se enfrentan las grandes corporaciones

Más detalles

Tema 1 Introducción a la Ingeniería de Software

Tema 1 Introducción a la Ingeniería de Software Tema 1 Introducción a la Ingeniería de Software Curso Ingeniería de Software UMCA Profesor Luis Gmo. Zúñiga Mendoza 1. Software En la actualidad todo país depende de complejos sistemas informáticos. Podemos

Más detalles

ANÁLISIS DISCRIMINANTE

ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE 1. Introducción 2. Etapas 3. Caso práctico Análisis de dependencias introducción varias relaciones una relación 1 variable dependiente > 1 variable dependiente

Más detalles

INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer

INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer En los últimos años, el interés por la Computación en la Nube (Cloud Computing), tanto para uso personal como para negocios,

Más detalles

PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN.

PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN. PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN. Objetivo: Al final de la unidad el alumno comprenderá la presencia de estas herramientas informáticas (programas Datamining))

Más detalles

CA ERwin Data Profiler

CA ERwin Data Profiler RESUMEN DEL PRODUCTO: CA ERWIN DATA PROFILER CA ERwin Data Profiler CA ERWIN DATA PROFILER AYUDA A LAS ORGANIZACIONES A REDUCIR LOS COSTOS Y RIESGOS ASOCIADOS CON LA INTEGRACIÓN DE DATOS, AL BRINDAR CAPACIDADES

Más detalles

PROGRAMACIÓN BÁSICA DE LA COMPUTADORA. 1 Introducción. Tabla 1: Instrucciones MIPS

PROGRAMACIÓN BÁSICA DE LA COMPUTADORA. 1 Introducción. Tabla 1: Instrucciones MIPS PROGRAMACIÓN BÁSICA DE LA COMPUTADORA 1 Introducción Un sistema de computadora total incluye tanto circuitería (hardware) como programación (software). El hardware consta de los componentes físicos y todo

Más detalles

CAPÍTULO V PROPUESTA DE LA SOLUCIÓN

CAPÍTULO V PROPUESTA DE LA SOLUCIÓN CAPÍTULO V PROPUESTA DE LA SOLUCIÓN 5.1 Introducción En los últimos tres años la entidad financiera ha venido sufriendo cambios que le han permitido crecer y pasar de ser una Sociedad Financiera a un Banco

Más detalles

INTRODUCCION A LAS BASES DE DATOS ESPACIALES

INTRODUCCION A LAS BASES DE DATOS ESPACIALES INTRODUCCION A LAS BASES DE DATOS ESPACIALES Índice Introducción Qué es un SIG? Arquitectura de un SIG La información n en un SIG Uso y aplicación n de los SIG Bases de datos Introducción Antecedentes:

Más detalles

Diseño del Sistema de Información

Diseño del Sistema de Información Diseño del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 2 ACTIVIDAD DSI 1: DEFINICIÓN DE LA ARQUITECTURA DEL SISTEMA... 7 Tarea DSI 1.1: Definición de Niveles de Arquitectura... 9 Tarea DSI

Más detalles

CAPITULO 1. Introducción a los Conceptos Generales de Bases de Datos Distribuidas

CAPITULO 1. Introducción a los Conceptos Generales de Bases de Datos Distribuidas CAPITULO 1 Introducción a los Conceptos Generales de 1.1 Preliminares Las empresas necesitan almacenar información. La información puede ser de todo tipo. Cada elemento informativo es lo que se conoce

Más detalles

El almacén de indicadores de proceso de negocio en ejecución

El almacén de indicadores de proceso de negocio en ejecución X Congreso de Ingeniería de Organización Valencia, 7 y 8 de septiembre de 2006 El almacén de indicadores de proceso de negocio en ejecución Andrés Boza García 1, Angel Ortiz Bas 1, Llanos Cuenca Gonzalez

Más detalles

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software J. Cuadrado Gallego 1, Miguel Ángel Sicilia 1, Miguel Garre Rubio 1 1 Dpto de Ciencias de la Computación,

Más detalles

CAPÍTULO 2 DATA WAREHOUSES

CAPÍTULO 2 DATA WAREHOUSES CAPÍTULO 2 DATA WAREHOUSES Un Data Warehouse (DW) es un gran repositorio lógico de datos que permite el acceso y la manipulación flexible de grandes volúmenes de información provenientes tanto de transacciones

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta SISTEMA DE INFORMACION GERENCIAL Lic.Patricia Palacios Zuleta Pentaho Open BI Suite La suite Pentaho cubre principalmente las siguientes áreas: integración de datos, reportes, análisis, alertas y dashboards,

Más detalles

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II BASE DE DATOS Comenzar presentación Base de datos Una base de datos (BD) o banco de datos es un conjunto

Más detalles

Trabajo Practico N 12

Trabajo Practico N 12 Trabajo Practico N 12 Minería de Datos CATEDRA: Actualidad Informática Ingeniería del Software III Titular: Mgter. Horacio Kuna JTP: Lic. Sergio Caballero Auxiliar: Yachesen Facundo CARRERAS: Analista

Más detalles

ANÁLISIS Y PROPUESTA PARA LA ENSEÑANZA DE LA COMPUTACIÓN A LOS ESTUDIANTES DE NIVEL MEDIO DE LOS COLEGIOS FISCALES DE GUAYAQUIL

ANÁLISIS Y PROPUESTA PARA LA ENSEÑANZA DE LA COMPUTACIÓN A LOS ESTUDIANTES DE NIVEL MEDIO DE LOS COLEGIOS FISCALES DE GUAYAQUIL ANÁLISIS Y PROPUESTA PARA LA ENSEÑANZA DE LA COMPUTACIÓN A LOS ESTUDIANTES DE NIVEL MEDIO DE LOS COLEGIOS FISCALES DE GUAYAQUIL Hugo Renán Ruíz 1, Luis Rodríguez Ojeda 1 Ingeniero en Estadística Informática

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

TRATAMIENTO DE BASES DE DATOS CON INFORMACIÓN FALTANTE SEGÚN ANÁLISIS DE LAS PÉRDIDAS CON SPSS

TRATAMIENTO DE BASES DE DATOS CON INFORMACIÓN FALTANTE SEGÚN ANÁLISIS DE LAS PÉRDIDAS CON SPSS Badler, Clara E. Alsina, Sara M. 1 Puigsubirá, Cristina B. 1 Vitelleschi, María S. 1 Instituto de Investigaciones Teóricas y Aplicadas de la Escuela de Estadística (IITAE) TRATAMIENTO DE BASES DE DATOS

Más detalles

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza IBM Software Information Management White Paper Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza Un enfoque de appliance simplifica el uso de la analítica avanzada Cómo aprovechar la

Más detalles

MANUAL SIMPLIFICADO DE ESTADÍSTICA APLICADA VIA SPSS

MANUAL SIMPLIFICADO DE ESTADÍSTICA APLICADA VIA SPSS 1 MANUAL SIMPLIFICADO DE ESTADÍSTICA APLICADA VIA SPSS Medidas de tendencia central Menú Analizar: Los comandos del menú Analizar (Estadística) ejecutan los procesamientos estadísticos. Sus comandos están

Más detalles

10778 Implementing Data Models and Reports with Microsoft SQL Server 2012

10778 Implementing Data Models and Reports with Microsoft SQL Server 2012 10778 Implementing Data Models and Reports with Microsoft SQL Server 2012 Introducción Inteligencia de negocio (BI) se está convirtiendo incrementalmente importante para compañías de diferentes tamaños

Más detalles

PRESENTACIÓN, DISCUSIÓN Y ANALISIS DE LOS RESULTADOS

PRESENTACIÓN, DISCUSIÓN Y ANALISIS DE LOS RESULTADOS UNIVERSIDAD DE LOS ANDES FACULTAD DE ODONTOLOGIA MERIDA EDO. MERIDA PRESENTACIÓN, DISCUSIÓN Y ANALISIS DE LOS RESULTADOS Mérida, Febrero 2010. Integrantes: Maria A. Lanzellotti L. Daniela Paz U. Mariana

Más detalles

Christian Bolívar Moya Calderón

Christian Bolívar Moya Calderón UNIVERSIDAD SAN FRANCISCO DE QUITO Software Orientado a Sistemas de Control HMI/Scada usando Recursos Libres y de Código Abierto, desarrollado sobre Plataforma Linux Christian Bolívar Moya Calderón Tesis

Más detalles

SQL Server Business Intelligence parte 1

SQL Server Business Intelligence parte 1 SQL Server Business Intelligence parte 1 Business Intelligence es una de las tecnologías de base de datos más llamativas de los últimos años y un campo donde Microsoft ha formado su camino a través de

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Apéndice A Herramientas utilizadas

Apéndice A Herramientas utilizadas Apéndice A Herramientas utilizadas A.1 Java Media Framework El Java Media Framework (JMF) es una interfaz para el desarrollo de aplicaciones (API) e incorpora el manejo de audio y video en el lenguaje

Más detalles

Diseño de almacén de datos para el análisis eficiente de la información de incidentes informáticos y mantenimientos.

Diseño de almacén de datos para el análisis eficiente de la información de incidentes informáticos y mantenimientos. Diseño de almacén de datos para el análisis eficiente de la información de incidentes informáticos y mantenimientos. Ing. Corso Cynthia, Ing. Luque Claudio, Ing. Ciceri Leonardo, Sr Donnet Matías Grupo

Más detalles

MODELACION Y ANALISIS DE PROCESOS EMPRESARIALES MAPE

MODELACION Y ANALISIS DE PROCESOS EMPRESARIALES MAPE MODELACION Y ANALISIS DE PROCESOS EMPRESARIALES MAPE Thomas A. Little Ph. D Traducción Autorizada por el Autor. Traductor: MANUEL H RAMIREZ Alta Via Consulting-América Latina La Modelación y Análisis de

Más detalles

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA Qué es inteligencia de negocios? (BI) Business Intelligence es la habilidad para transformar los datos en información, y la información en

Más detalles

PERFIL DEL INGENIERO DE SISTEMAS FUSM

PERFIL DEL INGENIERO DE SISTEMAS FUSM PERFIL DEL INGENIERO DE SISTEMAS FUSM PERFIL DEL INGENIERO DE SISTEMAS DE LA FUSM El perfil del Ingeniero de Sistemas presencial de la Fundación Universitaria San Martín, Bogotá, está en capacidad de modelar

Más detalles

Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado

Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado 1. Introducción Unified Modeling Languaje Fuente: Booch- Jacobson-Rumbauch y diversos sitios Internet, entre otros:

Más detalles

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) OFERTAS TECNOLÓGICAS 1) GESTIÓN ORGANIZACIONAL Y LOGÍSTICA INTEGRADA: TÉCNICAS Y SISTEMAS DE INFORMACIÓN 2) GESTIÓN

Más detalles

CONSTRUCCION DE INDICADORES DE GESTION Y HERRAMIENTAS OLAP PARA PEQUEÑAS Y MEDIANAS EMPRESAS

CONSTRUCCION DE INDICADORES DE GESTION Y HERRAMIENTAS OLAP PARA PEQUEÑAS Y MEDIANAS EMPRESAS CONSTRUCCION DE INDICADORES DE GESTION Y HERRAMIENTAS OLAP PARA PEQUEÑAS Y MEDIANAS EMPRESAS 1. RESEÑA HISTORICA Las exigencias competitivas del mercado hacen que las organizaciones busquen mecanismos

Más detalles