INSTITUTO POLITÉCNICO NACIONAL

Tamaño: px
Comenzar la demostración a partir de la página:

Download "INSTITUTO POLITÉCNICO NACIONAL"

Transcripción

1 INSTITUTO POLITÉCNICO NACIONAL UNIDAD PROFESIONAL INTERDISCIPLINARIA DE INGENIERÍA Y CIENCIAS SOCIALES Y ADMINISTRATIVAS SECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN ESTUDIO DEL DESEMPEÑO DE MODELOS DE MINADO DE DATOS IMPLEMENTADOS CON SQL, FUNCIONES DEFINIDAS POR EL USUARIO Y FUNCIONES NATIVAS T E S I S QUE PARA OBTENER EL GRADO DE: MAESTRO EN CIENCIAS EN INFORMÁTICA PRESENTA: JAVIER LEÓN COTONIETO DIRECTOR DE TESIS: DR. JAVIER GARCÍA GARCÍA México D.F. Otoño de 2011

2

3

4 There are only two kinds of people who are really fascinating: people who know absolutely everything, and people who know absolutely nothing. The picture of Dorian Gray - Oscar Wilde Yo por desdicha nací sentenciada a investigar, a atormentarme, a pensar y a no aceptar el misterio; pero a mi humano criterio le está vedado el volar. Décimas a Dios Pita Amor Giudico che la fortuna sia arbitra della metà delle azioni nostre, ma che ce ne lasci governare l'altra metà. Il Principe - Niccolò Machiavelli Agradecimientos A todos los miembros del comité revisor y director de tesis. A mis papás, hermanos y amigos que con su simple presencia influyen en mi crecimiento personal y me motivan a seguirme superando. A mi amigo, cómplice, anima gemella y revisor de mi tesis: Aldo Jimenez Arteaga por su apoyo y sabios consejos para mejorar la estructura y contenido de este trabajo. Gracias por tantas conversaciones inspiradoras.

5 J.L.C Resumen Resumen A lo largo de este trabajo de tesis se explora y evalúa una nueva tendencia en cuanto a la aplicación de la minería de datos. Esta tendencia consiste en evitar que los datos salgan del sistema manejador de base de datos (SMBD), donde ya residen, y aplicar el análisis de minería dentro del propio SMBD. Bajo este enfoque se eliminan algunas tareas involucradas en la construcción de modelos de minería y se reduce el tiempo de procesamiento 1 de los datos. Existen otras ventajas inherentes al hecho de no sacar los datos del SMBD, por ejemplo, no se requiere aumentar el número de controles para administrar el acceso a los mismos.sin embargo, la alternativa para realizar análisis de minería dentro del SMBD se enfrentan a ciertas limitaciones del propio SMBD. El SMBD no provee soporte para ciertas operaciones necesarias en minería de datos (Ejemplo, operaciones con matrices). La mayoría de los SMBD proveen soporte a alguna versión del lenguaje de consulta SQL (lenguaje estructurado de consulta, por sus siglas en inglés), pero éste no fue diseñado para ejecutar eficientemente dichas operaciones. Se muestran los resultados de implementar algunas técnicas descritas en los artículos de investigación [1, 2, 3, 4]. En estos artículos se presentan propuestas para extender la funcionalidad del SMBD utilizando UDFs (funciones definidas por el usuario, por sus siglas en inglés) y combinar estas funciones con consultas SQL para construir algunos modelos de minado de datos dentro del SMBD. Así mismo, se proponen algunas adecuaciones a estas técnicas, y diseños propios para la implementación otras técnicas no cubiertas en estos artículos. Finalmente, se evalúa el desempeño de dichas técnicas en dos SMBD: Oracle (versión comercial) y PostgreSQL(de código libre), y se compara el desempeño de éstas técnicas contra una herramienta comercial llamada Oracle Data Mining (ODM) que soporta análisis de minería de datos dentro del sistema manejador Oracle. 1 Esto se logra al eliminar el tiempo de extracción e importación de los datos que se requiere para que una herramienta externa procese los datos (miles o millones de registros). SEPI-UPIICSA-M.C. Informática I

6 Abstract J.L.C Abstract Throughout this work it is explored and evaluated a new trend in the application of data mining. This trend consists in preventing the data from leaving the database management system (DBMS), where they already reside, and apply the data mining analysis inside the DBMS. Under this approach some tasks involved in the process of building data mining models are eliminated. As a result the time 2 required to process the data is shortened. There are other advantages inherent in the fact of not taking the data out of the DBMS, for example, it is not necessary to increase the number of controls to manage access to them. However, the alternative of mining within the DBMS face certain limitations of the DBMS. The DBMS does not provide support for certain operations necessary for data mining (for example, matrix operations). Most DBMS provide support to some version of the query language SQL (structured query language), but it was not designed to efficiently compute such operations. It shows the results of implementing some techniques described in research papers [1, 2, 3, 4]. On these papers there are proposals to extend the functionality of the DBMS using UDFs (user-defined functions) and combine these functions with SQL queries to build some data mining models within the DBMS. Also, It is proposed some adjustments to these techniques, and designs for implementing other techniques not covered in those papers. Finally, we evaluate the performance of these techniques in two DBMS: Oracle (commercial version) and PostgreSQL (open source), and this performance is compared against a commercial tool called Oracle Data Mining (ODM) that supports data mining analysis inside the Oracle DBMS. 2 This is achieved by eliminating the extraction and import time of the data that is required by an external data mining tool for processing the data (thousands or millions of records) SEPI-UPIICSA-M.C. Informática II

7 Índice general Introducción 1 1. Conceptos Generales Minería de Datos El Proceso de la Minería de Datos Clasificación de las Técnicas de Minería Niveles de Mediciones en los Datos Funciones de Minería de Datos a Evaluar Regresión Lineal Ejemplo de Regresión con Regresión Lineal K-Means Ejemplo de Agrupamiento con K-Means Naïve-Bayes Ejemplo de Clasificación con NB Apriori III

8 Contenido J.L.C Ejemplo de Reglas de Asociación con Apriori Regresión Logística Ejemplo de Clasificación Binaria con Regresión Logística Funciones Definidas por el Usuario Generalidades de las UDFs Clasificación de UDFs UDFs en Oracle Manejo de Memoria Dinámica UDFs en PostgreSQL Ventajas y Desventajas de las UDFs Funcionamiento de Oracle Data Mining Introducción a Oracle Data Mining El Paquete DBMS DATA MINING El Paquete DBMS DATA TRANSFORM Funciones de Oracle para Manipular Modelos de Minería de Datos Ejemplo: Construcción de Modelo en ODM Crear la Tabla de Datos Definir Valores de Configuración para el Modelo Construir el Modelo Experimentación 81 SEPI-UPIICSA-M.C. Informática IV

9 J.L.C Contenido 5.1. Modelos de Regresión con Regresión Lineal Implementación Pruebas de Desempeño Modelos de Agrupamiento con K-Means Implementación Pruebas de Desempeño Modelos de Clasificación con Naïve Bayes Implementación Pruebas de Desempeño Modelos de Reglas de Asociación con Apriori Implementación Pruebas de Desempeño Conclusiones 117 Anexo A. Especificaciones de Software y Hardware Utilizado 127 SEPI-UPIICSA-M.C. Informática V

10

11 Índice de figuras 1.1. Relación de la minería de datos con algunas disciplinas Fases de un proyecto de Minería de Datos de acuerdo a la metodología CRISP-DM.[14] Algunos algoritmos para crear modelos de minería de datos Niveles de Medición Características de los 4 niveles de medición Ejemplos de diferentes niveles de medición Datos para construir un modelo de regresión lineal Datos de clientes de una compañía de seguros Representación gráfica de los grupos en WEKA Comparación de un modelo de regresión lineal y logístico Datos para construir un modelo de regresión logística Construcción y operaciones con matrices para estimar un vector de coeficientes de regresión B Valor de probabilidad obtenida en modelos intermedios VII

12 Contenido J.L.C 2.8. Valores de los coeficientes en cada iteración (paso) Tabla y gráficas del desempeño (en segundos) del algoritmo de RL implementado en Oracle para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de RL implementado en PostgreSQL para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de RL de la herramienta ODM para diversos valores de escalamiento de n y d Ejemplo de representación horizontal y vertical de datos Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en Oracle para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en PostgreSQL para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means de la herramienta ODM para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en Oracle para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en PostgreSQL para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means de la herramienta ODM para diversos valores de escalamiento de n y d Transformación a formato especial (binaria) de los 2 formatos de datos de entrada soportados por la implementación de Apriori SEPI-UPIICSA-M.C. Informática VIII

13 J.L.C Contenido Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en Oracle para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en PostgreSQL para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means de la herramienta ODM para diversos valores de escalamiento de n y d Sistema Operativo Utilizado SEPI-UPIICSA-M.C. Informática IX

14

15 Introducción La minería de datos es una tecnología que nos permite extraer conocimiento a partir de un conjunto de datos. El conocimiento, que potencialmente se puede extraer, está implícito en los datos, y por ello, la extracción de dicho conocimiento se convierte en una tarea no trivial. Para poder extraer el conocimiento, la minería de datos ha heredado técnicas de diversas disciplinas para poder construir modelos que resuelven problemas de clasificación, regresión, agrupamiento (clustering), reglas de asociación, etc. Con ayuda de los modelos creados se pueden caracterizar (describir/predecir) los datos. Este proceso nos permitirá, paulatinamente, encontrar los patrones ocultos en ellos. Para realizar análisis de minería de datos, comúnmente, se requiere que los datos deban ser importados a una herramienta capaz de realizar dicho análisis. Hoy en día, la información de las organizaciones se encuentra almacenada en diversas bases de datos (fuentes) y es común que se construya un almacén de datos (data warehouse) para concentrar la información de toda la organización. Estos almacenes de datos son una fuente rica en conocimiento para la minería de datos, ya que los modelos creados a partir de un conjunto de datos suficientemente representativo tendrán un mejor valor de confianza para ayudar adescribircomportamiento,yencontrarrelaciones ocultas enlosdatos. 1

16 Introducción J.L.C Objetivos 1. Instrumentar algoritmos de minería de datos usando SQL (lenguaje estructurado de consulta, por sus siglas en inglés) y UDFs (funciones definidas por el usuario, por sus siglas en inglés) en los sistemas manejadores de bases de datos (SMBDs) Oracle ypostgresql,usandolastécnicaspropuestasen[3,4,2]. 2. Explorar alternativas para implementar algoritmos de minado de datos no cubiertos en los artículos [3, 4, 2]. 3. Comparar los algoritmos implementados, en relación a su tiempo de ejecución, entre ambos SMBDs y en Oracle contra los algoritmos incluidos en la herramienta de minería de datos ODM (oracle data mining). 4. De acuerdo a los resultados de la evaluación experimental concluir qué implementación es la más eficiente, y en su caso, establecer escenarios en los que será más conveniente el uso de cada una de ellas. Planteamiento del Problema Existen muchos estudios que proponen alternativas diferentes para realizar análisis estadístico de grandes cantidades de datos. De acuerdo a [3, 1] el problema de la implementación de funciones estadísticas que manipulen matrices 3 se puede resolverse básicamente de 4 formas: 1. No realizar las operaciones de matrices dentro del SMBD y exportar los registros a una herramienta externa de minería de datos. 2. Integrar todas las operaciones de matrices dentro del SMBD haciendo modificaciones al código fuente del mismo. 3. Ejecutar todas las operaciones de matrices sólo con consultas SQL considerando las matrices como tablas relacionales. 3 Asumiendo que la matriz está almacenada en un SMBD SEPI-UPIICSA-M.C. Informática 2

17 J.L.C Introducción 4. Ejecutar las operaciones combinando SQL y UDFs. En [3] se menciona que se ha hecho mucha investigación en algoritmos de éste tipo, pero que en su mayoría trabajan fuera del SMBD, procesando archivos planos. Oracle Data Mining (ODM) [5] es una herramienta de minería de datos integrada en el SMBD Oracle. Los algoritmos de ODM operan nativamente en tablas o vistas relacionales. Esto permite que la ejecución del proceso de minería de datos se haga directamente en la base de datos, eliminando el costo de exportar la información para que sea analizada por una herramienta de manera externa. De acuerdo a [5], ODM trabaja nativamente en el SMBD y de manera similar las soluciones propuestas en [3, 4, 2] describen técnicas para ejecutar algoritmos de minería de datos dentro del SMBD, haciendo uso de SQL y UDFs. Al crear modelos de minado de datos dentro del SMBD se obtiene una disminución de tiempo, debido a la eliminación del costo de extracción e importación de los datos a una herramienta externa al SMBD. Así mismo, se mantiene sin cambios la seguridad de los datos (los datos no saldrán del SMBD y el acceso a los mismos sigue resguardado éste) y los datos estarán actualizados para realizar el análisis en el momento deseado. El objetivo de la evaluación experimental es determinar si los resultados obtenidos en [3, 4, 2] son válidos también en los SMBDs Oracle y PostgreSQL, así como determinar si la herramienta ODM (módulo opcional y de costo extra 4 )esmejoralassoluciones propuestas en [3, 4, 2]. 4 ODM (USD 23,000 por procesador) es módulo opcional para la versión Enterprise Edition de Oracle 11g (USD 47,500 por procesador)[6]. SEPI-UPIICSA-M.C. Informática 3

18 Introducción J.L.C Trabajos Relacionados Entre los trabajos relacionados al estudio propuesto se pueden mencionar los siguientes: 1. El artículo [1] habla sobre la implementación de técnicas descritas en [2, 3] y menciona la aplicación de dichas técnicas en una herramienta de minería de datos comercial llamada Teradata Warehouse Miner. 2. El articulo [2] analiza las características y limitaciones de implementar operaciones sobre vectores y matrices con UDFs. Muestra que las UDFs son más rápidas que funciones de agregación en SQL estándar e igual de rápidas que expresiones aritméticas en SQL. 3. El artículo [3] propone técnicas para calcular de manera eficiente 5 modelos estadísticos fundamentales dentro de un SMBD, explotando funciones definidas por el usuario. Las técnicas incluyen la definición de dos matrices fundamentales para los 5 modelos, y propone cómo construir dichas matrices a partir de consultas SQL y UDFs con sólo una lectura de los datos de entrada. Las técnicas propuestas son comparadas experimentalmente contra C++ que realiza el análisis sobre archivos planos. De acuerdo a los resultados de la comparación experimental, el autor concluye que las UDFs son mas rápidas que las consultas SQL y sólo un poco mas lentas a C++. Pero considerando el tiempo requerido para extraer los datos, C++ es mucho más lento que las UDFs. 4. Los artículos [4, 7] hablan sobre implementaciones de 2 algoritmos de minería de datos de agrupamiento (K-Means y EM) usando SQL. Justificación de la Tesis El proceso de análisis de minería de datos es por sí mismo un proceso costoso ya que debe manipular una gran cantidad de datos. Por ello resulta muy importante saber qué alternativa (ver objetivos) es la mejor en cuanto a desempeño. Considerando que de acuerdo SEPI-UPIICSA-M.C. Informática 4

19 J.L.C Introducción a [7, 8, 9] sólo pocas propuestas han abordado el problema de la integración de minería de datos en el SMBD resulta interesante la comparación entre ODM y la propuesta de UDFs hecha en [3]. Los resultados de la comparación pueden tener varias implicaciones, por ejemplo: Si las funciones nativas de ODM tienen el mejor desempeño, la evaluación puede servir como apoyo para justificar un nuevo paradigma de minería de datos embebido en el SMBD. Si las funciones nativas de ODM y UDFs tienen resultados semejantes. UDFs será una excelente alternativa para ejecutar análisis de minería de datos dentro del SMBD ya que la mayoría de los SMBD modernos cuentan con soporte de UDFs. Los resultados de la evaluación experimental del desempeño de las propuestas anteriores resultarán muy interesantes, ya que servirán como apoyo para determinar qué alternativa es la que tiene mejores resultados en una implementación de análisis de minería de datos dentro del SMBD. Alcances y Limitaciones El presente trabajo mostrará los resultados de la evaluación del desempeño de modelos de minado de datos construidos con SQL y UDFs en los SMBDs Oracle y PostgreSQL. También se evaluará el desempeño de modelos construidos con ODM en el SMBD Oracle. Para las evaluaciones se utilizará una base de datos sintética 5.Paraquelosresultados sean representativos, la evaluación se hará sobre una arquitectura idéntica 6 para los 2 SMBDs. La generalización de los resultados en otras arquitecturas está fuera del alcance de ésta investigación. 5 Una base de datos sintética es un conjunto de datos previamente generados de manera artificial para hacer pruebas de desempeño. Ver el capítulo 5 para el detalle de las bases de datos sintéticas utilizadas 6 En el Anexo 5.4.2, se puede consultar el detalle de hardware y configuración del software utilizado. SEPI-UPIICSA-M.C. Informática 5

20 Introducción J.L.C Debido a que los estudios hechos en [3, 2, 4] han arrojado resultados que indican que las implementaciones con UDFs son muy eficientes, una comparación interesante y poco estudiada es entre funciones nativas de una herramienta comercial (ODM) y la combinación de SQL con UDFs. Con estas 3 comparaciones (SQL, UDF y ODM) se podrá tener una perspectiva más amplia sobre el desempeño del análisis de minería de datos dentro del SMBD. Se hará la evaluación experimental de los siguientes algoritmos de minería de datos bien conocidos: 1. Regresión: Regresión lineal (linear regression). 2. Agrupamiento (clustering): K-Means. 3. Clasificación: Naïve Bayes. 4. Reglas de asociación: Apriori. 5. Clasificación binaria: Regresión Logística (logistic regression). Estructura del Trabajo El trabajo está dividido en 5 capítulos. El capítulo 1 contiene el marco teórico relacionado con la minería de datos. Este capítulo servirá como introducción para aquellos lectores poco familiarizados con esta tecnología. En el capítulo 2 se describen los algoritmos de minería de datos que serán implementados y de los cuales se hará la evaluación de desempeño. Para ayudar a que el lector comprenda el funcionamiento de cada algoritmo, se incluye un ejemplo que muestra el funcionamiento y los resultados que se obtienen al ejecutar cada algoritmo sobre un conjunto de datos simple. En el capítulo 3 se explica cómo implementar funciones definidas por el usuario en Oracle y PostgreSQL. El uso de UDFs es importante ya que las implementaciones de los algoritmos de minado de datos, SEPI-UPIICSA-M.C. Informática 6

21 J.L.C Introducción que se exponen en este trabajo, hacen uso en mayor o menor medida de esta alternativa para poder extender la funcionalidad del SMBD y lograr construir los modelos de minado dentro del SMBD. El capítulo 4 presenta una introducción al manejo del módulo de ODM para construir modelos de minado de datos a partir de la API (interfaz de programación de aplicaciones, por sus siglas en inglés) para PL/SQL que dispone. El capítulo 5 es el capítulo fundamental de este trabajo de tesis, en él se describen los detalles más importantes de la implementación de cada algoritmo, así como varios de los problemas encontrados durante la implementación y la evaluación de los mismos. Finalmente, se muestra el detalle de desempeño (tiempo de ejecución) de los algoritmos implementados en Oracle y PostgreSQL, así como la comparación en el desempeño de estos algoritmos con su versión equivalente en ODM. Las pruebas de desempeño incluyen diferentes niveles de escalamiento para ver cómo cambia el comportamiento del algoritmo con distintos tamaños de datos de estrada. En un último apartado se explican las conclusiones del trabajo yselistanunaseriedeposiblestrabajosfuturosquepudierandefinirseenfuncióndelos resultados obtenidos en esta investigación. En los anexos se pueden consultar el detalle de versiones y configuración de la plataforma donde se realizaron las pruebas de desempeño, partes del código fuente de los algoritmos de minería de datos implementados, así como algunos ejemplos para la invocación de los mismos y sus equivalentes en ODM. SEPI-UPIICSA-M.C. Informática 7

22

23 Capítulo 1 Conceptos Generales En este capítulo se muestra un panorama general de las disciplinas y temas relacionados con este trabajo de tesis. Se debe considerar que no se pretende explicar con amplio detalle cada uno de los temas, pero de ser necesario se pueden consultar las referencias propuestas en cada sección para un estudio más profundo. La necesidad de definir a la minería de datos, las disciplinas relacionadas y las diversas formas en las que puede estar representada la información (niveles de medición), surge por la importancia de comprender el contexto dentro del cual se desarrollará el presente trabajo, y con ello se entiendan los alcances y resultados del trabajo que se exponen a lo largo del capítulo 5 y las conclusiones. 9

24 Capítulo 1. Conceptos Generales J.L.C 1.1. Minería de Datos 1 La minería de datos es una disciplina cuyo objetivo primordial es la extracción de conocimiento a partir de un conjunto de datos. Este conocimiento es desconocido a priori, sin embargo, es potencialmente útil. La extracción de dicho conocimiento no es una actividad trivial debido a que éste se encuentra implícito en los de datos. El conocimiento extraído es útil, si ha sido obtenido a partir de un conjunto de datos válido y lo suficientemente representativo. Es común que el conjunto de datos utilizado como base para extraer conocimiento, a través de la utilización de técnicas de minería de datos, sea un almacén de datos (data warehouse) con la información histórica de ciertas transacciones de una organización. Esto implica que uno de los problemas importantes de la minería de datos sea el manejo de grandes cantidades de registros (elementos/puntos) con muchos atributos (dimensiones). El conocimiento que nos ayuda a descubrir la minería de datos se encuentra implícito en los datos, por lo que sería muy difícil extraerlo con técnicas comunes de reporteo. Es por ello que, las técnicas de minería de datos surgieron por la necesidad de extraer el conocimiento contenido en bases de datos. Hoy en día es común ver que el tamaño de las bases de datos, utilizadas por todo tipo de organizaciones, se ha incrementado notablemente gracias a los avances en el manejo, capacidad y precio de los medios de almacenamiento físico. El reto actual, por tanto, es contar con herramientas que puedan Figura 1.1: Relación de la minería de datos con algunas disciplinas. 1 Se puede consultar [10, 11, 12, 13] para mayor detalle del tema. SEPI-UPIICSA-M.C. Informática 10

25 J.L.C Capítulo 1. Conceptos Generales explotar eficientemente la información contenida en dichas bases de datos. La minería de datos se desarrolló heredando técnicas de otras disciplinas y en realidad existen pocas técnicas que hayan sido desarrolladas específicamente para minería de datos. Dentro de las disciplinas de las cuales la minería de datos ha adoptado técnicas podemos mencionar a la estadística, la inteligencia artificial, el aprendizaje automático y las bases de datos, entre otras. La importancia de la minería de datos, en el mundo empresarial, está en el hecho de que el conocimiento que es factible extraer de las bases de datos (que en muchos casos representan el registro de muchos años de operación) puede ser traducido en estrategias de negocio, por ejemplo: incrementar los clientes, las ventas o las utilidades; descubrir nuevos nichos de mercado; crear productos nuevos o personalizarlos de acuerdo a las características de y necesidades de sus clientes, etc. Es importante señalar que la minería de datos también es utilizada en diversas áreas de investigación como la biología, genética, meteorología y áreas de ingeniería en general. Por ejemplo, para encontrar patrones que se encuentran en los datos recolectados por un experimento de un laboratorio. Podemos concluir que la minería de datos se vuelve muy importante en un entorno donde la acumulación de información crece a un ritmo muy acelerado, y existe la necesidad de extraer el conocimiento implícito en esas colecciones de datos. Hoy en día existen un gran número de herramientas que ayudan a aplicar estas técnicas de minería de datos; se les encuentra en soluciones empresariales y de pago, así como muchas propuestas en el ámbito del software libre y de código abierto. Aunque las herramientas existentes en el mercado son muy buenas, y se ha hecho un gran trabajo en la optimización y modificación de las técnicas heredadas de otras disciplinas para facilitar su uso en minería de datos, hay temas que hoy en día resultan de suma importancia plantear. Muchas de las herramientas existentes requieren que la información sea exportada (comúnmente en archivos planos o con un formato propio de la herramienta) SEPI-UPIICSA-M.C. Informática 11

26 Capítulo 1. Conceptos Generales J.L.C para que pueda ser manipulada por la herramienta de minería. Éste proceso implica principalmente un consumo de tiempo considerable ya que estamos hablando de bases de datos de un gran volumen. Considerando que el proceso de análisis de minería es un proceso dinámico y que muchas veces requiere que se vayan probando diferentes escenarios para los datos (mas dimensiones, diferentes combinaciones, cambiar parámetros del análisis, etc) o bien aplicar el modelo, previamente creado, a nuevos datos (scoring) para evaluar su efectividad, implicará que durante estos ciclos la información deba ser importada y exportada a la herramienta deseada cada vez que los datos hayan cambiado obienhastaobtenerunmodeloquesealosuficientementeconsistente. Alolargodeloscapítulos3y5seabordaránlosbeneficiosdeintegrarlastécnicasde minería de datos para que sean ejecutadas dentro del sistema manejador de base de datos (SMBD). Se presentan los resultados obtenidos al evaluar el desempeño de algunos algoritmos y se comparan con una herramienta comercial llamada Oracle Data Mining (ODM). Esta herramienta es una de las pocas herramientas integradas al propio SMBD, aunque debido a su precio no estaría al alcance de empresas medianas o centros de investigación con presupuesto limitado. SEPI-UPIICSA-M.C. Informática 12

27 J.L.C Capítulo 1. Conceptos Generales 1.2. El Proceso de la Minería de Datos 2 Para aplicar la minería de datos es necesario reconocer que se necesitan algunos elementos mínimos, sin los cuales, los resultados obtenidos por un proceso de minería de datos pueden ser poco útiles dando como resultado que la inversión asignada a un proyecto de minería de datos no se justifique con los resultados obtenidos. Para minimizar el riesgo de que esto ocurra, el proyecto de minería de datos debe identificar y definir (o adecuar) los elementos que intervienen en el proyecto. Por ejemplo: Datos. Es un elemento fundamental y se debe considerar todo lo necesario para almacenar y procesar un gran volumen de los mismos. Los datos serán la materia prima para construir y aplicar modelos de minado de datos. Usuarios. Son todas aquellas personas que intervengan en el proceso de minería. Se deben considerar desde los especialistas (técnicos) y analistas (minero de datos) hasta los consumidores o beneficiados por los resultados. Los usuarios no se limitan a personas individuales pueden tomar este papel áreas completas de una organización u otros sistemas de información. Metodología. Es importante adoptar una metodología que permita identificar los objetivos del negocio. La metodología debe guiar las actividades a lo largo del proyecto para asegurar el logro de los objetivos del proyecto. Herramientas de Minería Se refiere propiamente a las técnicas de minería de datos (ver sección 1.3) así como a herramientas que ayuden a validar los modelos construidos, por ejemplo, validación cruzada (cross validation 3 ). Para estas herramientas, una 2 Para mayor información se puede consultar [12, 13] 3 Cross Validation es una técnica utilizada para validar la fortaleza de un modelo. El proceso consiste en dividir el conjunto de datos de entrenamiento en n particiones. Se debe aplicar el modelo a cada partición y cada vez que se aplica el modelo a una partición, el resultado se valida con el resto de los datos. En cada ciclo se mide el error y al final se obtiene un promedio del mismo. SEPI-UPIICSA-M.C. Informática 13

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos

Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productividad en Empresas de Construcción: Conocimiento adquirido de las bases de datos Productivity in Construction Companies: Knowledge acquired from the databases Hernando Camargo Mila, Rogelio Flórez

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA PF-3808 Minería de Datos II Semestre del 2009 Profesor: Dr. Francisco J. Mata (correo: fmatach@racsa.co.cr;

Más detalles

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3 Capítulo 3 1. Introducción El análisis de regresión lineal, en general, nos permite obtener una función lineal de una o más variables independientes o predictoras (X1, X2,... XK) a partir de la cual explicar

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

Capítulo 1. Introducción. 1.1. Antecedentes

Capítulo 1. Introducción. 1.1. Antecedentes Capítulo 1. Introducción En este capítulo se presenta una descripción general del problema a investigar y el enfoque con el que se aborda. Se establece la necesidad de incorporar técnicas de análisis novedosas

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

Christian Bolívar Moya Calderón

Christian Bolívar Moya Calderón UNIVERSIDAD SAN FRANCISCO DE QUITO Software Orientado a Sistemas de Control HMI/Scada usando Recursos Libres y de Código Abierto, desarrollado sobre Plataforma Linux Christian Bolívar Moya Calderón Tesis

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Botón menú Objetivo de la Minería de datos.

Botón menú Objetivo de la Minería de datos. Titulo de Tutorial: Minería de Datos N2 Botón menú: Introducción. Las instituciones y empresas privadas coleccionan bastante información (ventas, clientes, cobros, pacientes, tratamientos, estudiantes,

Más detalles

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS

INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS INSTITUTO MATEMÁTICO Y ACTUARIAL MEXICANO DIPLOMADO EN MINERÍA DE DATOS Por qué es importante la Minería de Datos? 2 La Minería de Datos es un proceso que permite obtener conocimiento a partir de los datos

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 14-I. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 24

Más detalles

Informática II Ing. Industrial. Data Warehouse. Data Mining

Informática II Ing. Industrial. Data Warehouse. Data Mining Data Warehouse Data Mining Definición de un Data Warehouses (DW) Fueron creados para dar apoyo a los niveles medios y altos de una empresa en la toma de decisiones a nivel estratégico en un corto o mediano

Más detalles

Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado

Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado 1. Introducción Unified Modeling Languaje Fuente: Booch- Jacobson-Rumbauch y diversos sitios Internet, entre otros:

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

APOYO PARA LA TOMA DE DECISIONES

APOYO PARA LA TOMA DE DECISIONES APOYO PARA LA TOMA DE DECISIONES Cátedra: Gestión de Datos Profesor: Santiago Pérez Año: 2006 Bibliografía: Introducción a las Bases de Datos. DATE - 1 - 1. INTRODUCCION APOYO PARA LA TOMA DE DECISIONES

Más detalles

Programación en Capas.

Programación en Capas. Programación en Capas. Ricardo J. Vargas Del Valle Universidad de Costa Rica, Ciencias de Computación e Informática, San José, Costa Rica, 506 ricvargas@gmail.com Juan P. Maltés Granados Universidad de

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo 1 Algoritmos de minería de datos incluidos en SQL Server 2008 Los algoritmos que aquí se presentan son: Árboles de decisión de Microsoft, Bayes naive de Microsoft, Clústeres de Microsoft, Serie temporal

Más detalles

SISTEMAS DE GESTIÓN DE BASE DE DATOS SGBD / DBMS

SISTEMAS DE GESTIÓN DE BASE DE DATOS SGBD / DBMS Universidad de Carabobo Facultad Experimental de Ciencias y Tecnología Departamento de Computación Unidad Académica Base de Datos SISTEMAS DE GESTIÓN DE BASE DE DATOS SGBD / DBMS Integrantes: Fidel Gil

Más detalles

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source

Inteligencia Artificial y Seguridad Informática. en plataformas Open Source Inteligencia Artificial y Seguridad Informática en plataformas Open Source Jornadas de Software Libre y Seguridad Informática Santa Rosa La Pampa 4 y 5 de Diciembre de 2009 AGENDA Primera Parte Definiciones

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba

Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida. Por: Prof. Elena del C. Coba Técnicas de análisis para el uso de resultados de encuestas y estudios aplicados al VIH/sida Por: Prof. Elena del C. Coba Encuestas y estudios aplicados al VIH/sida Definir la fuente de los datos: Datos

Más detalles

Capítulo 1. Introducción

Capítulo 1. Introducción Capítulo 1. Introducción El WWW es la mayor fuente de imágenes que día a día se va incrementando. Según una encuesta realizada por el Centro de Bibliotecas de Cómputo en Línea (OCLC) en Enero de 2005,

Más detalles

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio Hidrocarburos: Análisis de Pablo Burgos Casado (Jefe de Área Desarrollo (SGTIC - MITYC)) María Teresa Simino Rueda Rubén Pérez Gómez Israel Santos Montero María Ángeles Rodelgo Sanchez 1. INTRODUCCIÓN

Más detalles

Habilidades y Herramientas para trabajar con datos

Habilidades y Herramientas para trabajar con datos Habilidades y Herramientas para trabajar con datos Marcelo Ferreyra X Jornadas de Data Mining & Business Intelligence Universidad Austral - Agenda 2 Tipos de Datos Herramientas conceptuales Herramientas

Más detalles

Arquitectura para análisis de información. Zombi es una arquitectura que proporciona de manera integrada los componentes

Arquitectura para análisis de información. Zombi es una arquitectura que proporciona de manera integrada los componentes Capítulo 4 Arquitectura para análisis de información propuesta 4.1 Arquitectura Zombi es una arquitectura que proporciona de manera integrada los componentes necesarios para el análisis de información

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

Trabajo Practico N 12

Trabajo Practico N 12 Trabajo Practico N 12 Minería de Datos CATEDRA: Actualidad Informática Ingeniería del Software III Titular: Mgter. Horacio Kuna JTP: Lic. Sergio Caballero Auxiliar: Yachesen Facundo CARRERAS: Analista

Más detalles

PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN.

PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN. PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN. Objetivo: Al final de la unidad el alumno comprenderá la presencia de estas herramientas informáticas (programas Datamining))

Más detalles

Data Warehousing - Marco Conceptual

Data Warehousing - Marco Conceptual Data Warehousing - Marco Conceptual Carlos Espinoza C.* Introducción Los data warehouses se presentan como herramientas de alta tecnología que permiten a los usuarios de negocios entender las relaciones

Más detalles

ANÁLISIS DISCRIMINANTE

ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE 1. Introducción 2. Etapas 3. Caso práctico Análisis de dependencias introducción varias relaciones una relación 1 variable dependiente > 1 variable dependiente

Más detalles

UNIVERSIDAD ALBERT EINSTEIN FACULTAD DE INGENIERIA

UNIVERSIDAD ALBERT EINSTEIN FACULTAD DE INGENIERIA UNIVERSIDAD ALBERT EINSTEIN FACULTAD DE INGENIERIA Estudio de las herramientas TOAD y DBArtisan para la administración e integración de bases de datos relacionales. PREVIA OPCION AL TÍTULO DE: INGENIERO

Más detalles

Text Mining Introducción a Minería de Datos

Text Mining Introducción a Minería de Datos Text Mining Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.ar/~laura SADIO 12 de Marzo de 2008 qué es la minería de datos? A technique using software tools

Más detalles

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Álvaro J. Méndez Services Engagement Manager IBM SPSS / Profesor Econometría UAM Jecas, 22 Oct 2010 Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler Business Analytics software Agenda Minería

Más detalles

Telos ISSN: 1317-0570 wileidys.artigas@urbe.edu Universidad Privada Dr. Rafael Belloso Chacín Venezuela

Telos ISSN: 1317-0570 wileidys.artigas@urbe.edu Universidad Privada Dr. Rafael Belloso Chacín Venezuela Telos ISSN: 1317-0570 wileidys.artigas@urbe.edu Universidad Privada Dr. Rafael Belloso Chacín Venezuela Orlandoni Merli, Giampaolo Escalas de medición en Estadística Telos, vol. 12, núm. 2, mayo-agosto,

Más detalles

TRATAMIENTO DE BASES DE DATOS CON INFORMACIÓN FALTANTE SEGÚN ANÁLISIS DE LAS PÉRDIDAS CON SPSS

TRATAMIENTO DE BASES DE DATOS CON INFORMACIÓN FALTANTE SEGÚN ANÁLISIS DE LAS PÉRDIDAS CON SPSS Badler, Clara E. Alsina, Sara M. 1 Puigsubirá, Cristina B. 1 Vitelleschi, María S. 1 Instituto de Investigaciones Teóricas y Aplicadas de la Escuela de Estadística (IITAE) TRATAMIENTO DE BASES DE DATOS

Más detalles

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos Published on Dataprix (http://www.dataprix.com) Principal > Artículos de Minería de Datos de Dataprix By Dataprix Created 26/12/2009-17:13 Artículos de Minería de Datos de Dataprix Introducción a la minería

Más detalles

Anexo No. 02 FICHA TECNICA FONDO FINANCIERO DE PROYECTOS DE DESARROLLO FONADE

Anexo No. 02 FICHA TECNICA FONDO FINANCIERO DE PROYECTOS DE DESARROLLO FONADE Anexo No. 02 FICHA TECNICA FONDO FINANCIERO DE PROYECTOS DE DESARROLLO FONADE Unidad Administrativa Especial de Gestión Pensional y Contribuciones Parafiscales de la Protección Social UGPP Objeto: ADQUISICIÓN

Más detalles

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA M.ª del Pilar Cantero Blanco Jefa de Servicio de Sistemas Informáticos. Subdirección General de Planificación

Más detalles

Estudio comparativo de los currículos de probabilidad y estadística español y americano

Estudio comparativo de los currículos de probabilidad y estadística español y americano Estudio comparativo de los currículos de probabilidad y estadística español y americano Jaldo Ruiz, Pilar Universidad de Granada Resumen Adquiere las mismas capacidades en Probabilidad y Estadística un

Más detalles

Modelos de regresión: lineal simple y regresión logística

Modelos de regresión: lineal simple y regresión logística 14 Modelos de regresión: lineal simple y regresión logística Irene Moral Peláez 14.1. Introducción Cuando se quiere evaluar la relación entre una variable que suscita especial interés (variable dependiente

Más detalles

Propuesta de Métricas para Proyectos de Explotación de Información

Propuesta de Métricas para Proyectos de Explotación de Información Propuesta de Métricas para Proyectos de Explotación de Información Diego Martín Basso 1. Maestría en Ingeniería de Sistemas de Información. Universidad Tecnológica Nacional, FRBA Buenos Aires, Argentina

Más detalles

T. 5 Inferencia estadística acerca de la relación entre variables

T. 5 Inferencia estadística acerca de la relación entre variables T. 5 Inferencia estadística acerca de la relación entre variables 1. El caso de dos variables categóricas 2. El caso de una variable categórica y una variable cuantitativa 3. El caso de dos variables cuantitativas

Más detalles

Identificación fácil de los clientes adecuados

Identificación fácil de los clientes adecuados PASW Direct Marketing 18 Especificaciones Identificación fácil de los clientes adecuados Sabemos que le gustaría que sus programas de marketing sean lo más rentables posible y sabemos que conocer la información

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos

Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos I. Barbona - Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparación de métodos de clasificación aplicados a textos Científicos y No Científicos Comparison among

Más detalles

Inteligencia de Negocios Introducción. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Inteligencia de Negocios Introducción. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Inteligencia de Negocios Introducción Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Agenda 1.Introducción 2.Definición 3.ETL 4.Bodega de Datos 5.Data Mart

Más detalles

Metodología de Ingeniería del Software para el desarrollo y mantenimiento de sistemas de información del Gobierno de Extremadura

Metodología de Ingeniería del Software para el desarrollo y mantenimiento de sistemas de información del Gobierno de Extremadura Metodología de Ingeniería del Software para el desarrollo y mantenimiento de sistemas de información del Gobierno de Extremadura Página 1 de 23 Índice del Documento 1.- Introducción... Página 4 2.- Propuesta

Más detalles

BIG DATA. Jorge Mercado. Software Quality Engineer

BIG DATA. Jorge Mercado. Software Quality Engineer BIG DATA Jorge Mercado Software Quality Engineer Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A Big Data - Introducción Que es Big Data? Big data es el termino

Más detalles

WebRatio. Otro camino para el BPM. Web Models s.r.l. www.webratio.com contact@webratio.com 1 / 8

WebRatio. Otro camino para el BPM. Web Models s.r.l. www.webratio.com contact@webratio.com 1 / 8 WebRatio Otro camino para el BPM Web Models s.r.l. www.webratio.com contact@webratio.com 1 / 8 El BPM El BPM (Business Process Management) no es solo una tecnología, además a grandes rasgos es una disciplina

Más detalles

Modelado de relaciones existentes en un equipo de proyecto de software Modeling relationships in a software project team

Modelado de relaciones existentes en un equipo de proyecto de software Modeling relationships in a software project team Modelado de relaciones existentes en un equipo de proyecto de software Modeling relationships in a software project team Rafael Rodríguez-Puente 1, Eliana B. Ril-Valentin 2 1 Departamento de Técnicas de

Más detalles

Introducción Qué es Minería de Datos?

Introducción Qué es Minería de Datos? Conceptos Básicos Introducción Qué es Minería de Datos? Extracción de información o de patrones (no trivial, implícita, previamente desconocida y potencialmente útil) de grandes bases de datos. Introducción

Más detalles

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Ing. Juan Miguel Moine Ing. Cristian Germán Bigatti Ing. Guillermo Leale Est. Graciela Carnevali Est. Esther Francheli

Más detalles

MS_10747 Administering System Center 2012 Configuration Manager

MS_10747 Administering System Center 2012 Configuration Manager Administering System Center 2012 Configuration Manager www.ked.com.mx Av. Revolución No. 374 Col. San Pedro de los Pinos, C.P. 03800, México, D.F. Tel/Fax: 52785560 Introducción Este curso describe cómo

Más detalles

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA Pablo F. Provasi 1 Lucio J. Kleisinger 1 Francisco R. Villatoro 2 1 Dpto. de Informática, Universidad

Más detalles

Con el fin de obtener los datos, se procede con las siguientes instrucciones:

Con el fin de obtener los datos, se procede con las siguientes instrucciones: Capitulo 3. La predicción de beneficios del mercado bursátil Este segundo caso de estudio va más allá en el uso de técnicas de minería de datos. El dominio específico utilizado para ilustrar estos problemas

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) OFERTAS TECNOLÓGICAS 1) GESTIÓN ORGANIZACIONAL Y LOGÍSTICA INTEGRADA: TÉCNICAS Y SISTEMAS DE INFORMACIÓN 2) GESTIÓN

Más detalles

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería

Más detalles

PRESENTACIÓN, DISCUSIÓN Y ANALISIS DE LOS RESULTADOS

PRESENTACIÓN, DISCUSIÓN Y ANALISIS DE LOS RESULTADOS UNIVERSIDAD DE LOS ANDES FACULTAD DE ODONTOLOGIA MERIDA EDO. MERIDA PRESENTACIÓN, DISCUSIÓN Y ANALISIS DE LOS RESULTADOS Mérida, Febrero 2010. Integrantes: Maria A. Lanzellotti L. Daniela Paz U. Mariana

Más detalles

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP Universidad Politécnica de Puebla UPP JESÚS ANTONIO GONZÁLEZ BERNAL 1 2 Evolución de la Tecnología BD 1960 s y antes Creación de las BD en archivos primitivos 1970 s hasta principios de los 1980 s BD Jerárquicas

Más detalles

Alicia Iriberri Dirección de Tecnologías de Información. I.- Definición del foco estratégico

Alicia Iriberri Dirección de Tecnologías de Información. I.- Definición del foco estratégico Alicia Iriberri Dirección de Tecnologías de Información I.- Definición del foco estratégico II.- Establecimiento de mediciones a través del Balanced Scorecard (Tablero de Comando) III.- Despliegue del

Más detalles

MANUAL SIMPLIFICADO DE ESTADÍSTICA APLICADA VIA SPSS

MANUAL SIMPLIFICADO DE ESTADÍSTICA APLICADA VIA SPSS 1 MANUAL SIMPLIFICADO DE ESTADÍSTICA APLICADA VIA SPSS Medidas de tendencia central Menú Analizar: Los comandos del menú Analizar (Estadística) ejecutan los procesamientos estadísticos. Sus comandos están

Más detalles

Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular

Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular AUTORES: Fabián Cabrera Cuenca 1, Sergio Jonathan León García 2, Ilse Lorena Ycaza Díaz 3, Juan Aurelio Alvarado

Más detalles

Sistemas de Información para la Gestión. UNIDAD 2: RECURSOS DE TI Información y Aplicaciones

Sistemas de Información para la Gestión. UNIDAD 2: RECURSOS DE TI Información y Aplicaciones UNIDAD 2: RECURSOS DE TI Información y Aplicaciones UNIDAD 2: RECURSOS DE TI Información y Aplicaciones 1. La Información: Propiedades de la Información. Sistemas de Información. Bases de Datos. 2. Administración

Más detalles

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013 VivaMéxico sin PRI Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres Facultad de Ciencias de la Computación Benemérita Universidad Autónoma de Puebla Otoño 2013 IMAGENESpemexmorena Adquisición

Más detalles

CAPÍTULO 2 DATA WAREHOUSES

CAPÍTULO 2 DATA WAREHOUSES CAPÍTULO 2 DATA WAREHOUSES Un Data Warehouse (DW) es un gran repositorio lógico de datos que permite el acceso y la manipulación flexible de grandes volúmenes de información provenientes tanto de transacciones

Más detalles

República Bolivariana de Venezuela Ministerio Popular de Educación y Deportes UNEFA Cátedra: Base de Datos Unidad I. Introducción

República Bolivariana de Venezuela Ministerio Popular de Educación y Deportes UNEFA Cátedra: Base de Datos Unidad I. Introducción República Bolivariana de Venezuela Ministerio Popular de Educación y Deportes UNEFA Cátedra: Base de Datos Unidad I. Introducción Dato: Hecho o valor a partir del cual se puede inferir una conclusión.

Más detalles

Empresa o Entidad C.A Electricidad de Valencia. Autores del Trabajo Nombre País e-mail Jimmy Martínez Venezuela jmartinez@eleval.

Empresa o Entidad C.A Electricidad de Valencia. Autores del Trabajo Nombre País e-mail Jimmy Martínez Venezuela jmartinez@eleval. Título Estudio Estadístico de Base de Datos Comercial de una Empresa Distribuidora de Energía Eléctrica. Nº de Registro 231 Empresa o Entidad C.A Electricidad de Valencia Autores del Trabajo Nombre País

Más detalles

Estimación de costos y esfuerzos. Calidad en el Desarrollo de Software. Estimación de costos para el software. Planificación de proyectos

Estimación de costos y esfuerzos. Calidad en el Desarrollo de Software. Estimación de costos para el software. Planificación de proyectos Estimación de costos y esfuerzos Métricas de procesos de software Depto. Ciencias e Ingeniería de la Computación Universidad Nacional del Sur COCOMO otros Segundo Cuatrimestre 2007 de proyectos Estimación

Más detalles

Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados.

Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados. Comparación de modelos de curvas ROC para la evaluación de procedimientos estadísticos de predicción en investigación de mercados. Pedro Concejero Cerezo Tesis Doctoral dirigida por Rosario Martínez Arias

Más detalles

Finanzas e Investigación de Mercados"

Finanzas e Investigación de Mercados DIPLOMATURA: "Análisis de Datos para Negocios, Finanzas e Investigación de Mercados" Seminario: Introducción a Data Mining y Estadística Dictado: Sábado 13, 20,27 de Abril, 04 de Mayo en el horario de

Más detalles

Apéndice A Herramientas utilizadas

Apéndice A Herramientas utilizadas Apéndice A Herramientas utilizadas A.1 Java Media Framework El Java Media Framework (JMF) es una interfaz para el desarrollo de aplicaciones (API) e incorpora el manejo de audio y video en el lenguaje

Más detalles

CARACTERIZACIÓN DEL PROCESO DE FUGA DE CLIENTES UTILIZANDO INFORMACIÓN TRANSACCIONAL 1

CARACTERIZACIÓN DEL PROCESO DE FUGA DE CLIENTES UTILIZANDO INFORMACIÓN TRANSACCIONAL 1 CARACTERIZACIÓN DEL PROCESO DE FUGA DE CLIENTES UTILIZANDO INFORMACIÓN TRANSACCIONAL 1 Carolina Segovia csegovia@analytics.cl - Luis Aburto luaburto@analytics.cl Marcel Goic mgoic@dii.uchile.cl Resumen

Más detalles

Herramienta para la Administración y Estimación Ágil de Desarrollo de Software

Herramienta para la Administración y Estimación Ágil de Desarrollo de Software Herramienta para la Administración y Estimación Ágil de Desarrollo de Software Mario R. MORENO SABIDO Depto. de Sistemas y Computación, Instituto Tecnológico de Mérida Mérida, Yucatán 97118, México y Jorge

Más detalles

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1

ÍNDICE. Introducción... Capítulo 1. El concepto de Data Mining... 1 ÍNDICE Introducción... XV Capítulo 1. El concepto de Data Mining... 1 Introducción... 1 Una definición de Data Mining... 3 El proceso de Data Mining... 6 Selección de objetivos... 8 La preparación de los

Más detalles

DYANE Versión 4 Diseño y Análisis de Encuestas

DYANE Versión 4 Diseño y Análisis de Encuestas DYANE Versión 4 Diseño y Análisis de Encuestas Miguel Santesmases Mestre 1. DESCRIPCIÓN GENERAL DEL PROGRAMA DYANE 1. FINALIDAD Y MÉTODO DEL PROGRAMA DYANE (Diseño y Análisis de Encuestas) es un programa

Más detalles

Programación orientada a

Programación orientada a Programación orientada a objetos con Java Pedro Corcuera Dpto. Matemática Aplicada y Ciencias de la Computación Universidad de Cantabria corcuerp@unican.es Objetivos Presentar los conceptos de la programación

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Proyecto de Desarrollo de una Base de Datos para un concesionario

Proyecto de Desarrollo de una Base de Datos para un concesionario Proyecto de Desarrollo de una Base de Datos para un concesionario Etienne Boshoff de Jong Enginyeria en Informàtica Juan Martinez Bolaños 14 enero 2013 Proyecto Final de Carrera: Base de Datos Page 1 1.

Más detalles

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software

Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software Segmentación Recursiva de Proyectos Software para la Estimación del Esfuerzo de Desarrollo Software J. Cuadrado Gallego 1, Miguel Ángel Sicilia 1, Miguel Garre Rubio 1 1 Dpto de Ciencias de la Computación,

Más detalles

Identificación rápida de cuellos de botella: Una mejor manera de realizar pruebas de carga. Documento técnico de Oracle Junio de 2009

Identificación rápida de cuellos de botella: Una mejor manera de realizar pruebas de carga. Documento técnico de Oracle Junio de 2009 Identificación rápida de cuellos de botella: Una mejor manera de realizar pruebas de carga Documento técnico de Oracle Junio de 2009 Identificación rápida de cuellos de botella: Una mejor manera de realizar

Más detalles

Métodos y Diseños utilizados en Psicología

Métodos y Diseños utilizados en Psicología Métodos y Diseños utilizados en Psicología El presente documento pretende realizar una introducción al método científico utilizado en Psicología para recoger información acerca de situaciones o aspectos

Más detalles

8.1 Arquitectura funcional

8.1 Arquitectura funcional 1 Colección de Tesis Digitales Universidad de las Américas Puebla Zuñiga, Víctor Alejandro 8.1 Arquitectura funcional La arquitectura de un sistema define sus componentes básicos y los conceptos importantes,

Más detalles

Análisis multivariable

Análisis multivariable Análisis multivariable Las diferentes técnicas de análisis multivariante cabe agruparlas en tres categorías: «Análisis de dependencia» tratan de explicar la variable considerada independiente a través

Más detalles

Universidad de Guadalajara

Universidad de Guadalajara Universidad de Guadalajara Centro Universitario de Ciencias Económico-Administrativas Maestría en Tecnologías de Información Ante-proyecto de Tésis Selection of a lightweight virtualization framework to

Más detalles

Fecha de elaboración: Julio de 2010 Fecha de última actualización:

Fecha de elaboración: Julio de 2010 Fecha de última actualización: Programa Licenciatura en Ciencias Educativo: Computacionales PROGRAMA DE ESTUDIO Área de Sustantiva profesional Formación: Horas teóricas: 2 Horas prácticas: 3 Total de Horas: 5 Total de Bases de Datos

Más detalles

Programación Orientada a Objetos Profr. Pedro Pablo Mayorga

Programación Orientada a Objetos Profr. Pedro Pablo Mayorga Actividad 2 Unidad 1 Ciclo de vida del software y Diseño Orientado a Objetos Ciclo de Vida del Software Un modelo de ciclo de vida define el estado de las fases a través de las cuales se mueve un proyecto

Más detalles