INSTITUTO POLITÉCNICO NACIONAL

Tamaño: px
Comenzar la demostración a partir de la página:

Download "INSTITUTO POLITÉCNICO NACIONAL"

Transcripción

1 INSTITUTO POLITÉCNICO NACIONAL UNIDAD PROFESIONAL INTERDISCIPLINARIA DE INGENIERÍA Y CIENCIAS SOCIALES Y ADMINISTRATIVAS SECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN ESTUDIO DEL DESEMPEÑO DE MODELOS DE MINADO DE DATOS IMPLEMENTADOS CON SQL, FUNCIONES DEFINIDAS POR EL USUARIO Y FUNCIONES NATIVAS T E S I S QUE PARA OBTENER EL GRADO DE: MAESTRO EN CIENCIAS EN INFORMÁTICA PRESENTA: JAVIER LEÓN COTONIETO DIRECTOR DE TESIS: DR. JAVIER GARCÍA GARCÍA México D.F. Otoño de 2011

2

3

4 There are only two kinds of people who are really fascinating: people who know absolutely everything, and people who know absolutely nothing. The picture of Dorian Gray - Oscar Wilde Yo por desdicha nací sentenciada a investigar, a atormentarme, a pensar y a no aceptar el misterio; pero a mi humano criterio le está vedado el volar. Décimas a Dios Pita Amor Giudico che la fortuna sia arbitra della metà delle azioni nostre, ma che ce ne lasci governare l'altra metà. Il Principe - Niccolò Machiavelli Agradecimientos A todos los miembros del comité revisor y director de tesis. A mis papás, hermanos y amigos que con su simple presencia influyen en mi crecimiento personal y me motivan a seguirme superando. A mi amigo, cómplice, anima gemella y revisor de mi tesis: Aldo Jimenez Arteaga por su apoyo y sabios consejos para mejorar la estructura y contenido de este trabajo. Gracias por tantas conversaciones inspiradoras.

5 J.L.C Resumen Resumen A lo largo de este trabajo de tesis se explora y evalúa una nueva tendencia en cuanto a la aplicación de la minería de datos. Esta tendencia consiste en evitar que los datos salgan del sistema manejador de base de datos (SMBD), donde ya residen, y aplicar el análisis de minería dentro del propio SMBD. Bajo este enfoque se eliminan algunas tareas involucradas en la construcción de modelos de minería y se reduce el tiempo de procesamiento 1 de los datos. Existen otras ventajas inherentes al hecho de no sacar los datos del SMBD, por ejemplo, no se requiere aumentar el número de controles para administrar el acceso a los mismos.sin embargo, la alternativa para realizar análisis de minería dentro del SMBD se enfrentan a ciertas limitaciones del propio SMBD. El SMBD no provee soporte para ciertas operaciones necesarias en minería de datos (Ejemplo, operaciones con matrices). La mayoría de los SMBD proveen soporte a alguna versión del lenguaje de consulta SQL (lenguaje estructurado de consulta, por sus siglas en inglés), pero éste no fue diseñado para ejecutar eficientemente dichas operaciones. Se muestran los resultados de implementar algunas técnicas descritas en los artículos de investigación [1, 2, 3, 4]. En estos artículos se presentan propuestas para extender la funcionalidad del SMBD utilizando UDFs (funciones definidas por el usuario, por sus siglas en inglés) y combinar estas funciones con consultas SQL para construir algunos modelos de minado de datos dentro del SMBD. Así mismo, se proponen algunas adecuaciones a estas técnicas, y diseños propios para la implementación otras técnicas no cubiertas en estos artículos. Finalmente, se evalúa el desempeño de dichas técnicas en dos SMBD: Oracle (versión comercial) y PostgreSQL(de código libre), y se compara el desempeño de éstas técnicas contra una herramienta comercial llamada Oracle Data Mining (ODM) que soporta análisis de minería de datos dentro del sistema manejador Oracle. 1 Esto se logra al eliminar el tiempo de extracción e importación de los datos que se requiere para que una herramienta externa procese los datos (miles o millones de registros). SEPI-UPIICSA-M.C. Informática I

6 Abstract J.L.C Abstract Throughout this work it is explored and evaluated a new trend in the application of data mining. This trend consists in preventing the data from leaving the database management system (DBMS), where they already reside, and apply the data mining analysis inside the DBMS. Under this approach some tasks involved in the process of building data mining models are eliminated. As a result the time 2 required to process the data is shortened. There are other advantages inherent in the fact of not taking the data out of the DBMS, for example, it is not necessary to increase the number of controls to manage access to them. However, the alternative of mining within the DBMS face certain limitations of the DBMS. The DBMS does not provide support for certain operations necessary for data mining (for example, matrix operations). Most DBMS provide support to some version of the query language SQL (structured query language), but it was not designed to efficiently compute such operations. It shows the results of implementing some techniques described in research papers [1, 2, 3, 4]. On these papers there are proposals to extend the functionality of the DBMS using UDFs (user-defined functions) and combine these functions with SQL queries to build some data mining models within the DBMS. Also, It is proposed some adjustments to these techniques, and designs for implementing other techniques not covered in those papers. Finally, we evaluate the performance of these techniques in two DBMS: Oracle (commercial version) and PostgreSQL (open source), and this performance is compared against a commercial tool called Oracle Data Mining (ODM) that supports data mining analysis inside the Oracle DBMS. 2 This is achieved by eliminating the extraction and import time of the data that is required by an external data mining tool for processing the data (thousands or millions of records) SEPI-UPIICSA-M.C. Informática II

7 Índice general Introducción 1 1. Conceptos Generales Minería de Datos El Proceso de la Minería de Datos Clasificación de las Técnicas de Minería Niveles de Mediciones en los Datos Funciones de Minería de Datos a Evaluar Regresión Lineal Ejemplo de Regresión con Regresión Lineal K-Means Ejemplo de Agrupamiento con K-Means Naïve-Bayes Ejemplo de Clasificación con NB Apriori III

8 Contenido J.L.C Ejemplo de Reglas de Asociación con Apriori Regresión Logística Ejemplo de Clasificación Binaria con Regresión Logística Funciones Definidas por el Usuario Generalidades de las UDFs Clasificación de UDFs UDFs en Oracle Manejo de Memoria Dinámica UDFs en PostgreSQL Ventajas y Desventajas de las UDFs Funcionamiento de Oracle Data Mining Introducción a Oracle Data Mining El Paquete DBMS DATA MINING El Paquete DBMS DATA TRANSFORM Funciones de Oracle para Manipular Modelos de Minería de Datos Ejemplo: Construcción de Modelo en ODM Crear la Tabla de Datos Definir Valores de Configuración para el Modelo Construir el Modelo Experimentación 81 SEPI-UPIICSA-M.C. Informática IV

9 J.L.C Contenido 5.1. Modelos de Regresión con Regresión Lineal Implementación Pruebas de Desempeño Modelos de Agrupamiento con K-Means Implementación Pruebas de Desempeño Modelos de Clasificación con Naïve Bayes Implementación Pruebas de Desempeño Modelos de Reglas de Asociación con Apriori Implementación Pruebas de Desempeño Conclusiones 117 Anexo A. Especificaciones de Software y Hardware Utilizado 127 SEPI-UPIICSA-M.C. Informática V

10

11 Índice de figuras 1.1. Relación de la minería de datos con algunas disciplinas Fases de un proyecto de Minería de Datos de acuerdo a la metodología CRISP-DM.[14] Algunos algoritmos para crear modelos de minería de datos Niveles de Medición Características de los 4 niveles de medición Ejemplos de diferentes niveles de medición Datos para construir un modelo de regresión lineal Datos de clientes de una compañía de seguros Representación gráfica de los grupos en WEKA Comparación de un modelo de regresión lineal y logístico Datos para construir un modelo de regresión logística Construcción y operaciones con matrices para estimar un vector de coeficientes de regresión B Valor de probabilidad obtenida en modelos intermedios VII

12 Contenido J.L.C 2.8. Valores de los coeficientes en cada iteración (paso) Tabla y gráficas del desempeño (en segundos) del algoritmo de RL implementado en Oracle para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de RL implementado en PostgreSQL para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de RL de la herramienta ODM para diversos valores de escalamiento de n y d Ejemplo de representación horizontal y vertical de datos Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en Oracle para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en PostgreSQL para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means de la herramienta ODM para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en Oracle para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en PostgreSQL para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means de la herramienta ODM para diversos valores de escalamiento de n y d Transformación a formato especial (binaria) de los 2 formatos de datos de entrada soportados por la implementación de Apriori SEPI-UPIICSA-M.C. Informática VIII

13 J.L.C Contenido Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en Oracle para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means implementado en PostgreSQL para diversos valores de escalamiento de n y d Tabla y gráficas del desempeño (en segundos) del algoritmo de K-Means de la herramienta ODM para diversos valores de escalamiento de n y d Sistema Operativo Utilizado SEPI-UPIICSA-M.C. Informática IX

14

15 Introducción La minería de datos es una tecnología que nos permite extraer conocimiento a partir de un conjunto de datos. El conocimiento, que potencialmente se puede extraer, está implícito en los datos, y por ello, la extracción de dicho conocimiento se convierte en una tarea no trivial. Para poder extraer el conocimiento, la minería de datos ha heredado técnicas de diversas disciplinas para poder construir modelos que resuelven problemas de clasificación, regresión, agrupamiento (clustering), reglas de asociación, etc. Con ayuda de los modelos creados se pueden caracterizar (describir/predecir) los datos. Este proceso nos permitirá, paulatinamente, encontrar los patrones ocultos en ellos. Para realizar análisis de minería de datos, comúnmente, se requiere que los datos deban ser importados a una herramienta capaz de realizar dicho análisis. Hoy en día, la información de las organizaciones se encuentra almacenada en diversas bases de datos (fuentes) y es común que se construya un almacén de datos (data warehouse) para concentrar la información de toda la organización. Estos almacenes de datos son una fuente rica en conocimiento para la minería de datos, ya que los modelos creados a partir de un conjunto de datos suficientemente representativo tendrán un mejor valor de confianza para ayudar adescribircomportamiento,yencontrarrelaciones ocultas enlosdatos. 1

16 Introducción J.L.C Objetivos 1. Instrumentar algoritmos de minería de datos usando SQL (lenguaje estructurado de consulta, por sus siglas en inglés) y UDFs (funciones definidas por el usuario, por sus siglas en inglés) en los sistemas manejadores de bases de datos (SMBDs) Oracle ypostgresql,usandolastécnicaspropuestasen[3,4,2]. 2. Explorar alternativas para implementar algoritmos de minado de datos no cubiertos en los artículos [3, 4, 2]. 3. Comparar los algoritmos implementados, en relación a su tiempo de ejecución, entre ambos SMBDs y en Oracle contra los algoritmos incluidos en la herramienta de minería de datos ODM (oracle data mining). 4. De acuerdo a los resultados de la evaluación experimental concluir qué implementación es la más eficiente, y en su caso, establecer escenarios en los que será más conveniente el uso de cada una de ellas. Planteamiento del Problema Existen muchos estudios que proponen alternativas diferentes para realizar análisis estadístico de grandes cantidades de datos. De acuerdo a [3, 1] el problema de la implementación de funciones estadísticas que manipulen matrices 3 se puede resolverse básicamente de 4 formas: 1. No realizar las operaciones de matrices dentro del SMBD y exportar los registros a una herramienta externa de minería de datos. 2. Integrar todas las operaciones de matrices dentro del SMBD haciendo modificaciones al código fuente del mismo. 3. Ejecutar todas las operaciones de matrices sólo con consultas SQL considerando las matrices como tablas relacionales. 3 Asumiendo que la matriz está almacenada en un SMBD SEPI-UPIICSA-M.C. Informática 2

17 J.L.C Introducción 4. Ejecutar las operaciones combinando SQL y UDFs. En [3] se menciona que se ha hecho mucha investigación en algoritmos de éste tipo, pero que en su mayoría trabajan fuera del SMBD, procesando archivos planos. Oracle Data Mining (ODM) [5] es una herramienta de minería de datos integrada en el SMBD Oracle. Los algoritmos de ODM operan nativamente en tablas o vistas relacionales. Esto permite que la ejecución del proceso de minería de datos se haga directamente en la base de datos, eliminando el costo de exportar la información para que sea analizada por una herramienta de manera externa. De acuerdo a [5], ODM trabaja nativamente en el SMBD y de manera similar las soluciones propuestas en [3, 4, 2] describen técnicas para ejecutar algoritmos de minería de datos dentro del SMBD, haciendo uso de SQL y UDFs. Al crear modelos de minado de datos dentro del SMBD se obtiene una disminución de tiempo, debido a la eliminación del costo de extracción e importación de los datos a una herramienta externa al SMBD. Así mismo, se mantiene sin cambios la seguridad de los datos (los datos no saldrán del SMBD y el acceso a los mismos sigue resguardado éste) y los datos estarán actualizados para realizar el análisis en el momento deseado. El objetivo de la evaluación experimental es determinar si los resultados obtenidos en [3, 4, 2] son válidos también en los SMBDs Oracle y PostgreSQL, así como determinar si la herramienta ODM (módulo opcional y de costo extra 4 )esmejoralassoluciones propuestas en [3, 4, 2]. 4 ODM (USD 23,000 por procesador) es módulo opcional para la versión Enterprise Edition de Oracle 11g (USD 47,500 por procesador)[6]. SEPI-UPIICSA-M.C. Informática 3

18 Introducción J.L.C Trabajos Relacionados Entre los trabajos relacionados al estudio propuesto se pueden mencionar los siguientes: 1. El artículo [1] habla sobre la implementación de técnicas descritas en [2, 3] y menciona la aplicación de dichas técnicas en una herramienta de minería de datos comercial llamada Teradata Warehouse Miner. 2. El articulo [2] analiza las características y limitaciones de implementar operaciones sobre vectores y matrices con UDFs. Muestra que las UDFs son más rápidas que funciones de agregación en SQL estándar e igual de rápidas que expresiones aritméticas en SQL. 3. El artículo [3] propone técnicas para calcular de manera eficiente 5 modelos estadísticos fundamentales dentro de un SMBD, explotando funciones definidas por el usuario. Las técnicas incluyen la definición de dos matrices fundamentales para los 5 modelos, y propone cómo construir dichas matrices a partir de consultas SQL y UDFs con sólo una lectura de los datos de entrada. Las técnicas propuestas son comparadas experimentalmente contra C++ que realiza el análisis sobre archivos planos. De acuerdo a los resultados de la comparación experimental, el autor concluye que las UDFs son mas rápidas que las consultas SQL y sólo un poco mas lentas a C++. Pero considerando el tiempo requerido para extraer los datos, C++ es mucho más lento que las UDFs. 4. Los artículos [4, 7] hablan sobre implementaciones de 2 algoritmos de minería de datos de agrupamiento (K-Means y EM) usando SQL. Justificación de la Tesis El proceso de análisis de minería de datos es por sí mismo un proceso costoso ya que debe manipular una gran cantidad de datos. Por ello resulta muy importante saber qué alternativa (ver objetivos) es la mejor en cuanto a desempeño. Considerando que de acuerdo SEPI-UPIICSA-M.C. Informática 4

19 J.L.C Introducción a [7, 8, 9] sólo pocas propuestas han abordado el problema de la integración de minería de datos en el SMBD resulta interesante la comparación entre ODM y la propuesta de UDFs hecha en [3]. Los resultados de la comparación pueden tener varias implicaciones, por ejemplo: Si las funciones nativas de ODM tienen el mejor desempeño, la evaluación puede servir como apoyo para justificar un nuevo paradigma de minería de datos embebido en el SMBD. Si las funciones nativas de ODM y UDFs tienen resultados semejantes. UDFs será una excelente alternativa para ejecutar análisis de minería de datos dentro del SMBD ya que la mayoría de los SMBD modernos cuentan con soporte de UDFs. Los resultados de la evaluación experimental del desempeño de las propuestas anteriores resultarán muy interesantes, ya que servirán como apoyo para determinar qué alternativa es la que tiene mejores resultados en una implementación de análisis de minería de datos dentro del SMBD. Alcances y Limitaciones El presente trabajo mostrará los resultados de la evaluación del desempeño de modelos de minado de datos construidos con SQL y UDFs en los SMBDs Oracle y PostgreSQL. También se evaluará el desempeño de modelos construidos con ODM en el SMBD Oracle. Para las evaluaciones se utilizará una base de datos sintética 5.Paraquelosresultados sean representativos, la evaluación se hará sobre una arquitectura idéntica 6 para los 2 SMBDs. La generalización de los resultados en otras arquitecturas está fuera del alcance de ésta investigación. 5 Una base de datos sintética es un conjunto de datos previamente generados de manera artificial para hacer pruebas de desempeño. Ver el capítulo 5 para el detalle de las bases de datos sintéticas utilizadas 6 En el Anexo 5.4.2, se puede consultar el detalle de hardware y configuración del software utilizado. SEPI-UPIICSA-M.C. Informática 5

20 Introducción J.L.C Debido a que los estudios hechos en [3, 2, 4] han arrojado resultados que indican que las implementaciones con UDFs son muy eficientes, una comparación interesante y poco estudiada es entre funciones nativas de una herramienta comercial (ODM) y la combinación de SQL con UDFs. Con estas 3 comparaciones (SQL, UDF y ODM) se podrá tener una perspectiva más amplia sobre el desempeño del análisis de minería de datos dentro del SMBD. Se hará la evaluación experimental de los siguientes algoritmos de minería de datos bien conocidos: 1. Regresión: Regresión lineal (linear regression). 2. Agrupamiento (clustering): K-Means. 3. Clasificación: Naïve Bayes. 4. Reglas de asociación: Apriori. 5. Clasificación binaria: Regresión Logística (logistic regression). Estructura del Trabajo El trabajo está dividido en 5 capítulos. El capítulo 1 contiene el marco teórico relacionado con la minería de datos. Este capítulo servirá como introducción para aquellos lectores poco familiarizados con esta tecnología. En el capítulo 2 se describen los algoritmos de minería de datos que serán implementados y de los cuales se hará la evaluación de desempeño. Para ayudar a que el lector comprenda el funcionamiento de cada algoritmo, se incluye un ejemplo que muestra el funcionamiento y los resultados que se obtienen al ejecutar cada algoritmo sobre un conjunto de datos simple. En el capítulo 3 se explica cómo implementar funciones definidas por el usuario en Oracle y PostgreSQL. El uso de UDFs es importante ya que las implementaciones de los algoritmos de minado de datos, SEPI-UPIICSA-M.C. Informática 6

21 J.L.C Introducción que se exponen en este trabajo, hacen uso en mayor o menor medida de esta alternativa para poder extender la funcionalidad del SMBD y lograr construir los modelos de minado dentro del SMBD. El capítulo 4 presenta una introducción al manejo del módulo de ODM para construir modelos de minado de datos a partir de la API (interfaz de programación de aplicaciones, por sus siglas en inglés) para PL/SQL que dispone. El capítulo 5 es el capítulo fundamental de este trabajo de tesis, en él se describen los detalles más importantes de la implementación de cada algoritmo, así como varios de los problemas encontrados durante la implementación y la evaluación de los mismos. Finalmente, se muestra el detalle de desempeño (tiempo de ejecución) de los algoritmos implementados en Oracle y PostgreSQL, así como la comparación en el desempeño de estos algoritmos con su versión equivalente en ODM. Las pruebas de desempeño incluyen diferentes niveles de escalamiento para ver cómo cambia el comportamiento del algoritmo con distintos tamaños de datos de estrada. En un último apartado se explican las conclusiones del trabajo yselistanunaseriedeposiblestrabajosfuturosquepudierandefinirseenfuncióndelos resultados obtenidos en esta investigación. En los anexos se pueden consultar el detalle de versiones y configuración de la plataforma donde se realizaron las pruebas de desempeño, partes del código fuente de los algoritmos de minería de datos implementados, así como algunos ejemplos para la invocación de los mismos y sus equivalentes en ODM. SEPI-UPIICSA-M.C. Informática 7

22

23 Capítulo 1 Conceptos Generales En este capítulo se muestra un panorama general de las disciplinas y temas relacionados con este trabajo de tesis. Se debe considerar que no se pretende explicar con amplio detalle cada uno de los temas, pero de ser necesario se pueden consultar las referencias propuestas en cada sección para un estudio más profundo. La necesidad de definir a la minería de datos, las disciplinas relacionadas y las diversas formas en las que puede estar representada la información (niveles de medición), surge por la importancia de comprender el contexto dentro del cual se desarrollará el presente trabajo, y con ello se entiendan los alcances y resultados del trabajo que se exponen a lo largo del capítulo 5 y las conclusiones. 9

24 Capítulo 1. Conceptos Generales J.L.C 1.1. Minería de Datos 1 La minería de datos es una disciplina cuyo objetivo primordial es la extracción de conocimiento a partir de un conjunto de datos. Este conocimiento es desconocido a priori, sin embargo, es potencialmente útil. La extracción de dicho conocimiento no es una actividad trivial debido a que éste se encuentra implícito en los de datos. El conocimiento extraído es útil, si ha sido obtenido a partir de un conjunto de datos válido y lo suficientemente representativo. Es común que el conjunto de datos utilizado como base para extraer conocimiento, a través de la utilización de técnicas de minería de datos, sea un almacén de datos (data warehouse) con la información histórica de ciertas transacciones de una organización. Esto implica que uno de los problemas importantes de la minería de datos sea el manejo de grandes cantidades de registros (elementos/puntos) con muchos atributos (dimensiones). El conocimiento que nos ayuda a descubrir la minería de datos se encuentra implícito en los datos, por lo que sería muy difícil extraerlo con técnicas comunes de reporteo. Es por ello que, las técnicas de minería de datos surgieron por la necesidad de extraer el conocimiento contenido en bases de datos. Hoy en día es común ver que el tamaño de las bases de datos, utilizadas por todo tipo de organizaciones, se ha incrementado notablemente gracias a los avances en el manejo, capacidad y precio de los medios de almacenamiento físico. El reto actual, por tanto, es contar con herramientas que puedan Figura 1.1: Relación de la minería de datos con algunas disciplinas. 1 Se puede consultar [10, 11, 12, 13] para mayor detalle del tema. SEPI-UPIICSA-M.C. Informática 10

25 J.L.C Capítulo 1. Conceptos Generales explotar eficientemente la información contenida en dichas bases de datos. La minería de datos se desarrolló heredando técnicas de otras disciplinas y en realidad existen pocas técnicas que hayan sido desarrolladas específicamente para minería de datos. Dentro de las disciplinas de las cuales la minería de datos ha adoptado técnicas podemos mencionar a la estadística, la inteligencia artificial, el aprendizaje automático y las bases de datos, entre otras. La importancia de la minería de datos, en el mundo empresarial, está en el hecho de que el conocimiento que es factible extraer de las bases de datos (que en muchos casos representan el registro de muchos años de operación) puede ser traducido en estrategias de negocio, por ejemplo: incrementar los clientes, las ventas o las utilidades; descubrir nuevos nichos de mercado; crear productos nuevos o personalizarlos de acuerdo a las características de y necesidades de sus clientes, etc. Es importante señalar que la minería de datos también es utilizada en diversas áreas de investigación como la biología, genética, meteorología y áreas de ingeniería en general. Por ejemplo, para encontrar patrones que se encuentran en los datos recolectados por un experimento de un laboratorio. Podemos concluir que la minería de datos se vuelve muy importante en un entorno donde la acumulación de información crece a un ritmo muy acelerado, y existe la necesidad de extraer el conocimiento implícito en esas colecciones de datos. Hoy en día existen un gran número de herramientas que ayudan a aplicar estas técnicas de minería de datos; se les encuentra en soluciones empresariales y de pago, así como muchas propuestas en el ámbito del software libre y de código abierto. Aunque las herramientas existentes en el mercado son muy buenas, y se ha hecho un gran trabajo en la optimización y modificación de las técnicas heredadas de otras disciplinas para facilitar su uso en minería de datos, hay temas que hoy en día resultan de suma importancia plantear. Muchas de las herramientas existentes requieren que la información sea exportada (comúnmente en archivos planos o con un formato propio de la herramienta) SEPI-UPIICSA-M.C. Informática 11

26 Capítulo 1. Conceptos Generales J.L.C para que pueda ser manipulada por la herramienta de minería. Éste proceso implica principalmente un consumo de tiempo considerable ya que estamos hablando de bases de datos de un gran volumen. Considerando que el proceso de análisis de minería es un proceso dinámico y que muchas veces requiere que se vayan probando diferentes escenarios para los datos (mas dimensiones, diferentes combinaciones, cambiar parámetros del análisis, etc) o bien aplicar el modelo, previamente creado, a nuevos datos (scoring) para evaluar su efectividad, implicará que durante estos ciclos la información deba ser importada y exportada a la herramienta deseada cada vez que los datos hayan cambiado obienhastaobtenerunmodeloquesealosuficientementeconsistente. Alolargodeloscapítulos3y5seabordaránlosbeneficiosdeintegrarlastécnicasde minería de datos para que sean ejecutadas dentro del sistema manejador de base de datos (SMBD). Se presentan los resultados obtenidos al evaluar el desempeño de algunos algoritmos y se comparan con una herramienta comercial llamada Oracle Data Mining (ODM). Esta herramienta es una de las pocas herramientas integradas al propio SMBD, aunque debido a su precio no estaría al alcance de empresas medianas o centros de investigación con presupuesto limitado. SEPI-UPIICSA-M.C. Informática 12

27 J.L.C Capítulo 1. Conceptos Generales 1.2. El Proceso de la Minería de Datos 2 Para aplicar la minería de datos es necesario reconocer que se necesitan algunos elementos mínimos, sin los cuales, los resultados obtenidos por un proceso de minería de datos pueden ser poco útiles dando como resultado que la inversión asignada a un proyecto de minería de datos no se justifique con los resultados obtenidos. Para minimizar el riesgo de que esto ocurra, el proyecto de minería de datos debe identificar y definir (o adecuar) los elementos que intervienen en el proyecto. Por ejemplo: Datos. Es un elemento fundamental y se debe considerar todo lo necesario para almacenar y procesar un gran volumen de los mismos. Los datos serán la materia prima para construir y aplicar modelos de minado de datos. Usuarios. Son todas aquellas personas que intervengan en el proceso de minería. Se deben considerar desde los especialistas (técnicos) y analistas (minero de datos) hasta los consumidores o beneficiados por los resultados. Los usuarios no se limitan a personas individuales pueden tomar este papel áreas completas de una organización u otros sistemas de información. Metodología. Es importante adoptar una metodología que permita identificar los objetivos del negocio. La metodología debe guiar las actividades a lo largo del proyecto para asegurar el logro de los objetivos del proyecto. Herramientas de Minería Se refiere propiamente a las técnicas de minería de datos (ver sección 1.3) así como a herramientas que ayuden a validar los modelos construidos, por ejemplo, validación cruzada (cross validation 3 ). Para estas herramientas, una 2 Para mayor información se puede consultar [12, 13] 3 Cross Validation es una técnica utilizada para validar la fortaleza de un modelo. El proceso consiste en dividir el conjunto de datos de entrenamiento en n particiones. Se debe aplicar el modelo a cada partición y cada vez que se aplica el modelo a una partición, el resultado se valida con el resto de los datos. En cada ciclo se mide el error y al final se obtiene un promedio del mismo. SEPI-UPIICSA-M.C. Informática 13

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

Base de datos en Excel

Base de datos en Excel Base de datos en Excel Una base datos es un conjunto de información que ha sido organizado bajo un mismo contexto y se encuentra almacenada y lista para ser utilizada en cualquier momento. Las bases de

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Curso Excel Básico - Intermedio

Curso Excel Básico - Intermedio Curso Excel Básico - Intermedio Clase 4 Relator: Miguel Rivera Adonis Introducción Base de Datos: Definición de Base de Datos Ordenar datos Formulario Filtros Trabajar con Sub-Totales Validación de Datos

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

CAPITULO 4. Requerimientos, Análisis y Diseño. El presente capítulo explica los pasos que se realizaron antes de implementar

CAPITULO 4. Requerimientos, Análisis y Diseño. El presente capítulo explica los pasos que se realizaron antes de implementar CAPITULO 4 Requerimientos, Análisis y Diseño El presente capítulo explica los pasos que se realizaron antes de implementar el sistema. Para esto, primero se explicarán los requerimientos que fueron solicitados

Más detalles

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones Introducción Las Compañías aseguradoras determinan sus precios basadas en modelos y en información histórica

Más detalles

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología La metodología para el desarrollo de software es un modo sistemático de realizar, gestionar y administrar un proyecto

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios "Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios Miguel Alfonso Flores Sánchez 1, Fernando Sandoya Sanchez 2 Resumen En el presente artículo se

Más detalles

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2 K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2 Historia de revisiones Fecha VersiónDescripción Autor 08/10/2009 1.0 Creación del documento.

Más detalles

GeneXus BPM Suite X. Última actualización: 01 de Setiembre de 2008

GeneXus BPM Suite X. Última actualización: 01 de Setiembre de 2008 Última actualización: 01 de Setiembre de 2008 Copyright Artech Consultores S. R. L. 1988-2008. Todos los derechos reservados. Este documento no puede ser reproducido en cualquier medio sin el consentimiento

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA Documento de trabajo elaborado para la Red Temática DocenWeb: Red Temática de Docencia en Control mediante Web (DPI2002-11505-E)

Más detalles

Administración por Procesos contra Funciones

Administración por Procesos contra Funciones La administración moderna nos marca que en la actualidad, las organizaciones que no se administren bajo un enfoque de procesos eficaces y flexibles, no podrán sobrepasar los cambios en el entorno y por

Más detalles

Metodología básica de gestión de proyectos. Octubre de 2003

Metodología básica de gestión de proyectos. Octubre de 2003 Metodología básica de gestión de proyectos Octubre de 2003 Dentro de la metodología utilizada en la gestión de proyectos el desarrollo de éstos se estructura en tres fases diferenciadas: Fase de Éjecución

Más detalles

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. UNIVERSIDAD DE CARABOBO FACULTAD DE CIENCIA Y TECNOLOGÍA DIRECCION DE EXTENSION COORDINACION DE PASANTIAS Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. Pasante:

Más detalles

ANÁLISIS DE DATOS NO NUMERICOS

ANÁLISIS DE DATOS NO NUMERICOS ANÁLISIS DE DATOS NO NUMERICOS ESCALAS DE MEDIDA CATEGORICAS Jorge Galbiati Riesco Los datos categóricos son datos que provienen de resultados de experimentos en que sus resultados se miden en escalas

Más detalles

El almacén de indicadores de proceso de negocio en ejecución

El almacén de indicadores de proceso de negocio en ejecución X Congreso de Ingeniería de Organización Valencia, 7 y 8 de septiembre de 2006 El almacén de indicadores de proceso de negocio en ejecución Andrés Boza García 1, Angel Ortiz Bas 1, Llanos Cuenca Gonzalez

Más detalles

Figure 7-1: Phase A: Architecture Vision

Figure 7-1: Phase A: Architecture Vision Fase A Figure 7-1: Phase A: Architecture Vision Objetivos: Los objetivos de la fase A son: Enfoque: Desarrollar una visión de alto nivel de las capacidades y el valor del negocio para ser entregado como

Más detalles

BASE DE DATOS RELACIONALES

BASE DE DATOS RELACIONALES BASE DE DATOS RELACIONALES Una base de datos relacional es una base de datos que cumple con el modelo relacional, el cual es el modelo más utilizado en la actualidad para implementar bases de datos ya

Más detalles

Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos

Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos Britos, P. 1,2 ; Fernández, E. 2,1 ; García Martínez, R 1,2 1 Centro de Ingeniería del Software e Ingeniería del Conocimiento.

Más detalles

Inteligencia de Negocio

Inteligencia de Negocio UNIVERSIDAD DE GRANADA E.T.S. de Ingenierías Informática y de Telecomunicación Departamento de Ciencias de la Computación e Inteligencia Artificial Inteligencia de Negocio Guión de Prácticas Práctica 1:

Más detalles

Análisis de medidas conjuntas (conjoint analysis)

Análisis de medidas conjuntas (conjoint analysis) Análisis de medidas conuntas (conoint analysis). Introducción Como ya hemos dicho anteriormente, esta técnica de análisis nos sirve para analizar la importancia que dan los consumidores a cada uno de los

Más detalles

Elementos requeridos para crearlos (ejemplo: el compilador)

Elementos requeridos para crearlos (ejemplo: el compilador) Generalidades A lo largo del ciclo de vida del proceso de software, los productos de software evolucionan. Desde la concepción del producto y la captura de requisitos inicial hasta la puesta en producción

Más detalles

Capítulo VI. Conclusiones. En este capítulo abordaremos la comparación de las características principales y

Capítulo VI. Conclusiones. En este capítulo abordaremos la comparación de las características principales y Capítulo VI Conclusiones En este capítulo abordaremos la comparación de las características principales y de las ventajas cada tecnología Web nos ofrece para el desarrollo de ciertas aplicaciones. También

Más detalles

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos 2.1. Principios básicos del Modelado de Objetos UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos Hoy en día muchos de los procesos que intervienen en un negocio o empresa y que resuelven

Más detalles

RESUMEN CUADRO DE MANDO

RESUMEN CUADRO DE MANDO 1. Objetivo Los objetivos que pueden alcanzarse, son: RESUMEN CUADRO DE MANDO Disponer eficientemente de la información indispensable y significativa, de modo sintético, conectada con los objetivos. Facilitar

Más detalles

Sistemas de Información Geográficos (SIG o GIS)

Sistemas de Información Geográficos (SIG o GIS) Sistemas de Información Geográficos (SIG o GIS) 1) Qué es un SIG GIS? 2) Para qué sirven? 3) Tipos de datos 4) Cómo trabaja? 5) Modelos de datos, Diseño Conceptual 6) GeoDataase (GD) 7) Cómo evaluamos

Más detalles

INTRODUCCIÓN CAPITULO I 1.1 PLANTEAMIENTO DEL PROBLEMA.

INTRODUCCIÓN CAPITULO I 1.1 PLANTEAMIENTO DEL PROBLEMA. CAPITULO I 1.1 PLANTEAMIENTO DEL PROBLEMA. Hoy en día las empresas en México quieren ocupar un lugar privilegiado en un mercado cambiante y lleno de retos. Por esa razón necesitan crear nuevas estrategias

Más detalles

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007 Enunciado Se desea efectuar el testing funcional de un programa que ejecuta transferencias entre cuentas bancarias. El programa recibe como parámetros la cuenta de origen, la de cuenta de destino y el

Más detalles

Unidad 1. Fundamentos en Gestión de Riesgos

Unidad 1. Fundamentos en Gestión de Riesgos 1.1 Gestión de Proyectos Unidad 1. Fundamentos en Gestión de Riesgos La gestión de proyectos es una disciplina con la cual se integran los procesos propios de la gerencia o administración de proyectos.

Más detalles

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE PRUEBAS DE SOFTWARE La prueba del software es un elemento crítico para la garantía de la calidad del software. El objetivo de la etapa de pruebas es garantizar la calidad del producto desarrollado. Además,

Más detalles

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual Introducción Algunas de las personas que trabajan con SGBD relacionales parecen preguntarse porqué deberían preocuparse del diseño de las bases de datos que utilizan. Después de todo, la mayoría de los

Más detalles

Capítulo I. Definición del problema y objetivos de la tesis. En la actualidad Internet se ha convertido en una herramienta necesaria para todas

Capítulo I. Definición del problema y objetivos de la tesis. En la actualidad Internet se ha convertido en una herramienta necesaria para todas Capítulo I Definición del problema y objetivos de la tesis 1.1 Introducción En la actualidad Internet se ha convertido en una herramienta necesaria para todas las personas ya que nos permite realizar diferentes

Más detalles

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008 Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008 Introducción Aunque la estrategia de adquisiciones que Oracle ha seguido en los últimos años siempre ha buscado complementar y fortalecer nuestra oferta

Más detalles

Proceso Unificado de Rational PROCESO UNIFICADO DE RATIONAL (RUP) El proceso de desarrollo de software tiene cuatro roles importantes:

Proceso Unificado de Rational PROCESO UNIFICADO DE RATIONAL (RUP) El proceso de desarrollo de software tiene cuatro roles importantes: PROCESO UNIFICADO DE RATIONAL (RUP) El proceso de desarrollo de software tiene cuatro roles importantes: 1. Proporcionar una guía de actividades para el trabajo en equipo. (Guía detallada para el desarrollo

Más detalles

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama. Diagrama de Flujo La presentación gráfica de un sistema es una forma ampliamente utilizada como herramienta de análisis, ya que permite identificar aspectos relevantes de una manera rápida y simple. El

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

Introducción En los años 60 s y 70 s cuando se comenzaron a utilizar recursos de tecnología de información, no existía la computación personal, sino que en grandes centros de cómputo se realizaban todas

Más detalles

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería

Más detalles

Estándares para planes de calidad de software. Escuela de Ingeniería de Sistemas y Computación Desarrollo de Software II Agosto Diciembre 2008

Estándares para planes de calidad de software. Escuela de Ingeniería de Sistemas y Computación Desarrollo de Software II Agosto Diciembre 2008 Estándares para planes de calidad de software Escuela de Ingeniería de Sistemas y Computación Desarrollo de Software II Agosto Diciembre 2008 DIFERENCIA ENTRE PRODUCIR UNA FUNCION Y PRODUCIR UNA FUNCION

Más detalles

App para realizar consultas al Sistema de Información Estadística de Castilla y León

App para realizar consultas al Sistema de Información Estadística de Castilla y León App para realizar consultas al Sistema de Información Estadística de Castilla y León Jesús M. Rodríguez Rodríguez rodrodje@jcyl.es Dirección General de Presupuestos y Estadística Consejería de Hacienda

Más detalles

Día 5-6-2012 17:00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

Día 5-6-2012 17:00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida Resumen de la conferencia Día 5-6-2012 17:00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida Ponente: Luis Muñiz Socio Director de Sisconges & Estrategia y experto en Sistemas

Más detalles

ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE

ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE ISO 9001:2000 DOCUMENTO INFORMATIVO DOCUMENTO ELABORADO POR CHRISTIAN NARBARTE PARA EL IVECE MARZO 2007 Este documento contesta las preguntas más frecuentes que se plantean las organizaciones que quieren

Más detalles

MINING SOLUTIONS LIMITADA

MINING SOLUTIONS LIMITADA MINING SOLUTIONS LIMITADA Contenido... 1 Resumen Ejecutivo... 3... 4 Nuestros Servicios... 5 Administración de proyectos... 6 Operación y mantenimiento sobre los Sistema de Manejo de la Información Geológica

Más detalles

UNIVERSIDAD ALBERT EINSTEIN FACULTAD DE INGENIERIA

UNIVERSIDAD ALBERT EINSTEIN FACULTAD DE INGENIERIA UNIVERSIDAD ALBERT EINSTEIN FACULTAD DE INGENIERIA Estudio de las herramientas TOAD y DBArtisan para la administración e integración de bases de datos relacionales. PREVIA OPCION AL TÍTULO DE: INGENIERO

Más detalles

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos Published on Dataprix (http://www.dataprix.com) Principal > Artículos de Minería de Datos de Dataprix By Dataprix Created 26/12/2009-17:13 Artículos de Minería de Datos de Dataprix Introducción a la minería

Más detalles

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS 4 ARQUITECTURA DE DISTRIBUCIÓN DE DATOS Contenido: Arquitectura de Distribución de Datos 4.1. Transparencia 4.1.1 Transparencia de Localización 4.1.2 Transparencia de Fragmentación 4.1.3 Transparencia

Más detalles

capitulo3 MARCO TEÓRICO Para el diseño de la reubicación de los procesos se hará uso de la Planeación

capitulo3 MARCO TEÓRICO Para el diseño de la reubicación de los procesos se hará uso de la Planeación capitulo3 MARCO TEÓRICO Para el diseño de la reubicación de los procesos se hará uso de la Planeación Sistemática de Layout, SLP por sus siglas en inglés. Se hará uso de la simulación para comparar el

Más detalles

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI) OFERTAS TECNOLÓGICAS 1) GESTIÓN ORGANIZACIONAL Y LOGÍSTICA INTEGRADA: TÉCNICAS Y SISTEMAS DE INFORMACIÓN 2) GESTIÓN

Más detalles

Habilidades y Herramientas para trabajar con datos

Habilidades y Herramientas para trabajar con datos Habilidades y Herramientas para trabajar con datos Marcelo Ferreyra X Jornadas de Data Mining & Business Intelligence Universidad Austral - Agenda 2 Tipos de Datos Herramientas conceptuales Herramientas

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

Cómo seleccionar el mejor ERP para su empresa Sumario ejecutivo

Cómo seleccionar el mejor ERP para su empresa Sumario ejecutivo Índice completo de la Guía Índice completo de la Guía 1. Quién debe leer esta guía? 3 2. Qué es un ERP? 7 2.2. Qué es un ERP?... 9 2.3. Cuál es el origen del ERP?... 10 2.4. ERP a medida o paquetizado?...

Más detalles

SISTEMAS DE INFORMACIÓN II TEORÍA

SISTEMAS DE INFORMACIÓN II TEORÍA CONTENIDO: EL PROCESO DE DISEÑO DE SISTEMAS DISTRIBUIDOS MANEJANDO LOS DATOS EN LOS SISTEMAS DISTRIBUIDOS DISEÑANDO SISTEMAS PARA REDES DE ÁREA LOCAL DISEÑANDO SISTEMAS PARA ARQUITECTURAS CLIENTE/SERVIDOR

Más detalles

Copyright 2011 - bizagi. Gestión de Cambios Documento de Construcción Bizagi Process Modeler

Copyright 2011 - bizagi. Gestión de Cambios Documento de Construcción Bizagi Process Modeler Copyright 2011 - bizagi Gestión de Cambios Bizagi Process Modeler Tabla de Contenido Gestión de Cambios... 4 Descripción... 4 Principales factores en la Construcción del Proceso... 5 Modelo de Datos...

Más detalles

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO I. INTRODUCCIÓN Beatriz Meneses A. de Sesma * En los estudios de mercado intervienen muchas variables que son importantes para el cliente, sin embargo,

Más detalles

Indicaciones específicas para los análisis estadísticos.

Indicaciones específicas para los análisis estadísticos. Tutorial básico de PSPP: Vídeo 1: Describe la interfaz del programa, explicando en qué consiste la vista de datos y la vista de variables. Vídeo 2: Muestra cómo crear una base de datos, comenzando por

Más detalles

INTRANET DE UNA EMPRESA RESUMEN DEL PROYECTO. PALABRAS CLAVE: Aplicación cliente-servidor, Intranet, Área reservada, Red INTRODUCCIÓN

INTRANET DE UNA EMPRESA RESUMEN DEL PROYECTO. PALABRAS CLAVE: Aplicación cliente-servidor, Intranet, Área reservada, Red INTRODUCCIÓN INTRANET DE UNA EMPRESA Autor: Burgos González, Sergio. Director: Zaforas de Cabo, Juan. Entidad colaboradora: Colegio de Ingenieros del ICAI. RESUMEN DEL PROYECTO El proyecto consiste en el desarrollo

Más detalles

Capítulo 2 Tecnología data warehouse

Capítulo 2 Tecnología data warehouse Capítulo 2 Tecnología data warehouse El objetivo de éste capítulo es mostrar la tecnología data warehouse (DW) como una herramienta para analizar la información. Este capítulo se encuentra organizado de

Más detalles

Reporte inicial. Metodología

Reporte inicial. Metodología Reporte inicial Este reporte inicial expondrá las decisiones que tomamos al momento de selección de metodología, plantillas y métodos de recabado de evidencia y por qué tomamos dichas decisiones. Metodología

Más detalles

Modelo para el Aseguramiento de Calidad en el Desarrollo de Software Libre

Modelo para el Aseguramiento de Calidad en el Desarrollo de Software Libre Modelo para el Aseguramiento de Calidad en el Desarrollo de Software Libre Cenditel, Mayo 2011 Licencia de Uso Copyright (c) 2010, Alvarez J., Solé S., Briceño R., Fundación CENDITEL. La Fundación CENDITEL

Más detalles

Interoperabilidad de Fieldbus

Interoperabilidad de Fieldbus 2002 Emerson Process Management. Todos los derechos reservados. Vea este y otros cursos en línea en www.plantwebuniversity.com. Fieldbus 201 Interoperabilidad de Fieldbus Generalidades Qué es interoperabilidad?

Más detalles

3.3.3 Tecnologías Mercados Datos

3.3.3 Tecnologías Mercados Datos 3.3.3 Tecnologías Mercados Datos TECNOLOGIAS DATAMART: Aspect Data Mart es una solución completa de reportes para la empresa, que le proporciona un mayor entendimiento de las operaciones de sus negocios

Más detalles

EL PORTAL DE LOS EXPERTOS EN PREVENCIÓN DE RIESGOS DE CHILE. División Difusión y Comunicaciones CALIDAD APQP

EL PORTAL DE LOS EXPERTOS EN PREVENCIÓN DE RIESGOS DE CHILE. División Difusión y Comunicaciones CALIDAD APQP CALIDAD APQP 1. Definición 2. Diseño y desarrollo de producto 3. Producto y validación del proceso 4. Lanzamiento, regeneración gravamen y acción correctiva 5. Planeación y definición del programa 6. Controlar

Más detalles

Mejores prácticas para el éxito de un sistema de información. Uno de los problemas de información dentro de las empresas es contar con datos

Mejores prácticas para el éxito de un sistema de información. Uno de los problemas de información dentro de las empresas es contar con datos ANEXO VI. Mejores prácticas para el éxito de un sistema de información Uno de los problemas de información dentro de las empresas es contar con datos importantes del negocio y que éstos estén aislados

Más detalles

INSTRODUCCION. Toda organización puede mejorar su manera de trabajar, lo cual significa un

INSTRODUCCION. Toda organización puede mejorar su manera de trabajar, lo cual significa un INSTRODUCCION Toda organización puede mejorar su manera de trabajar, lo cual significa un incremento de sus clientes y gestionar el riesgo de la mejor manera posible, reduciendo costes y mejorando la calidad

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Portafolio de Servicios y Productos

Portafolio de Servicios y Productos Portafolio de Servicios y Productos Introducción Somos una empresa que se dedica a generar ventajas competitivas para nuestros clientes a través de desarrollos y consultoría en inteligencia de negocios

Más detalles

Seis Sigma. Nueva filosofía Administrativa.

Seis Sigma. Nueva filosofía Administrativa. Seis Sigma. Nueva filosofía Administrativa. GIN. Filosofía de Calidad. El Seis Sigma es un parámetro cuya base principal es la desviación estándar y su enfoque es reducir la variación y/o defectos en lo

Más detalles

Operación Microsoft Windows

Operación Microsoft Windows Entornos de red Concepto de red En el nivel más elemental, una red consiste en dos equipos conectados entre sí mediante un cable de forma tal que puedan compartir datos. Todas las redes, no importa lo

Más detalles

La Tecnología líder en Simulación

La Tecnología líder en Simulación La Tecnología líder en Simulación El software de simulación Arena, es un "seguro de vida" para las empresa: le ayuda a predecir el impacto en las organizaciones de nuevas ideas, estrategias y políticas

Más detalles

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final INTRODUCCION En principio surgió la idea de un buscador que brinde los resultados en agrupaciones de

Más detalles

Obteniendo más valor de su Sistema ERP

Obteniendo más valor de su Sistema ERP Artículo Obteniendo más valor de su Sistema ERP 1 Contenido Cómo obtener el máximo de su inversión en tecnología?... 3 Dónde estarán los Sistemas ERP en 2 años?... 3 Sistema ERP en la Empresa o en La Nube?...

Más detalles

Procesos Críticos en el Desarrollo de Software

Procesos Críticos en el Desarrollo de Software Metodología Procesos Críticos en el Desarrollo de Software Pablo Straub AgileShift Imagine una organización de desarrollo de software que consistentemente cumple los compromisos con sus clientes. Imagine

Más detalles

Base de datos relacional

Base de datos relacional Base de datos relacional Una base de datos relacional es una base de datos que cumple con el modelo relacional, el cual es el modelo más utilizado en la actualidad para modelar problemas reales y administrar

Más detalles

2. MÉTODOS, INSTRUMENTOS Y ESTRATEGIAS

2. MÉTODOS, INSTRUMENTOS Y ESTRATEGIAS 2. MÉTODOS, INSTRUMENTOS Y ESTRATEGIAS Objetivo específico: El alumno conocerá la importancia de la investigación en psicología industrial/organizacional, su proceso y limitaciones. Asimismo entenderá

Más detalles

Conclusiones. Particionado Consciente de los Datos

Conclusiones. Particionado Consciente de los Datos Capítulo 6 Conclusiones Una de las principales conclusiones que se extraen de esta tesis es que para que un algoritmo de ordenación sea el más rápido para cualquier conjunto de datos a ordenar, debe ser

Más detalles

Operación Microsoft Access 97

Operación Microsoft Access 97 Trabajar con Controles Características de los controles Un control es un objeto gráfico, como por ejemplo un cuadro de texto, un botón de comando o un rectángulo que se coloca en un formulario o informe

Más detalles

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial Universidad del Cauca Facultad de Ingeniería Electrónica y Telecomunicaciones Programas de Maestría y Doctorado en Ingeniería Telemática Seminario de Investigación Evaluación, limpieza y construcción de

Más detalles

Análisis y cuantificación del Riesgo

Análisis y cuantificación del Riesgo Análisis y cuantificación del Riesgo 1 Qué es el análisis del Riesgo? 2. Métodos M de Análisis de riesgos 3. Método M de Montecarlo 4. Modelo de Análisis de Riesgos 5. Qué pasos de deben seguir para el

Más detalles

LiLa Portal Guía para profesores

LiLa Portal Guía para profesores Library of Labs Lecturer s Guide LiLa Portal Guía para profesores Se espera que los profesores se encarguen de gestionar el aprendizaje de los alumnos, por lo que su objetivo es seleccionar de la lista

Más detalles

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse.

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse. TABLA DE DECISION La tabla de decisión es una herramienta que sintetiza procesos en los cuales se dan un conjunto de condiciones y un conjunto de acciones a tomar según el valor que toman las condiciones.

Más detalles

Metodología de la Investigación. Dr. Cristian Rusu cristian.rusu@ucv.cl

Metodología de la Investigación. Dr. Cristian Rusu cristian.rusu@ucv.cl Metodología de la Investigación Dr. Cristian Rusu cristian.rusu@ucv.cl 6. Diseños de investigación 6.1. Diseños experimentales 6.1.1. Diseños preexperimentales 6.1.2. Diseños experimentales verdaderos

Más detalles

CASO PRÁCTICO. ANÁLISIS DE DATOS EN TABLAS DINÁMICAS

CASO PRÁCTICO. ANÁLISIS DE DATOS EN TABLAS DINÁMICAS CASO PRÁCTICO. ANÁLISIS DE DATOS EN TABLAS DINÁMICAS Nuestra empresa es una pequeña editorial que maneja habitualmente su lista de ventas en una hoja de cálculo y desea poder realizar un análisis de sus

Más detalles

Análisis y Diseño de Aplicaciones

Análisis y Diseño de Aplicaciones Análisis y Diseño de Aplicaciones Ciclo de Vida Docente: T/RT Gonzalo Martínez CETP EMT Informática 3er Año Introducción En el desarrollo de sistemas, el ciclo de vida son las etapas por las que pasa un

Más detalles

Capitulo 3: Metodología de Investigación.

Capitulo 3: Metodología de Investigación. Capitulo 3: Metodología de Investigación. 3.1 Introducción. Con el propósito de describir el sector económico en el cual se pretende incursionar y ayude para una correcta realización del plan de negocios

Más detalles

REGISTRO DE EMPRESAS Y PERSONAS BASE DE INFORMACIÓN DE CLIENTES & CONTACTOS

REGISTRO DE EMPRESAS Y PERSONAS BASE DE INFORMACIÓN DE CLIENTES & CONTACTOS REGISTRO DE EMPRESAS Y PERSONAS BASE DE INFORMACIÓN DE CLIENTES & CONTACTOS La gestión del asesor comercial se basa en mantener contacto personalizado con un grupo de clientes empresariales o personales.

Más detalles

Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática

Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática Metodología Evolutiva Incremental Mediante Prototipo y Técnicas Orientada a Objeto (MEI/P-OO)

Más detalles

CMMI (Capability Maturity Model Integrated)

CMMI (Capability Maturity Model Integrated) CMMI (Capability Maturity Model Integrated) El SEI (software engineering institute) a mediados de los 80 desarrolló el CMM (modelo de madurez de la capacidad de software). CMMI: CMM integrado, una mezcla

Más detalles

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II BASE DE DATOS Comenzar presentación Base de datos Una base de datos (BD) o banco de datos es un conjunto

Más detalles

Guía Metodológica para el diseño de procesos de negocio

Guía Metodológica para el diseño de procesos de negocio Guía Metodológica para el diseño de procesos de negocio La guía desarrollada para apoyar TBA, se diseñó con base en las metodologías existentes para el desarrollo BPM, principalmente en aquellas que soportan

Más detalles

CASO 3-5 EUROPEAN ALCOHOL RESEARCH FOUNDATION

CASO 3-5 EUROPEAN ALCOHOL RESEARCH FOUNDATION CASO 3-5 EUROPEAN ALCOHOL RESEARCH FOUNDATION INTRODUCCIÓN Este caso describe el enfoque de caracterizaciones interculturales de consumidores (Cross Cultural Consumer Characterizations; 4C) de Young &

Más detalles

LA LOGÍSTICA COMO FUENTE DE VENTAJAS COMPETITIVAS

LA LOGÍSTICA COMO FUENTE DE VENTAJAS COMPETITIVAS LA LOGÍSTICA COMO FUENTE DE VENTAJAS COMPETITIVAS Los clientes compran un servicio basandose en el valor que reciben en comparacion con el coste en el que incurren. Por, lo tanto, el objetivo a largo plazo

Más detalles

Diseño de un estudio de investigación de mercados

Diseño de un estudio de investigación de mercados Diseño de un estudio de investigación de mercados En cualquier diseño de un proyecto de investigación de mercados, es necesario especificar varios elementos como las fuentes a utilizar, la metodología,

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

CAPÍTULO 3. HERRAMIENTA DE SOFTWARE DE PLANEACIÓN DE

CAPÍTULO 3. HERRAMIENTA DE SOFTWARE DE PLANEACIÓN DE CAPÍTULO 3. HERRAMIENTA DE SOFTWARE DE PLANEACIÓN DE INVENTARIO Y PROCESO Objetivos del capítulo Desarrollar una herramienta de software de planeación de inventario con los datos obtenidos del capítulo

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Capítulo VI. Estudio de Caso de Aplicación del Integrador de Información Desarrollado

Capítulo VI. Estudio de Caso de Aplicación del Integrador de Información Desarrollado Capítulo VI Estudio de Caso de Aplicación del Integrador de Información Desarrollado 6.1 Organización elegida La Organización elegida para el caso de aplicación, es la empresa CTM Tours del grupo Costamar,

Más detalles