Fases del KDD: Recogida de Datos. El Proceso del KDD. FASES. Fases del KDD: Recogida de Datos. Fases del KDD: Recogida de Datos. Proceso detallado:

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Fases del KDD: Recogida de Datos. El Proceso del KDD. FASES. Fases del KDD: Recogida de Datos. Fases del KDD: Recogida de Datos. Proceso detallado:"

Transcripción

1 Minería de 2. El Proceso de KDD José Hernández Orallo Máster y Cursos de Postgrado del DSIC Universitat Politècnica de València Temario 1. Introducción a la Minería de (DM) 1.1. Motivación 1.2. Problemas tipo y aplicaciones 1.3. Relación de DM con otras disciplinas 2. El proceso de KDD 2.1. Las Fases del KDD 2.2. Tipología de Técnicas de Minería de 2.3. Sistemas Comerciales y de Minería de 2.4. Preparación y Visualización de datos 3. Técnicas de Minería de 3.1. El Problema de la Extracción Automática de Conocimiento Evaluación de Hipótesis 3.3. Técnicas no supervisadas y descriptivas Técnicas supervisadas y predictivas. 4. Web Mining 4.1. Los Problemas de la Información No Estructurada Extracción de Conocimiento a partir de Documentos HTML y texto Extracción de Información semi-estructurada (XML). 5. Otros Aspectos 2 Objetivos Tema 2 El Proceso del KDD. FASES Conocer las fases del Descubrimiento de Conocimiento de Bases de y la importancia de las mismas en el éxito del proceso (en especial las de limpieza y selección de datos). Conocer el abanico de sistemas comerciales y sus características comunes Reconocer los tipos de visualización más comunes y su utilidad de cara a la explotación de datos 3 Sistema de Información Preparación de los Minería de Patrones Evaluación / Interpretación / Visualización Conocimiento KDD 1. Determinar las fuentes de información que pueden ser útiles y dónde conseguirlas. 2. Diseñar el esquema de un almacén de datos (Data Warehouse) que consiga unificar de manera operativa toda la información recogida. 3. Implantación del almacén de datos que permita la navegación y visualización previa de sus datos, para discernir qué aspectos puede interesar que sean estudiados. 4. Selección, limpieza y transformación de los datos que se van a analizar. La selección incluye tanto una criba o fusión horizontal (filas) como vertical (atributos). 5. Seleccionar y aplicar el método de minería de datos apropiado. 6. Evaluación, interpretación, transformación y representación de los patrones extraídos. 7. Difusión y uso del nuevo conocimiento. 4

2 El Proceso del KDD. FASES Proceso detallado: datos iniciales Integración y recopilación Ámbito, objetivos de negocio y de minería de datos almacén de datos preparación de datos vista minable patrones conocimiento modelado evaluación despliegue decisiones Fases del KDD: Recogida de Las primeras fases del KDD determinan que las fases sucesivas sean capaces de extraer conocimiento válido y útil a partir de la información original. Generalmente, la información que se quiere investigar sobre un cierto dominio de la organización se encuentra: en bases de datos y otras fuentes muy diversas, tanto internas como externas. muchas de estas fuentes son las que se utilizan para el trabajo transaccional. revisión 5 El análisis posterior será mucho más sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional. 6 Fases del KDD: Recogida de Fases del KDD: Recogida de El proceso subsiguiente de minería de datos: Depende mucho de la fuente: OLAP u OLTP. Datawarehouse o copia con el esquema original. ROLAP o MOLAP. Depende también del tipo de usuario: picapedreros (o granjeros ): se dedican fundamentalmente a realizar informes periódicos, ver la evolución de determinados parámetros, controlar valores anómalos, etc. exploradores : encargados de encontrar nuevos patrones significativos utilizando técnicas de minería de datos. 7 Recogida de Información Externa: Aparte de información interna de la organización, los almacenes de datos pueden recoger información externa: Demografías (censo), páginas amarillas, psicografías (perfiles por zonas), uso de Internet, información de otras organizaciones. compartidos en una industria o área de negocio, organizaciones y colegios profesionales, catálogos, etc. resumidos de áreas geográficas, distribución de la competencia, evolución de la economía, información de calendarios y climatológicas, programaciones televisivasdeportivas, catástofres,.. 8 Bases de datos externas compradas a otras compañías.

3 Fases del KDD: Preparación de Fases del KDD: Preparación de Limpieza (data cleansing) y criba (selección) de datos: Se deben eliminar el mayor número posible de datos erróneos o inconsistentes (limpieza) e irrelevantes (criba). Métodos estadísticos casi exclusivamente. resúmenes e histogramas (detección de datos anómalos). selección de datos (muestreo, ya sea verticalmente, eliminando atributos, denominado selección de características, u horizontalmente, eliminando tuplas, denominado muestreo ). redefinición de atributos (agrupación o separación). 9 La selección y la limpieza pueden acompañarse de transformación de atributos (numerización, discretización, ). El resultado es un conjunto de filas y columnas denominado: VISTA MINABLE La vista minable integra datos de diferentes fuentes, los limpia, selecciona y transforma, y los tipa, con el fin de prepararlos para la modelización. 10 Fases del KDD: La Minería de Patrones a descubrir: Una vez recogidos los datos de interés, un explorador puede decidir qué tipo de patrón quiere descubrir. El tipo de conocimiento que se desea extraer va a marcar claramente la técnica de minería de datos a utilizar. Según como sea la búsqueda del conocimiento se puede distinguir entre: Directed data mining: se sabe claramente lo que se busca, generalmente predecir unos ciertos datos o clases. Undirected data mining: no se sabe lo que se busca, se trabaja con los datos ( hasta que confiesen!). En el primer caso, algunos sistemas de minería de datos se encargan generalmente de elegir el algoritmo más idóneo entre los 11 disponibles para un determinado tipo de patrón a buscar. Fases del KDD: Evaluación y Validación La fase anterior produce una o más hipótesis de modelos. Para seleccionar y validar estos modelos es necesario el uso de criterios de evaluación de hipótesis. Por ejemplo: 1ª Fase: Comprobación de la precisión del modelo en un banco de ejemplos independiente del que se ha utilizado para aprender el modelo. Se puede elegir el mejor modelo. 2ª Fase: Se puede realizar una experiencia piloto con ese modelo. Por ejemplo, si el modelo encontrado se quería utilizar para predecir la respuesta de los clientes a un nuevo producto, se puede enviar un mailing a un subconjunto de clientes y evaluar la fiabilidad del modelo. 12

4 Fases del KDD: Interpretación y Difusión Fases del KDD: Actualización y Monitorización El despliegue del modelo a veces es trivial pero otras veces requiere un proceso de implementación o interpretación: El modelo puede requerir implementación (p.ej. tiempo real detección de tarjetas fraudulentas). El modelo es descriptivo y requiere interpretación (p.ej. una caracterización de zonas geográficas según la distribución de los productos vendidos). El modelo puede tener muchos usuarios y necesita difusión: el modelo puede requerir ser expresado de una manera comprensible para ser distribuido en la organización (p.ej. las cervezas y los productos congelados se compran frecuentemente en conjunto ponerlos en estantes distantes). 13 Los procesos derivan en un mantenimiento: Actualización: Un modelo válido puede dejar de serlo: cambio de contexto (económicos, competencia, fuentes de datos, etc.). Monitorización: Consiste en ir revalidando el modelo con cierta frecuencia sobre nuevos datos, con el objetivo de detectar si el modelo requiere una actualización. Producen realimentaciones en el proceso KDD. 14 Tipología de Técnicas de Minería de Tipología de Técnicas de Minería de Las técnicas de minería de datos crean modelos que son predictivos y/o descriptivos. Un modelo predictivo responde preguntas sobre datos futuros. Cuáles serán las ventas el año próximo? Es esta transacción fraudulenta? Qué tipo de seguro es más probable que contrate el cliente X? Un modelo descriptivo proporciona información sobre las relaciones entre los datos y sus características. Genera información del tipo: Los clientes que compran pañales suelen comprar cerveza. El tabaco y el alcohol son los factores más importantes en la enfermedad Y. Los clientes sin televisión y con bicicleta tienen características muy diferenciadas del resto. 15 Ejemplo de Modelo Predictivo: Queremos saber si jugar o no jugar esta tarde al tenis. Hemos recogido datos de experiencias anteriores: Example Sky Temperature Humidity Wind PlayTennis 1 Sunny Hot High Weak No 2 Sunny Hot High Strong No 3 Overcast Hot High Weak Yes 4 Rain Mild High Weak Yes 5 Rain Cool Normal Weak Yes 6 Rain Cool Normal Strong No 7 Overcast Cool Normal Strong Yes 8 Sunny Mild High Weak No 9 Sunny Cool Normal Weak Yes 10 Rain Mild Normal Weak Yes 11 Sunny Mild Normal Strong Yes 12 Overcast Mild High Strong Yes 13 Overcast Hot Normal Weak Yes 14 Rain Mild High Strong No 16

5 Tipología de Técnicas de Minería de Ejemplo de Modelo Predictivo: Pasamos estos ejemplos a un algoritmo de aprendizaje de árboles de decisión, señalando el atributo PlayTennis como la clase (output). El resultado del algoritmo es el siguiente modelo: NO Sunny Humidity? YES Overcast Outlook? YES Ahora podemos utilizar este modelo para predecir si esta tarde jugamos o no al tenis. P.ej., la instancia: (Outlook = sunny, Temperature = hot, Humidity = high, Wind = strong) 17 es NO. NO Rain Wind? High Normal Strong Weak YES Tipología de Técnicas de Minería de Ejemplo de Modelo Descriptivo: Queremos categorizar nuestros empleados. Tenemos estos datos de los empleados: #Ej Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo Sí No 0 Alquiler No 7 15 H No Sí 1 Alquiler Sí 3 3 M Sí Sí 2 Prop Sí 5 10 H Sí Sí 1 Alquiler No 15 7 M Sí Sí 0 Prop Sí 1 6 H No Sí 0 Alquiler Sí 3 16 M No No 0 Alquiler Sí 0 8 H No Sí 0 Prop Sí 2 6 M Sí Sí 3 Prop No 7 5 H Sí Sí 2 Prop No 1 20 H No No 0 Alquiler No 2 12 M Sí Sí 2 Prop No 3 1 H No No 0 Alquiler No 27 5 M No Sí 0 Alquiler Sí 0 7 H No Sí 0 Alquiler No 3 2 H 18 Tipología de Técnicas de Minería de Ejemplo de Modelo Descriptivo: Pasamos estos ejemplos a un algoritmo de clustering K-meams. Se crean tres clusters, con la siguiente descripción: cluster 1: 5 examples Sueldo : Casado : No -> 0.8 Sí -> 0.2 Coche : No -> 0.8 Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8 Sí -> 0.2 Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6 M -> 0.4 cluster 2: 4 examples Sueldo : Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75 Prop -> 0.25 Sindic. : Sí -> 1.0 Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25 M -> 0.75 cluster 3: 6 examples Sueldo : Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17 Prop -> 0.83 Sindic. : No -> 0.67 Sí -> 0.33 Bajas/Año : 5 Antigüedad : 8 Sexo : H -> 0.83 M -> 0.17 GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas. GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres. 19 GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres. Tipología de Técnicas de Minería de Tipos de conocimiento: Asociaciones: Una asociación entre dos atributos ocurre cuando la frecuencia de que se den dos valores determinados de cada uno conjuntamente es relativamente alta. Ejemplo, en un supermercado se analiza si los pañales y los potitos de bebé se compran conjuntamente. Dependencias: Una dependencia funcional (aproximada o absoluta) es un patrón en el que se establece que uno o más atributos determinan el valor de otro. Ojo! Existen muchas dependencias nada interesantes (causalidades inversas). Ejemplo: que un paciente haya sido ingresado en maternidad determina su sexo. La búsqueda de asociaciones y dependencias se conoce a veces como análisis exploratorio. 20

6 Tipología de Técnicas de Minería de Tipos de conocimiento (cont.): Tipología de Técnicas de Minería de Tipos de conocimiento (cont.): Clasificación: Una clasificación se puede ver como el esclarecimiento de una dependencia, en la que el atributo dependiente puede tomar un valor entre varias clases, ya conocidas. Ejemplo: obtener para qué pacientes una operación de cirugía ocular es satisfactoria según los atributos edad, número de miopías y astigmatismo. Agrupamiento / Segmentación: El agrupamiento (o clustering) es la detección de grupos de individuos. Se diferencia de la clasificación en el que no se conocen ni las clases ni su número (aprendizaje no supervisado), con lo que el objetivo es determinar grupos o racimos (clusters) diferenciados del resto. Ejemplo: determinar qué tipos de clientes tengo atendiendo a sus patrones de compra Tipología de Técnicas de Minería de Tipos de conocimiento (cont.): Tipología de Técnicas de Minería de Tendencias/Regresión: El objetivo es predecir los valores de una variable continua a partir de la evolución sobre una o más variable continua. Una de ellas puede ser el tiempo. Ejemplo, se intenta predecir el número de clientes o pacientes, los ingresos, llamadas, ganancias, costes, etc. a partir de los resultados de semanas, meses o años anteriores. Un tipo de técnica puede servir para varios tipos de estudios Un tipo de estudio puede resolverse con distintos tipos de técnicas Es necesario conocer qué técnicas son posibles y más adecuadas para cada tipo de estudio 23 24

7 Correspondencia Tarea / Técnica Kohonen Kmeans A Priori (asociaciones) Estudios Factoriales, análisis multivariante CN2 K-NN RBF TÉCNICA Redes Neuronales Árboles de Decisión Regresión lineal (local, global), exp.. Reg. Logística Bayes Classifiers PREDICTIVO / SUPERVISADO Clasificación (c4.5) * Regresión (CART) Clustering (agrup.) * DESCRIPTIVO / NO SUPERVISADO Reglas asociación Otros (factoriales, correl, dispersión) 25 Paquetes de Minería de : Durante los 90, aparecen paquetes de minería de datos desde diferentes ámbitos: como evolución de paquetes o librerías de aprendizaje automático o reconocimiento de patrones: CART, See5, Neuroshell, Weka, PRW,.. como solución de los grandes del análisis de datos: SPSS, SAS, como complemento de las herramientas de business intelligence y explotación de datos: IBM, Oracle, Microsoft, Teradata, Incorporan técnicas de preparación de datos, de modelado, de visualización y de evaluación. 26 Tipos de : Elder Research, 27 Según el acoplamiento: Standalone: Los datos se deben exportar/convertir al formato interno del sistema de DM: Angoss Knowledge Seeker, Weka,. On-top: pueden funcionar sobre un sistema propietario (SPSS Clementine sobre ODBC, ). Embedded (funcionan integrados propietarios): Oracle Data Miner, IBM... Según la extensibilidad y el uso directo en aplicaciones: Se pueden añadir nuevos algoritmos fácilmente: Kepler, Weka, Se puede (con paciencia): Clementine, Oracle Complejo o imposible: SAS, Según la variedad de técnicas: Monotécnica: Neuroshell, CART, See5.0, 28 Suites: Clementine, Enterprise Miner, Oracle Data Miner

8 Costes: Muy variables: gratuito (p.ej. Weka). miles de euros (p.ej. SQL Server Data Mining) decenas de miles euros (p.ej. Clementine, Oracle, ) a cientos de miles de euros (inc. Hardware, p.ej. Teradata) Gratuitas más importantes: WEKA ( (Libro: Witten & Frank 2004) Rproject: herramienta gratuita de análisis estadístico ( 29 EJEMPLO: Clementine ( Herramienta que incluye: fuentes de datos (ASCII, XLS, ODBC, ). interfaz visual. distintas técnicas de minería de datos: redes neuronales, reglas, clustering,. evaluación por partición, manipulación de datos (combinación y separación). gestión de proyectos (CRISP-DM), exportación de modelos, Incluye herramientas para flujo de proceso: trata en el proceso KDD como un proceso y las fases se pueden repetir, modificar y grabar. 30 EJEMPLO: Clementine ( EJEMPLO: SAS ENTERPRISE MINER (EM) Herramienta completa. Incluye: interfaz gráfico. conexión a bases de datos (a través de ODBC y SAS datasets). evaluación por partición, distintas técnicas: árboles de decisión, redes neuronales, regresión y clustering. conversión de los modelos en código SAS. Incluye herramientas para flujo de proceso: trata en el proceso KDD como un proceso y las fases se pueden repetir, modificar y grabar

9 EJEMPLO: Angoss Knowledge Seeker: SAS ENTERPRISE MINER (EM) (flujo del proceso KDD) Oracle: Business Intelligence y Data Mining Engine (Java DM) desde Oracle 9i Suite (OracleBi Data Miner). OracleBI Spreadsheet Add-in Oracle Reports Services Difundir Definir Hipótesis Oracle Enterprise Planning & Budgeting Oracle 10g (RDBMS con OLAP y DM) Modelar OracleActivit y Based Management Decidir Oracle Balanced Scorecard OracleBI Data Miner OracleBI Data Miner OracleBI Discoverer Analizar Non-Oracle sources Fuente: IDC, 2004 OracleBI Warehouse Builder Rastrear Actuar Oracle Daily Business Intelligence Oracle E-Business Suite 35 36

10 MS SQL SERVER: Analysis Services Weka, University of Waikato, NZ. (cs.waikato.ac.nz) OLAP Services de SQL Server 97 se amplió a partir de SQL Server 2000 con características de DM en el llamado Analysis Services. Reforzado en el SQL Server Lenguaje DMX: 1. Crear el modelo 2. Entrenar el modelo 3. Realizar predicciones La integración y visualización es a veces mediante Data Mining Client Ribbon o Excel Weka, University of Waikato, NZ. (cs.waikato.ac.nz) Situación de las herramientas según presencia y rendimiento (según METAGROUP dic. 2004)

11 Integración de Integración de Los datos a integrar dependen de los objetivos de minería de datos, que, a su vez, dependen de los objetivos de negocio. Ejemplo: Objetivo de negocio: Reducir colas Objetivo de negocio refinado: Asignar recursos más ajustados en cajas según la afluencia de clientes. Objetivo de minería de datos: Predecir con antelación la afluencia de clientes de una tienda en cualquier tramo del día. 41 Como resultado de esta fase de definición del problema o de establecimiento de los objetivos de minería de datos: Lista de objetivos de minería de datos y su correspondencia con objetivos de negocio. Esclarecimiento de qué datos, tanto internos como externos pueden ser necesarios para cada uno de ellos. Priorización de los mismos según la facilidad de llevarlo a cabo (datos necesarios, recursos, etc.) y el impacto en el objetivo de negocio esperado. Empezaremos por los primeros de la lista. Con esta priorización evitamos objetivos que no resuelven ningún problema pertinente u objetivos imposibles. 42 Integración de Integración de Una vez definidos y seleccionados los objetivos de análisis es necesario esclarecer qué datos son necesarios para poder obtener los modelos deseados: Es necesario RECOPILAR e INTEGRAR los datos. Dos aproximaciones: Recoger exclusivamente los datos necesarios para el objetivo u objetivos de análisis en cuestión. Crear un repositorio de datos para permitir este y otros análisis ulteriores. 43 Generalmente, la información que se quiere investigar sobre un cierto dominio de la organización se encuentra: en bases de datos y otras fuentes muy diversas, tanto internas como externas. muchas de estas fuentes son las que se utilizan para el trabajo transaccional. se requiere un histórico suficiente (1, 5 o 10 años dependiendo del ámbito. el nivel de detalle (granularidad) para la minería de datos ha de ser alto. volúmenes de datos muy grandes. 44

12 Integración de Integración de El análisis posterior será mucho más sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional. La aproximación mínima si se quiere realizar una minería de datos puntual u ocasional es Crear un repositorio de datos. La aproximación adecuada si se quiere realizar minería de datos con continuidad y abierta a nuevos objetivos de análisis es: Crear un almacén de datos o añadir un datamart a un almacén de datos existente. Recogida de Información texto Informes Base de Transaccional 1 Base de Transaccional 2 Fuentes Internas Fuente de 1 texto Fuente de 3 HTML Fuentes Externas Repositorio o Almacén de Fuente de Integración de Integración de Recogida de Información Interna Diferentes formatos: Bases de datos operacionales Hojas de cálculo Informes internos: estratégicos Reglas de negocio La integración es costosa y difícil hacia un único formato. Recogida de Información Interna Información no siempre adecuada: insuficientes: Ejemplo: la tarjeta de unos grandes almacenes pide la nacionalidad del cliente, pero no los hábitos alimenticios o el tipo de trabajo (sólo cuenta propia o ajena o parado). Estos factores no podrán entrar en el análisis. incompletos o de baja calidad: Ejemplo: el formulario permite dejar algunos campos en blanco. Los datos de la tarjeta no se actualizan si el cliente cambia de domicilio, de trabajo, de pareja, 47 48

13 Integración de Integración de Recogida de Información Externa Necesidad de fuentes muy diversas: Demografías (censo), páginas amarillas, usos y hábitos de la población, penetración de teléfono, luz o Internet. compartidos en una industria o área de negocio, organizaciones y colegios profesionales, catálogos, etc. resumidos de áreas geográficas, distribución y precios de la competencia, evolución de la economía... Información de calendarios y climatológicas, información de tráfico, programaciones televisivasdeportivas, catástofres,.. Bases de datos externas compradas a otras compañías. 49 Es necesario siempre tener un almacén de datos para hacer minería de datos? NO Es conveniente tener un almacén de datos para hacer minería de datos de una manera regular si el volumen de datos es importante? SÍ Si existe ya un almacén de datos en la organización, puedo usarlo para la minería de datos? NO SIEMPRE. Depende de si tiene la suficiente granularidad y las dimensiones necesarias para el análisis. 50 Preparación de La preparación de datos es una de las fases del proceso de extracción de conocimiento a partir de datos (KDD). Esta fase suele suponer cerca de la mitad del esfuerzo del proceso de extracción de conocimiento. Preparación de Tras la recogida e integración de datos: El objetivo de la Preparación de es obtener la VISTA MINABLE, a partir de unos datos que podían ser inadecuados, faltantes, erróneos, irrelevantes, dispersos, etc. VISTA MINABLE Idc D-crédito (años) C-crédito (euros) Salario (euros) Casa propia sí sí sí no no Cuentas morosas Devuelvecrédito no sí no sí no Vista Minable: conjunto de datos que incluyen todas las variables de interés para el problema concreto en el formato adecuado. 52

14 Preparación de Preparación de : Comprensión La preparación de datos incluye: Comprensión de los datos Visualización de los datos Limpieza Transformación Selección El primer paso consiste en conocer y comprender los datos: un resumen de características es útil: Preparación de : Visualización Las técnicas de visualización ayudan a comprender los datos. Preparación de : Visualización Las técnicas de visualización ayudan a comprender los datos. scatterplot surveyplot Examinando dato a dato con TableLens 55 Francisco Javier Ferrer Troyano Francisco Javier Ferrer Troyano 56

15 Preparación de : Visualización Las técnicas de visualización ayudan a comprender los datos. Coordenadas paralelas Preparación de : Visualización Las técnicas de visualización ayudan a comprender los datos. Caras de Chernoff Francisco Javier Ferrer Troyano 57 Francisco Javier Ferrer Troyano 58 Preparación de : Visualización Las técnicas de visualización ayudan a comprender los datos. Preparación de : Limpieza Atributos Nominales: Debemos analizar con detalle cada uno de los atributos: Podemos detectar: Series temporales Valores redundantes: (Hombre,Varón) Valores despreciables (agrupar valores como otros) Francisco Javier Ferrer Troyano 59 60

16 Preparación de : Limpieza Atributos Numéricos: Debemos analizar con detalle cada uno de los atributos: Podemos detectar: Preparación de : Limpieza Atributos Numéricos: Otra alternativa especialmente útil para los atributos numéricos son las gráficas de dispersión. Valores anómalos Distribuciones en los datos Preparación de : Limpieza Atributos Numéricos: Cuando tenemos más de dos variables el gráfico anterior se puede repetir para todas las combinaciones posibles. Preparación de : Limpieza Acciones ante datos anómalos (outliers) o faltantes: ignorar. filtrar (eliminar o sustituir) la columna. filtrar la fila. reemplazar el valor por un valor de media o predicho. segmentar las filas entre las de datos correctos y el resto y trabajar separadamente. discretizar los atributos numéricos. Desistir y modificar la política de calidad de datos para la próxima vez

17 Preparación de : Transf. y Selección Preparación de : Transf. y Selección Transformaciones y Selecciones: Transformaciones: Transformaciones globales: p.ej. filas por columnas. Creación o modificación de atributos: Discretización y Numerización. Normalización. Atributos derivados. Reducción de atributos. Selecciones: Verticales (sobre las características / atributos): Selección de características. Horizontales (sobre las instancias): Muestreo. El mismo objetivo: reducción de datos 65 Reducción de datos: La proporción de dimensiones (variables) respecto a la cantidad de instancias puede marcar la calidad de los modelos. Maldición de la dimensionalidad Una manera de intentar resolver este problema es mediante la reducción de dimensiones, por: selección de un subconjunto de atributos, o sustitución del conjunto de atributos iniciales por otros diferentes. 66 Preparación de : Transformación Preparación de : Transformación Intercambio de Dimensiones: (filas por columnas) EJEMPLO: Una tabla de cestas de la compra, donde cada atributo indica si el producto se ha comprado o no. Objetivo: Ver si dos productos se compran conjuntamente (regla de asociación). Es muy costoso: hay que mirar al menos la raíz cuadrada de todas las relaciones (cestas). Y puede haber millones en una semana... Sin embargo... Productos sólo hay unos Intercambio de Dimensiones: EJEMPLO Si se intercambian filas por columnas tenemos: B1 B2 B3 B4 B5 B6... Jabón X X Huevos X X Patatas Fritas X X X Champú X X Jabón + Champú X X Huevos + Patatas X X Sólo es necesario combinar dos filas para saber si hay asociación. 68

18 Preparación de : Transformación Preparación de : Transformación Ventas (mill. euros) Creación de atributos: En otras ocasiones añadir atributos nuevos puede mejorar el proceso de aprendizaje Modelo Lineal At. Originales Modelo Lineal At. Cuadráticos Meses La regresión lineal no se aproxima a la solución Añadiendo un nuevo atributo z=meses^2 se obtiene un buen modelo Creación de atributos: El conocimiento del dominio es el factor que más determina la creación de buenos atributos derivados Atributo Derivado Índice de obesidad Hombre familiar Síntomas SARS Riesgo póliza Beneficios brutos Beneficios netos Desplazamiento Duración media Fórmula Altura 2 / peso Casado, varón e hijos>0 3-de-5 (fiebre alta, vómitos, tos, diarrea, dolor de cabeza) X-de-N (edad < 25, varón, años de carné < 2, vehículo deportivo) Ingresos - Gastos Ingresos Gastos Impuestos Pasajeros * kilómetros Segundos de llamada / número de llamadas 69 Densidad Retardo compra Población / Área Fecha compra Fecha campaña 70 Preparación de : Transformación Preparación de : Transformación Discretización: La discretización, o cuantización (también llamada binning ) es la conversión de un valor numérico en un valor nominal ordenado. Discretización : Ejemplo: atributo tícketssemanales (numérico, de 1 a 15). La discretización se debe realizar cuando: El error en la medida puede ser grande Existen umbrales significativos (p.e. notas) En ciertas zonas el rango de valores es más importante que en otras (interpretación no lineal) Aplicar ciertas tareas de MD que sólo soportan atributos nominales (p.e. reglas de asociación) bajo medio alto Atributo tícketssemanalesnom (nominal: bajo, medio, alto). 72

19 Preparación de : Transformación Preparación de : Transformación Numerización: La numerización es el proceso inverso a la discretización convertir un atributo nominal en numérico. La numerización se debe realizar cuando se quieren aplicar ciertas técnicas de MD que sólo soportan atributos numéricos (p.e. Regresión, métodos basados en distancias) 73 Numerización: numerización 1 a n : Si una variable nominal x tiene posibles valores creamos n variables numéricas, con valores 0 o 1 dependiendo de si la variable nominal toma ese valor o no. EJEMPLO: Convertir el campo tarjeta que contiene los valores: { VISA, 4B, Amer, Maestro } en cuatro atributos binarios. numerización 1 a 1 : Se aplica si existe un cierto orden o magnitud en los valores del atributo nominal. EJEMPLO: si tenemos categorías del estilo {niño, joven, adulto, anciano} podemos crear un único atributo y numerar los valores de 1 a Preparación de : Transformación Preparación de : Transformación Normalización: Algunos métodos de aprendizaje funcionan mejor con los atributos numéricos normalizados entre 0 y 1. Tipos de normalización: lineal uniforme: min v' = v max min sigmoidal Ejemplo: Los tíckets semanales pasan de estar entre 0 y 15 a estar entre 0 y Reducción de atributos por transformación: La técnica más conocida para reducir la dimensionalidad por transformación se denomina análisis de componentes principales ( principal component analysis ), PCA. PCA transforma los m atributos originales en otro conjunto de atributos p donde p m. Este proceso se puede ver geométricamente como un cambio de ejes en la representación (proyección). Los nuevos atributos se generan de tal manera que son independientes entre sí y, además, los primeros tienen más relevancia (más contenido informacional) que los últimos. 76

20 Preparación de : Selección Preparación de : Selección Muestreo: permite reducir el tamaño de datos de trabajo Muestreo más habitual: Aleatorio Simple: con reemplazamiento, o sin reemplazamiento. Otros: Aleatorio Estratificado. De grupos. Exhaustivo. Muestreo: Con cúantos datos es preferible trabajar? Depende, en general, del número de atributos y valores( grados de libertad ) y del método de aprendizaje y de su expresividad (por ejemplo una regresión lineal requiere muchos menos ejemplos que una red neuronal). Se utiliza una estrategia incremental, en el que se va haciendo la muestra cada vez más grande (y diferente si es posible) hasta que se vea que los resultados no varían significativamente entre un modelo y otro

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Introducción a la Prospección de Datos Masivos ( Data Mining )

Introducción a la Prospección de Datos Masivos ( Data Mining ) Objetivos Introducción a la Prospección de Datos Masivos ( Data Mining ) José Hernández Orallo jorallo@dsic.upv.es Transparencias y otra documentación en: http://www.dsic.upv.es/~jorallo/master/ Máster

Más detalles

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos Published on Dataprix (http://www.dataprix.com) Principal > Artículos de Minería de Datos de Dataprix By Dataprix Created 26/12/2009-17:13 Artículos de Minería de Datos de Dataprix Introducción a la minería

Más detalles

La calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad.

La calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad. MINERIA DE DATOS PREPROCESAMIENTO: LIMPIEZA Y TRANSFORMACIÓN El éxito de un proceso de minería de datos depende no sólo de tener todos los datos necesarios (una buena recopilación) sino de que éstos estén

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería

Más detalles

FUENTES SECUNDARIAS INTERNAS

FUENTES SECUNDARIAS INTERNAS FUENTES SECUNDARIAS INTERNAS Las fuentes secundarias son informaciones que se encuentran ya recogidas en la empresa, aunque no necesariamente con la forma y finalidad que necesita un departamento de marketing.

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Análisis de Datos. Práctica de métodos predicción de en WEKA

Análisis de Datos. Práctica de métodos predicción de en WEKA SOLUCION 1. Características de los datos y filtros Una vez cargados los datos, aparece un cuadro resumen, Current relation, con el nombre de la relación que se indica en el fichero (en la línea @relation

Más detalles

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión...

8.1. Introducción... 1. 8.2. Dependencia/independencia estadística... 2. 8.3. Representación gráfica: diagrama de dispersión... 3. 8.4. Regresión... Tema 8 Análisis de dos variables: dependencia estadística y regresión Contenido 8.1. Introducción............................. 1 8.2. Dependencia/independencia estadística.............. 2 8.3. Representación

Más detalles

1.1. Introducción y conceptos básicos

1.1. Introducción y conceptos básicos Tema 1 Variables estadísticas Contenido 1.1. Introducción y conceptos básicos.................. 1 1.2. Tipos de variables estadísticas................... 2 1.3. Distribuciones de frecuencias....................

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas. El primer paso en el diseño de una base de datos es la producción del esquema conceptual. Normalmente, se construyen varios esquemas conceptuales, cada uno para representar las distintas visiones que los

Más detalles

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual Introducción Algunas de las personas que trabajan con SGBD relacionales parecen preguntarse porqué deberían preocuparse del diseño de las bases de datos que utilizan. Después de todo, la mayoría de los

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta SISTEMA DE INFORMACION GERENCIAL Lic.Patricia Palacios Zuleta Pentaho Open BI Suite La suite Pentaho cubre principalmente las siguientes áreas: integración de datos, reportes, análisis, alertas y dashboards,

Más detalles

Portafolio de Servicios y Productos

Portafolio de Servicios y Productos Portafolio de Servicios y Productos Introducción Somos una empresa que se dedica a generar ventajas competitivas para nuestros clientes a través de desarrollos y consultoría en inteligencia de negocios

Más detalles

e-commerce, es hacer comercio utilizando la red. Es el acto de comprar y vender en y por medio de la red.

e-commerce, es hacer comercio utilizando la red. Es el acto de comprar y vender en y por medio de la red. Comercio electrónico. (e-commerce) Las empresas que ya están utilizando la red para hacer comercio ven como están cambiando las relaciones de la empresa con sus clientes, sus empleados, sus colaboradores

Más detalles

Día 5-6-2012 17:00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

Día 5-6-2012 17:00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida Resumen de la conferencia Día 5-6-2012 17:00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida Ponente: Luis Muñiz Socio Director de Sisconges & Estrategia y experto en Sistemas

Más detalles

Ingeniería en Informática

Ingeniería en Informática Departamento de Informática Universidad Carlos III de Madrid Ingeniería en Informática Aprendizaje Automático Junio 2007 Normas generales del examen El tiempo para realizar el examen es de 3 horas No se

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

Presentación de Pyramid Data Warehouse

Presentación de Pyramid Data Warehouse Presentación de Pyramid Data Warehouse Pyramid Data Warehouse tiene hoy una larga historia, desde 1994 tiempo en el que su primera versión fue liberada, hasta la actual versión 8.00. El incontable tiempo

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

Elementos requeridos para crearlos (ejemplo: el compilador)

Elementos requeridos para crearlos (ejemplo: el compilador) Generalidades A lo largo del ciclo de vida del proceso de software, los productos de software evolucionan. Desde la concepción del producto y la captura de requisitos inicial hasta la puesta en producción

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 12-O. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 21

Más detalles

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente En este capítulo definimos los requisitos del modelo para un sistema centrado en la mejora de la calidad del código fuente.

Más detalles

Tecnologías de Información y Comunicación II CLASE 10

Tecnologías de Información y Comunicación II CLASE 10 Tecnologías de Información y Comunicación II CLASE 10 Medidas Una medida es un tipo de dato cuya información es usada por los analistas (usuarios) en sus consultas para medir la perfomance del comportamiento

Más detalles

Las diez cosas que usted debe saber sobre las LICENCIAS de los derechos de Propiedad Industrial e Intelectual

Las diez cosas que usted debe saber sobre las LICENCIAS de los derechos de Propiedad Industrial e Intelectual Las diez cosas que usted debe saber sobre las LICENCIAS de los derechos de Propiedad Industrial e Intelectual 1.- Qué se entiende por Transferencia de Tecnología?. La transferencia de tecnología es el

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

Gestión y Desarrollo de Requisitos en Proyectos Software

Gestión y Desarrollo de Requisitos en Proyectos Software Gestión y Desarrollo de Requisitos en Proyectos Software Ponente: María Jesús Anciano Martín Objetivo Objetivo Definir un conjunto articulado y bien balanceado de métodos para el flujo de trabajo de Ingeniería

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

TeCS. Sistema de ayuda a la gestión del desarrollo de producto cerámico

TeCS. Sistema de ayuda a la gestión del desarrollo de producto cerámico TeCS Sistema de ayuda a la gestión del desarrollo de producto cerámico En el origen de todo proyecto de éxito se halla la capacidad de encauzar y estructurar la creatividad TeCS ofrece un entorno de fácil

Más detalles

BASE DE DATOS RELACIONALES

BASE DE DATOS RELACIONALES BASE DE DATOS RELACIONALES Una base de datos relacional es una base de datos que cumple con el modelo relacional, el cual es el modelo más utilizado en la actualidad para implementar bases de datos ya

Más detalles

INTRODUCCIÓN A LA CALIDAD DE DATOS APLICADO A LA VINCULACION DE LA INFORMACION CATASTRAL Y REGISTRAL

INTRODUCCIÓN A LA CALIDAD DE DATOS APLICADO A LA VINCULACION DE LA INFORMACION CATASTRAL Y REGISTRAL INTRODUCCIÓN A LA CALIDAD DE DATOS APLICADO A LA VINCULACION DE LA INFORMACION CATASTRAL Y REGISTRAL Septiembre de 2012 Presentación Las organizaciones, ya sean públicas o privadas, se preocupan cada vez

Más detalles

e-mailing Solution La forma más efectiva de llegar a sus clientes.

e-mailing Solution La forma más efectiva de llegar a sus clientes. e-mailing Solution La forma más efectiva de llegar a sus clientes. e-mailing Solution Es muy grato para nosotros presentarles e-mailing Solution, nuestra solución de e-mail Marketing para su empresa. E-Mailing

Más detalles

REPRODUCCIÓN DE LAS TABLAS DE CRECIMENTO INFANTIL QUE UTILIZAN LOS PEDIATRAS CON LOS DATOS DE LOS NIÑOS DEL COLEGIO XX

REPRODUCCIÓN DE LAS TABLAS DE CRECIMENTO INFANTIL QUE UTILIZAN LOS PEDIATRAS CON LOS DATOS DE LOS NIÑOS DEL COLEGIO XX Página 1 de 12 REPRODUCCIÓN DE LAS TABLAS DE CRECIMENTO INFANTIL QUE UTILIZAN LOS PEDIATRAS CON LOS DATOS DE LOS NIÑOS DEL COLEGIO XX Autoras: Curso: 3º ESO Escuela: Tutora: Fecha: 08 Mayo 2015 Página

Más detalles

Base de datos en Excel

Base de datos en Excel Base de datos en Excel Una base datos es un conjunto de información que ha sido organizado bajo un mismo contexto y se encuentra almacenada y lista para ser utilizada en cualquier momento. Las bases de

Más detalles

GedicoPDA: software de preventa

GedicoPDA: software de preventa GedicoPDA: software de preventa GedicoPDA es un sistema integrado para la toma de pedidos de preventa y gestión de cobros diseñado para trabajar con ruteros de clientes. La aplicación PDA está perfectamente

Más detalles

App para realizar consultas al Sistema de Información Estadística de Castilla y León

App para realizar consultas al Sistema de Información Estadística de Castilla y León App para realizar consultas al Sistema de Información Estadística de Castilla y León Jesús M. Rodríguez Rodríguez rodrodje@jcyl.es Dirección General de Presupuestos y Estadística Consejería de Hacienda

Más detalles

TEMA 3: EN QUÉ CONSISTE?

TEMA 3: EN QUÉ CONSISTE? Módulo 7 Sesión 3 5/16 TEMA 3: EN QUÉ CONSISTE? La metodología seguida para aplicar correctamente la técnica de RGT se basa en cuatro fases (Figura 1). En la primera de ellas, se seleccionan los elementos

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

Pronósticos. Pronósticos y gráficos Diapositiva 1

Pronósticos. Pronósticos y gráficos Diapositiva 1 Pronósticos Pronósticos Información de base Media móvil Pronóstico lineal - Tendencia Pronóstico no lineal - Crecimiento Suavización exponencial Regresiones mediante líneas de tendencia en gráficos Gráficos:

Más detalles

Bases de datos en Excel

Bases de datos en Excel Universidad Complutense de Madrid CURSOS DE FORMACIÓN EN INFORMÁTICA Bases de datos en Excel Hojas de cálculo Tema 5 Bases de datos en Excel Hasta ahora hemos usado Excel básicamente para realizar cálculos

Más detalles

PROGRAMA FORMATIVO MICROSOFT ACCESS 2007 (COMPLETO)

PROGRAMA FORMATIVO MICROSOFT ACCESS 2007 (COMPLETO) PROGRAMA FORMATIVO MICROSOFT ACCESS 2007 (COMPLETO) www.bmformacion.es info@bmformacion.es Objetivos Descripción del funcionamiento del programa de gestión de bases de datos Microsoft Access 2007, estudiando

Más detalles

1.- INTRODUCCIÓN 2.- PARÁMETROS

1.- INTRODUCCIÓN 2.- PARÁMETROS 1.- INTRODUCCIÓN Hemos diseñado una aplicación que facilite el envío a las entidades bancarias de las de cobro por domiciliación. La entrada de esta aplicación pueden ser, tanto ficheros cuyos formatos

Más detalles

Control del Stock, aprovisionamiento y distribución a tiendas.

Control del Stock, aprovisionamiento y distribución a tiendas. Control del Stock, aprovisionamiento y distribución a tiendas. Tan importante como el volumen de ventas y su rentabilidad, el control del stock supone uno de los pilares fundamentales en el éxito de una

Más detalles

GESTINLIB GESTIÓN PARA LIBRERÍAS, PAPELERÍAS Y KIOSCOS DESCRIPCIÓN DEL MÓDULO DE KIOSCOS

GESTINLIB GESTIÓN PARA LIBRERÍAS, PAPELERÍAS Y KIOSCOS DESCRIPCIÓN DEL MÓDULO DE KIOSCOS GESTINLIB GESTIÓN PARA LIBRERÍAS, PAPELERÍAS Y KIOSCOS DESCRIPCIÓN DEL MÓDULO DE KIOSCOS 1.- PLANTILLA DE PUBLICACIONES En este maestro crearemos la publicación base sobre la cual el programa generará

Más detalles

Metodología básica de gestión de proyectos. Octubre de 2003

Metodología básica de gestión de proyectos. Octubre de 2003 Metodología básica de gestión de proyectos Octubre de 2003 Dentro de la metodología utilizada en la gestión de proyectos el desarrollo de éstos se estructura en tres fases diferenciadas: Fase de Éjecución

Más detalles

Ejercicio de estadística para 3º de la ESO

Ejercicio de estadística para 3º de la ESO Ejercicio de estadística para 3º de la ESO Unibelia La estadística es una disciplina técnica que se apoya en las matemáticas y que tiene como objetivo la interpretación de la realidad de una población

Más detalles

SEWERIN. Pre Localización De Fugas de Agua

SEWERIN. Pre Localización De Fugas de Agua SEWERIN Pre Localización De Fugas de Agua Ventajas del sistema La Pre localización de fugas de agua consiste en la escucha de la red en varios puntos. Para ello se utilizan loggers que graban sus sonidos

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN 3.3 Aplicaciones Definición de Aplicación (Application). Programa informático que permite a un usuario utilizar una computadora con un fin específico. Las

Más detalles

FAQ Parking PPC de SEDO. NicLine

FAQ Parking PPC de SEDO. NicLine FAQ Parking PPC de SEDO NicLine Se prohíbe la reproducción, transmisión, transformación, distribución o el ejercicio de cualquier derecho de autor de este documento, total o parcial, sin la autorización

Más detalles

Cuadros de mando interactivos para los responsables de la toma de decisiones

Cuadros de mando interactivos para los responsables de la toma de decisiones Resumen de producto SAP Soluciones SAP Crystal SAP Crystal Dashboard Design Objetivos Cuadros de mando interactivos para los responsables de la toma de decisiones Transforme datos complejos en cuadros

Más detalles

ERP GESTION LOGÍSTICA

ERP GESTION LOGÍSTICA ERP GESTION LOGÍSTICA o Introducción El objetivo de este módulo reside en dar soporte informático al control de sus existencias para poder responder en cualquier momento a la cuestión Qué cantidad y cuánto

Más detalles

IAP 1003 - ENTORNOS INFORMATIZADOS CON SISTEMAS DE BASES DE DATOS

IAP 1003 - ENTORNOS INFORMATIZADOS CON SISTEMAS DE BASES DE DATOS IAP 1003 - ENTORNOS INFORMATIZADOS CON SISTEMAS DE BASES DE DATOS Introducción 1. El propósito de esta Declaración es prestar apoyo al auditor a la implantación de la NIA 400, "Evaluación del Riesgo y

Más detalles

Capítulo III. Manejo de Incidentes

Capítulo III. Manejo de Incidentes Manejo de Incidentes Manejo de Incidentes Tabla de contenido 1.- En qué consiste el manejo de incidentes?...45 1.1.- Ventajas...47 1.2.- Barreras...47 2.- Requerimientos...48 3.- Clasificación de los incidentes...48

Más detalles

IMPLANTACIONES DE ERP. CÓMO CONSEGUIR EL ÉXITO? MasEmpresa

IMPLANTACIONES DE ERP. CÓMO CONSEGUIR EL ÉXITO? MasEmpresa IMPLANTACIONES DE ERP. CÓMO CONSEGUIR EL ÉXITO? MasEmpresa Implantaciones de ERP. Cómo conseguir el éxito?. Parte I Aunque los sistemas de información para la gestión ERPs tienen muchos años de historia,

Más detalles

El programa Minitab: breve introducción a su funcionamiento. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos

El programa Minitab: breve introducción a su funcionamiento. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos El programa Minitab: breve introducción a su funcionamiento Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos estadísticos en la actualidad, el libro se acompaña, en todo

Más detalles

ANEXO : PERFILES. Guía de Comunicación Digital para la Administración General del Estado. ANEXO PERFILES

ANEXO : PERFILES. Guía de Comunicación Digital para la Administración General del Estado. ANEXO PERFILES ANEXO : PERFILES Guía de Comunicación Digital para la Administración General del Estado. ANEXO PERFILES ANEXO: PERFILES. 3 1. REQUISITOS ANTES DE TENER EL SITIO WEB. 4 1.1 TOMA DE REQUISITOS. 4 1.2 ANÁLISIS

Más detalles

SISTEMA DE GESTION DOCUMENTAL

SISTEMA DE GESTION DOCUMENTAL SISTEMA DE GESTION DOCUMENTAL Introducción favila 0 Contenido Objetivos de este documento... 2 Alcance... 2 Objetivos del Sistema de Gestión Documental... 2 Aspectos Generales... 2 Características básicas...

Más detalles

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008 Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008 Introducción Aunque la estrategia de adquisiciones que Oracle ha seguido en los últimos años siempre ha buscado complementar y fortalecer nuestra oferta

Más detalles

Microsoft Access 2010 (Completo)

Microsoft Access 2010 (Completo) Microsoft Access 2010 (Completo) Descripción: Descripción del funcionamiento del programa de gestión de bases de datos Microsoft Access 2010, estudiando los conceptos fundamentales de las bases de datos:

Más detalles

Base de datos relacional

Base de datos relacional Base de datos relacional Una base de datos relacional es una base de datos que cumple con el modelo relacional, el cual es el modelo más utilizado en la actualidad para modelar problemas reales y administrar

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. 2 Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II. Guía 6 3 Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo

Más detalles

Tools. Ibermática Soluciones Empresariales 2012, Todos los derechos reservados http://soluciones.ibermatica.com

Tools. Ibermática Soluciones Empresariales 2012, Todos los derechos reservados http://soluciones.ibermatica.com Tools http://soluciones.ibermatica.com La aplicación Tools Ibermática incluye 15 aplicaciones que llevan a cabo varios trabajos centrados en el diseño. Estas aplicaciones han sido desarrolladas pensando

Más detalles

Análisis de los datos

Análisis de los datos Universidad Complutense de Madrid CURSOS DE FORMACIÓN EN INFORMÁTICA Análisis de los datos Hojas de cálculo Tema 6 Análisis de los datos Una de las capacidades más interesantes de Excel es la actualización

Más detalles

Soluciones Integrales en Inteligencia de Negocios

Soluciones Integrales en Inteligencia de Negocios Soluciones Integrales en Inteligencia de Negocios QUIENES SOMOS NUESTRA MISIÓN DATAWAREHOUSE MINERÍA DE DATOS MODELOS PREDICTIVOS REPORTERÍA Y DASHBOARD DESARROLLO DE APLICACIONES MODELOS DE SIMULACIÓN

Más detalles

UN PASEO POR BUSISNESS INTELLIGENCE

UN PASEO POR BUSISNESS INTELLIGENCE UN PASEO POR BUSISNESS INTELLIGENCE Ponentes: Agreda, Rafael Chinea, Linabel Agenda Sistemas de Información Transaccionales Qué es Business Intelligence? Usos y funcionalidades Business Intelligence Ejemplos

Más detalles

Índice INTERNET MARKETING 1

Índice INTERNET MARKETING 1 INTERNET MARKETING 1 Índice Manual de Google Analytics... 2 Qué es Google Analytics?... 2 Cómo funciona Google Analytics?... 2 Iniciar Sesión en Google Analytics... 3 Visualizar las estadísticas... 3 Resumen

Más detalles

PROTOCOLO OPERATIVO PARA AGENTES DE NIVEL 3.

PROTOCOLO OPERATIVO PARA AGENTES DE NIVEL 3. PROTOCOLO OPERATIVO PARA AGENTES DE NIVEL 3. Fecha: Abril 2010 Versión: 3.0 Pág. 1/9 INDICE 1. Objeto del documento 3 2. Ámbito de aplicación 3 3. Comunicación 3 4. Protocolo de actividades 4 4.1. Atención

Más detalles

Gobierno de Aragón. Herramienta Análisis Multidimensional para el Observatorio de Empleo

Gobierno de Aragón. Herramienta Análisis Multidimensional para el Observatorio de Empleo Instituto Aragonés de Empleo Herramienta Análisis Multidimensional para el Observatorio de Empleo Índice 1 FICHA... 3 2 SITUACIÓN INICIAL... 5 3 OBJETIVOS... 6 4 SOLUCIÓN... 8 5 RESULTADOS...10 Página

Más detalles

Capítulo 2 Tecnología data warehouse

Capítulo 2 Tecnología data warehouse Capítulo 2 Tecnología data warehouse El objetivo de éste capítulo es mostrar la tecnología data warehouse (DW) como una herramienta para analizar la información. Este capítulo se encuentra organizado de

Más detalles

Segmentación del Mercado

Segmentación del Mercado Segmentación del Mercado Para completar esta unidad satisfactoriamente le recomiendo que lea el capítulo 6 de su libro Fundamentos de Marketing y complete la lectura de las secciones provistas en este

Más detalles

Gestión de archivos (módulo transversal, MF0978_2)

Gestión de archivos (módulo transversal, MF0978_2) Gestión de archivos (módulo transversal, MF0978_2) Curso de capacitación para la obtención del módulo formativo Gestión de archivos del Certificado de profesionalidad (código MF0978_2), asociado a la unidad

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

Unidad 1. Fundamentos en Gestión de Riesgos

Unidad 1. Fundamentos en Gestión de Riesgos 1.1 Gestión de Proyectos Unidad 1. Fundamentos en Gestión de Riesgos La gestión de proyectos es una disciplina con la cual se integran los procesos propios de la gerencia o administración de proyectos.

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Diseño orientado al flujo de datos

Diseño orientado al flujo de datos Diseño orientado al flujo de datos Recordemos que el diseño es una actividad que consta de una serie de pasos, en los que partiendo de la especificación del sistema (de los propios requerimientos), obtenemos

Más detalles

H E R R A M I E N T A S D E A N Á L I S I S D E D A T O S HERRAMIENTAS DE ANÁLISIS DE DATOS

H E R R A M I E N T A S D E A N Á L I S I S D E D A T O S HERRAMIENTAS DE ANÁLISIS DE DATOS H E R R A M I E N T A S D E A N Á L I S I S D E D A T O S HERRAMIENTAS DE ANÁLISIS DE DATOS Una situación que se nos plantea algunas veces es la de resolver un problema hacia atrás, esto es, encontrar

Más detalles

Resumen de la Tesina. Autor: Adrià Batet López. Tutor: Víctor Pascual Ayats

Resumen de la Tesina. Autor: Adrià Batet López. Tutor: Víctor Pascual Ayats Inventario y geolocalización de las actividades comerciales en las plantas bajas de los edificios de L Hospitalet de Llobregat. Aplicación web de recursos para el ciudadano. Resumen de la Tesina. Autor:

Más detalles

Curso Excel Básico - Intermedio

Curso Excel Básico - Intermedio Curso Excel Básico - Intermedio Clase 4 Relator: Miguel Rivera Adonis Introducción Base de Datos: Definición de Base de Datos Ordenar datos Formulario Filtros Trabajar con Sub-Totales Validación de Datos

Más detalles

Diseño de un estudio de investigación de mercados

Diseño de un estudio de investigación de mercados Diseño de un estudio de investigación de mercados En cualquier diseño de un proyecto de investigación de mercados, es necesario especificar varios elementos como las fuentes a utilizar, la metodología,

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Etapas de Sinube CRM

Etapas de Sinube CRM Etapas de Sinube CRM Captación de clientes Oportunidades Sinube CRM está diseñado para trabajar todo el ciclo de la venta, desde la captación de clientes en la página web de la compañía hasta el control

Más detalles

Funcionalidades Software PROYECTOS GotelGest.Net Software para la gestión de Proyectos GotelGest.Net

Funcionalidades Software PROYECTOS GotelGest.Net Software para la gestión de Proyectos GotelGest.Net 2012 Funcionalidades Software PROYECTOS GotelGest.Net Software para la gestión de Proyectos GotelGest.Net Servinet Sistemas y Comunicación S.L. www.softwaregestionproyectos.com Última Revisión: Febrero

Más detalles

Artículo dedicado a la Innovación y Mejores Prácticas en la Ingeniería de Negocios

Artículo dedicado a la Innovación y Mejores Prácticas en la Ingeniería de Negocios Herramienta para Indicadores de Gestión Se ha dado cuenta de lo difícil que es conseguir que todos los miembros de su organización vean "la gran foto" y trabajen juntos para lograr los objetivos estratégicos

Más detalles

SAQQARA. Correlación avanzada y seguridad colaborativa_

SAQQARA. Correlación avanzada y seguridad colaborativa_ SAQQARA Correlación avanzada y seguridad colaborativa_ Tiene su seguridad 100% garantizada con su SIEM?_ Los SIEMs nos ayudan, pero su dependencia de los eventos y tecnologías, su reducida flexibilidad

Más detalles

rg.o El l c i c c i l c o l o de d vi v d i a d a cm a l@ rza e de d u n u n si s s i t s e t ma m a de d in i f n or o ma m c a i c ó i n ó b

rg.o El l c i c c i l c o l o de d vi v d i a d a cm a l@ rza e de d u n u n si s s i t s e t ma m a de d in i f n or o ma m c a i c ó i n ó b El ciclo de vida de un sistema de información El ciclo de vida de un sistema de información El proceso de desarrollo de software Modelos de ciclo de vida El ciclo de vida de una base de datos El proceso

Más detalles

Sistema Inteligente de Exploración

Sistema Inteligente de Exploración Observatorio Municipal de Estadística Sistema Inteligente de Exploración Capítulos 1. Consideraciones iniciales y requerimientos... 2 2. Navegación... 3 3. Consulta de indicadores... 5 3.1. Elaboración

Más detalles

PRESENTACIÓN DEL PRODUCTO

PRESENTACIÓN DEL PRODUCTO PRESENTACIÓN DEL PRODUCTO esernet, s.l. Sebastián Elcano, 32 Planta 1 Oficina 22 28012 Madrid Teléfono: 91 433 84 38 -- Fax. 91 141 21 89 www.esernet.com -- esernet@esernet.com 1. Introducción 2. Descripción

Más detalles

2 EL DOCUMENTO DE ESPECIFICACIONES

2 EL DOCUMENTO DE ESPECIFICACIONES Ingeniería Informática Tecnología de la Programación TEMA 1 Documentación de programas. 1 LA DOCUMENTACIÓN DE PROGRAMAS En la ejecución de un proyecto informático o un programa software se deben de seguir

Más detalles

Microsoft SQL Server Conceptos.

Microsoft SQL Server Conceptos. Microsoft Conceptos. Microsoft 2005 es una plataforma de base de datos a gran escala de procesamiento de transacciones en línea (OLTP) y de procesamiento analítico en línea (OLAP). La siguiente tabla muestra

Más detalles

La Digitalización del Ayuntamiento. Gestión Integral

La Digitalización del Ayuntamiento. Gestión Integral prosoft.es La Digitalización del Ayuntamiento. Gestión Integral Desarrollamos su proyecto para el Fondo de Inversión Local El Real Decreto-ley, que crea el Fondo de 5.000 millones de euros, fue aprobado

Más detalles

Arquitectura de sistema de alta disponibilidad

Arquitectura de sistema de alta disponibilidad Mysql Introducción MySQL Cluster esta diseñado para tener una arquitectura distribuida de nodos sin punto único de fallo. MySQL Cluster consiste en 3 tipos de nodos: 1. Nodos de almacenamiento, son los

Más detalles

activuspaper Text Mining and BI Abstract

activuspaper Text Mining and BI Abstract Text Mining and BI Abstract Los recientes avances en lingüística computacional, así como la tecnología de la información en general, permiten que la inserción de datos no estructurados en una infraestructura

Más detalles