Data Mining, OLAP y Data Warehousing. Robert Antonio Romero Flores Mg. Ingeniería de Sistemas Mg. Administración

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Data Mining, OLAP y Data Warehousing. Robert Antonio Romero Flores Mg. Ingeniería de Sistemas Mg. Administración"

Transcripción

1 Data Mining, OLAP y Data Warehousing Robert Antonio Romero Flores Mg. Ingeniería de Sistemas Mg. Administración

2 Contenidos 1. Sistemas de ayuda a la toma de decisiones 2. Análisis de datos y Procesamiento analítico en línea (OnLine Analytical Processing OLAP) 3. Recopilación de datos 4. Almacenamiento de datos 5. Sistemas de recuperación de la información

3 Introducción Los Sistemas de Bases de Datos son desarrollados con una aplicación específica en mente, con el objetivo de soportar las actividades de operación diaria en dicha aplicación. Los DBMS s han sido diseñados para administrar las actividades operativas diarias a través del almacenamiento de los datos que requieren de una manera consistente basado en un modelo de datos, y optimizando sus operaciones de consulta y actualización para un performance de alto nivel. Debido a que dichas actividades diarias, son en efecto interactivas, este tipo de DBMS s son llamados on-line transaction processing systems (OLTP), o sistema de procesamiento de transacciones en línea.

4 Introducción El objetivo de los sistemas OLTP es soportar las decisiones del día-a-día a un gran número de usuarios operacionales. Sin embargo existe también la necesidad de soportar el análisis y toma de decisiones estratégicas de un número pequeño de usuarios gerenciales. Por ejemplo, después de una campaña de marketing, un gerente puede determinar su efectividad analizando el comportamiento de las ventas antes y después de la campaña.

5 Introducción Más allá, un ejecutivo puede analizar el comportamiento de las ventas para pronosticar las ventas de sus productos y planificarlas de acuerdo a los pedidos y capacidades de almacenamiento disponibles. Por ejemplo, identificando la temporada pre-escolar y las tendencias de los mercados locales, los gerentes de tiendas pueden ordenar y presentar en las vitrinas aquellos productos escolares que están siendo solicitados a los estudiantes y sus familias en las escuelas locales. La otra alternativa, ordenar masivamente todo tipo de productos y luego devolver aquellos que no son vendidos o rentables, parece poco eficiente frente a la anterior. Este tipo de procesos analíticos en línea - on-line analytical processing (OLAP), pueden ser potenciados por herramientas de exploración de datos basadas en técnicas de Data mining.

6 Introducción Las herramientas de Data Mining descubren nuevos patrones o reglas que no necesariamente pueden ser obtenidas a través del mero procesamiento de querys. Ellas utilizan técnicas de aprendizaje denominadas AI Machine learning techniques, que automáticamente clasifican los datos en diferentes grupos basados en diferentes criterios. Por ejemplo, es posible a partir de datos de ventas de productos, derivar una regla que identifique que el cliente que compra el Domingo antes de las 11 AM y compra leche, también comprará el diario y un chocolate. De esta forma, cuando un gerente de una tienda desea promover un chocolate en especial, puede utilizar la regla anterior y colocar los chocolates al lado del stand del diario.

7 Introducción OLAP y Data Mining NO involucran modificaciones a los datos, y requieren acceso ad-hoc a todos los datos de la organización, tanto actuales como históricos. Esto conlleva a la necesidad de nuevos modelos de datos para la organización y almacenamiento de datos históricos, modelos que optimizan el procesamiento de consultas en vez de transacciones. Los Data Warehouses extienden las tecnologías de bases de datos para integrar datos desde múltiples fuentes y organizarlos eficientemente para el procesamiento de querys y su presentación.

8 Definiciones de Minería de Datos Es la exploración automática o semiautomática de grandes cantidades de datos para el descubrimiento de reglas y patrones. Proceso iterativo de detección y extracción de patrones a partir de grandes bases de datos, modelo de reconocimiento. Es el análisis de un conjunto de datos para encontrar relaciones desconocidas y resumir los datos de nuevas formas entendibles para el minero. Es el proceso analítico, por medio del cual se extrae información oculta de grandes cantidades de datos siendo muy útil para predecir futuros comportamientos y tendencias.

9 ETAPAS DE LA MINERÍA DE DATOS Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining. Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining. Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial. Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.

10 Aplicaciones de la Minería de Datos Sistemas automáticos de control de calidad que discriminan los productos defectuosos con un alto grado de precisión. El control de calidad no sólo se debe hacer al final del proceso, no resulta fácil medir las variables que determinen calidad, es necesario utilizar técnicas de minería de datos para descubrir relaciones que permitan detectar fallos.

11 Aplicaciones de la Minería de Datos Resistencia de materiales. Programas de mantenimiento predictivo (calendario de reparaciones). Campañas de mercadeo, es posible llegar a una mayor cantidad de clientes. Fidelización de clientes, conseguir uno nuevo o recuperar un cliente es más costoso.

12 Aplicaciones de la Minería de Datos

13 Aplicaciones de la Minería de Datos Id Salario Automóvil Hijos Casado Casa Propia Antigüedad Sexo Llamadas de Atención Si 1 Si Si 3 M No Si 2 Si No 1 V Si Si 0 No No 2 V Si Si 0 Si Si 4 M No No 2 Si Si 6 M No.. Grupo 1: con hijos, casados, con casa propia mayoritariamente mujeres, no tienen llamadas de atención Grupo 2: con salario relativamente alto, no tiene casa propia, hombres con auto, tienen llamadas de atención. La empresa puede decidir contratar sólo mujeres para cargos que demanden mayor responsabilidad

14 Aplicaciones de la Minería de Datos De acuerdo a las ventas del año pasado se puede armar un modelo predictivo para mantener stock del presente año. Servicios de mercadeo como ubicación de productos.

15 Aplicaciones de la Minería de Datos Para el FBI analizar las bases de datos comerciales para detectar terroristas. Departamento de Justicia debe introducirse en la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una acción. Algunos expertos aseguran que, con esta información, el FBI uniría todas las bases de datos y permitirá saber si una persona fuma, qué talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que está suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos políticos u organizaciones no gubernamentales, sus enfermedades crónicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra

16 Aplicaciones de la Minería de Datos En la empresa Detección de fraudes en las tarjetas de crédito. Examinar transacciones, propietarios de tarjetas y datos financieros para detectar y mitigar fraudes. En un principio para detectar fraudes en tarjetas de crédito, luego incorporar las tarjetas comerciales, de combustibles y de débito. Descubriendo el porqué de la deserción de clientes de una compañía operadora de telefonía móvil. Este estudio fue desarrollado en una operadora española que básicamente situó sus objetivos en dos puntos: el análisis del perfil de los clientes que se dan de baja y la predicción del comportamiento de sus nuevos clientes. los clientes que abandonaban la operadora generaban ganancias para la empresa; sin embargo, una de las conclusiones más importantes radicó en el hecho de que los clientes que se daban de baja recibían pocas promociones y registraban un mayor número de incidencias respecto a la media.

17 Aplicaciones de la Minería de Datos En la Universidad Conociendo si los recien titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios. Se hizo un estudio sobre los recién titulados de la carrera de Ingeniería en Sistemas Computacionales del Instituto Tecnológico de Chihuahua II. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se hacía una buena inserción laboral o si existían otras variables que participaban en el proceso. Mediante la aplicación de conjuntos aproximados se descubrió que existían cuatro variables que determinaban la adecuada inserción laboral, que son citadas de acuerdo con su importancia: zona económica donde habitaba el estudiante, colegio de dónde provenía, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendrá que hacer un estudio socioeconómico sobre grupos de alumnos que pertenecían a las clases económicas bajas para dar posibles soluciones, debido a que tres de las cuatro variables no dependían de la universidad.

18 Aplicaciones de la Minería de Datos El AC de Milan utiliza un sistema inteligente para prevenir lesiones. El club usa redes neuronales para prevenir lesiones y optimizar el acondicionamiento de cada atleta. Esto ayudará a seleccionar el fichaje de un posible jugador o a alertar al médico del equipo de una posible lesión. El sistema, creado por Computer Associates International, es alimentado por datos de cada jugador, relacionados con su rendimiento, alimentación y respuesta a estímulos externos, que se obtienen y analizan cada quince días. El jugador lleva a cabo determinadas actividades que son monitoreadas por veinticuatro sensores conectados al cuerpo y que transmiten señales de radio que posteriormente son almacenadas en una base de datos. Actualmente el sistema dispone de casos registrados que permiten predecir alguna posible lesión. Con ello, el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesión, lo que haría incluso renegociar su contrato.

19 Aplicaciones de la Minería de Datos Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores. El Advanced Scout es un software que emplea técnicas de data mining y que han desarrollado investigadores de IBM para detectar patrones estadísticos y eventos raros. Tiene una interfaz gráfica muy amigable orientada a un objetivo muy específico: analizar el juego de los equipos de la National Basketball Association (NBA). El software utiliza todos los registros guardados de cada evento en cada juego: pases, encestes, rebotes y doble marcaje (doublé team) a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego en vivo o en película.

20 Aplicaciones de la Minería de Datos Genética En el estudio de la genética humana, el objetivo principal es entender la relación cartográfica entre las partes y la variación individual en las secuencias del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En términos más llanos, se trata de saber cómo los cambios en la secuencia de ADN de un individuo afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el cáncer). Esto es muy importante para ayudar a mejorar el diagnóstico, prevención y tratamiento de las enfermedades. La técnica de minería de datos que se utiliza para realizar esta tarea se conoce como "reducción de dimensionalidad multifactorial"

21 Fases de Descubrimiento de Conocimiento Interpretación del Conocimiento Tareas Relevantes Transformación de datos Data Mining Datos Preprocesados Limpieza de datos Selección Integración de datos Bases de Datos

22 Proceso de KDD Ejemplo: Web Log Selección: Seleccionar los archivos log data (fechas y ubicaciones). Preprocesamiento: Borrar URLs de identificación Borrar log de error Transformación: Ordenar y agrupar. Data Mining: Identificar y contar patrones. Construir estructura de datos. Interpretación/Evaluación: Identificar y mostrar secuencias de acceso frecuentes. Aplicaciones Potenciales para el usuario: Predicciones de Cache Personalización.

23 Modelo Relacional SQL Algoritmos y Reglas de Asociación Data Warehousing Técnicas de Escalabilidad Medidas de Similitud Clustering Jerárquico Consultas Imprecisas Datos Textuales Motores de Búsqueda Web Técnicas de Diseño de Algoritmos Análisis de Algoritmos Estructuras de Datos DATA MINING Bayes Análisis de Regresión Algoritmo EM K-Means Series de Tiempos Redes Neuronales Ärboles de Decisión

24 Se estima que la extracción de patrones (minería) de los datos ocupa solo el 15% - 20% del esfuerzo total del proceso de KDD. El proceso de descubrimiento de conocimiento en bases de datos involucra varios pasos: Determinar las fuentes de información: que pueden ser útiles y dónde conseguirlas. Diseñar el esquema de un almacén de datos (Data Warehouse): que consiga unificar de manera operativa toda la información recogida. Implantación del almacén de datos: que permita la navegación y visualización previa de sus datos, para discernir qué aspectos puede interesar que sean estudiados. Esta es la etapa que puede llegar a consumir el mayor tiempo. Selección, limpieza y transformación de los datos que se van a analizar: la selección incluye tanto una criba o fusión horizontal (filas) como vertical (atributos).la limpieza y preprocesamiento de datos se logra diseñando una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo, casos extremos (si es necesario), etc.

25 Seleccionar y aplicar el método de minería de datos apropiado: esto incluye la selección de la tarea de descubrimiento a realizar, por ejemplo, clasificación, agrupamiento o clustering, regresión, etc. La selección de él o de los algoritmos a utilizar. La transformación de los datos al formato requerido por el algoritmo específico de minería de datos. Y llevar a cabo el proceso de minería de datos, se buscan patrones que puedan expresarse como un modelo o simplemente que expresen dependencias de los datos, el modelo encontrado depende de su función (clasificación) y de su forma de representarlo (árboles de decisión, reglas, etc.), se tiene que especificar un criterio de preferencia para seleccionar un modelo dentro de un conjunto posible de modelos, se tiene que especificar la estrategia de búsqueda a utilizar (normalmente está predeterminada en el algoritmo de minería).

26 Evaluación, interpretación, transformación y representación de los patrones extraídos: Interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos, otras metas y otras estrategias. Este es un paso crucial en donde se requiere tener conocimiento del dominio. La interpretación puede beneficiarse de procesos de visualización, y sirve también para borrar patrones redundantes irrelevantes. Difusión y uso del nuevo conocimiento. Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos potenciales con el conocimiento existente. El conocimiento se obtiene para realizar acciones, ya sea incorporándolo dentro de un sistema de desempeño o simplemente para almacenarlo y reportarlo a las personas interesadas. En este sentido, KDD implica un proceso interactivo e iterativo involucrando la aplicación de varios algoritmos de minería de datos.

27 Disciplinas Relacionadas La estadística, junto con el aprendizaje computacional es considerada como el corazón de la minería de datos; proporciona métodos relacionados con la toma, organización, recopilación, presentación y presentación de datos: análisis de varianza, series de tiempo, prueba chi cuadrado, análisis discriminante, media, moda, desviación estándar, mediana, etc. Aprendizaje computacional: redes neuronales, algoritmos genéticos, árboles de inducción, etc. Bases de Datos y Almacenes de Datos (dataware house): bases de datos, archivos excel, imágenes, etc. Sistemas de soporte a la toma de decisiones.

28 Inteligencia Artificial ( Machine Learning ) Estadística Bases de Datos (VLDB) Minería de datos Ciencias de la información Graficación y visualización Otras disciplinas

29 Mineria de Datos como Subconjunto de la Inteligencia de Negocios

30 Conceptos Relacionados Clasificación: incluye los procesos de minería de datos que buscan reglas para definir si un ítem o un evento pertenecen a un subset particular o a una clase de datos. Esta técnica, probablemente la más utilizada, incluye dos subprocesos: la construcción de un modelo la predicción. En términos generales, los métodos de clasificación desarrollan un modelo compuesto por reglas IF-THEN y se aplican perfectamente, por ejemplo, para encontrar patrones de compra en las bases de datos de los clientes y construir mapas que vinculan los atributos de los clientes con los productos comprados.

31 Conceptos Relacionados Asociación: incluye técnicas conocidas como linkage analysis, utilizadas para buscar patrones que tienen una probabilidad alta de repetición, como ocurre al analizar una canasta en la búsqueda de productos afines. Se desarrolla un algoritmo asociativo que incluye las reglas que van a correlacionar un conjunto de eventos con otro. Por ejemplo, un supermercado podría necesitar información sobre hábitos de compra de sus clientes. Secuencia: los métodos de análisis de series de tiempo son usados para relacionar los eventos con el tiempo. Como resultado de este tipo de modelo se puede aprender que las personas que alquilan una película de video tienden a adquirir los productos promocionales durante las siguientes dos semanas; o bien, que la adquisición de un horno de microondas se produce frecuentemente luego de determinadas compras previas.

32 Cluster: Muchas veces resulta difícil o imposible definir los parámetros de una clase de datos. En ese caso, los métodos de clustering pueden usarse para crear particiones, de forma tal que los miembros de cada una de ellas resulten similares entre sí, según alguna métrica o conjunto de métricas. El análisis de clusters podría utilizarse, entre otras aplicaciones, al estudiar las compras con tarjetas de crédito, para descubrir digamos que los alimentos comprados con una tarjeta dorada de uso empresarial son adquiridos durante los días de semana y tienen un valor promedio de ticket de 152 pesos, mientras que el mismo tipo de compra, pero realizado con una tarjeta platino personal, ocurre predominantemente durante los fines de semana, por un valor menor, pero incluye una botella de vino más del 65 % de las veces

33 Grupos de Técnicas Principales Visualización. - Ayudas para el descubrimiento manual de información. - Se muestran tendencias, agrupamientos de datos, etc. - Funcionamiento semi-automático.

34 Verificación. Se conoce de antemano un modelo y se desea saber si los datos disponibles se ajustan a él. Se establecen medidas de ajuste al modelo.

35 Descubrimiento. - Se busca un modelo desconocido de antemano. - Descubrimiento descriptivo: se busca modelo legible. - Descubrimiento predictivo: no importa que el modelo no sea legible.

36 Sea como sea la presentación del problema, una de las características presente en cualquier tipo de aprendizaje y en cualquier tipo de técnica de Minería de Datos es su carácter hipotético, es decir, lo aprendido puede, en cualquier momento, ser refutado por evidencia futura. En muchos casos, los modelos no aspiran a ser modelos perfectos, sino modelos aproximados. En cualquier caso, al estar trabajando con hipótesis, es necesario realizar una evaluación de los patrones obtenidos, con el objetivo de estimar su validez y poder compararlos con otros. Por tanto, la Minería de Datos, más que verificar patrones hipotéticos, usa los datos para encontrar estos patrones. Por lo tanto, es un proceso inductivo.

37 PREPROCESAMIENTO DE DATOS Las organizaciones manejan gran variedad de información las cuales están llenas de datos erróneos, faltantes, en diversos formatos, etc. Los que se convierte en un problema para realizar un buen análisis. De este problema se deriva el concepto calidad de datos. El preprocesamiento de datos suele ser una necesidad para aplicaciones reales, engloba a todas aquellas ténicas de análisis que permiten mejorar la calidad de un conjunto de datos de modo que las técnicas de extracción de conocimiento puedan obtener mayor y mejor información. El objetivo es transformar el conjunto de datos haciendo que la información sea más accesible y coherente

38 RECOLECCIÓN E INTEGRACIÓN MODELOS DE DATOS MULTIDIMENSIONALES

39 Base de Datos Operacional Datos Operacionales Orientado a la aplicación Actual Detallada Cambia continuamente Transacciones simples Se enfoca en los datos Lectura/Escritura Indexación Miles de Registros Data Warehouse Datos del negocio para Información Orientado al sujeto Actual + histórico Detallada + más resumida Estable Consultas complejas Se enfoca en la información Principalmente Lectura Exploración por lotes Millones de Registros 100 Mb a Gb 100 Gb a Tb Transacciones Tiempos de respuesta

40 Qué es un Data Warehouse? Una de las mejores definiciones de Data warehouse fue propuesta por Inmon cuando él introdujo el término en 1992: Un data warehouse es una colección de datos para el soporte de decisiones estratégicas, orientado a la temática (subject-oriented), integrada, no-volátil, y variante en el tiempo (time-variant). Colección Orientada a la temática (subject-oriented): significa que la data es organizada alrededor de temáticas tales como clientes, productos, ventas, etc. En base de datos, en contraste, los datos son organizados alrededor de tareas. Por ejemplo, usamos una base de datos para el almacenamiento de ordenes de compra y adquisiciones de productos. Usamos un Data Warehouse para almacenar resúmenes de la información detallada basada en temáticas.

41 Qué es un Data Warehouse? Un resumen puede ser obtenido a través del uso de funciones agregadas combinadas con cláusulas GROUP BY. Por Ejemplo, un resumen alrededor de un producto pueden ser las ventas por producto: SELECT Producto, SUM(Total) FROM NotaVenta GROUP BY Producto Y un resumen en torno a una venta pueden ser las ventas diarias: SELECT Dia, SUM(Total) FROM OrdenCompra GROUP BY Dia

42 Qué es un Data Warehouse? Colección Integrada: significa que un data warehouse integra y almacena datos desde múltiples fuentes, no todas necesariamente son bases de datos, una fuente de datos puede ser también un archivo de aplicación. Nótese que no hablamos de un sistema de integración que permite acceso a datos en bases de datos heterogeneas (multi-database system), sino que un datawarehouse almacena la información recolectada, después que esta es limpiada (cleaned), removiendo inconsistencias tales como formatos diferentes o valores erróneos. De esta forma, la data residente en el data warehouse es presentada a los usuarios con una vista unificada consistente.

43 Qué es un Data Warehouse? Colección no-volátil: significa que el data warehouse no es actualizado en tiempo real (en coordinación con las fuentes). Las actualizaciones en las fuentes son agrupadas y aplicadas por una transacción de mantenimiento. Las transacciones de mantenimiento se ejecutan periódicamente o en función de la demanda. Colección variante en el tiempo (time-variant): significa que los datos en un data warehouse son históricos y tienen validez temporal. Esto claramente muestra que un data warehouse debe soportar series de tiempo.

44 Arquitectura de un Data warehouse

45

46 Modelamiento Multidimensional El modelo relacional utilizado para estructurar bases de datos fue diseñado para el procesamiento de transacciones, aunque puede ser utilizado para soportar eficientemente el procesamiento de querys ad-hoc, no provee de una herramienta intuitiva de manipulación de los datos y reportes, según lo requerido por OLAP. Consideremos datos de series de tiempo. Una forma intuitiva de reportearlos sería plotearlos en un gráfico y guardarlos en una matriz de dos o más dimensiones. Este tipo de representación de los datos es llamada modelamiento multidimensional.

47 Modelamiento Multidimensional Los modelos multidimensionales almacenan los datos en matrices multidimensionales. Las matrices tri-dimensionales (3-d) son llamadas cubos de datos (data cubes), y las matrices con más de 3 dimensiones son llamadas hipercubos (hypercubes). Como ejemplo de un cubo, consideremos las dimensiones periodo, producto y región Como lo mencionamos anteriormente, podemos usar una matriz 2-d (planilla) para representar ventas regionales para un grupo de periodos: R1 R2 R > Region P1 P2 P3.. V Product

48 Modelamiento Multidimensional Esta planilla puede ser convertida a un cubo agregando la dimensión tiempo, como por ejemplo, intervalos mensuales:

49 Modelamiento Multidimensional Visualizar un cubo de datos es tan fácil como usar un gráfico 3d o visualizar planillas en tablas 3d. Visualizar hipercubos es bastante complejo, por lo anterior estos normalmente son descompuestos en cubos al momento de visualizarlos. El procesamiento de querys en cubos o hipercubos es más rápido y eficiente que en un modelo relacional. Un query es básicamente transformado en una operación de lectura de elementos de una matriz. La data puede ser consultada directamente en cualquier combinación de dimensiones.

50 Arquitectura de un Almacén de Datos Componentes: Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación,...) y la carga del AD, realizando: extracción de los datos. filtrado de los datos: limpieza, consolidación, etc. carga inicial del almacén: ordenación, agregaciones, etc. refresco del almacén: operación periódica que propaga los cambios de las fuentes externas al almacén de datos Repositorio Propio de Datos: información relevante, metadatos. Interfaces y Gestores de Consulta: permiten acceder a los datos ys sobre ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos). Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad,...

51 Arquitectura de un Almacén de Datos Marca Descripción Semana Categoría Departamento Nro_producto Tipo Día Mes Año Trimestre importe unidades Almacén Ciudad Tipo Región

52 Arquitectura de un Almacén de Datos Marca Dimensiones (puntos de vista) desde los que se puede analizar la actividad. Descripción Semana Categoría Departamento Nro_producto Tipo Día Mes Año Trimestre importe unidades Almacén Actividad que es objeto de análisis con los indicadores que interesa analizar Ciudad Región Tipo

53 Arquitectura de un Almacén de Datos Marca hecho Descripción Semana Categoría Departamento Nro_producto Tipo Día Mes Trimestre Año importe unidades medidas Almacén dimensión Ciudad Tipo atributos Región

54 Arquitectura de un Almacén de Datos Producto nro. producto categoría departamento Almacén almacén ciudad tipo región Tiempo día mes trimestre año semana

55 Arquitectura de un Almacén de Datos Este esquema multidimensional recibe varios nombres: estrella: si la jerarquía de dimensiones es lineal tiempo proyecto PERSONAL equipo estrella jerárquica o copo de nieve: si la jerarquía no es lineal. tiempo lugar VENTAS producto

56 Arquitectura de un Almacén de Datos Se puede recopilar toda la información necesaria en un único esquema estrella o copo de nieve? NO : necesidad de varios esquemas. Cada uno de estos esquemas se denomina datamart. tiempo producto proveedor producto equipo VENTAS lugar tiempo proyecto PERSONAL producto lugar lugar CAMPAÑA PRODUCCIÓN tiempo tiempo Almacén formado por 4 datamarts.

57 Arquitectura de un Almacén de Datos El almacén de datos puede estar formado por varios datamarts y, opcionalmente, por tablas adicionales. Data mart subconjunto de un almacén de datos, generalmente en forma de estrella o copo de nieve. se definen para satisfacer las necesidades de un departamento o sección de la organización. contiene menos información de detalle y más información agregada.

58 Herramientas OLAP una consulta a un almacén de datos consiste generalmente en la obtención de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones medida hecho Importe total de las ventas durante este año de los productos del departamento Bebidas, por trimestre y por categoría?. Restricciones: productos del departamento Bebidas, ventas durante este año Parámetros de la consulta: por categoría de producto y por trimestre

59 Marca Bebidas Categoría Día de la semana Departamento Tipo Nro_producto Día Año Mes Trimestre importe 2002 unidades Almacén Importe total de ventas en este año, del departamento de Bebidas, por categoría y trimestre Ciudad Región Tipo

60 trimestre categoría importe

61 Categoría Trimestre Ventas Refrescos T Presentación tabular (relacional) de los datos seleccionados Refrescos T Refrescos Refrescos T3 T Zumos T Zumos Zumos Zumos T2 T3 T Se asumen dos categorías en el departamento de Bebidas: Refrescos y Zumos.

62 trimestre categoría T1 T2 T3 T4 Presentación matricial (multidimensional) de los datos seleccionados Refrescos Zumos Los parámetros de la consulta ( por trimestre y por categoría ) determinan los criterios de agrupación de los datos seleccionados (ventas de productos del departamento Bebidas durante este año). La agrupación se realiza sobre dos dimensiones (Producto, Tiempo).

63 Cubos OLAP

64 Los cubos OLAP consisten de hechos (facts) llamados medidas categorizados por dimensiones (que pueden ser más de 3 dimensiones); las dimensiones son referidas desde la tabla de hechos por claves foráneas. Las medidas son derivadas de los registros en la Tabla de hechos(fact tables). Dimensiones son derivadas de las tablas de dimensiones. Los valores en las celdas son resúmenes (SUM, AVG, MAX, MIN, etc.)

65 Esquemas de Copo de Nieve (snowflake)

66

67 SELECT B.Brand, G.Country, SUM(F.Units_Sold) FROM Fact_Sales F INNER JOIN Dim_Date D ON F.Date_Id = D.Id INNER JOIN Dim_Store S ON F.Store_Id = S.Id INNER JOIN Dim_Geography G ON S.Geography_Id = G.Id INNER JOIN Dim_Product P ON F.Product_Id = P.Id INNER JOIN Dim_Brand B ON P.Brand_Id = B.Id INNER JOIN Dim_Product_Category C ON P.Product_Category_Id = C.Id WHERE D.YEAR = 1997 AND C.Product_Category = 'tv' GROUP BY B.Brand, G.Country

68 Esquemas Constelación

69 Querys extendidos en un Data-Warehouse

70 Querys extendidos en un Data-Warehouse Un data warehouse provee una vista conceptual multidimensional con un número ilimitado de dimensiones y niveles de agregación. Ofrecen varios operadores que facilitan tanto las operaciones de querys y la visualización de los datos en una vista multidimensional: Pivot-Rotation (Pivote Rotación): los cubos pueden ser visualizados y reorientados en diferentes ejes. En el ejemplo anterior, producto y región están representados en el frente, usando rotación podemos traer tiempo y producto al frente, empujando región al eje posterior.

71

72 Ventas Electronics Toys Clothing Cosmetics Q1 $5,2 $1,9 $2,3 $1,1 Electronics Toys Clothing Cosmetics Q2 $8,9 $0,75 $4,6 $1,5 Productos Store1 Store2 $5,6 $1,4 $2,6 $1,1 $7,2 $0,4 $4,6 $0,5 Ventas Electronics Toys Clothing Cosmetics Store 1 $5,2 $1,9 $2,3 $1,1 Electronics Toys Clothing Cosmetics Store 2 $5,6 $1,4 $2,6 $1,1 Productos Q1 Q2 $8,9 $0,75 $4,6 $1,5 $7,2 $0,4 $4,6 $0,5 PIVOT

73 El carácter agregado de las consultas en el Análisis de Datos, aconseja la definición de nuevos operadores que faciliten la agregación (consolidación) y la disgregación (división) de los datos: agregación (roll): permite eliminar un criterio de agrupación en el análisis, agregando los grupos actuales. disgregación (drill): permite introducir un nuevo criterio de agrupación en el análisis, disgregando los grupos actuales.

74 Roll-Up Display: Puede ser usado para derivar resúmenes y agrupaciones de mayor agregación sobre una dimensión. Por ejemplo los meses pueden ser agrupados en años sobre la dimensión tiempo. Los productos pueden ser agrupados en categorías, etc. Drill-Down Display: Puede ser usado para derivar desagregaciones sobre una dimensión, por ejemplo, región puede ser desagregado en ciudades, los meses pueden ser desagregados en semanas o días, etc.

75 ROLL UP

76 ROLL UP

77 Categoría Trimestre Ventas Categoría Trimestre Ciudad Ventas Refrescos T Refrescos Refrescos T1 T1 Valencia León Refrescos T Refrescos T2 Valencia Refrescos T Refrescos T2 León Refrescos Zumos Zumos Zumos T4 T T2 T Cada grupo (categoría-trimestre) de la consulta original se disgrega en dos nuevos grupos (categoría-trimestreciudad) para las ciudades de León y Valencia. Zumos T

78 Zumos Presentación matricial de los datos seleccionados.

79 Si se desea eliminar el criterio de agrupación sobre la dimensión Tiempo en la consulta original: Importe total de las ventas durante este año de los productos del departamento Bebidas, por categorías? Categoría Trimestre Ventas Refrescos T Refrescos T Refrescos T Categoría Ventas Refrescos T Refrescos Zumos T Zumos Zumos Zumos Zumos T2 T3 T

80 Categoría Trimestre Ventas Categoría Trimestre Mes Ventas Refrescos T Refrescos Refrescos T1 T1 Enero Febrero Refrescos T Refrescos T1 Marzo Refrescos T Refrescos T Zumos Zumos T T Cada grupo (categoría-trimestre) de la consulta original se disgrega en dos nuevos grupos (categoría-trimestre-mes). Zumos Zumos T3 T

81 Slice and Dice: Puede ser utilizado para especificar proyecciones sobre las dimensiones, creando cubos más pequeños. Por ejemplo, recuperar todos lo productos juguetes en ciudades de Florida durante los meses de invierno.

82 Q2 Q2 Q1 Q1 Productos Ventas Store1 Store2 Ventas Electronics Toys Clothing Cosmetics $5,2 $1,9 $2,3 $1,1 $5,6 $1,4 $2,6 $1,1 Productos Electronics Toys Store1 $5,2 $1,9 Electronics Toys Clothing Cosmetics $8,9 $0,75 $4,6 $1,5 $7,2 $0,4 $4,6 $0,5 SLICE & DICE Electronics Toys $8,9 $0,75

83 Selección: Es similar al Select standard de SQL, puede ser utilizado para recuperar datos por valor o rango. Ordenamiento: Puede ser utilizado para especificar el orden de los datos sobre una dimensión. Atributos derivados: Permite la especificación de atributos que son computados desde atributos almacenados u otros atributos derivados

84 MDX(Multi-Dimensional Expressions) MDX fue introducido por Microsoft con Microsoft SQL Server OLAP Services alrededor de Más recientemente MDX apareció como parte de XML for Analysis API. Microsoft lo propuso como estándar y su adopción por los desarrolladores de aplicación y otros proveedores de servicios OLAP

85 Modelo de Almacenamiento Multidimensional Los Data warehouses soportan la sumarización provista por las operaciones drill-down y roll-up, ambas operaciones demandan en general mucho tiempo de proceso: Mantienen tablas de resumen que son recuperadas para desplegar una sumarización. Codifican los diferentes niveles sobre una dimensión (por ej. semanal, mensual, anual) sobre tablas existentes. Usando la codificación adecuada, una sumarización es computada desde los datos detallados cuando es necesario.

86 Modelo de Almacenamiento Multidimensional Las tablas en un Data warehouse son organizadas lógicamente en un esquema denominado starschema (estrella). Un esquema estrella consiste en una tabla central fact que contiene los datos que pueden ser analizados en una variedad de formas, y una tabla dimension para cada dimensión, conteniendo datos referenciales. Los datos detallados son almacenados en las tablas de dimensiones y son referenciadas por llaves foráneas en la tabla fact.

87 Modelo de Almacenamiento Multidimensional Por ejemplo, un esquema estrella que pueda soportar el ejemplo consistiría de una tabla fact, rodeada de tres tablas dimension, una para productos, otra para ventas regionales, y otra para intervalos mensuales: Fact table: SALE SUMMARY (Product, Month, Region, Sales) Product -> PRODUCT(PID) Month -> MONTH_INTERVAL(Month) Region -> REGIONAL_SALES(RegionNo) Dimension tables: PRODUCT (PID, Pname, PCategory, PDescription) REGIONAL_SALES (Region, County, City) MONTH_INTERVAL (MonthNo, Month, Year)

88 Modelo de Almacenamiento Multidimensional En el esquema estrella, las tablas de dimensión pueden no estar normalizadas, conteniendo datos redundantes. La motivación de esta redundancia es incrementar la eficiencia del procesamiento de querys a través de la eliminación de operaciones de join entre tablas. Por otra parte, una tabla desnormalizada puede crecer enormemente, causando un overhead que podría contrarrestar cualquier ganancia en el procesamiento de querys. En estos casos las tablas de dimensión pueden ser normalizadas y descompuestas en tablas más pequeñas, referenciándolas en la tabla de dimensión original. Esta descomposición lleva a un modelo de estrella jerárquico denominado Snowflake schema. Tal como en bases de datos, un Data warehouse utiliza diferentes formas de indexación para acceder más rápidamente a los datos, agregando la implementación de un manejo eficiente de matrices dinámicas.

89 Características y Categorías de Data Warehouses Comparado con bases de datos, los Data warehouses son muy costosos de construir en términos de tiempo y dinero. Aún más, son muy costosos de mantener. Un Data warehouse tiene un tamaño gigantesco y crece con tasas enormes. Son al menos un orden de magnitud más grandes que la fuente. Sus tamaños oscilan entre cientos de gigabytes hasta varios terabytes o incluso petabytes. Resolver la semántica heterogénea entre diferentes fuentes, convertir diferentes formatos y cuerpos de datos desde las fuentes hacia el Data warehouse es un proceso complejo muy consumidor de tiempo y recursos. Este proceso no es ejecutado solo una vez, sino que se repite en el tiempo cada vez que el Data warehouse es sincronizado con las fuentes.

90 Características y Categorías de Data Warehouses El proceso de limpieza de los datos para el aseguramiento de la calidad de la información es otro proceso complejo y costoso. De hecho ha sido identificado como una de las tareas más demandantes de trabajo en la construcción de un Data warehouse. Reconocer datos erróneos o incompletos es difícil de automatizar, al menos al comienzo, en algunos casos los errores siguen un patrón y pueden ser identificados y corregidos automáticamente. La decisión de qué resumir (sumarizar) y el cómo organizar es otro proceso crítico. Afecta tanto la utilidad del Data warehouse como su rendimiento. Los procesos de actualización y carga de datos son tareas bastante significativas y demandantes de tiempo, por este motivo el Data warehouse debe proveer capacidad de recuperación de cargas incompletas o actualizaciones erróneas.

91 Características y Categorías de Data Warehouses Esta claro que la administración de los datos en un ambiente tan complejo requiere de herramientas de alto nivel y muchos recursos, en muchos casos organizaciones que han creado Data warehouses han requerido redestinar sus esfuerzos de administración hacia esta área. Con el objeto de reducir la severidad del impacto que causa lo anterior, dos nuevas alternativas han sido propuestas: Data Marts: estos son data warehouses pequeños y altamente focalizados al nivel de departamentos. Un Data warehouse corporativo puede ser construído formando una federación de Data Marts. Virtual Data Warehouses: Estas son colecciones persistentes de vistas de las bases de datos operacionales que son materializadas para un acceso eficiente y para el procesamiento de querys complejos.

92 MOLAP Y ROLAP El Almacén de Datos y las herramientas OLAP se pueden basar físicamente en varias organizaciones: Sistemas ROLAP se implementan sobre tecnología relacional, pero disponen de algunas facilidades para mejorar el rendimiento (índices de mapas de bits, índices de JOIN). Sistemas MOLAP disponen de estructuras de almacenamiento específicas (arrays) y técnicas de compactación de datos que favorecen el rendimiento del almacén. Sistemas HOLAP sistemas híbridos entre ambos.

93 MOLAP Y ROLAP Sistemas ROLAP: El almacén de datos se construye sobre un SGBD Relacional. Los fabricantes de SGBD relacionales ofrecen extensiones y herramientas para poder utilizar el SGBDR como un Sistema Gestor de Almacenes de Datos.

94 MOLAP Y ROLAP Sistemas ROLAP: Extensiones de los SGBD relacionales: índices de mapa de bits índices de JOIN técnicas de particionamiento de los datos optimizadores de consultas extensiones del SQL (operador CUBE, roll-up)

95 MOLAP Y ROLAP Sistemas MOLAP. Sistema de propósito específico: estructuras de datos (arrays) técnicas de compactación. El objetivo de los sistemas MOLAP es almacenar físicamente los datos en estructuras multidimensionales de forma que la representación externa y la representación interna coincidan.

96 MOLAP Y ROLAP El servidor MOLAP construye y almacena datos en estructuras multidimensionales. Estructuras multidimensionales Herramienta OLAP La herramienta de OLAP presenta estas estructuras multidimensionales. Servidor MOLAP Warehouse

97 MOLAP Y ROLAP MOLAP: Datos Arrays Extraídos del almacén de datos Estructuras multidimensionales Herramienta OLAP almacenamiento y procesos eficientes la complejidad de la BD se oculta a los usuarios Servidor MOLAP el análisis se hace sobre datos agregados y métricas o indicadores precalculados. Warehouse

98 MOLAP Y ROLAP ROLAP MOLAP Desktop Herramienta OLAP Servidor Multidimensional Herramienta OLAP Servidor Relacional Warehouse

99 MOLAP Y ROLAP ROLAP/MOLAP: Ventajas e Inconvenientes: ROLAP pueden aprovechar la tecnología relacional. pueden utilizarse sistemas relacionales genéricos (más baratos o incluso gratuitos). el diseño lógico corresponde al físico si se utiliza el diseño de Kimball. MOLAP: generalmente más eficientes que los ROLAP. el coste de los cambios en la visión de los datos. la construcción de las estructuras multidimensionales.

100 Proceso de Descubrimiento de Conocimiento (Knowledge Discovery and Data Mining) Selección de los datos. El subconjunto de datos objetivo y los atributos de interés se identifican examinando todo el conjunto de datos sin ninguna manipulación previa Limpieza de los datos. Se elimina el ruido y los datos fuera de rango, se transforman los valores de los campos a unidades comunes y se crean campos nuevos combinando campos ya existentes (desnormalización)

101 Proceso de Descubrimiento de Conocimiento (Knowledge Discovery and Data Mining) Minería de datos. Se utilizan algoritmos de minería de datos para extraer las pautas interesantes. Evaluación. Se presentan las pautas a los usuarios finales de manera comprensible (visualización).

102 TAREAS DE LA MINERÍA DE DATOS

103 DESCRIPCIÓN DE CLASES Descripción de clases Sumarizacion/ caracterización de la colección de datos - Tendencias. - Reportes. Aplicaciones: - Supermercados (Canasta de mercado) - Contratos de Mantenimiento (Que debe hacer el almacén para potenciar las ventas de contratos de mantenimiento) 98% de la gente que compra llantas y accesorios de autos también obtiene servicios de mantenimiento - Recomendaciones de páginas Web (URL1 & URL3 -> URL5) 60% de usuarios de la Web quien visita la Página A y B compra el ítem T1

104 ENCONTRAR ASOCIACIONES

105 REGLAS DE ASOCIACIÓN Las reglas de asociación son una manera muy popular de expresar patrones de datos. Estos patrones pueden servir para conocer el comportamiento general de un problema, y de esta manera, tener más información que pueda apoyar en la toma de decisiones

106 Los algoritmos de data mining trabajan en la búsqueda de reglas que cumplan con unos requisitos mínimos en estas medidas. Tenemos 4 reglas de asociación en donde solo 3 de ellas se cumplen para: Si aceite y harina entonces frijoles, por lo tanto tenemos que el soporte de la regla es de 3, es decir, el número de reglas que se encuentra esa pareja en todas las reglas y tiene una confianza de ¾ o 0.75 es decir, el número de veces que se cumple la regla sobre el número de veces que aparece esa pareja.

107 CLUSTERING El clustering es una de las tareas más frecuentes en data mining. Se trata de encontrar grupos entre un conjunto de individuos. El concepto de distancia puede jugar un papel crucial, que individuos similares deberían ir a para al mismo grupo

108 CLUSTERING Técnicas algebraicas y estadísticas. Técnicas bayesianas. Técnicas basadas en conteo de frecuencias y tablas de contingencia. Técnicas basadas en árboles de decisión y sistemas de aprendizaje de reglas. Técnicas relacionales declarativas y estructurales. Técnicas basadas en redes neuronales artificiales. Técnicas basadas en núcleo y máquinas de soporte vectorial. Técnicas estadísticas y difusas. Técnicas basadas en casos, en densidad o distancia.

109 K-medias El algoritmo K medias o K-means se trata de un método de clustering por vecindad, en el que se parte de un número determinado de prototipos y de un conjunto de ejemplos a agrupar, sin etiquetar. Es el método más popular para resolver tareas de clustering. La idea de K medias es situar los prototipos o centros en el espacio, de forma que los datos pertenecientes al mismo prototipo tengan características similares

110 Customer Relationship Management (CRM) Es una estrategia de mercado cuyo objetivo principal es establecer relaciones duraderas con los clientes. Las empresas requieren entender a cada cliente de manera individual y utilizar ese conocimiento para hacer negocios con ellos más fácilmente que sus competidores. Target Marketing: Mediante esta técnica se puede utilizar una lista de potenciales/actuales clientes para enviarles publicidad dirigida. Risk analysis. Credit Scoring: Reducir la posibilidad de otorgar préstamos a personas potencialmente insolventes. Market Basket Analysis: Determina grupos de productos que tiendan a presentarse juntos en una transacción o compra. Cluster Analysis: Segmentación de mercado.

111 Market Basket Analysis Market Basket Analysis (MBA) analiza las combinaciones de las compras realizadas por los clientes y el número de veces que se repiten, a través de esto se obtienen reglas de asociación, que explican la probabilidad de compra simultánea de productos diferentes

112 Estándar CRISP-DM El estándar CRISP-DM versión 1.0 (Cross Industry Standard Process for Data Mining) [CRISP-DM, 2006], es un modelo que se aplica a los proyectos de data mining.

113 Estándar CRISP-DM Comprensión del negocio. Esta fase inicial se enfoca en la compresión de los objetivos del proyecto y los requerimientos desde la perspectiva del negocio. Esta información se convierte en conocimiento para la definición del problema y el diseño del plan para alcanzar los objetivos. Compresión de los datos. Esta fase comienza con una colección de datos y sobre la cual se realizan actividades para familiarizarse con ellos, para identificar los problemas de calidad y detectar subconjuntos interesantes para formar hipótesis sobre la información escondida. Preparación de los datos. Esta fase involucra todas las actividades para construir el conjunto final de datos a partir del conjunto inicial. Estas actividades se llevan a cabo varias veces y no en un orden predefinido. Entre estas tareas se encuentran la selección de atributos así como la transformación y limpieza de los datos para las herramientas de modelado.

114 Estándar CRISP-DM Modelado. En esta fase se seleccionan y aplican varias técnicas de modelado o algoritmos y sus parámetros son calibrados para obtener los mejores resultados. Algunos algoritmos tienen requerimientos específicos para el formato de los datos, en cuyo caso se debe regresar a la fase de preparación de datos y realizar las tareas necesarias para obtener dicho formato, las veces que sean necesarias. Evaluación. Antes de seguir con el despliegue final del modelo, es importante evaluar el modelo propuesto, revisar los pasos ejecutados para construirlo y estar seguros de que se han alcanzado los objetivos iniciales. También es importante verificar si existe algún punto del negocio que no se haya considerado antes.

115 Estándar CRISP-DM Despliegue. La creación del modelo generalmente no es el final del proyecto. El conocimiento obtenido del modelo de datos necesita organizarse y presentarse de una manera para que el usuario lo pueda utilizar. En muchos casos será el usuario y no el analista el que desempeñe estos pasos. Sin embargo es importante que el analista explique al usuario las acciones necesarias para utilizar el o los modelos creados.

116 ENCONTRAR ASOCIACIONES RECUENTO DE APARICIONES CONJUNTAS Aplicaciones. - Aprobación de créditos - Diagnóstico médico - Clasificación de documentos de texto (text mining) - Recomendación de páginas Web automáticamente - Seguridad Recuento de los Artículos. Considérese el problema del recuento de los artículos que aparecen, cada carro de la compra es un conjunto de artículos adquiridos por un cliente en una sola transacción de cliente. Cada transacción consiste en una sola visita a la tienda (transacción del cliente). Un objetivo frecuente de los comerciantes es la identificación de los artículos que se compran de manera conjunta.

117 Recuento de Apariciones Conjuntas Idtrans Idcli Fecha Artículo Cantidad /01/1999 Pluma /01/1999 Tinta /01/1999 Leche /01/1999 Zumo /03/1999 Pluma /03/1999 Tinta /03/1999 Leche /10/1999 Pluma /10/1999 Leche /01/1999 Pluma /01/1999 Tinta /01/1999 Zumo /01/1999 Agua 1

118 Conjuntos de Artículos Frecuentes Se puede considerar normalización. Observaciones: En el 75% de las transacciones se compran pluma y tinta. Lote es un conjunto de artículos. Lote {pluma, tinta} tiene 75% de soporte en Compras. Lote {leche, zumo} tiene soporte de 25%. Normalmente el conjunto de artículos que se compran simultáneamente con frecuencia es relativamente pequeño. Sopmin (soporte mínimo) 70%. Lotes frecuentes {pluma}, {tinta}, {leche}, {pluma, tinta}, {pluma, leche}. Propiedad a priori. Todo subconjunto de un lote frecuente es también un lote frecuente.

119 Foreach item //nivel 1 k=1 Repeat comprar si es un lote frecuente //si mayor sopmin para cada lote frecuente nuevo Lk con artículos k //nivel k+1 generar todos los lotes Lk+1 artículos, Lk C Lk+1 Examinar todas las transacciones una vez y comprobar si los k +1 lotes generados son frecuentes k = k + 1 Conjuntos de Artículos Frecuentes until no se identifica ningún lote frecuente nuevo Se identifican primero los lotes frecuentes con un solo artículo. En cada iteración posterior se amplían los lotes frecuentes identificados en la iteración anterior para generar posibles lotes de mayor tamaño lo cual reduce el número de lotes frecuentes.

120 Conjuntos de Artículos Frecuentes En la primera iteración (Nivel 1) se examina la relación Compras, se determina que todos los conjuntos de un solo artículo son lotes frecuentes: {pluma} {aparece en las cuatro transacciones} {tinta} {aparece en tres de las cuatro transacciones} {leche} {aparece en tres de las cuatro transacciones} En la segunda iteración (Nivel 2) se amplían todos los lotes frecuentes con artículo adicional y se generan los siguientes lotes posibles: {pluma, tinta} {pluma, leche} {pluma, zumo} {tinta, leche} {tinta, zumo} {leche, zumo} Al examinar nuevamente la relación compras {pluma, tinta} {pluma, leche} Aparecen en tres de las cuatro transacciones

121 Conjuntos de Artículos Frecuentes En la tercera iteración (Nivel 3) se amplían estos lotes con un artículo adicional: {pluma, tinta, leche} {pluma, tinta, zumo} {pluma, leche, zumo} No se genera {tinta, leche, zumo} por no ser frecuente La propiedad a priori implica que cada lote posible sólo puede ser frecuente si todos sus subconjuntos lo son. Para el ejemplo: con sopmin = 70% Nivel 1, lotes frecuentes tamaño 1: {pluma}.{tinta} y {leche}. Nivel 2 solo quedan: {pluma, tinta},{pluma, leche} y {tinta, leche} Pues {zumo} no es frecuente entonces{pluma, zumo} {tinta, zumo} y {leche, zumo} no son frecuentes y pueden eliminarse a priori. Nivel 3 {pluma, tinta, leche}

122 CLASIFICACIÓN Y PREDICCIÓN Clasificación: Construir un modelo por cada clase de dato etiquetado usado en el entrenamiento del modelo. Basado en sus características y usado para clasificar futuros datos Predicción: Predecir valores posibles de datos/atributos basados en similar objetos. Paso 1: Construcción del model.

123 CLASIFICACIÓN Y PREDICCIÓN Uso del modelo en la predicción.

124 CLASIFICACIÓN Y PREDICCIÓN (ÁRBOLES DE DECISIÓN)

125 EVALUACIÓN DEL MODELO

126 Aplicaciones: Procesamiento de Imágenes (segmentar imágenes a color en regiones) Indexamiento de texto e imágenes WWW Clasificación de paginas Web (usados por motores de búsqueda -Google) Agrupar web log para descubrir grupos de patrones de acceso similares (web usage profiles) Seguridad: Descubriendo patrones de acceso a redes (Detección de intrusos).

127 Regresion Predicción de una variable real (no categórica ) - Variable real -> regresión - Variable categórica -> clasificación. Series de tiempo Predecir valores futuros de acuerdo al tiempo. Agrupacion Dividir datos sin etiqueta en grupos (clusters) de tal forma que datos que pertenecen al mismo grupo son similares, y datos que pertenecen a diferentes grupos son diferentes

128 Consultas Iceberg - Considérese que se desea hallar parejas de clientes y artículos tales que el consumidor haya comprado ese artículos más de cinco veces. SELECT C.idcll, C.producto, Sum(C.cantidad) FROM Compras C GROUP BY C.idcli, C.producto HAVING SUM(C.cantidad) > 5 La consulta requiere de reglas de asociación. La consulta puede ser muy grande. El número de grupos es muy grande, pero la respuesta a la consulta punta del iceberg suele ser pequeña SELECT R.A1, R.A2,,R.Ak, agree(r.b) FROM Relación R GROUP BY R.A1,, R.Ak HAVING agree(r.b) >= constante

129 REGLAS DE ASOCIACIÓN. {pluma} => {tinta} MINERÍA DE REGLAS Si en una transacción se compra una pluma, es probable que también se compre tinta en esa transacción, {izquierda} => {derecha} SOPORTE, el soporte de {izquierda} => {derecha} es Izq U Der Por ejemplo, para {pluma} {tinta}. El soporte de esta regla es el soporte del lote {pluma, tinta} que es 75% CONFIANZA, la confianza de {izq} => {der} es el porcentaje de esas transacciones que contienen también todos los artículos de Der sop(izq) es el porcentaje de transacciones que contienen Izq. sop(izq U Der) es el porcentaje de transacciones que contienen tanto Izq como Der Entonces Confianza de {izq} => {der} es sop(izq U Der) / sop(izq)

130

131

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA MOLAP REALIZADO POR: JOSE E. TABOADA RENNA BASE DE DATOS Conjunto de datos estructurados, fiables y homogéneos organizados independientemente en máquina, m accesibles en tiempo real, compatible por usuarios

Más detalles

OLAP 2 OLAP 1 OLAP 4 OLAP 3 OLAP 5 OLAP 6

OLAP 2 OLAP 1 OLAP 4 OLAP 3 OLAP 5 OLAP 6 OLAP EXPLOTACIÓN UN DW: EXPLOTACIÓN UN DW:... OLAP 1 OLAP 2 EXPLOTACIÓN UN DW: MOLO UN AMBIENTE OLAP EXPLOTACIÓN UN DW: LAS HERRAMIENTAS OLAP PRESENTAN AL USUARIO UNA VISIÓN MULTIDIMENSIONAL LOS DATOS

Más detalles

Capítulo 2 Tecnología data warehouse

Capítulo 2 Tecnología data warehouse Capítulo 2 Tecnología data warehouse El objetivo de éste capítulo es mostrar la tecnología data warehouse (DW) como una herramienta para analizar la información. Este capítulo se encuentra organizado de

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

Definición. Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4

Definición. Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4 Definición Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4 Definición (cont.) Un Data Warehouse es una colección de

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Sistemas de Información 12/13 La organización de datos e información

Sistemas de Información 12/13 La organización de datos e información 12/13 La organización de datos e información Departamento Informática e Ingeniería de Sistemas Universidad de Zaragoza (raqueltl@unizar.es) " Guión Introducción: Data Warehouses Características: entornos

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 5 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 5 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 5 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Data Warehouse Modelo multidimensional Diagrama

Más detalles

Presentación de Pyramid Data Warehouse

Presentación de Pyramid Data Warehouse Presentación de Pyramid Data Warehouse Pyramid Data Warehouse tiene hoy una larga historia, desde 1994 tiempo en el que su primera versión fue liberada, hasta la actual versión 8.00. El incontable tiempo

Más detalles

Base de datos en Excel

Base de datos en Excel Base de datos en Excel Una base datos es un conjunto de información que ha sido organizado bajo un mismo contexto y se encuentra almacenada y lista para ser utilizada en cualquier momento. Las bases de

Más detalles

3.3.3 Tecnologías Mercados Datos

3.3.3 Tecnologías Mercados Datos 3.3.3 Tecnologías Mercados Datos TECNOLOGIAS DATAMART: Aspect Data Mart es una solución completa de reportes para la empresa, que le proporciona un mayor entendimiento de las operaciones de sus negocios

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

Capítulo 5. Cliente-Servidor.

Capítulo 5. Cliente-Servidor. Capítulo 5. Cliente-Servidor. 5.1 Introducción En este capítulo hablaremos acerca de la arquitectura Cliente-Servidor, ya que para nuestra aplicación utilizamos ésta arquitectura al convertir en un servidor

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II Facultad de Ingeniería. Escuela de computación. Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo de sus prácticas de laboratorios,

Más detalles

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual Introducción Algunas de las personas que trabajan con SGBD relacionales parecen preguntarse porqué deberían preocuparse del diseño de las bases de datos que utilizan. Después de todo, la mayoría de los

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

ANEXO A - Plan de Proyecto. 1. - EDT de la solución EDT GENERAL DEL PROYECTO1

ANEXO A - Plan de Proyecto. 1. - EDT de la solución EDT GENERAL DEL PROYECTO1 ANEXO A - Plan de Proyecto 1. - EDT de la solución EDT GENERAL DEL PROYECTO1 2.- Diagrama de Gantt de la Solución DIAGRAMA DE GANTT- FASE INICIAL DOCUMENTACION Y ANALISIS2 DIAGRAMA DE GANTT- FASE FINAL

Más detalles

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios "Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios Miguel Alfonso Flores Sánchez 1, Fernando Sandoya Sanchez 2 Resumen En el presente artículo se

Más detalles

Artículo dedicado a la Innovación y Mejores Prácticas en la Ingeniería de Negocios

Artículo dedicado a la Innovación y Mejores Prácticas en la Ingeniería de Negocios Herramienta para Indicadores de Gestión Se ha dado cuenta de lo difícil que es conseguir que todos los miembros de su organización vean "la gran foto" y trabajen juntos para lograr los objetivos estratégicos

Más detalles

Facultad de Ciencias Económicas. Departamento de Sistemas. Asignatura: INTELIGENCIA DE NEGOCIOS. Plan 1997

Facultad de Ciencias Económicas. Departamento de Sistemas. Asignatura: INTELIGENCIA DE NEGOCIOS. Plan 1997 UNIVERSIDAD DE BUENOS AIRES Facultad de Ciencias Económicas Departamento de Sistemas Asignatura: INTELIGENCIA DE NEGOCIOS Código: 715 Plan 1997 Cátedra: DEPARTAMENTO DE SISTEMAS Carrera: Licenciado en

Más detalles

Estos documentos estarán dirigidos a todas las personas que pertenezcan a equipos de implementación de Oracle BI, incluyendo a:

Estos documentos estarán dirigidos a todas las personas que pertenezcan a equipos de implementación de Oracle BI, incluyendo a: Oracle Business Intelligence Enterprise Edition 11g. A lo largo de los siguientes documentos trataré de brindar a los interesados un nivel de habilidades básicas requeridas para implementar efectivamente

Más detalles

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta SISTEMA DE INFORMACION GERENCIAL Lic.Patricia Palacios Zuleta Pentaho Open BI Suite La suite Pentaho cubre principalmente las siguientes áreas: integración de datos, reportes, análisis, alertas y dashboards,

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

Día 5-6-2012 17:00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

Día 5-6-2012 17:00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida Resumen de la conferencia Día 5-6-2012 17:00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida Ponente: Luis Muñiz Socio Director de Sisconges & Estrategia y experto en Sistemas

Más detalles

Introducción En los años 60 s y 70 s cuando se comenzaron a utilizar recursos de tecnología de información, no existía la computación personal, sino que en grandes centros de cómputo se realizaban todas

Más detalles

Tecnologías de Información y Comunicación II CLASE 10

Tecnologías de Información y Comunicación II CLASE 10 Tecnologías de Información y Comunicación II CLASE 10 Medidas Una medida es un tipo de dato cuya información es usada por los analistas (usuarios) en sus consultas para medir la perfomance del comportamiento

Más detalles

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería

Más detalles

activuspaper Text Mining and BI Abstract

activuspaper Text Mining and BI Abstract Text Mining and BI Abstract Los recientes avances en lingüística computacional, así como la tecnología de la información en general, permiten que la inserción de datos no estructurados en una infraestructura

Más detalles

Construcción de cubos OLAP utilizando Business Intelligence Development Studio

Construcción de cubos OLAP utilizando Business Intelligence Development Studio Universidad Católica de Santa María Facultad de Ciencias e Ingenierías Físicas y Formales Informe de Trabajo Construcción de cubos OLAP utilizando Business Intelligence Development Studio Alumnos: Solange

Más detalles

IAP 1009 - TÉCNICAS DE AUDITORÍA APOYADAS EN ORDENADOR (TAAO)

IAP 1009 - TÉCNICAS DE AUDITORÍA APOYADAS EN ORDENADOR (TAAO) IAP 1009 - TÉCNICAS DE AUDITORÍA APOYADAS EN ORDENADOR (TAAO) Introducción 1. Como se indica en la Norma Internacional de Auditoría 401, "Auditoría en un contexto informatizado", los objetivos globales

Más detalles

CAPÍTULO 2 DATA WAREHOUSES

CAPÍTULO 2 DATA WAREHOUSES CAPÍTULO 2 DATA WAREHOUSES Un Data Warehouse (DW) es un gran repositorio lógico de datos que permite el acceso y la manipulación flexible de grandes volúmenes de información provenientes tanto de transacciones

Más detalles

Sistema de análisis de información. Resumen de metodología técnica

Sistema de análisis de información. Resumen de metodología técnica Sistema de análisis de información Resumen de metodología técnica Tabla de Contenidos 1Arquitectura general de una solución de BI y DW...4 2Orígenes y extracción de datos...5 2.1Procesos de extracción...5

Más detalles

Portafolio de Servicios y Productos

Portafolio de Servicios y Productos Portafolio de Servicios y Productos Introducción Somos una empresa que se dedica a generar ventajas competitivas para nuestros clientes a través de desarrollos y consultoría en inteligencia de negocios

Más detalles

APOYO PARA LA TOMA DE DECISIONES

APOYO PARA LA TOMA DE DECISIONES APOYO PARA LA TOMA DE DECISIONES Cátedra: Gestión de Datos Profesor: Santiago Pérez Año: 2006 Bibliografía: Introducción a las Bases de Datos. DATE - 1 - 1. INTRODUCCION APOYO PARA LA TOMA DE DECISIONES

Más detalles

Sistemas de Gestión de Calidad. Control documental

Sistemas de Gestión de Calidad. Control documental 4 Sistemas de Gestión de Calidad. Control documental ÍNDICE: 4.1 Requisitos Generales 4.2 Requisitos de la documentación 4.2.1 Generalidades 4.2.2 Manual de la Calidad 4.2.3 Control de los documentos 4.2.4

Más detalles

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008 Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008 Introducción Aunque la estrategia de adquisiciones que Oracle ha seguido en los últimos años siempre ha buscado complementar y fortalecer nuestra oferta

Más detalles

DE VIDA PARA EL DESARROLLO DE SISTEMAS

DE VIDA PARA EL DESARROLLO DE SISTEMAS MÉTODO DEL CICLO DE VIDA PARA EL DESARROLLO DE SISTEMAS 1. METODO DEL CICLO DE VIDA PARA EL DESARROLLO DE SISTEMAS CICLO DE VIDA CLÁSICO DEL DESARROLLO DE SISTEMAS. El desarrollo de Sistemas, un proceso

Más detalles

e-commerce, es hacer comercio utilizando la red. Es el acto de comprar y vender en y por medio de la red.

e-commerce, es hacer comercio utilizando la red. Es el acto de comprar y vender en y por medio de la red. Comercio electrónico. (e-commerce) Las empresas que ya están utilizando la red para hacer comercio ven como están cambiando las relaciones de la empresa con sus clientes, sus empleados, sus colaboradores

Más detalles

3. GESTIÓN DE CONFIGURACIÓN DE SOFTWARE

3. GESTIÓN DE CONFIGURACIÓN DE SOFTWARE 3. GESTIÓN DE CONFIGURACIÓN DE SOFTWARE Software Configuration Management (SCM) es una disciplina de la Ingeniería de Software que se preocupa de [Ber92] [Ber84] [Bou98] [Mik97]: Identificar y documentar

Más detalles

INTELIGENCIA EN REDES DE COMUNICACIONES

INTELIGENCIA EN REDES DE COMUNICACIONES INTELIGENCIA EN REDES DE COMUNICACIONES MINERÍA DE DATOS EN EL DEPORTE PROFESIONAL Jorge Carrasco Troitiño NIA 100029724 Grupo 91-5 Ingeniería Superior de Telecomunicación INTRODUCCIÓN: Las técnicas de

Más detalles

Consultas con combinaciones

Consultas con combinaciones UNIDAD 1.- PARTE 2 MANIPULACIÓN AVANZADA DE DATOS CON SQL. BASES DE DATOS PARA APLICACIONES Xochitl Clemente Parra Armando Méndez Morales Consultas con combinaciones Usando combinaciones (joins), se pueden

Más detalles

SQL Server Business Intelligence parte 1

SQL Server Business Intelligence parte 1 SQL Server Business Intelligence parte 1 Business Intelligence es una de las tecnologías de base de datos más llamativas de los últimos años y un campo donde Microsoft ha formado su camino a través de

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Elementos requeridos para crearlos (ejemplo: el compilador)

Elementos requeridos para crearlos (ejemplo: el compilador) Generalidades A lo largo del ciclo de vida del proceso de software, los productos de software evolucionan. Desde la concepción del producto y la captura de requisitos inicial hasta la puesta en producción

Más detalles

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. UNIVERSIDAD DE CARABOBO FACULTAD DE CIENCIA Y TECNOLOGÍA DIRECCION DE EXTENSION COORDINACION DE PASANTIAS Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere. Pasante:

Más detalles

Clasificación de los Sistemas de Información

Clasificación de los Sistemas de Información Universidad Nacional Autónoma de México Facultad de Contaduría y Administración Clasificación de los Sistemas de Información Autor: L.I. Alejandro Muñoz Estrada Clasificación de los Sistemas de Información

Más detalles

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para Empresas en Crecimiento Portfolio SAP BusinessObjects Soluciones SAP para Empresas en Crecimiento Resumen Ejecutivo Inteligencia

Más detalles

DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012

DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012 DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012 FLUJO DE CAPACITACIÓN Prerrequisitos Fundamentos de Programación Sentencias SQL Server 2012 Duración: 12 horas 1. DESCRIPCIÓN

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Introducción. Componentes de un SI. Sistema de Información:

Introducción. Componentes de un SI. Sistema de Información: Introducción. Sistema de Información: Conjunto de elementos relacionados entre sí de acuerdo a ciertas reglas, que aporta a la organización la información necesaria para el cumplimiento de sus fines, para

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

El almacén de indicadores de proceso de negocio en ejecución

El almacén de indicadores de proceso de negocio en ejecución X Congreso de Ingeniería de Organización Valencia, 7 y 8 de septiembre de 2006 El almacén de indicadores de proceso de negocio en ejecución Andrés Boza García 1, Angel Ortiz Bas 1, Llanos Cuenca Gonzalez

Más detalles

Botón menú Objetivo de la Minería de datos.

Botón menú Objetivo de la Minería de datos. Titulo de Tutorial: Minería de Datos N2 Botón menú: Introducción. Las instituciones y empresas privadas coleccionan bastante información (ventas, clientes, cobros, pacientes, tratamientos, estudiantes,

Más detalles

App para realizar consultas al Sistema de Información Estadística de Castilla y León

App para realizar consultas al Sistema de Información Estadística de Castilla y León App para realizar consultas al Sistema de Información Estadística de Castilla y León Jesús M. Rodríguez Rodríguez rodrodje@jcyl.es Dirección General de Presupuestos y Estadística Consejería de Hacienda

Más detalles

Estructura de Bases de datos. Leonardo Víquez Acuña

Estructura de Bases de datos. Leonardo Víquez Acuña Estructura de Bases de datos Leonardo Víquez Acuña Lenguajes de Bases de Datos Un sistema de bases de datos proporciona Un lenguaje de definición de datos para especificar el esquema de la base de datos

Más detalles

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA Qué es inteligencia de negocios? (BI) Business Intelligence es la habilidad para transformar los datos en información, y la información en

Más detalles

Capítulo 12: Indexación y asociación

Capítulo 12: Indexación y asociación Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación

Más detalles

FUENTES SECUNDARIAS INTERNAS

FUENTES SECUNDARIAS INTERNAS FUENTES SECUNDARIAS INTERNAS Las fuentes secundarias son informaciones que se encuentran ya recogidas en la empresa, aunque no necesariamente con la forma y finalidad que necesita un departamento de marketing.

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

FACULTAD DE INGENIERÍA. Bases de Datos Avanzadas

FACULTAD DE INGENIERÍA. Bases de Datos Avanzadas FACULTAD DE INGENIERÍA Ingeniería en Computación Bases de Datos Avanzadas Datawarehouse Elaborado por: MARÍA DE LOURDES RIVAS ARZALUZ Septiembre 2015 Propósito Actualmente las empresas necesitan contar

Más detalles

Sistemas de Información Geográficos (SIG o GIS)

Sistemas de Información Geográficos (SIG o GIS) Sistemas de Información Geográficos (SIG o GIS) 1) Qué es un SIG GIS? 2) Para qué sirven? 3) Tipos de datos 4) Cómo trabaja? 5) Modelos de datos, Diseño Conceptual 6) GeoDataase (GD) 7) Cómo evaluamos

Más detalles

ADT CONSULTING S.L. http://www.adtconsulting.es PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

ADT CONSULTING S.L. http://www.adtconsulting.es PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS ADT CONSULTING S.L. http://www.adtconsulting.es PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS ESTUDIO SOBRE EL POSICIONAMIENTO EN BUSCADORES DE PÁGINAS WEB Y LA RELEVANCIA DE LA ACTUALIZACIÓN DE CONTENIDOS

Más detalles

Índice INTERNET MARKETING 1

Índice INTERNET MARKETING 1 INTERNET MARKETING 1 Índice Manual de Google Analytics... 2 Qué es Google Analytics?... 2 Cómo funciona Google Analytics?... 2 Iniciar Sesión en Google Analytics... 3 Visualizar las estadísticas... 3 Resumen

Más detalles

WE ARE EXPERTS IN DATA PROCESSING & ANALYTICS IDATHA. DARK DATA White Paper - IDATHA. Octubre 2015. IDATHA.COM

WE ARE EXPERTS IN DATA PROCESSING & ANALYTICS IDATHA. DARK DATA White Paper - IDATHA. Octubre 2015. IDATHA.COM DARK DATA White Paper -. Octubre 2015..COM Resumen Ejecutivo Hoy en día las empresas recogen y almacenan enormes cantidades de datos. Estos datos se conservan en la mayoría de los casos para tareas de

Más detalles

El entorno CRM (Customer Relationship Management o Gestión de Relación con Clientes) se ha configurado actualmente como un enfoque estratégico para optimizar las estructuras de negocio de la empresa. La

Más detalles

Resumen General del Manual de Organización y Funciones

Resumen General del Manual de Organización y Funciones Gerencia de Tecnologías de Información Resumen General del Manual de Organización y Funciones (El Manual de Organización y Funciones fue aprobado por Resolución Administrativa SBS N 354-2011, del 17 de

Más detalles

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI INTRODUCCIÓN Se habla en multitud de ocasiones de Business Intelligence, pero qué es realmente? Estoy implementando en mi organización procesos de Business

Más detalles

Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática

Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática Metodología Evolutiva Incremental Mediante Prototipo y Técnicas Orientada a Objeto (MEI/P-OO)

Más detalles

GENERALIDADES DE BASES DE DATOS

GENERALIDADES DE BASES DE DATOS GENERALIDADES DE BASES DE DATOS A fin de evitar que idénticos datos se encuentren repetidos en múltiples archivos, parece necesario que los comunes se almacenen en un archivo único y que este archivo sea

Más detalles

BASE DE DATOS RELACIONALES

BASE DE DATOS RELACIONALES BASE DE DATOS RELACIONALES Una base de datos relacional es una base de datos que cumple con el modelo relacional, el cual es el modelo más utilizado en la actualidad para implementar bases de datos ya

Más detalles

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN 3.3 Aplicaciones Definición de Aplicación (Application). Programa informático que permite a un usuario utilizar una computadora con un fin específico. Las

Más detalles

INVESTIGACIÓN DE MERCADOS

INVESTIGACIÓN DE MERCADOS INVESTIGACIÓN DE MERCADOS UDELAR RRII 2011 LIC. (MAG) IGNACIO BARTESAGHI INVESTIGACIÓN DE MERCADO (1) Definición de Schoell y Guiltinan: La investigación de mercados es la función que enlaza al consumidor,

Más detalles

Minería de datos (Introducción a la minería de datos)

Minería de datos (Introducción a la minería de datos) Minería de datos (Introducción a la minería de datos) M. en C. Sergio Luis Pérez Pérez UAM CUAJIMALPA, MÉXICO, D. F. Trimestre 12-O. Sergio Luis Pérez (UAM CUAJIMALPA) Curso de minería de datos 1 / 21

Más detalles

Arquitectura de sistema de alta disponibilidad

Arquitectura de sistema de alta disponibilidad Mysql Introducción MySQL Cluster esta diseñado para tener una arquitectura distribuida de nodos sin punto único de fallo. MySQL Cluster consiste en 3 tipos de nodos: 1. Nodos de almacenamiento, son los

Más detalles

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE PRUEBAS DE SOFTWARE La prueba del software es un elemento crítico para la garantía de la calidad del software. El objetivo de la etapa de pruebas es garantizar la calidad del producto desarrollado. Además,

Más detalles

E-data. Transformando datos en información con Data Warehousing

E-data. Transformando datos en información con Data Warehousing Federico Plancarte Sánchez E-data. Transformando datos en información con Data Warehousing Tema 2 El soporte a la Decisión 2-1 Evolución del soporte a la decisión Diversas categorías del análisis del DS

Más detalles

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final INTRODUCCION En principio surgió la idea de un buscador que brinde los resultados en agrupaciones de

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama. Diagrama de Flujo La presentación gráfica de un sistema es una forma ampliamente utilizada como herramienta de análisis, ya que permite identificar aspectos relevantes de una manera rápida y simple. El

Más detalles

1.1.- Objetivos de los sistemas de bases de datos 1.2.- Administración de los datos y administración de bases de datos 1.3.- Niveles de Arquitectura

1.1.- Objetivos de los sistemas de bases de datos 1.2.- Administración de los datos y administración de bases de datos 1.3.- Niveles de Arquitectura 1. Conceptos Generales 2. Modelo Entidad / Relación 3. Modelo Relacional 4. Integridad de datos relacional 5. Diseño de bases de datos relacionales 6. Lenguaje de consulta estructurado (SQL) 1.1.- Objetivos

Más detalles

Base de datos II Facultad de Ingeniería. Escuela de computación.

Base de datos II Facultad de Ingeniería. Escuela de computación. 2 Base de datos II Facultad de Ingeniería. Escuela de computación. Base de datos II. Guía 6 3 Introducción Este manual ha sido elaborado para orientar al estudiante de Bases de datos II en el desarrollo

Más detalles

Reporte Registro de Personas con Discapacidad

Reporte Registro de Personas con Discapacidad SISTEMA INTEGRAL DE LA PROTECCION SOCIAL SISPRO SISTEMA DE GESTION DE DATOS SGD Reporte Registro de Personas con Discapacidad CÓDIGO: VERSIÓN: 3 FECHA: 201310 Reporte Registro de Personas con Discapacidad

Más detalles

Cuadros de mando interactivos para los responsables de la toma de decisiones

Cuadros de mando interactivos para los responsables de la toma de decisiones Resumen de producto SAP Soluciones SAP Crystal SAP Crystal Dashboard Design Objetivos Cuadros de mando interactivos para los responsables de la toma de decisiones Transforme datos complejos en cuadros

Más detalles

UNIVERSIDAD AUTONOMA DE GUADALAJARA ACP06 ALUMNO: JOSE ANGEL DEHESA JIMENEZ REGISTRO: 1996656 C R M

UNIVERSIDAD AUTONOMA DE GUADALAJARA ACP06 ALUMNO: JOSE ANGEL DEHESA JIMENEZ REGISTRO: 1996656 C R M UNIVERSIDAD AUTONOMA DE GUADALAJARA ACP06 ALUMNO: JOSE ANGEL DEHESA JIMENEZ REGISTRO: 1996656 C R M CONCEPTO: "Customer Relationship Management"), La administración basada en la relación con los clientes.

Más detalles

Inteligencia de Negocios. & Microsoft Excel 2013

Inteligencia de Negocios. & Microsoft Excel 2013 Inteligencia de Negocios (Business Intelligence - BI) & Microsoft Excel 2013 Instructor: Germán Zelada Contenido del Curso Fundamentos de Data Warehousing y BI Qué es Business Intelligence? Definiendo

Más detalles

Capítulo 4 Implementación

Capítulo 4 Implementación Capítulo 4 Implementación Este capítulo describe los detalles de implementación del sistema. La sección 4.1 habla sobre las herramientas utilizadas y detalla la arquitectura para la implementación de ATEXEM.

Más detalles

Desarrollo de la estrategia a seguir para. un Sistema de Gestión de la Energía. Instalaciones Industriales

Desarrollo de la estrategia a seguir para. un Sistema de Gestión de la Energía. Instalaciones Industriales Desarrollo de la estrategia a seguir para un Sistema de Gestión de la Energía Instalaciones Industriales Noviembre 2014 Contenido 1. Introducción 2. Antecedentes 3. Potencial de mejora energética de los

Más detalles

CRM. Customer Relationship Management Sistema de Gestión Inteligente de Mercadeo y Ventas. Sistema de Gestión Inteligente de Mercadeo y Ventas

CRM. Customer Relationship Management Sistema de Gestión Inteligente de Mercadeo y Ventas. Sistema de Gestión Inteligente de Mercadeo y Ventas CRM Customer Relationship Management Sistema de Gestión Inteligente de Mercadeo y Ventas Sistema de Gestión Inteligente de Mercadeo y Ventas Customer Relationship Management (Administración de Relaciones

Más detalles

DATA WAREHOUSE DATA WAREHOUSE

DATA WAREHOUSE DATA WAREHOUSE DATA WAREHOUSE DATA WAREHOUSE Autor: Roberto Abajo Alonso Asignatura: Sistemas Inteligentes, 5º Curso Profesor: José Carlos González Dep. Ing. Sistemas Telemáticos, E.T.S.I. Telecomunicación Universidad

Más detalles

Proceso: AI2 Adquirir y mantener software aplicativo

Proceso: AI2 Adquirir y mantener software aplicativo Proceso: AI2 Adquirir y mantener software aplicativo Se busca conocer los estándares y métodos utilizados en la adquisición de y mantenimiento del software. Determinar cuál es proceso llevado a cabo para

Más detalles

Unidad 1. Fundamentos en Gestión de Riesgos

Unidad 1. Fundamentos en Gestión de Riesgos 1.1 Gestión de Proyectos Unidad 1. Fundamentos en Gestión de Riesgos La gestión de proyectos es una disciplina con la cual se integran los procesos propios de la gerencia o administración de proyectos.

Más detalles

Un primer acercamiento a la CMDB.

Un primer acercamiento a la CMDB. Un Versión primer 1.2 acercamiento a la CMDB. 20/07/2005 Un primer acercamiento a la CMDB. Versión 1.1 1.2 18/02/05 20/02/05 Fecha Jose Autores Carlos Manuel García Viejo García Lobato http://ars.viejolobato.com

Más detalles

El diseño de la base de datos de un Data Warehouse. Marta Millan millan@eisc.univalle.edu.co www.eisc.univalle.edu.co/materias

El diseño de la base de datos de un Data Warehouse. Marta Millan millan@eisc.univalle.edu.co www.eisc.univalle.edu.co/materias El diseño de la base de datos de un Data Warehouse Marta Millan millan@eisc.univalle.edu.co www.eisc.univalle.edu.co/materias El modelo Multidimensional Principios básicos Marta Millan millan@eisc.univalle.edu.co

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Figura 4.1 Clasificación de los lenguajes de bases de datos

Figura 4.1 Clasificación de los lenguajes de bases de datos 1 Colección de Tesis Digitales Universidad de las Américas Puebla Romero Martínez, Modesto Este capítulo describen los distintos lenguajes para bases de datos, la forma en que se puede escribir un lenguaje

Más detalles

Sistemas de información

Sistemas de información Sistemas de información Es un conjunto integrado de componentes que almacenan, recolectan y procesan datos, para la entrega de la información, el conocimiento y los productos digitales. Las empresas comerciales

Más detalles

http://www.statum.biz http://www.statum.info http://www.statum.org

http://www.statum.biz http://www.statum.info http://www.statum.org ApiaMonitor Monitor de Infraestructura BPMS Por: Ing. Manuel Cabanelas Product Manager de Apia Manuel.Cabanelas@statum.biz http://www.statum.biz http://www.statum.info http://www.statum.org Abstract A

Más detalles

Almacén de datos - concepto. Arquitectura de un sistema de almacén de datos

Almacén de datos - concepto. Arquitectura de un sistema de almacén de datos Almacén de datos - concepto Almacén de datos (Bodega de Datos, Data warehouse) es una integrada colección de datos que contiene datos procedentes de sistemas del planeamiento del recurso de la empresa

Más detalles