EPB 603 Sistemas del Conocimiento

Documentos relacionados

Introducción Qué es Minería de Datos?

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

SQL Server Business Intelligence parte 1

IWG-101: Introducción a la Ingeniería. Departamento de Informática, UTFSM 1

Visión global del KDD

Almacén de datos - concepto. Arquitectura de un sistema de almacén de datos

Microsoft SQL Server Conceptos.

EPB 603 Sistemas del Conocimiento

Trabajo final de Ingeniería

Capítulo 2 Tecnología data warehouse

Sistema de análisis de información. Resumen de metodología técnica

TUTORIAL DATA WAREHOUSE: OLAP - Analysis Services

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre

Parte I: Introducción

Sistemas de Información 12/13 La organización de datos e información

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

Minería de datos (Introducción a la minería de datos)

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

Definición. Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4

Datamining Introducción

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Data Mining Técnicas y herramientas

Estos documentos estarán dirigidos a todas las personas que pertenezcan a equipos de implementación de Oracle BI, incluyendo a:

DATA WAREHOUSE DATA WAREHOUSE

Base de datos II Facultad de Ingeniería. Escuela de computación.

BASE DE DATOS RELACIONALES

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Overview of Data Warehousing / Business Intelligence with SQL Server

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

MINERIA DE DATOS Y Descubrimiento del Conocimiento

PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.2 UML: Modelado de casos de uso

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Sistemas de Información para la Gestión. UNIDAD 2: RECURSOS DE TI Información y Aplicaciones

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

SYLLABUS I. DESCRIPCIÓN

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta

Business Intelligence

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile

Sistemas de Información para la Gestión. Unidad 3 Aplicaciones de Sistemas

Introducción a la Minería de Datos

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

CONSIDERACIONES GENERALES DEL WEB MINING

Introducción a la Minería de datos. DATA MINING Modelamiento de datos para Marketing y Administración de las Relaciones con el Cliente (CRM).

Introducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Tecnologías de Información y Comunicación II CLASE 10

Cuadrante Mágico de Gartner para BI 2013 vs. 2014

Unidad 1. Fundamentos en Gestión de Riesgos

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre.

Portafolio de Servicios y Productos

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

El almacén de indicadores de proceso de negocio en ejecución

Soluciones Integrales en Inteligencia de Negocios

Base de datos relacional

Inteligencia de Negocios Introducción. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

SpagoBI Open Source Business Intelligence

CURSOS PREPARACIÓN PARA CERTIFICACIÓN MICROSOFT SQL SERVER

Minería de datos (Introducción a la minería de datos)

Sistemas de Información II Tema 1. El enfoque de bases de datos

Fundamentos de la Inteligencia de Negocios

FACULTAD DE INGENIERÍA. Bases de Datos Avanzadas

Apoyo a la toma de Decisiones. Carlos A. Olarte Bases de Datos II

CURSO MINERÍA DE DATOS AVANZADO

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

SQL Server 2014 Implementación de una solución de Business Intelligence (SQL Server, Analysis Services, Power BI...)

Finanzas e Investigación de Mercados"

BUSINESS INTELLIGENCE

Minería de Datos. Vallejos, Sofia

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

3.3.3 Tecnologías Mercados Datos

CREACIÓN DE PROYECTOS DE BUSINESS INTELLIGENCE CON SQL SERVER. 40 horas 60 días

UN PASEO POR BUSISNESS INTELLIGENCE

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

Cenfotec ofrece talleres de preparación para la certificación internacional de Microsoft SQL Server

APOYO PARA LA TOMA DE DECISIONES

Informática II Ing. Industrial. Data Warehouse. Data Mining

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Habilidades y Herramientas para trabajar con datos

Quienes Somos? Valor. Estrategia

Inteligencia de Negocios. & Microsoft Excel 2013

INTELIGENCIA DE NEGOCIO

La Base de Datos OLAP Analysis Services (SSAS) Agenda. Agenda. Construyendo una Solución de BI paso a paso con SQL Server 2005

INTELIGENCIA DE NEGOCIO

Fundamentos de la Inteligencia de Negocios

Construcción de cubos OLAP utilizando Business Intelligence Development Studio

CAPÍTULO 2 DATA WAREHOUSES

Capítulo 12: Indexación y asociación

Minería de Datos. Vallejos, Sofia

FUENTES SECUNDARIAS INTERNAS

Gestión de la Información

Botón menú Objetivo de la Minería de datos.

UNIVERSIDAD DE SANTIAGO DE CHILE INGENIERIA COMERCIAL APLICACIÓN COMPUTACIONAL I INTELIGENCIA DE NEGOCIOS

OPTATIVA I: MINERIA DE DATOS

CLASIFICACIÓN NO SUPERVISADA

Transcripción:

EPB 603 Sistemas del Conocimiento Dr. Oldemar Rodríguez R. Maestría en Administración de la Tecnología de la Información Escuela de Informática Universidad Nacional Capítulo 1 Conceptos Básicos y Herramientas OLAP 1

Introducción Qué es Minería de Datos? Extracción de información o de patrones (no trivial, implícita, previamente desconocida y potencialmente útil) de grandes bases de datos. Introducción Qué es Minería de Datos? Es analizar datos para encontrar patrones ocultos usando medios automatizados. 2

Introducción Qué es Minería de Datos? La Minería de Datos es un proceso no elemental de búsqueda de relaciones, correlaciones, dependencias, asociaciones, modelos, estructuras, tendencias, clases (clusters), segmentos, los cuales que se obtienen de grandes juegos de datos, los cuales generalmente están almacenados en bases de datos (relacionales o no). Esta búsqueda se lleva a cabo utilizando métodos matemáticos, estadísticos o algorítmicos. Introducción Qué es Minería de Datos? Se considera la Minería de Datos como un el proceso, lo más automatizado posible, qué va de los datos elementales disponibles en una Bodega de Datos a la decisión. El objetivo principal de la Minería de Datos es crear un proceso automatizado que toma como punto de partida los datos y cuya meta es la ayuda a la toma de decisiones. 3

Introducción Minería de Datos versus KDD (Knowledge Discovery in Databases) Usualmente ambos términos son intercambiables. KDD (Knowledge Discovery in Databases): Es el proceso de encontrar información y/o patrones útiles en los datos. Minería de Datos: es el uso de algoritmos para extraer información y/o patrones derivados del proceso KDD. Minería de Datos: A KDD Process La Minería de Datos: Es el centro del proceso de descubrimiento del conocimiento (KDD Process = Knowledge Discovery in Data Bases Process). 4

Introducción Minería de Datos versus Estadística La estadística generalmente analiza muestras de datos para luego hacer inferencia a toda la población, mientras que la minería de datos pretende buscar información útil usando toda la base datos. La estadística en la mayoría de los casos supone que los datos se comportan de acuerdo a ciertas distribuciones de probabilidad (normal, binomial, geométrica, Poisson, etc), mientras que la minería de datos usa técnicas mucho más exploratorias que vienen de la IA, o del Analyse des Données. Introducción Minería de Datos versus Análisis de Datos Con el advenimiento de las computadoras, aproximadamente en 1960, un nuevo concepto surgió del matrimonio entre la informática y la estadística: El Análisis de Datos (conocido en como: Analyse des Données - Exploratory Data Analysis). Esta nueva manera de analizar los datos con un objetivo decisional usa mucho más la informática y los métodos analíticos (el análisis de factorial, la clasificación automática, la discriminación, etc.) que los métodos estadísticos clásicos, las pruebas de hipótesis, que parten de supuestos matemáticos muy difíciles de verificar en la práctica. (Ej. no se supone que los datos siguen cierta distribución de probabilidad los datos se muestran por si mismos). A diferencia de la minería de datos, el análisis de datos usualmente no es automatizado, ni trata con volúmenes de datos tan grandes. 5

Introducción Minería de Datos versus Bodegas de Datos Una Bodega de Datos es un almacén de datos de una compañía que contiene algunos datos operacionales, datos agregados (sumarizaciones), datos del históricos, datos evolutivos y posiblemente aquellos datos externos a la compañía pero que tienen una posible relación con las actividades de esta. Estos datos se depositan en una o más bases de datos relacionales y son accesibles a todas las aplicaciones orientadas a la toma de decisiones. Evidentemente bodegas de datos y minería de datos son cosas muy diferentes. Una bodega de datos es usualmente apenas el punto de partida de la minería de datos. Podría decirse que ambos, las bodegas de datos y la minería de datos son parte del proceso KDD. Introducción Minería de Datos versus Machine Learning Machine Learning : es un área de la Inteligencia Artificial (IA) que trata sobre como escribir programas puedan aprender. En Data Mining es usualmente usado para predicción y clasificación. Se divide en dos: aprendizaje supervisado (learns by example) y aprendizaje no supervisado. 6

La Minería de Datos: Confluencia de Múltiples Disciplinas " #$ %!! Aplicaciones de la Minería de Datos Retención de Clientes Cuáles clientes se van ir para la competencia? Patrones de Compra Cuándo un cliente compra un producto cuál otro le podría interesar? Detección de Fraude Cuáles transacciones son fraudulentas? Manejo del Riesgo A qué clientes les doy un préstamo? Segmentación de clientes Quiénes son mis clientes? Predicción de Ventas Cuánto voy a vender el próximos mes? 7

Tareas de la Minería de Datos Descriptivas: OLAP (visualización). Clustering. Métodos Factoriales como ACP, AFC. Predictivas: Series de Tiempo. Análisis Discriminante. Regresión. Árboles de Decisión. Tareas de la Minería de Datos Clustering : (clasificación no supervisada, aprendizaje no supervizado): Es similar a la clasificación, excepto que los grupos no son predefinidos. El objetivo es particionar o segmentar un conjunto de datos o individuos en grupos que pueden ser disjuntos o no. Los grupos se forman basados en la similaridad de los datos o individuos en ciertas variables. Como los grupos no son dados a priori el experto debe dar una interpretación de los grupos que se forman. Métodos: Clasificación Jerárquica (grupos disjuntos). Nubes Dinámicas (grupos disjuntos). Clasificación Piramidal (grupos NO disjuntos). 8

Cluster Analysis The K-Means Clustering Method (nubes dinámicas) 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 9

Tareas de la Minería de Datos Clasificación (discriminación): Mapea o asocia datos a grupos predefinidos (aprendizaje supervisado). Encuentra modelos (funciones) que describen y distinguen clases o conceptos para futuras predicciones. Ejemplos: Credit scoring. Métodos: Análisis discriminante, decision-tree, classification rule, neural network v3 v5 v8 v1 v2 v4 v6 10

Tareas de la Minería de Datos Descubrimiento de Factores (Análisis Factorial): El análisis factorial es un nombre genérico que se da a una clase de métodos multivariantes cuyo propósito principal es encontrar la estructura subyacente en una tabla de datos (factores ocultos). Generalmente hablando, aborda el problema de cómo analizar la estructura de las interrelaciones (correlaciones) entre un gran número de variables con la definición de una serie de dimensiones subyacentes comunes, conocidas como factores. Se puede considerar cada factor como una variable dependiente que es función del conjunto entero de las variables observadas. El objetivo central es el resumen y la reducción de datos. Métodos: Análisis en Componentes Principales (ACP). Análisis Factorial de Correspondencias simples y múltiples (AFC). Análisis Canónico (AC). Análisis Discriminante (AD). Tabla de Datos Componentes 100% de la información 80% 16% 0.02% 11

Tareas de la Minería de Datos Regresión: Se usa una regresión para predecir los valores ausentes de una variable basándose en su relación con otras variables del conjunto de datos. Hay regresión lineal, no lineal, logística, logarítmica, univariada, multivariada, etc. 12

Regression y Y1 Y1 y = x + 1 X1 x Tareas de la Minería de Datos Series de Tiempo: 1. X t : Serie de tiempo. 2. Corregir errores sistemáticos. 3. Transformaciones matemáticas. 4. X t =Tendencia+Estacionalidad+Ciclos+E t. 5. Para E t (Si no es un ruido blanco) 1. Elegir el modelo (Box-Jenkings). 1. ARMA(p,q) (AutoRegressive Moving Average) 2. ARIMA(p,d,q) (AutoRegressive-Integrated Moving Average) 2. Estimar parámetros. 6. Pronósticos. 13

Tareas de la Minería de Datos Sumarización: Los métodos de sumarización asignan los datos a conjuntos (individuos de segundo orden) que tienen asociadas descripciones. Estos métodos permiten extraer o derivar datos representativos de una base de datos. Permite el análisis de conceptos. Métodos: Análisis de datos simbólicos. Lógica difusa. Interval Analysis. 14

Tareas de la Minería de Datos Asociación o Análisis de afinidad: Conocido como Link Analysis se refiere a encontrar relaciones no evidentes en los datos. Métodos: Reglas de asociación (association rules). Análisis de Correlation y de Causalidad. Tareas de la Minería de Datos Descubrimiento de secuencias: Secuential analysis es usado para descubrir secuencias de patrones en los datos, estos patrones son similares a los encontrados con reglas de asociación pero tales relaciones son basadas en el tiempo. Métodos: Redes neuronales. Series de tiempo. 15

Data Mining: On What Kind of Data? Relational databases Data warehouses Transactional databases Advanced DB and information repositories Object-oriented and symbolic databases Spatial databases (location component, Geographic Information Systems - GIS) Time-series data and temporal data Text databases and multimedia databases Heterogeneous and legacy databases www (web mining) Steps of a KDD Process 1. Learning the application domain: Relevant prior knowledge and goals of application 2. Creating a target data set: data selection 3. Data cleaning and preprocessing: (may take 60% of effort!) 4. Data reduction and transformation: Find useful features, dimensionality/variable reduction, invariant representation. 5. Choosing functions (methods) of data mining Summarization, classification, regression, association, clustering. 6. Choosing the mining algorithm(s) 7. Data mining: search for patterns of interest 8. Pattern evaluation and knowledge presentation visualization, transformation, removing redundant patterns, etc. 9. Use of discovered knowledge 16

Ciclo de un proyecto de minería de datos 1. Recolectar los datos. Usualmente las compañias tienes muchas bases de datos que deben ser centralizadas. 2. Limpieza y transformación de datos. 3. Definir la meta del proyecto y así encontrar el modelo adecuado. 4. Escoger los algoritmos que permitan optimizar el modelo. 5. Generar reportes. 6. Generar predicciones y/o Scoring. 7. Aplicación de los resultados en el negocio. 8. Actualización de los modelos. (calibración constante de los modelos) Data Mining and Business Intelligence Increasing potential to support business decisions Making Decisions End User Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Analysis, Querying and Reporting Business Analyst Data Analyst Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA 17

Architecture of a Typical Data Mining System * ( $ ) $ & ' ($ Data cleaning & data integration Filtering +'& Databases Data Warehouse Estándares en Minería de Datos En Minería de Datos estamos como en Base de Datos hace 20 años, es decir, se están haciendo esfuerzos por definir estándares. OLE DB for DM: define un nuevo lenguaje para la minería de datos que permite la creación de modelos, aprendizaje y predicción. También define un modelo de datos para los métodos y algoritmos de minería de datos. XML for Analysis: es otro estándar de la industria y está a cargo del XML / A Council. Así surge el lenguaje de consultas query language Data Mining extensions (DMX) que permite consultas basadas en XML a los servidores de Minería de Datos. SQL MM: (SQL/ Multimedia for Data Mining) fue propuesto por IBM. Java Data Mining API. Es un paquete JAVA para minería de datos propuesto por ORACLE. El objetivo es permitir a las aplicaciones JAVA con motores de minería de datos. PMML, Crisp-DM, CMW (extensión de UML) y otros. 18

Qué es una Bodega de Datos? (Data Warehouse) Una bodega de datos es una base de datos orientada a consultas, como resultado de un análisis extenso y de la transformación de datos de la empresa. La bodega de datos se usa como punto de partida de un sistema de toma de decisiones (tales como OLAP, DataLab). Qué es una Bodega de Datos? (Data Warehouse) Una bodega de datos tiene datos consolidados y consistentes, orientados hacia un tema, históricos y solamente de lectura. Una bodega de datos podría ser el resumen un conjunto de bases de datos de una empresa. 19

Qué es una Bodega de Datos? (Data Warehouse) Simbólicas o Numéricas Proceso de Minería de Datos Bodega de Datos vrs BDR 20

Qué es un Mercado de Datos? (Data Mart) Un Mercado de Datos (Data Mart) tiene las mismas características que una bodega de datos, pero a un nivel más refinado, pues contiene información más detallada perteneciente a un solo departamento de la empresa. Cómo se construyen las Bodegas de Datos y los Mercados de Datos? Para esto se sigue el manual The Data Warehouse Toolkit. El objetivo es evitar inconsistencias y errores en los datos. Este proceso en muy difícil de automatizar dada la gran cantidad de formatos de datos que existen en las empresas. 21

Minería de Datos vrs OLAP Qué es Minería de Datos? Son herramientas y técnicas cuyo objetivo es extraer información valiosa de las bodegas de datos (Data Warehouse) y de los mercados de datos (Data Mart). Busca grupos de clientes, segmentos, patrones etc. Minería de Datos vrs OLAP Qué es OLAP? OLAP (Online Analytical Processing) OLAP es una tecnología que procesa información de una bodega de datos en estructuras multidimensionales que proporcionan una respuesta rápida a consultas complejas. El objetivo de OLAP es resumir y organizar grandes cantidades de datos para se analizados y evaluados rápidamente. 22

Qué es OLAP? Modelo Estrella Tabla de Hechos (fact table): Corresponde a los hechos del negocio. En general son valores numéricos y sumables lo que permitirá sumarizar los millones de registros haciendo agregados. Debe estar altamente normalizada. Tablas de Dimensiones (dimensions tables): Permiten describir los hechos desde diferentes ángulos permitiendo análisis muy diversos. En general, tienen una descripción textual muy clara. Generalmente no están normalizadas. 23

Example of Star Schema time time_key day day_of_the_week month quarter year Measures Sales Fact Table time_key item_key location_key units_sold dollars_sold avg_sales item item_key item_name brand type supplier_type location location_key street city province_or_street country 24

Example of Star Schema time time_key day day_of_the_week month quarter year Supplier supplier_key supplier_name supplier_type Measures Sales Fact Table time_key item_key supplier_key location_key units_sold dollars_sold avg_sales item item_key item_name brand type supplier_type location location_key street city province_or_street country 25

OLAP (On Line Analytical Processing) fue introducido por E.F.Codd, en creador del modelo relacional de bases de datos, en un artículo que escribió en 1994. El fuerte del OLAP son los cálculos agregados o sumarizados. Ej. Cuáles son los 10 productos más vendidos el último mes? Mientras que el fuerte la Minería de Datos es la búsqueda de patrones ocultos. Ej. Cuál es el perfil de los compradores de cámaras digitales? Una Bodega de Datos (Data Warehouse) es un sistema que toma los datos de una compañía (de sus bases de datos y de otras fuentes de los datos) y los transforma en una estructura adecuada para el Análisis de Datos. Se realizan a menudo algoritmos matemáticos en los datos previamente organizados para llevar más allá su utilidad para la toma decisiones en los negocios. El análisis de los datos se ejecuta básicamente de dos formas. La primera requiere de una persona que investigue los datos para encontrar las tendencias y patrones. Este método se conoce como On Line Analytical Processing (OLAP.) La segunda forma utiliza algoritmos y métodos matemáticos para escrudiñar los datos y buscar así las tendencias y patrones. Este método se llama la Minería de Datos. Los Mercados de Datos (Data Mart) pueden pensarse de cómo Bodegas de mini-datos y usualmente son parte de una Bodega de Datos más grande. Generalmente están orientados a un tema en particular. 26

Definiciones importantes en Bodegas de Datos Dos tipos tablas conforman una Bodega de datos: las Tablas de Hechos y las Tablas de Dimensión. Una Tablas de Hechos contiene típicamente los datos concernientes a negocios tales como las total de ventas, cantidad de las ventas, el número de clientes, y las llaves foráneas de las Tablas de Dimensión. Una llave foránea es un campo que liga la Tabla de Hechos con las Tablas de Dimensión Las Tablas de Dimensión contienen la información detallada referente a un atributos específico de la Tabla de Hechos, como los detalles del producto, del cliente, la información de la tienda, y así sucesivamente. 27

La Tabla de Hechos La Tabla de Hechos tiene como meta extraer los datos más importantes desde el punto de vista de la toma de decisiones para el negocio. Esta tabla se estructura de manera tal que facilite la manipulación numérica de los datos. Así esta tabla usualmente NO será una tabla normalizada. Más bien, los datos muchas veces son agregaciones de otros por lo que se tienen muchos datos pre-calculados con el objetivo de facilitar y optimizar la consulta. Tablas de Dimensiones La Tabla de Hechos típicamente tiene datos cuantitativos; por ejemplo, los datos de transacción que muestran número de unidades vendidas en cada la venta y cantidad cobrada al cliente por la unidad vendida. Mientras que las Tablas de Dimensión contienen la información detallada referente a un atributos específico de la Tabla de Hechos, como los detalles del producto, del cliente, la información de la tienda, y así sucesivamente. 28

Dimensiones Para Entender que significa un Cubo, que es el corazón de análisis OLAP, se debe entender la naturaleza de las dimensiones primero. Un OLAP está basado en las Bases de Datos Multidimensionales, porque literalmente se hace un análisis de datos observando las relaciones entre las diferentes dimensiones tales como: Tiempo, Ventas, Productos, Clientes, Empleados, Ubicación Geográfica o Cuentas. Las dimensiones están basadas a menudo en jerarquías. Las jerarquías son entidades lógicas que un usuario podría querer analizar. Cada jerarquía puede tener uno o más niveles. Cubos Un cubo es una estructura de datos multidimensional en el que se puede consultar información para la toma de decisiones. Se pueden construir los cubos desde una o más tablas de hechos y sus dimensiones. Un cubo dado normalmente tiene un tema dominante bajo el cual se quiere hacer el análisis. Por ejemplo, se podría construir un cubo de las Ventas con el que se analizan las ventas por la región, o un cubo de Proceso de Llamada con que se analiza longitud de llamada. 29

En la siguiente Figura se muestra un cubo de Ventas de Cerveza. Considere la cara delantera del cubo que muestra números positivos. Este cubo tiene tres dimensiones: Tiempo, Línea del Producto, y Estado dónde el producto fue vendido. Cada bloque del cubo se llama una celda y se identifica por un miembro en cada dimensión. Por ejemplo, analice la celda de la esquina inferior-izquierda, la cual tiene los valores 4,784 y $98,399. Los valores indican el número de ventas y el monto de las ventas. Esta celda se refiere a las ventas de Cerveza inglesa (Ale) en el estado de Washington (WA) durante julio del 2005. Esto se representa como [WA, Ale, el Jul ' 05]. Si algunas celdas no tienen valor; esto es porque ningún dato está disponible para esas celdas en la tabla de hecho. 30

El esquema tipo Estrella Este esquema se conoce así porque cuando se hace un diagrama entidadrelación de la tabla de hechos con las llaves foráneas más importantes de una o más tablas de dimensión se tiene un esquema que parece una estrella cierto? El esquema tipo Copo de Nieve (Snowflake) Hay que una extensión del Esquema Estrella conocido como el esquema del Copo de Nieve. Este tipo esquema es útil cuando una o más de tablas de dimensión son a su vez una tablas de hechos. 31

1. Cargar SQL Server Business Intelligence Development Studio 2. Crear un proyecto en BIDS (Business Intelligence Development Studio) File New Project 32

Carpetas de un proyecto: 3. Crear el Data Source (Conexión a la Base de Datos) 33

Adventureworks Sample Database The AdventureWorks sample databases are for the ficticious AdventureWorks -- a large, multinational manufacturing company. "The company manufactures and sells metal and composite bicycles to North American, European and Asian commercial markets. While its base operation is located in Bothell, Washington with 290 employees, several regional sales teams are located throughout their market base. In 2000, Adventure Works Cycles bought a small manufacturing plant, Importadores Neptuno, located in Mexico. Importadores Neptuno manufactures several critical subcomponents for the Adventure Works Cycles product line. These subcomponents are shipped to the Bothell location for final product assembly. In 2001, Importadores Neptuno became the sole manufacturer and distributor of the touring bicycle product group. Coming off a successful fiscal year, Adventure Works Cycles is looking to broaden its market share by targeting their sales to their best customers, extending their product availability through an external Web site, and reducing their cost of sales through lower production costs." 4. Crear el Data Source View (DSV) (Vistas Lógicas de las Tablas) 34

5. Crear un Cubo usando el Cube Wizard (Método Botton-up, es decir se construye el cubo a partir de una base de datos) 35

36

6. Desplegando y visualizando un Cubo Introducción a MDX (Multi-Dimensional expressions) Así como SQL (Structured Query Language) es un lenguaje de consultas para recuperar datos de las bases de datos relacionales, MDX (Multi-Dimensional expressions) es es un lenguaje de consultas para recuperar datos de las bases de datos multi-dimensionales (Cubos-OLAP). MDX fue diseñado por Microsoft e introducido por primera vez en el BIDS 7.0 en 1998. Members: Cada jerarquía de una dimensión contiene uno o más Items llamados los miembros. Ej. [ Date ].[ Calendar ].[ Calendar Quarter ].[ Q1 CY 2004 ] 37

CelIs (Celdas): Una Celda es una entidad de la que se pueden recuperar datos que corresponde a la intersección de los Miembros de dimensiones. Tuples (Tuplas): Una Tupla única identifica una celda o una sección de un cubo. Ejemplos: [Dim Product].[Large Photo].&[213] [Dim Sales Territory].[Sales Territory Region].[Canada] Sets (Conjuntos): Un Set es una colección de tuplas unidas por and. Ejemplos: ([ Date ].[ Calendar ].[ 2004 ].[ Hl CY 2004 ].[ Q1 CY 2004 ], [ Product ].[ Product Line ].[ Mountain ], [ Customer ].[ Country ].[ Australia ]) 38

Dónde ejecutar un Query MDX? SSMS: SQL Server Management Studio 39

Ejemplo 1: SELECT [Measures].[Sales Amount] on COLUMNS FROM [Adventure Works DW] WHERE ([Dim Sales Territory].[Sales Territory Group].[Pacific], [Dim Promotion].[English Promotion Category].[Reseller]) 40

Ejemplo 2: SELECT [Measures].[Discount Amount - Fact Reseller Sales] on COLUMNS FROM [Adventure Works DW] WHERE ([Dim Product].[Large Photo].&[213], [Dim Sales Territory].[Sales Territory Region].[Canada]) Analizado Cubos con Excel 2007 41

Paso 1: Establecer la conexión entre Excel y el BIDS 42

Paso 2: Creando el cubo en Excel a través de una tabla dinámica 43

Paso 3: Generando gráficos 44

Gracias. 45