Inteligencia de Negocios Por José Luis Martí USM
Problema Inicial Cuáles fueron los volúmenes de venta, por región y por categoría de producto, en el último año?. Qué tipos de órdenes se debieran favorecer para maximizar las ganancias?. Un 10% de descuento, incrementará el volumen de ventas de forma satisfactoria?.
Solución
Solución Dashboard
Inteligencia de Negocios Alternativa tecnológica para manejar la información requerida por una organización para apoyar la toma de decisiones estratégica. Comprende desde la extracción de los datos de los sistemas existentes hasta la explotación de la información por herramientas de análisis de datos.
Inteligencia de Negocios Archivos Planos BDs Operacional Respaldos BD de ERP Fuentes Internas Herramientas de consultas e informes Herramientas EIS y DSS ETL DW Interfaz y Operadores Fuente de Datos 1 Herramientas OLAP texto Fuente de Datos Fuente de Datos 3 HTML Fuentes Externas Herramientas de Minería de Datos Inteligencia de Negocios
Primera Parte: Proceso ETL Archivos Planos BDs Operacional Respaldos BD de ERP Fuentes Internas Herramientas de consultas e informes Herramientas EIS y DSS ETL DW Interfaz y Operadores Fuente de Datos 1 Herramientas OLAP texto Fuente de Datos Fuente de Datos 3 HTML Fuentes Externas Herramientas de Minería de Datos
Primera Parte: Proceso ETL El encargado del mantenimiento del almacén de datos es el sistema ETL (Extracción Transformación Carga): La construcción del sistema ETL es responsabilidad del equipo de desarrollo del DW. El sistema ETL es construido específicamente para cada DW, aproximadamente, 50% del esfuerzo. En la construcción del ETL se pueden utilizar herramientas del mercado o programas diseñados específicamente.
Primera Parte: Proceso ETL Extracción: antes de llevarla a cabo, hay que identificar los cambios, al determinar los datos operacionales (relevantes) que han sufrido una modificación desde el último refresh. C a ra c te rís tic a N iv e l N iv e l T á c tic o N iv e l s E s tra té g ic o O p e ra c io n a l D e c is ió n q u e a p o y a P la n ific a c ió n L a rg o P la z o C o n tro l G e re n c ia l C o n tro l O p e ra c io n a l T ip o d e D e c is ió n N o E s tru c tu ra d a S e m i E s tru c tu ra d a E s tru c tu ra d a M o d e lo m á s u s a d o P re d ic tiv o D e s c rip tiv o N o rm a tiv o C a ra c te rís tic a s d e la In fo rm a c ió n : F u e n te E x a c titu d A m p litu d F re c u e n c ia R a n g o d e T ie m p o U s o M e d io A m b ie n te R a z o n a b le R e s u m id a A S o lic itu d A ñ o s P re d ic c ió n R e g is tro s In te rn o s B u e n a D e ta lla d a P e rió d ic a A ñ o s C o n tro l O p e ra c ió n In te rn a E x a c ta M u y D e ta lla d a T ie m p o R e a l M e s e s A c c ió n D ia ria
Primera Parte: Proceso ETL Transformación: Unificar estándares: unidades de medida, unidades de tiempo, moneda,... cm inches DD/MM/YY MM/DD/YY 1,000 GBP FF 9,990 cm DD-Mon-YY USD 600
Primera Parte: Proceso ETL Carga (transporte): Consiste en mover los datos desde las fuentes operacionales o el almacenamiento intermedio hasta el DW y cargar los datos en las correspondientes estructuras de datos. La carga puede consumir mucho tiempo. Base de datos operacional T1 T2 T3
Segunda Parte: Data Warehouse (Almacén de Datos) Archivos Planos BDs Operacional Respaldos BD de ERP Fuentes Internas Herramientas de consultas e informes Herramientas EIS y DSS ETL DW Interfaz y Operadores Fuente de Datos 1 Herramientas OLAP texto Fuente de Datos Fuente de Datos 3 HTML Fuentes Externas Herramientas de Minería de Datos
Segunda Parte: Data Warehouse (Almacén de Datos) Data Warehouse: colección de datos orientada a temas específicos, integrada, no volátil y variante en el tiempo, organizada para apoyar las necesidades de la gestión Data Mart: corresponde a un pequeño data warehouse, específico a un área de negocio o departamento de la empresa.
Segunda Parte: Data Warehouse (Almacén de Datos) Su estructura se puede visualizar como un cubo...
Tercera Parte: Análisis de Datos Archivos Planos BDs Operacional Respaldos BD de ERP Fuentes Internas Herramientas de consultas e informes Herramientas EIS y DSS ETL DW Interfaz y Operadores Fuente de Datos 1 Herramientas OLAP texto Fuente de Datos Fuente de Datos 3 HTML Fuentes Externas Herramientas de Minería de Datos
Tercera Parte: Análisis de Datos Consultas y Reportes Corresponde a un análisis dirigido por el analista, y requiere tanto un conocimiento acabado de los datos como un trabajo excesivo sobre éstos por parte de dicho analista. Este análisis considera la definición de las consultas, el acceso y recuperación de datos, la manipulación de cálculos, y la preparación y entrega de los reportes.
Tercera Parte: Análisis de Datos Análisis Multidimensional (OLAP) Análisis asistido por el analista, consiste en un estudio basado en las tablas presentes en un data warehouse. Se definen operaciones especiales para el manejo de los datos de un cubo: Drill-down: obtención de mayor detalle de los datos, bajando por alguna dimensión. Roll-up: operación inversa a la anterior, para tener datos más agregados.
Tercera Parte: Análisis de Datos Análisis Multidimensional (OLAP)
Tercera Parte: Análisis de Datos Minería de Datos Análisis dirigido por lo datos, permite moverse a través de los almacenes de datos para encontrar las tendencias, patrones y correlaciones que pueden guiar la toma de decisiones estratégicas. OLAP (Agregación) Cuál es la tasa promedio de accidentes entre fumadores y no fumadores? Cuál es la cuenta telefónica promedio de mis clientes v/s la de quienes que han cancelado el servicio? Cuál es el monto de la compra diaria promedio entre tarjetas de crédito robadas y aquéllas usadas por sus dueños? Data Mining (Influencias) Cuáles son los mejores predictores de accidentes? Qué atributos están asociados con los clientes que están cerca de cerrar sus servicios? Qué patrones de compra están asociados con fraudes de crédito?
Tercera Parte: Análisis de Datos Minería de Datos: un Breve Ejemplo Ejemplo Práctico con Clementine (SPSS): Ensayo de Medicamentos (http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-ohp-final_3.html) Un número de pacientes hospitalarios que sufren todos la misma enfermedad se tratan con un abanico de medicamentos. Cinco medicamentos diferentes están disponibles y los pacientes han respondido de manera distinta a los diferentes medicamentos. Problema: qué medicamento es apropiado para un nuevo paciente.
Tercera Parte: Análisis de Datos Minería de Datos: un Breve Ejemplo Primer Paso: ACCEDIENDO LOS DATOS Se leen los datos, por ejemplo de un archivo con delimitadores. Se nombran los campos age sex BP Cholesterol Na K drug edad sexo presión sanguínea (High, Normal, Low) colesterol (Normal, High) concentración de sodio en la sangre. concentración de potasio en la sangre. medicamento al cual el paciente respondió satisfactoriamente. Se pueden combinar los datos; por ejemplo añadiendo un nuevo atributo llamado Na/K.
Tercera Parte: Análisis de Datos Minería de Datos: Técnica de Patrones Secuenciales Se trata de establecer asociaciones del estilo: si compra X en T comprará Y en T+P? Ejemplo:
Tercera Parte: Análisis de Datos Minería de Datos: Técnica de Patrones Secuenciales
Tercera Parte: Análisis de Datos Minería de Datos: Técnica de Clasificación a) Árboles de Clasificación: estructura similar a un diagrama de flujo, donde cada nodo interno denota una condición sobre un atributo, cada enlace representa una salida de la misma, y cada nodo hoja representa las clases. b) Extracción de Reglas.
Tercera Parte: Análisis de Datos Minería de Datos: Técnica de Regresión Lineal Predicción: mediante regresión lineal, los datos son modelados usando una recta. que considera conceptos como variable de respuesta, variable predictora, coeficientes de regresión, método de mínimos cuadrados.
Aplicaciones Área: Gobierno y Seguridad Nacional. A principios del mes de julio de 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, anunció que el Departamento de Justicia comenzó a introducirse en la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una acción. Algunos expertos aseguran que, con esta información, el FBI unirá todas las bases de datos probablemente mediante el número de la Seguridad Social y permitirá saber si una persona fuma, qué talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que está suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos políticos u organizaciones no gubernamentales, sus enfermedades crónicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tomó clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversión inicial ronda los setenta millones de dólares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir información e implementar nuevo software analítico y de visualización.
Aplicaciones Área: Investigación Espacial. Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) coleccionó tres terabytes de imágenes que contenían aproximadamente dos millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una resolución de 16 bits por píxel con 23.040 x 23.040 píxeles por imagen. El objetivo era formar un catálogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación (clustering) y árboles de decisión para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los astrónomos a descubrir dieciséis nuevos quásars. Estos quásars son difíciles de encontrar y permiten saber más acerca de los orígenes del universo.
Aplicaciones Área: Club Deportivo. En el 2003, el AC de Milán comenzó a usar redes neuronales (otra técnica de clasificación) para prevenir lesiones y optimizar el acondicionamiento de cada atleta. Esto ayudará a seleccionar el fichaje de un posible jugador o a alertar al médico del equipo de una posible lesión. El sistema, creado por Computer Associates International, es alimentado por datos de cada jugador, relacionados con su rendimiento, alimentación y respuesta a estímulos externos, que se obtienen y analizan cada quince días. El jugador lleva a cabo determinadas actividades que son monitoreadas por veinticuatro sensores conectados al cuerpo y que transmiten señales de radio que posteriormente son almacenadas en una base de datos. Actualmente el sistema dispone de 5.000 casos registrados que permiten predecir alguna posible lesión. Con ello, el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesión, lo que haría incluso renegociar su contrato. Por otra parte, el sistema pretende encontrar las diferencias entre las lesiones de atletas de ambos sexos, así como saber si una determinada lesión se relaciona con el estilo de juego de un país concreto donde se practica el fútbol.
Fuente: www.olapreport.com Fuente: www.olapreport.com Análisis del Mercado
Fuente: www.olapreport.com Fuente: www.olapreport.com Análisis del Mercado