Por qué DW y DM? Data Warehouse and Data Mining. Información en las empresas. Data Warehouse



Documentos relacionados
Sistemas de Información 12/13 La organización de datos e información

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

Tecnologías de Información y Comunicación II CLASE 10

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

Sistemas de Información para la Gestión. Unidad 3 Aplicaciones de Sistemas

Capítulo 2 Tecnología data warehouse

SIG. CIAF Centro de Investigación y Desarrollo en Información Geográfica. Fundamentos de Sistemas de Información Geográfica C U R S O.

Apoyo a la toma de Decisiones. Carlos A. Olarte Bases de Datos II

Definición. Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4

DATA WAREHOUSE DATA WAREHOUSE

Sistemas de Información Geográficos (SIG o GIS)

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

Data Mining Técnicas y herramientas

Parte I: Introducción

Sistemas de Información para la Gestión. UNIDAD 2: RECURSOS DE TI Información y Aplicaciones

Fundamentos de la Inteligencia de Negocios

La inteligencia de marketing que desarrolla el conocimiento

APOYO PARA LA TOMA DE DECISIONES

Informática II Ing. Industrial. Data Warehouse. Data Mining

SAQQARA. Correlación avanzada y seguridad colaborativa_

Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos

Base de datos II Facultad de Ingeniería. Escuela de computación.

Fundamentos de la Inteligencia de Negocios

Datawarehouse. Ing. Adan Jaimes Jaimes. Datawarehouse

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Dar a conocer el contexto de los metadatos geográficos como un elemento clave en la consolidación de una Infraestructura de Datos Espaciales.

Business Intelligence

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI

Sistema de análisis de información. Resumen de metodología técnica

Botón menú Objetivo de la Minería de datos.

Visión global del KDD

Workshop Taller I: Introducción a los SIG

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 5 -

Sistemas de Data Warehousing

el Soporte de Decisiones

El almacén de indicadores de proceso de negocio en ejecución

INTRODUCCIÓN MEDIANTE USO DE INFORMACIÓN DIGITAL EXISTENTE

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

Base de datos II Facultad de Ingeniería. Escuela de computación.

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

Inteligencia de Negocios Introducción. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

rg.o El l c i c c i l c o l o de d vi v d i a d a cm a l@ rza e de d u n u n si s s i t s e t ma m a de d in i f n or o ma m c a i c ó i n ó b

Fundamentos del diseño 3ª edición (2002)

Sistema Inteligente de Exploración

ANEXO F ARQUITECTURAS DE INTELIGENCIA DE NEGOCIOS

Fundamentos de la Inteligencia de Negocios

Mapas Autoorganizados

opinoweb el poder de sus datos Descubra LA NECESIDAD DE PREDECIR

FACULTAD DE INGENIERÍA. Bases de Datos Avanzadas

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

ortosky, una única plataforma para la integración de diferentes formatos y la obtención de un producto mejorado JIDEE BARCELONA Noviembre 2011

BUSINESS INTELLIGENCE

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

OLAP 2 OLAP 1 OLAP 4 OLAP 3 OLAP 5 OLAP 6

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Business Intelligence y Cuadro de Mando Integral: Herramientas para la Dirección Estratégica de las Organizaciones

Presentación de Pyramid Data Warehouse

DATA WAREHOUSING (ENERO DE 2003) Documento creado por Ing. Héctor H. Martínez Orpinel

Metodología de caracterización de la capacidad de una red HSPA.

E-data. Transformando datos en información con Data Warehousing

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Microsoft SQL Server Conceptos.

School Spain. Unidad 8: Diseño de LAN

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

ADMINISTRACIÓN DE PROYECTOS

CAPITULO 3 DISEÑO. El diseño del software es el proceso que permite traducir los requisitos

REPOSITORIO COR O P R OR O A R T A I T VO V

Esta solución de fácil uso está orientada a cualquier industria, ya sea una empresa del sector privado o del sector público.

ARIS Process Performance Manager

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

MINING SOLUTIONS LIMITADA

Comunicación para Tecnimap Contenido: 1. Itourbask como elemento de un Sistema de Gestión de Destino Turístico 2. El Data Mart de Itourbask

Gestión de la Información

Instalación de Sistemas de Automatización y Datos

Facultad de Ciencias Económicas. Departamento de Sistemas. Asignatura: INTELIGENCIA DE NEGOCIOS. Plan 1997

Multipedidos es un sistema de ventas on-line que permite gestionar pedidos por internet en tiempo real de manera económica, simple y eficaz.

Bechtle Solutions Servicios Profesionales

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Academia de la carrera de Licenciatura Informática del Instituto Tecnológico Aguascalientes

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Panel: Minería de datos para la administración tributaria

Bases de Datos Heterogéneas

Data Warehousing - Marco Conceptual

INTELIGENCIA DE NEGOCIOS. Business Intelligence. Alumno: Toledo Paucar Jorge

DISEÑO DE SOFTWARE INTEGRADO Unidad I: Introducción al Diseño de Software Integrado. Profesor: Cristián Chávez T

Unidades temáticas de Ingeniería del Software. Fases del proceso de desarrollo 4ª edición (2008)

DESCRIPCIÓN DEL PROCESO DE RIESGO OPERACIONAL

Sistemas de Información II Tema 1. El enfoque de bases de datos

Fundamentos de Ingeniería del Software. Capítulo 2. Introducción a los sistemas de información

KYMATIC Soluciones Informáticas S.L.

UNIVERSIDAD MINUTO DE DIOS PROGRAMA CONTADURÍA PÚBLICA

SEGURIDAD Y PROTECCION DE FICHEROS

Solución GeoSAS. Otros módulos

Sistema de Catalogación Catalog TAXOLOGIC

Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática

Destino Perú. En la búsqueda de nuevas oportunidades. Experiencias de Internacionalización

Bases de Datos Geográficas

Día :00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

TEMA 1 Sistemas de información

Transcripción:

Data Warehouse and Data Mining José A. Royo http://www.cps.unizar.es/~jaroyo email: joalroyo@unizar.es Departamento de Informática e Ingeniería de Sistemas Por qué DW y DM? Mayor poder de procesamiento y sofisticación de herramientas Demanda de mejora del acceso a datos Necesidad de información para la toma de decisiones Recopilación de información Alto Coste Sistemas de Información-2003 José Alberto Royo 2 Información en las empresas Data Warehouse Sistemas de Información-2003 José Alberto Royo 3 La Información proviene de fuentes internas (sistemas de producción) y externas (hasta un 20%) Problemas Saturación de información Difícil de acceder No selectiva La información se necesita para: Competir (comparación con otros productos) Personalizar (simular que cada cliente es único) Sistemas de Información-2003 José Alberto Royo 4

Data Warehouse Definición: colección de datos orientados al tema, integrados, no volátiles e historiados, organizados para el apoyo de un proceso de ayuda a la decisión Se guarda toda la información útil (proveniente de varia fuentes) en un único lugar Data Warehouse Orientación al tema Disponer de toda la información sobre un tema No organizar los datos según los procesos funcionales La información común a varios temas no debe duplicarse Los Data Mart apoyan la orientación al tema BD orientada al tema puesta a disposición de los usuarios en un contexto de decisión descentralizado Sistemas de Información-2003 José Alberto Royo 5 Sistemas de Información-2003 José Alberto Royo 6 Data Warehouse Datos integrados: Los datos deben formatearse y unificarse para llegar a un estado coherente Ej.: consolidar todas las informaciones respecto a un cliente Datos historiados Los datos no se actualizan nunca representan un valor en un momento concreto Los datos se referencian temporalmente Data Warehouse Datos no volátiles: Consecuencia de la historilización = consulta en = periodo = resultado Sistemas de producción no volátiles Infocentro: similar al Data Warehouse pero centrado en el sistema de producción Sistemas de Información-2003 José Alberto Royo 7 Sistemas de Información-2003 José Alberto Royo 8

Data Warehouse: Estructura Varia clases de datos Datos fuertemente agregados Nivel de síntesis Datos agregados Metadatos Datos detallados Datos detallados historiados Estructura multidimensional Nivel de historial Sistemas de Información-2003 José Alberto Royo 9 Producto Datos Matrices Multidimensionales o hipercubos Ej.: periodo impositivo, producto y región Pivotación: cambio de orientación de los ejes Trimestre Región TR1 P1 P2 TR2 REG1 REG2 REG3 REG4 REG5 Sistemas de Información-2003 José Alberto Royo 10 TR2 REG1 REG2 REG3 REG4 REG5 TR1 P1 P2 Datos: Representaciones Jerárquicas Exploración ascendente (roll-up) Agrupación de datos Ej.: Agrupar datos mensuales en trimestrales Exploración Descendente (drill-down) División de datos Ej.: Ventas nacionales provinciales Datos: Representación física 2 Tablas Tabla de dimensiones Tabla de hechos Tipos de esquema Esquema de estrella: Tabla de hechos con una única tabla para cada dimensión Esquema de copos Tablas dimensiónales organizadas jerárquicamente Sistemas de Información-2003 José Alberto Royo 11 Sistemas de Información-2003 José Alberto Royo 12

Construcción de un Data Warehouse Adquisición: Recopilar información de varias fuentes y unificarla Extracción Preparación (formateo y limpieza) Carga Almacenamiento: basado en un SGBD El historial influirá en la estructura física Acceso: distintos grupos de usuarios requerirán distintas consultas DW: Características Salvado de datos limpios DATOS Limpieza Reformateo Bases de Datos METADATOS Otras entradas de datos Actualizaciones/Nuevos Datos OLAP DSS MINERIA DE DATOS Sistemas de Información-2003 José Alberto Royo 13 Sistemas de Información-2003 José Alberto Royo 14 OLTP y OLAP OLTP (On-Line Transactionnel Processing): entorno donde las respuestas se darán en un tiempo aceptable y serán consistentes Transacciones predeterminadas Utiliza pocas tablas OLAP (On-Line Analytical Processing): entorno de ayuda a la decisión (análisis de datos) Transacciones muy variadas Manejan volúmenes grandes de datos (+tiempo) Se relacionan datos aparentemente sin relación DSS: Decision Support Systems EIS (Executive Information Systems o sistemas de información ejecutiva) Ayuda para la toma de decisiones Dan datos de nivel superior DW preparado para OLAP y DSS Sistemas de Información-2003 José Alberto Royo 15 Sistemas de Información-2003 José Alberto Royo 16

Factores de éxito del DW Integra datos de producción con datos externos y gestiona historiales Contiene la información útil Los datos son coherentes, actualizados y documentados (calidad) Ofrece acceso directo a los usuarios Aumenta el número de accesos Da una flexibilidad que apoya el crecimiento De usuarios, herramientas y volumen Sistemas de Información-2003 José Alberto Royo 17 Diferencias entre DW y vistas DW son un almacenamiento permanente Vistas Construidas cuando es necesario DW son multidimensionales Vistas suelen ser relacionales DW son indexados para optimizar su rendimiento Vistas son indexadas dependiendo de la BD subyacente DW dan unas funcionalidades especificas Las vistas no DW poseen grandes cantidades de datos integrados y temporales Vistas son extractos de la BD Sistemas de Información-2003 José Alberto Royo 18 Errores a evitar Cargar datos solamente porque están disponibles (podrían ser no útiles) Crear el esquema de la BD de forma tradicional Crearlo pensando en la tecnología usada Concentrarse en los datos internos Creer que los problemas acaban una vez instalado el Data Warehouse Sistemas de Información-2003 José Alberto Royo 19 Implementación: Dificultades Alto coste Urgente ayuda para la toma de decisiones Data Mart Gran coste de mantenimiento Cambio de necesidades Nuevas fuentes de datos Cambio de la capacidad Cambio de tecnología Control de calidad de los datos Heterogeneidad e Integración de datos Sistemas de Información-2003 José Alberto Royo 20

Bibliografía J.M. Franco. EDS-Institut Prométhéus, El Data Warehouse. El Data Mining, Eyrolles,1997. Data Mining Sistemas de Información-2003 José Alberto Royo 21 Sistemas de Información-2003 José Alberto Royo 22 Data Mining Búsqueda de información relevante (conocimiento) en grandes volúmenes de datos Descubrir de forma automática las reglas estadísticas y pautas de un conjunto de datos Diferencia con machine learning? Grandes volúmenes de datos grabados en disco Objetivo obtener un conjunto de reglas Data Mining: Visión General Data Mining y DataWarehouse Búsqueda automática de relaciones Extracción de patrones Descubrimiento de conocimiento (Fases) Selección de datos Limpieza de datos Transformación/Codificación de datos Minería de Datos Presentación visualización Sistemas de Información-2003 José Alberto Royo 23 Sistemas de Información-2003 José Alberto Royo 24

Resultados del Data Mining Descubrir Reglas de asociación Patrones secuenciales Árboles de clasificación Presentación de Resultados Listas Representaciones Gráficas Tablas resumen Sistemas de Información-2003 José Alberto Royo 25 Objetivos del Data Mining Predicción Ej.: que compraran los clientes bajo determinados descuentos Identificación Ej.: secuencia de nucleótidos presencia gen Clasificación Ej.: clientes que buscan descuentos, fieles y ocasionales Optimización utilización de recursos limitados: tiempo, espacio, dinero, etc. Sistemas de Información-2003 José Alberto Royo 26 Conocimiento Descubierto Tipos de reglas Reglas de asociación Ej.: Compra bolso Compra zapatos Jerarquías de clasificación Ej.: Clasificación de los clientes de un banco Patrones secuenciales Ej.: Cámara digital Memorias MMC Patrones de series de tiempo Ej.: Aumento de ventas de automóviles antes del verano Categorización y segmentación Ej.: niños, jóvenes, adultos y jubilados Sistemas de Información-2003 José Alberto Royo 27 X antecedente consecuente X: lista de una o varias variables con rangos asociados Ej.: transacción T, compra(t,pan) compra(t,leche) Rango de las variables población Soporte: porcentaje de la población que cumple el antecedente o el consecuente Confianza: porcentaje con que el consecuente es cierto al serlo el antecedente Sistemas de Información-2003 José Alberto Royo 28

Data Mining Automático Descubrimiento automático de reglas Técnicas de machine learning, adaptadas para grandes volúmenes de datos Tres tipos de problemas: Clasificación: reglas que dividan en grupos Asociaciones: X Y Correlaciones entre series Clasificación Comienza con una muestra de datos de clasificación conocida Los datos se dividen según uno de sus atributos, sucesivamente Atributos enumerados un conjunto por valor Atributos con rango numérico intervalos Resultado: árbol de clasificación (taxonomía) Hasta usar todos los atributos o clasificar correctamente los datos Sistemas de Información-2003 José Alberto Royo 29 Sistemas de Información-2003 José Alberto Royo 30 Asociaciones Se genera un mapa de bits para cada transacción (un bit para cada artículo a estudiar) Nos quedamos con los artículos más adquiridos Se generan todos los subconjuntos posibles de artículos y se cuenta el número de transacciones Los subconjuntos con un numero alto de transacciones generan las reglas Asociaciones negativas Ej.: el 60% de los clientes que compran patatas fritas no compran agua mineral Si no combinación de elementos asociación negativa Tenemos muchísimas reglas sin ningún interés Utilizar conocimiento previo del problema Optimizaciones Muestreo Sistemas de Información-2003 José Alberto Royo 31 Sistemas de Información-2003 José Alberto Royo 32

Data Mining Guiado por el Usuario El usuario plantea hipótesis El sistema comprueba si se verifica o no Las hipótesis se pueden ir refinando La visualización gráfica de datos ayuda al usuario a examinar grandes volúmenes de datos Sistemas de Información-2003 José Alberto Royo 33 Otras Técnicas Regresión Estadística Establecimiento de probabilidades Redes neuronales Entrenar la red Reconocer los patrones según el entrenamiento Algoritmos genéticos Algoritmos probabilistas Población inicial Sobreviven los mejores Obtenemos datos en cada iteración Sistemas de Información-2003 José Alberto Royo 34 Aplicaciones Marketing Comportamiento del consumidor basado en patrones de compra Finanzas Análisis de rendimiento de operaciones Solvencia de clientes Valoración de opciones de financiación Fabricación Optimización de recursos: maquinaria, mano de obra, materiales Optimización del proceso de fabricación Sistemas de Información-2003 José Alberto Royo 35 Bibliografía J.M. Franco. EDS-Institut Prométhéus, El Data Warehouse. El Data Mining, Eyrolles,1997. R.A. Elmasri, S.B. Navathe, Fundamentos de Sistemas de Bases de Datos, 3ª ed., Addison-Wesley,2000. Sistemas de Información-2003 José Alberto Royo 36

Sist. de Inf. Geográfica (GIS) Sistemas de Información Geográfica José Alberto Royo joalroyo@unizar.es Departamento de Informática e Ingeniería de Sistemas Sistemas que relacionan, almacenan, manipulan y visualizan información referenciada geográficamente Sistemas de información que manejan datos espaciales Algunos datos son referencias espaciales o coordenadas geográficas Poseen operadores para manejar dichos datos espaciales Sistemas de Información-2003 José Alberto Royo 38 GIS: Categorías Información espacial 1. Aplicaciones Cartográficas Variedad de datos: características del suelo, densidad de cultivo,calidad del aire Representación basada en campos Superposición de capas 2. Aplicaciones para el modelado digital de terrenos Variedad de datos Representación basada en campos 3. Aplicaciones de Objetos geográficos Objetos físicos: centrales eléctricas, hospitales, etc. Representación basada en objetos Sistemas de Información-2003 José Alberto Royo 39 Multidimensional (x,y,z,t,...) Voluminosidad Naturaleza inexacta (no hay representaciones exactas de la Tierra) Las preguntas combinan topología, geografía y otros atributos, con información aproximada Combinan distintos contextos legales y económicos (varían de un país a otro) Sistemas de Información-2003 José Alberto Royo 40

Mapas Estructuración Vectores (+versátil, -fácil de crear) Creados con paneles digitalizadores Rasters (-versátil, +fácil de crear) Cada celda almacena el tipo de terreno Creados mediante scanning Se puede pasar de un formato a otro (con un cierto error) Reconocimiento de formas en un raster vectores Pixelización de vectores raster Sistemas de Información-2003 José Alberto Royo 41 GIS: Operaciones sobre los Datos Interpolación Obtención de datos de elevación no obtenidos en la muestra Interpretación Cierre de polígonos Definición, reducción y mejora de detalles Análisis de proximidad Cálculo de zonas de interés Procesamiento de imágenes en una matriz de puntos Integrar características geográficas en distintas capas Análisis digital de imágenes Sistemas de Información-2003 José Alberto Royo 42 Otras funcionalidades Extensibilidad Continua evolución de los sistemas GIS Control de calidad de los datos dónde estoy? Problema debido a la variedad de tipos de datos Visualización 1. Contorneado Isolíneas 2. Sombreado de montañas Método de iluminación empleado para representar relieves 3. Visualizaciones de perspectivas Imágenes tridimensionales Sistemas de Información-2003 José Alberto Royo 43 Preguntas a los GIS Qué hay en cierta posición? Dónde hay cierto elemento? Muestra zonas que cuyos atributos cumplen ciertas condiciones Generación de nuevos gráficos mapas de elevación, densidad de población, etc. Sistemas de Información-2003 José Alberto Royo 44

Utilidad de los GIS Generación de mapas Selección de lugares Creación de planes de emergencia Ante terremotos u otras catástrofes Simulación de transformaciones medioambientales Cambio en paisajes ante túneles, obras, urbanizaciones, etc. Sistemas de Información-2003 José Alberto Royo 45 GIS: Trabajo Futuro Nuevas arquitecturas: Distribución de datos Separación de datos espaciales y no espaciales Versionado Ej.: Qué pasa si construimos una autopista? Estándares de Datos Compartir de datos Aplicaciones específicas Tipos de datos distintos Ausencia de semántica en las estructuras de datos Vías de sentido único Sistemas de Información-2003 José Alberto Royo 46 Bibliografía Keith C. Clarke, Getting Started with GIS, Prentice-Hall, 1997, ISBN 0-13-294-786-2. http://www.usgs.gov/research/gis/title.html Sistemas de Información-2003 José Alberto Royo 47

Data Warehouse and Data Mining José A. Royo http://www.cps.unizar.es/~jaroyo email: joalroyo@unizar.es Departamento de Informática e Ingeniería de Sistemas Por qué DW y DM? Mayor poder de procesamiento y sofisticación de herramientas Demanda de mejora del acceso a datos Necesidad de información para la toma de decisiones Recopilación de información Alto Coste Sistemas de Información-2003 José Alberto Royo 2 Información en las empresas Data Warehouse Sistemas de Información-2003 José Alberto Royo 3 La Información proviene de fuentes internas (sistemas de producción) y externas (hasta un 20%) Problemas Saturación de información Difícil de acceder No selectiva La información se necesita para: Competir (comparación con otros productos) Personalizar (simular que cada cliente es único) Sistemas de Información-2003 José Alberto Royo 4

Data Warehouse Definición: colección de datos orientados al tema, integrados, no volátiles e historiados, organizados para el apoyo de un proceso de ayuda a la decisión Se guarda toda la información útil (proveniente de varia fuentes) en un único lugar Data Warehouse Orientación al tema Disponer de toda la información sobre un tema No organizar los datos según los procesos funcionales La información común a varios temas no debe duplicarse Los Data Mart apoyan la orientación al tema BD orientada al tema puesta a disposición de los usuarios en un contexto de decisión descentralizado Sistemas de Información-2003 José Alberto Royo 5 Sistemas de Información-2003 José Alberto Royo 6 Data Warehouse Datos integrados: Los datos deben formatearse y unificarse para llegar a un estado coherente Ej.: consolidar todas las informaciones respecto a un cliente Datos historiados Los datos no se actualizan nunca representan un valor en un momento concreto Los datos se referencian temporalmente Data Warehouse Datos no volátiles: Consecuencia de la historilización = consulta en = periodo = resultado Sistemas de producción no volátiles Infocentro: similar al Data Warehouse pero centrado en el sistema de producción Sistemas de Información-2003 José Alberto Royo 7 Sistemas de Información-2003 José Alberto Royo 8

Data Warehouse: Estructura Varia clases de datos Datos fuertemente agregados Nivel de síntesis Datos agregados Metadatos Datos detallados Datos detallados historiados Estructura multidimensional Nivel de historial Sistemas de Información-2003 José Alberto Royo 9 Producto Datos Matrices Multidimensionales o hipercubos Ej.: periodo impositivo, producto y región Pivotación: cambio de orientación de los ejes Trimestre Región TR1 P1 P2 TR2 REG1 REG2 REG3 REG4 REG5 Sistemas de Información-2003 José Alberto Royo 10 TR2 REG1 REG2 REG3 REG4 REG5 TR1 P1 P2 Datos: Representaciones Jerárquicas Exploración ascendente (roll-up) Agrupación de datos Ej.: Agrupar datos mensuales en trimestrales Exploración Descendente (drill-down) División de datos Ej.: Ventas nacionales provinciales Datos: Representación física 2 Tablas Tabla de dimensiones Tabla de hechos Tipos de esquema Esquema de estrella: Tabla de hechos con una única tabla para cada dimensión Esquema de copos Tablas dimensiónales organizadas jerárquicamente Sistemas de Información-2003 José Alberto Royo 11 Sistemas de Información-2003 José Alberto Royo 12

Construcción de un Data Warehouse Adquisición: Recopilar información de varias fuentes y unificarla Extracción Preparación (formateo y limpieza) Carga Almacenamiento: basado en un SGBD El historial influirá en la estructura física Acceso: distintos grupos de usuarios requerirán distintas consultas DW: Características Salvado de datos limpios DATOS Limpieza Reformateo Bases de Datos METADATOS Otras entradas de datos Actualizaciones/Nuevos Datos OLAP DSS MINERIA DE DATOS Sistemas de Información-2003 José Alberto Royo 13 Sistemas de Información-2003 José Alberto Royo 14 OLTP y OLAP OLTP (On-Line Transactionnel Processing): entorno donde las respuestas se darán en un tiempo aceptable y serán consistentes Transacciones predeterminadas Utiliza pocas tablas OLAP (On-Line Analytical Processing): entorno de ayuda a la decisión (análisis de datos) Transacciones muy variadas Manejan volúmenes grandes de datos (+tiempo) Se relacionan datos aparentemente sin relación DSS: Decision Support Systems EIS (Executive Information Systems o sistemas de información ejecutiva) Ayuda para la toma de decisiones Dan datos de nivel superior DW preparado para OLAP y DSS Sistemas de Información-2003 José Alberto Royo 15 Sistemas de Información-2003 José Alberto Royo 16

Factores de éxito del DW Integra datos de producción con datos externos y gestiona historiales Contiene la información útil Los datos son coherentes, actualizados y documentados (calidad) Ofrece acceso directo a los usuarios Aumenta el número de accesos Da una flexibilidad que apoya el crecimiento De usuarios, herramientas y volumen Sistemas de Información-2003 José Alberto Royo 17 Diferencias entre DW y vistas DW son un almacenamiento permanente Vistas Construidas cuando es necesario DW son multidimensionales Vistas suelen ser relacionales DW son indexados para optimizar su rendimiento Vistas son indexadas dependiendo de la BD subyacente DW dan unas funcionalidades especificas Las vistas no DW poseen grandes cantidades de datos integrados y temporales Vistas son extractos de la BD Sistemas de Información-2003 José Alberto Royo 18 Errores a evitar Cargar datos solamente porque están disponibles (podrían ser no útiles) Crear el esquema de la BD de forma tradicional Crearlo pensando en la tecnología usada Concentrarse en los datos internos Creer que los problemas acaban una vez instalado el Data Warehouse Sistemas de Información-2003 José Alberto Royo 19 Implementación: Dificultades Alto coste Urgente ayuda para la toma de decisiones Data Mart Gran coste de mantenimiento Cambio de necesidades Nuevas fuentes de datos Cambio de la capacidad Cambio de tecnología Control de calidad de los datos Heterogeneidad e Integración de datos Sistemas de Información-2003 José Alberto Royo 20

Bibliografía J.M. Franco. EDS-Institut Prométhéus, El Data Warehouse. El Data Mining, Eyrolles,1997. Data Mining Sistemas de Información-2003 José Alberto Royo 21 Sistemas de Información-2003 José Alberto Royo 22 Data Mining Búsqueda de información relevante (conocimiento) en grandes volúmenes de datos Descubrir de forma automática las reglas estadísticas y pautas de un conjunto de datos Diferencia con machine learning? Grandes volúmenes de datos grabados en disco Objetivo obtener un conjunto de reglas Data Mining: Visión General Data Mining y DataWarehouse Búsqueda automática de relaciones Extracción de patrones Descubrimiento de conocimiento (Fases) Selección de datos Limpieza de datos Transformación/Codificación de datos Minería de Datos Presentación visualización Sistemas de Información-2003 José Alberto Royo 23 Sistemas de Información-2003 José Alberto Royo 24

Resultados del Data Mining Descubrir Reglas de asociación Patrones secuenciales Árboles de clasificación Presentación de Resultados Listas Representaciones Gráficas Tablas resumen Sistemas de Información-2003 José Alberto Royo 25 Objetivos del Data Mining Predicción Ej.: que compraran los clientes bajo determinados descuentos Identificación Ej.: secuencia de nucleótidos presencia gen Clasificación Ej.: clientes que buscan descuentos, fieles y ocasionales Optimización utilización de recursos limitados: tiempo, espacio, dinero, etc. Sistemas de Información-2003 José Alberto Royo 26 Conocimiento Descubierto Tipos de reglas Reglas de asociación Ej.: Compra bolso Compra zapatos Jerarquías de clasificación Ej.: Clasificación de los clientes de un banco Patrones secuenciales Ej.: Cámara digital Memorias MMC Patrones de series de tiempo Ej.: Aumento de ventas de automóviles antes del verano Categorización y segmentación Ej.: niños, jóvenes, adultos y jubilados Sistemas de Información-2003 José Alberto Royo 27 X antecedente consecuente X: lista de una o varias variables con rangos asociados Ej.: transacción T, compra(t,pan) compra(t,leche) Rango de las variables población Soporte: porcentaje de la población que cumple el antecedente o el consecuente Confianza: porcentaje con que el consecuente es cierto al serlo el antecedente Sistemas de Información-2003 José Alberto Royo 28

Data Mining Automático Descubrimiento automático de reglas Técnicas de machine learning, adaptadas para grandes volúmenes de datos Tres tipos de problemas: Clasificación: reglas que dividan en grupos Asociaciones: X Y Correlaciones entre series Clasificación Comienza con una muestra de datos de clasificación conocida Los datos se dividen según uno de sus atributos, sucesivamente Atributos enumerados un conjunto por valor Atributos con rango numérico intervalos Resultado: árbol de clasificación (taxonomía) Hasta usar todos los atributos o clasificar correctamente los datos Sistemas de Información-2003 José Alberto Royo 29 Sistemas de Información-2003 José Alberto Royo 30 Asociaciones Se genera un mapa de bits para cada transacción (un bit para cada artículo a estudiar) Nos quedamos con los artículos más adquiridos Se generan todos los subconjuntos posibles de artículos y se cuenta el número de transacciones Los subconjuntos con un numero alto de transacciones generan las reglas Asociaciones negativas Ej.: el 60% de los clientes que compran patatas fritas no compran agua mineral Si no combinación de elementos asociación negativa Tenemos muchísimas reglas sin ningún interés Utilizar conocimiento previo del problema Optimizaciones Muestreo Sistemas de Información-2003 José Alberto Royo 31 Sistemas de Información-2003 José Alberto Royo 32

Data Mining Guiado por el Usuario El usuario plantea hipótesis El sistema comprueba si se verifica o no Las hipótesis se pueden ir refinando La visualización gráfica de datos ayuda al usuario a examinar grandes volúmenes de datos Sistemas de Información-2003 José Alberto Royo 33 Otras Técnicas Regresión Estadística Establecimiento de probabilidades Redes neuronales Entrenar la red Reconocer los patrones según el entrenamiento Algoritmos genéticos Algoritmos probabilistas Población inicial Sobreviven los mejores Obtenemos datos en cada iteración Sistemas de Información-2003 José Alberto Royo 34 Aplicaciones Marketing Comportamiento del consumidor basado en patrones de compra Finanzas Análisis de rendimiento de operaciones Solvencia de clientes Valoración de opciones de financiación Fabricación Optimización de recursos: maquinaria, mano de obra, materiales Optimización del proceso de fabricación Sistemas de Información-2003 José Alberto Royo 35 Bibliografía J.M. Franco. EDS-Institut Prométhéus, El Data Warehouse. El Data Mining, Eyrolles,1997. R.A. Elmasri, S.B. Navathe, Fundamentos de Sistemas de Bases de Datos, 3ª ed., Addison-Wesley,2000. Sistemas de Información-2003 José Alberto Royo 36

Sist. de Inf. Geográfica (GIS) Sistemas de Información Geográfica José Alberto Royo joalroyo@unizar.es Departamento de Informática e Ingeniería de Sistemas Sistemas que relacionan, almacenan, manipulan y visualizan información referenciada geográficamente Sistemas de información que manejan datos espaciales Algunos datos son referencias espaciales o coordenadas geográficas Poseen operadores para manejar dichos datos espaciales Sistemas de Información-2003 José Alberto Royo 38 GIS: Categorías Información espacial 1. Aplicaciones Cartográficas Variedad de datos: características del suelo, densidad de cultivo,calidad del aire Representación basada en campos Superposición de capas 2. Aplicaciones para el modelado digital de terrenos Variedad de datos Representación basada en campos 3. Aplicaciones de Objetos geográficos Objetos físicos: centrales eléctricas, hospitales, etc. Representación basada en objetos Sistemas de Información-2003 José Alberto Royo 39 Multidimensional (x,y,z,t,...) Voluminosidad Naturaleza inexacta (no hay representaciones exactas de la Tierra) Las preguntas combinan topología, geografía y otros atributos, con información aproximada Combinan distintos contextos legales y económicos (varían de un país a otro) Sistemas de Información-2003 José Alberto Royo 40

Mapas Estructuración Vectores (+versátil, -fácil de crear) Creados con paneles digitalizadores Rasters (-versátil, +fácil de crear) Cada celda almacena el tipo de terreno Creados mediante scanning Se puede pasar de un formato a otro (con un cierto error) Reconocimiento de formas en un raster vectores Pixelización de vectores raster Sistemas de Información-2003 José Alberto Royo 41 GIS: Operaciones sobre los Datos Interpolación Obtención de datos de elevación no obtenidos en la muestra Interpretación Cierre de polígonos Definición, reducción y mejora de detalles Análisis de proximidad Cálculo de zonas de interés Procesamiento de imágenes en una matriz de puntos Integrar características geográficas en distintas capas Análisis digital de imágenes Sistemas de Información-2003 José Alberto Royo 42 Otras funcionalidades Extensibilidad Continua evolución de los sistemas GIS Control de calidad de los datos dónde estoy? Problema debido a la variedad de tipos de datos Visualización 1. Contorneado Isolíneas 2. Sombreado de montañas Método de iluminación empleado para representar relieves 3. Visualizaciones de perspectivas Imágenes tridimensionales Sistemas de Información-2003 José Alberto Royo 43 Preguntas a los GIS Qué hay en cierta posición? Dónde hay cierto elemento? Muestra zonas que cuyos atributos cumplen ciertas condiciones Generación de nuevos gráficos mapas de elevación, densidad de población, etc. Sistemas de Información-2003 José Alberto Royo 44

Utilidad de los GIS Generación de mapas Selección de lugares Creación de planes de emergencia Ante terremotos u otras catástrofes Simulación de transformaciones medioambientales Cambio en paisajes ante túneles, obras, urbanizaciones, etc. Sistemas de Información-2003 José Alberto Royo 45 GIS: Trabajo Futuro Nuevas arquitecturas: Distribución de datos Separación de datos espaciales y no espaciales Versionado Ej.: Qué pasa si construimos una autopista? Estándares de Datos Compartir de datos Aplicaciones específicas Tipos de datos distintos Ausencia de semántica en las estructuras de datos Vías de sentido único Sistemas de Información-2003 José Alberto Royo 46 Bibliografía Keith C. Clarke, Getting Started with GIS, Prentice-Hall, 1997, ISBN 0-13-294-786-2. http://www.usgs.gov/research/gis/title.html Sistemas de Información-2003 José Alberto Royo 47