MDS Y DQS QUÉ ES ESO? Lo nuevo del BI en SQL Server 2012 Miguel Angel Granados Troncoso Chapter Leader SQL PASS México
MIGUEL ANGEL GRANADOS TRONCOSO Miguel es un profesional con más de 15 de experiencia, él es graduado de la Universidad Autónoma Metropolitana. A lo largo de su carrera ha trabajado en diferentes tipos de industrias que van desde finanzas hasta automatización pasando por las áreas de Salud, Biodiversidad y la enseñanza. Ha desempeñado puestos de: Desarrollador, Líder de Proyectos, Arquitecto, DBA, Profesor y consultor de IT. Actualmente labora como mentor de SolidQ. En la parte de comunidades lidera el capítulo SQL PASS Ciudad de México. Su especialidad es el área de Inteligencia de Negocios.
AGENDA Escenarios Definiciones, Procesos y Estándares Master Data Services Data Quality Services
1 2 4 9s Requeridos & Protección Desempeño Super Veloz Cumplimiento Organizacional 3 Tranquilidad y Confianza Exploración Rápida de Datos 5 6 7 Auto Servicio BI Administrado Datos Consistentes y Creíbles Analísis & DW Escalable 8 9 10 11 12 Crece Bajo Demanda Soluciones Rápidas Productividad Optimizada Datos Hacia Cualquier Parte
DATOS CONSISTENTES Y CREÍBLES Las empresas con datos precisos se desempeñan mejor¹ % de datos maestros completos & precisos Hrs que pasan los empleados cada semana buscando información Mejor 20% Desempeño 91% 1.2hrs 50% Desempeño Medio 68% 2.8hrs Bajo 30% Desempeño Debajo 50% 6hrs ¹Fuente: Turning Pain into Productivity with Master Data Management, Aberdeen Group, Feb 2011
POR QUÉ DEBO TENER MDM? SI PUEDO - Incompleta y costosa - No considera la interacción humana - Cómo se obtuvieron los datos? - Tenemos los datos que necesitamos? - Es escalable?
LA IMPORTANCIA DE LA CALIDAD DE DATOS Los problemas de Calidad de Datos le cuestan a las empresas en E.U. más de $600 billones al año. Data Warehousing Institute (TDWI) Los costos asociados con datos de mala calidad incluyen: Exceso de inventario Costos altos en la cadena de abastecimiento Mayores costos de marketing directo Facturación Y otros más
PROBLEMAS DE MALA CALIDAD Calidad de datos Formato Etandarización Problema Los valores tienen un formato estándar consistente? Se entienden y están definidos de manera consistente los valores de los datos? Ejemplo Formatos de números telefónicos: xxxxxxxxxx, (xxx) xxx-xxxx 1.xxx.xxx.xxxx, etc. Genero = M, F, U Genero = 0, 1, 2 Consistencia Los valores tienen el mismo significado? Cómo se presentan las ganancias? Dólares, Euros, ambos? Integridad Precisión Validación Se encuentrán presentes los datos necesarios? Los datos representan con exactitud la realidad o provienen de una fuente verificable? Los valores de los datos se encuentran en rangos aceptables? 20% de los apellidos esta vacío, el 50% de los códigos postales son 99999 Un proveedor aparece como Activo pero salio del negociohace seis años Los valores de salarios deben de estar entre 60,000-120,000 Duplicados Los datos aparecen varias veces John Ryan y Jack Ryan aparecen en el sistema son la misma persona?
AGENDA Escenarios Definiciones, Procesos y Estándares Master Data Services Data Quality Services
QUÉ ES UN DATO MAESTRO? Son los datos clave que forman parte de los activos más importantes de la empresa.
FUENTES DE DATOS MAESTROS Metadatos Datos Transaccionales Datos Jerárquicos Datos semiestructurados Datos No estructurados
IDENTIFICANDO DATOS MAESTROS La Cardinalidad La Complejidad La Volatilidad Mantenimiento histórico de los datos Reutilización
GOBERNABILIDAD DE DATOS Estratégico Gobernabilidad TI Gobernabilidad de datos. Administración de datos. Calidad de datos. Táctico Corrección de datos
ADMINISTRACIÓN DE LOS DATOS Contenido Relacionamiento Acceso Cambios Administrativos Procesamiento Detalles acerca del tema Identificación de atributos Nombres de los temas Definiciones Representación de los valores Formatos Estándar Parte de identidad (atributos similares) Agrupación (Reglas/Lógica) Jerarquía (Padre/Hijo) Reglas de Relacionamiento/E scenarios Políticas de acceso y compartición (internas/externas) Provisión de datos Metadatos (uso, linaje, etcétera) Normativas/Seguri dad Fuentes de datos externas Calidad de los datos y Aceptación Medición y monitoreo Detección y corrección de errores Control de cambios centralizados Jurisdicción sobre los datos Coincidencia e identificación Procesamiento CRUD (Created,Read,Update d,deleted) Corrección de datos Depurar los cambios de datos Reglas de persistencia Integración al flujo de trabajo Estandarización de datos Administración de datos Administración de los datos maestros
CALIDAD DE LOS DATOS La calidad de los datos consiste en verificar si los mismos son aptos para su uso previsto en las operaciones, la toma de decisiones y la planeación. Monitorear Analizar Información Planeación
INICIATIVAS DE CONTROL DE CALIDAD Conocer el contexto de los datos. Perfilar los datos que se requieren. Crear y mantener los estándares de calidad. Dar seguimiento a la calidad de los datos.
CÓMO ADMINISTRAR LA CALIDAD DE LOS DATOS? La gestión de la calidad de datos implica el establecimiento e implementación de: Roles Responsabilidades Políticas Procedimientos Tecnología Personas Tecnología Procesos
ESTÁNDARES DE CALIDAD ISO 8000 Los principios de la calidad de datos Las características de los datos que determinan su calidad Los procesos que aseguran la calidad de los datos ISO 22745 Define los diccionarios técnicos abiertos Aplicación de los diccionarios a los datos maestros International Association for Information and Data Quality http://www.iaidq.org/
AGENDA Escenarios Definiciones, Procesos y Estándares Master Data Services Data Quality Services
SERVICIOS DE DATOS MAESTROS Centralizar la gestión de los activos de información. Crear una sola versión autorizada de los datos. Mejorar la calidad, consistencia e integridad de los datos. Crear reportes y análisis más precisos. Promover el cumplimiento de la normatividad.
CAPACIDADES DE MDS Modelado Entidades, Atributos, Jerarquias Validación Creación de reglas de negocio para garantizar la exactitud Seguridad basada en roles y Anotación de Transacciones MDS Excel Add-In Web UI Coincidencia de datos Master Data Stewardship Versionamiento Carga datos por lotes usando tablas de paso Habilita la Integración & el Intercambio Registra cambios a través de APIs Consume datos a través de vistas Workflow / Notificaciones Excel DWH Externa (CRM,..)
COMPONENTES DEL MDS Base de datos Master Data Services Contiene los objetos que usa Master Data Services Aplicación Web de Master Data Services Permite a los administradores crear y administrar los objetos de Master Data Services, como las entidades y los atributos. Permite a los responsables (data stewards) administrar los datos maestros. Master Data Services Configuration Manager Permite a los administradores crear la base de datos para Master Data Services y la aplicación Web.
COMPONENTES DE UNA SOLUCIÓN MDS Modelo (Model) Entidades (Entities) Atributos (Attributes) Miembros (Members) Jerarquías (Hierarchies) Colecciones (Collections) Reglas de negocio (Business rules) Vistas de Suscripción (Subscription views) Versiones (Versions)
CÓMO UTILIZAR MDS? Decida qué datos desea administrar Construya un modelo Cargue los datos Cree reglas Establesca flujos de trabajo y Notificaciones Defina la seguridad Cree procesos de refresco de datos Comparta los datos
ARQUITECTURA MDS
INTEGRACIÓN DE MDS CON DQS Realiza la coincidencia de datos Integrado dentro del MDS Excel Add-In Poderoso en escenarios de: Prevención de duplicación de datos (dedupe) La agrupación de información se solicita para las optimizaciones Utiliza el conocimiento existente creado por los expertos de calidad de los datos en el DQS Permite añadir conocimiento/ adaptar el conocimiento existente en el MDS Excel Add-In
AGENDA Escenarios Definiciones, Procesos y Estándares Master Data Services Data Quality Services
Data Quality Services (DQS) es una solución de calidad de los datos basada en el conocimiento, que permite a los profesionales de TI y a los data stewards mejorar fácilmente la calidad de sus datos.
CONCEPTOS DE UNA SOLUCIÓN DQS Dirigidas por el Conocimiento Basado en una Base de Conocimientos de Calidad de Datos (Data Quality Knowledge Base - DQKB) que es reutilizable para mejorar la Calidad de Datos Semántica Los datos son mapeados en Dominios, que capturan su Semántica Descubrimiento de Conocimiento Adquiere conocimiento adicional a través de datos muestra y realimentación del usuario. Abierto y Extensible Soporta el uso de Conocimiento generado por el usuario y Proveedores de datos de referencia de terceros. Fácil de usar Experiencia de usuario diseñada para incrementar la productividad
QUÉ ES UNA BASE DE CONOCIMIENTO? Repositorio de conocimiento acerca de los datos: Los Dominios definen valores y reglas para cada campo Las políticas de Coincidencia definen reglas para identificar registros duplicados.
QUÉ ES UN DOMINIO? Los Dominios son específicos para un campo de datos. Los Dominios contienen las reglas para los datos Los Dominios pueden ser individuales o compuestos Dominio Valores Datos de referencia Reglas y Relaciones
QUÉ ES UN SERVICIO DE REFERENCIA DE DATOS? En Azure Marketplace residen proveedores especialistas en limpieza de datos Da de alta una cuenta KB Suscríbete al servicio de referencia Dirige tu dominio hacia el servicio de referencia Dirección Nombre Nombre Apellidos
REQUISITOS PARA UNA SOLUCIÓN DQ Dar seguimiento y monitorear el estado de las actividades de calidad de datos y la calidad de los datos Monitoreo Limpieza Modificar, eliminar o enriquecer los datos incompletos e incorrectos. Esto incluye corrección estandarización y enriquecimiento. Analizar las fuentes de datos; obtener información acerca de la calidad de los datos, para identificar los problemas de calidad. Profiling Matching Identificar, enlazar y quitar duplicados dentro o a través de conjuntos de datos.
PROCESOS PARA DQS Administrar Conocimiento Construir Profiling Integrado Datos de Referencia Estátus Datos Empresariales Progreso Notificaciones Base de Conocimientos Usar Proyectos DQ
LIMPIEZA DE DATOS - USANDO SSIS Data Flow SSIS ServidorDQS Base de Conocimiento Paquete SSIS Valores/Reglas Fuente Componente de DQS Cleansing Destino Definición de Referencias Políticas de Coincidencia
ARQUITECTURA DQS Clientes DQS Servicios DQS en la Nube Cliente DQS Descubre y Administra Conocimiento Proyectos Interactivos DQ DataMarket Datos de Referncia Categorizados Servidor DQS API Referencia de Datos (Navega, Ordena, Valida ) DQS Store - KB, Dominios API Referencia de Datos (Navega, Obten, Actualiza ) Datos de Referencia de 3 er Administración DQS Engine Descubrimiento de Conocimiento Data Profiling Exploración Limpieza Coincidencia Datos de Referencia Servicios de Referencia de Datos Otros Clientes DQS Componente DQS Cleansing para SSIS Almacén de proyectos DQ Almacén de Conocimientos Futuros Clientes: Excel, SharePoint, MDS Proyectos DQS KBs Publicados 2010 Microsoft Corporation. Microsoft Materials - Confidential. All rights reserved.
PREGUNTAS Mi Blog http://www.granadostroncoso.com.mx SolidQ Mentors blogs http://blogs.solidq.com/pages/home.aspx SolidQ Journal http://www.solidq.com/sqj/pages/home.aspx Microsoft http://www.microsoft.com/sqlserver/en/us/solutionstechnologies/sql-server-2012-businessintelligence.aspx