Diseño Físico. 1
Diseño físico. - Disminuir tiempos de respuesta. - Minimizar espacio de almacenamiento. - Evitar Reorganizaciones. - Optimizar el consumo de recursos. - Proporcionar la máxima seguridad. 2
Estrategias. - Inflexibilidad (lógica/física). - Flexibilidad (Administrador). - Hibrido. (incremental) 3
Organización de ficheros - Secuencial. - HASH. (tabla indexada). - ISAM (Patrones de búsqueda). - Arbol B+. 4
Indices. - Indexar clave primaria con un indice único. - Indexar FK. - Indexar atributos consultados frecuentemente. - No indexar tablas pequeñas. - No indexar tablas que se recorrerán secuencialmente. - No indexar atributos de tipo carácter muy largos. 5
Agrupamiento. - Clave de agrupamiento. - Consulta simultánea. - Empeora de forma separada.! 6!
Indexar (B-tree) - Clustered no clustered.(agrupados, no agrupados). - Identity (sql server) (agrupado). - Combinaciones (pk compuesta). - Dimensión degenerada. - Crear 1 columna (echos,fact_key). - Unique (sql server) estructuras mas eficientes. - Mantencion de indeces (degradación). 7
CREATE TABLE dbo.personas( PersonID smallint PRIMARY KEY NONCLUSTERED, Nombre varchar(39), Apellido varchar(40), NumDocumento char(11) UNIQUE CLUSTERED ) 8
create TIPODEINDICE index NOMBREINDICE on TABLA(CAMPO); create unique clustered index I_libros_codigo on libros(codigo); create nonclustered index I_libros_titulo on libros(titulo); create index I_libros_autoreditorial on libros(autor,editorial); 9
Arquitectura 10
Espacio Table 6-1. Disk Space Calculation Required Actual Volume Size (GB) RAID Level No. of Disks Size (GB) Data 1-6 1479 6 RAID 5 6 4 6 399 Log 1-4 200 4 RAID 1 4 2 4 133 TempDB 100 RAID 1+0 4 1 133 Quorum 10 RAID 1 2 1 133 Backup 2200 RAID 5 1 18 2261 File system 600 RAID 5 1 6 665 OLAP 1-4 1600 RAID 5 4 5 4 532 Total 82 8246 11
Calculo estimativo - Ej Tabla de echos columnas: - 8 tipo integer. - 1 tipo decimal. - 10 tipo money. - 3 tipo datetime. - Integers 4 bytes. - decimals 5 bytes. - Money 8 bytes. - Datetime 8 bytes. 8x4 +1x5 + (10+3)x8= 141 bytes + 50% = 212bytes. Promedio de ventas 600.000 diarias. 600.000 x 365 x 2 x 212 bytes = 86 gb. 12
Particionamiento. - Objetos que se pueden particionar: - Tablas, Indices, Vistas indexadas. - Vertical. - Horizontal (ambiente distribuido). - Vistas particionadas. 13
Particionamiento. 14
Particionamiento. 15
Particionado.!"#$" ID c1 c2 c3 c4 1 3 A 2 5 B 3 2 B 4 1 L 5 5 Y 6 5 A 7 2 F Función de particionado 3 5 2 1 5 5 2 Esquema de particionado Filegroup1 Filegroup2 Filegroup1 Filegroup4 Filegroup2 Filegroup2 Filegroup1 16
CREATE PARTITION FUNCTION pfn (int) AS RANGE LEFT FOR VALUES (10, 30, 50) CREATE PARTITION SCHEME p_schema AS PARTITION pfn TO ([FG1], [FG2], [FG3], [FG4]) CREATE TABLE Emplados ( EmpId int, EmpNombre varchar(50) ) on p_schema (EmpID); FG1 FG2 FG3 FG4 10 30 50 17
Calidad de datos DW 18
Introducción - Concepto de calidad de datos. - Problemas y consecuencias. - Causas de la mala calidad. 19
Datos. - Representan objetos del mundo real en un formato que puede ser: - Almacenado, recuperado y elaborado, - Comunicado a través de una red. - Recurso: - Toma de decisiones. - Guía de procesos. - Registro de historia de actividades de la empresa. 20
Datos - Clasificación: - Representación. - Estructurado, semi-estructurado,no-estructurado. - Visión de dato como producto. - Datos brutos, ítems, información. - Complejidad. - Elemental, agregado. 21
Datos Representación Interpretación 22
Debido a que las definiciones son producto de un pensamiento formal y rígido, la calidad no puede ser definida. Robert Pirsig. 23
Calidad - Calidad de información: - Excelencia / Valor. - Adecuación para su su uso. - Alcanzar o exceder expectativas del consumidor. - Calidad de información / Datos es subjetiva. - Depende del contexto, el consumidor, etc. 24
Calidad de datos - Según el consumidor: - Que sean relevantes para su uso. - Que sean correctos y sin inconsistencias. - Que sean lo más actualizados posibles. - Que se accedan adecuadamente. 25
Cod. Titulo Director Año Cant. Remakes Ultimo año de remake 1 Casablanca Weir 1942 3 1940 2 La sociedad de los poetas muertos Curtiz 1989 0 null 3 Supermn Donner 1978 0 2010 4 Indiana Jones null 1980 0 null Error de digitación Nombres Intercambiados Inconsistencia Desactualizado Incompleta Inconsistencia 26
Problemas de calidad. - Datos incorrectos. - Datos Inconsistentes con la realidad. - Datos inconsistentes entre si. - Datos desactualizados. - Información incompleta. - Datos poco confiables debido a su fuente. 27
Consecuencias. - Eficiencia y efectividad en organizaciones y negocios. - EEUU: - Más de 35% de los proyectos de TI fracasan debido a mala calidad de datos. - Servicios de correo: de 100.000 unidades de correspondencia, 7.000 no llego a destino por direcciones incorrectas. - Problemas de calidad de datos le cuestan a los negocios del país, más de 600 billones de dólares por año. 28
Consecuencias - Entregas a clientes en forma tardía o equivocada. - Errores en el cobro a clientes. - Clientes duplicados (varios sistemas, actualizados por distintos procedimientos). - Errores médicos. - Problemas de implementación de nuevos sistemas de información. 29
Causas. - Producción de los datos. - Recolección de datos mediante ingreso humano. - Problemas sistemáticos con la recolección de datos. - Diferentes fuentes con representaciones diferentes del mismo objeto de la realidad. - No mantenimiento al día de los datos. 30
Causas - Almacenamiento: - Formatos diferentes. - Ausencia de formatos definidos. 31
Causas - Utilización: - Capacidad de análisis y procesamiento insuficiente. - Cambios en los requerimientos de calidad. - Problemas de seguridad y acceso. 32
Gestion de la Calidad Medición de calidad Estimación de calidad Monitoreo de calidad Detección de cambios Análisis de causas de mala calidad Corrección de los datos 33 Reestructuración del sistema
Limpieza de datos Análisis estadístico de datos Integración de datos Calidad de datos Data mining DWH Representación del conocimiento