Introducción a Big Data Analytics Luis Zamora - Sales Manager Iberia Greenplum Pedro Algaba - EMC Greenplum Solutions Architect 1
BIG DATA: Retos y Requerimientos Big Data Analytics plantea unos requerimientos más exigentes que las soluciones de Business Intelligence tradicional no resuelven Análisis Masivo de datos (centenares de TB hasta PB) Datos externos a los sistemas de la organización (no operacionales) y en muchos casos no estructurados Procesos analíticos más agiles e iterativos Integración con los sistemas informacionales de datos tradicionales 4
CASO DE USO DE BIG DATA Optimizar los modelos de riesgo incorporando datos externos HIGH Underwriting Risk Legacy System Greenplum Database BI Reporting Greenplum In-Database Analytics Greenplum Big Data Analytics Unstructured Data Sources Enrich The Data LOW Monthly Risk Model Updates Daily Risk Model Updates TRADITIONAL DATA LEVERAGED BIG DATA LEVERAGED 5
6
Greenplum Unified Analytics Platform 7
Greenplum Database: Rendimiento Extremo en HW Commodity Optimizada para BI y Analytics Procesado y carga de datos en paralelo Arquitectura MPP-sin compartir nada con escalabilidad lineal Integración con repositorios de datos externos 8
Greenplum HD: Enterprise-Ready Hadoop Apache Hadoop Servicios y soporte 24*7 EMC Escalabilidad asegurada Greenplum Analytics Workbench Integración con Greenplum Database 9
Greenplum In-Database Analytics MAD lib SAS HPA, Access, y Scoring Accelerator MADLib Librería open-source de funciones analíticas avanzadas Extensiones analíticas soportadas PostGIS - Geospatial support, PL/R - Statistical Computing, PL/Java, PL/Perl 10
Greenplum Chorus: Agilizando Big Data Analytics Una interfaz única para todos los datos Buscar, explorar, visualizar e importar datos de cualquier repositorio SAS datasets, bases de datos o ficheros Hadoop Provisión automática de bases de datos virtuales Colaborativo: Crear, compartir, publicar Fuentes de datos, modelos analíticos, insights 11
Co-Proceso de datos unificado Analytic Productivity Tools & Apps Data Computing Interfaces SAS PROC, SQL, MapReduce, In-Database Analytics, Parallel Data Loading Greenplum Database Hadoop Compute Storage parallel data exchange Compute Storage SQL DB Engine Network parallel data exchange MapReduce Engine unstructured data structured data temporal data All Data Types geospatial data sensor data spatial data 12
Greenplum Data Computing Appliance El único appliance modular para co-proceso de datos estructurados y no estructurados servidores Intel estándar y switching GigE Plataforma Unificada para Big Data analytics Red de interconexión interna de alto rendimiento Módulos para datos estructurados (GreenplumDB) Módulos para datos no-estructurados (GreenplumHD) Módulos para aplicaciones analíticas ETL / BI (GreenplumDIA) 13
Configuración modular para Big Data Analytics 1st Rack Aggregation Rack Functional Functional Greenplum Database s Functional or + Functional or Greenplum DIA + Functional or Functional or Greenplum HD Add ¼ rack Increments Functional Add ¼ rack Increments 14
DEMO 20