PREVIEW BIDOOP 2.0 Big Data Brunch 08 de Julio 2014
Quién soy? Trabajando con Hadoop desde 2010 sluangsay@pragsis.com @sourygna CTO de Pragsis Responsable departamento sistemas Preventa Instructor de Hadoop (Pragsis, U-Tad, FormHadoop) Proyectos (toma de requisitos, diseño de la infraestructura, despliegue, administración ) en Inteco, Telefónica, Inditex, Ono Participación en desarrollo de motor de eventos y algoritmos de Machine Learning Committer de Apache Chukwa Consultoría estratégica (Mobily) Preventa 2
Hadoop: breve descripción (I) 3
Hadoop: breve descripción (II) 4
Hadoop: breve descripción (III) 5
Hadoop: breve descripción (IV) 6
Hadoop: breve descripción (IV) 7
Hadoop : no es solo un problema tecnológico! 8
ROI: pieza clave del diseño de Bidoop Bidoop se ha pensado como: Capa aplicativa encima de Hadoop, que aporta soluciones reales (E2E) a los clientes Solución totalmente gráfica (interfaz web): se puede usar todo el potencial de Hadoop sin saber de java/mapreduce (y etc). No pierdas tiempo en desarrollar en java/mapreduce: desarrolla tu negocio Con Bidoop 2.0 (GA: Septiembre 2014): - interfaz web mejorada - configuración mediante drag & drop : más productividad - más funciones analíticas - mejora en ETL 9
Bidoop Layer: visión general (I) SECTORES BANCA SEGUROS TELECOM EHEALTH RETAIL ENERGÍA MEDIA HERRAMIENTAS BI Y VISUALIZACIÓN Dashboard Explotación del conocimiento NUESTRAS SOLUCIONES Análisis de Geolocalización Gestión Call Center Análisis de Redes Sociales Dashboards en Tiempo Real Análisis de Seguridad Análisis de Compras Servicios Financieros Perfilado Web Segmentación Avanzada Detección del Fraude Inteligencia avanzada Optimización Marketing Análisis de Comportamiento Análisis de Generación de Energía Marketing Viral y Modelos de Influencia NUESTROS PRODUCTOS Layer Aceleradores del desarrollo y analítica PLATAFORMAS COMPATIBLES Capacidad Ilimitada FUENTES DE INFORMACIÓN www Logs XML Datos en bruto 10
Bidoop Layer: visión general (II) 11
Demo de Bidoop 2.0: contexto En esta demo, se describe un caso de uso de seguridad: Podemos detectar en tiempo real todos los ataques a nuestra página web? Capturamos en streaming: logs de todos los servidores web Motor de evento: reglas de negocio de seguridad Alertas y dashboards Para la demo, 2 business rules: _ ataques LFI: inserción de una ruta alternativa en la URL http://pragsis.com/debil.php?value=/etc/passwd%00 _ ataques RFI: Remote File Inclusion 12
Demo de Bidoop 2.0: ETL Bidoop controla todas las fases de la ETL: Extraction: con Flume o Sqoop (Bidoop 1.x : Chukwa) ejemplo: ficheros de logs, BBDD, social media, URLs, FTP, ejecución de scripts Transformation: filtro, regex, asociaciones Load: carga en Hive, definición de tipos y particiones, mecanismos de archivados Además de la facilidad de configuración, Bidoop ofrece parches al software OpenSource Jiras para Chukwa: CHUKWA-686, CHUKWA-668, CHUKWA-664, CHUKWA-593 Jiras para Flume: FLUME-2321, FLUME-2344 13
Demo de Bidoop 2.0: ETL 14
Demo de Bidoop 2.0: motor de eventos Un CEP (Complex Event Processing) con la potencia de Hadoop (Flume, HBase) Las campanas de la iglesia suenan Sale un hombre en traje acompañando una mujer vestida de blanco El arroz vuela por el aire Boda! Ejemplo de wikipedia Basado en algoritmo RETE: _ nodos alphas: eventos sencillos _ nodos betas: estados más inteligentes, combinación de nodos alphas y/o betas α β α Ejemplo de correlaciones: _ si B1 y B2, entonces B3 _ si A1 aparece 10 veces en menos de 2 minutos, entonces B1 15
Demo de Bidoop 2.0: motor de eventos 16
Demo de Bidoop 2.0: visualización La visualización es la última etapa para explotar los datos Recordatorio: Excell no es una herramienta de visualización Con Bidoop: _ dashboards integrados, orientados a verticales _ posibilidad de integración con herramientas comerciales Ejemplo de integración con Tableau: 17
Demo de Bidoop 2.0: visualización 18
Demo de Bidoop 2.0: motor de workflow Permite crear flujos complejos de procesos analíticos Contiene varias librerías analíticas: clustering, regresión linear, filtros colaborativos, modelos de churn Integra todos los componentes de Hadoop: Hive, HBase, Pig, R, java MapReduce Herramienta drag & drop : más intuitivo y rápido que Oozie Caso de uso: Twitter Qué piensan de mi empresa la gente en Twitter? Podemos hacer un análisis de su sentimiento? 19
Demo de Bidoop 2.0: motor de workflow 20
Demo de Bidoop 2.0: visualización de Tweets 21
Retail: Problema en la detección a través de la inspección de logs Problema: Todos los almacenes de una gran empresa de retail están completamente automatizados y generan enormes cantidades de logs. Esos logs son demasiado grandes para analizarlos mediante una solución tradicional. Un sencillo problema puede generar pérdidas millonarias en horas. Solución: 2 clusters Hadoop : batch (18 nodos) & Hbase (7 nodos). Procesado de eventos complejos sobre MapReduce-Hbase (basado en el algoritmo RETE). Históricos almacenados en Hive para machine learning & data mining. Beneficios: Detección de problemas en tiempo real Localización de tendencias y patrones recurrentes orientados a la predicción de fallos. 22
Inteco: Análisis de seguridad Problema: Necesidad de mejor análisis de seguridad lógica y de prevención y detección de fraude, intrusiones, hacking, phishing, etc Solución: Sistema de agregación y correlación inteligente de registros de Seguridad lógica. Detección de posible fraude analizando el patrón de uso e información geolocalizada. Análisis de transacciones y operaciones o accesos dudosos. Se realiza una clasificación automática (en reglas) mediante reglas de aprendizaje no supervisado. Beneficios: Mayor control en las operaciones y transacciones, logrando la posibilidad de aplicar modelos de prevención de seguridad y detectando en tiempo real cualquier sistema de fraude o anomalía en operaciones. Eventos Macro de Eventos Directivas Backlogs Repositorio centralizado 23
Sector Telco: Una solución BI sobre Hadoop Problema: Es complicado el uso de BI con TB de datos. Cómo crear una plataforma de BI fácilmente escalable para diferentes clientes, modelos y fuentes de información? Solución: Una solución Hadoop Basada en Cloud (Joyent). Framework BI completo: Extracción (de los clientes con Flume y FTP), Transformación (MapReduce), Carga y análisis (Hive), Exportación al datamart (MySQL) + Visualización (Pentaho, Jaspersoft, Tableau). Beneficios: Hadoop + Cloud = escalabilidad horizontal. Una solución genérica que funcionó para cuatro clientes diferentes (primera fase del proyecto, marzo 2013). 24
Con Bidoop: más productividad Bidoop te permite mejorar el ROI de tus proyectos Big Data: Solución intuitiva: No necesitas formar desarrolladores java/mapreduce ni integradores de soluciones Big Data Solución gráfica y drag & drop : Puedes centrarte en desarrollar tu negocio Solución que aporta mucha productividad: _ Ejemplo del proyecto de retail(20 reglas de negocio complejas): _ Sin Bidoop: 175 ficheros, 21k líneas, 2160 horas de desarrollo _ Con Bidoop 2.0: 40 horas de trabajo (2 horas por cada regla) _ Ejemplo del proyecto de Telco(BI en Hadoop) _ Sin Bidoop: 231 ficheros, 20k líneas de código, 1920 horas de desarrollo _ Con Bidoop 2.0: 61 horas de trabajo (16 horas para la ETL, 45 para la analítica) 25
Contacto (+34) 91 768 04 90 bidoop@pragsis.com www.pragsis.com TWITTER Twitter.com/BIDOOP_HADOOP_e LINKEDIN Linkedin.com/company/pragsis 26