PREVIEW BIDOOP 2.0. Big Data Brunch



Documentos relacionados
Hadoop. Cómo vender un cluster Hadoop?

BearSoft. SitodeCloud. Rafael Rios Bascón Web: Móvil:

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

Gelka Consultores de Negocios y Proyectos Ltda.

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1

ARIS Process Performance Manager

Conectores Pentaho Big Data Community VS Enterprise

XII Encuentro Danysoft en Microsoft Abril Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código

Análisis Predictivo con Pentaho Data Mining en el sector bancario

Soluciones Complementarias de Eurowin 8.0 SQL. Aplicaciones Business Intelligence

Incorpora la localización en tu compañía. Mejora la rentabilidad con la solución Location Analytics de Esri

Plataformas tecnológicas CRM de datos a conocimiento

MINING SOLUTIONS LIMITADA

CloudDialer by Strada

elastic PROJECTS INFORMACIÓN COMERCIAL PROJECTS

Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio?


Arquitectura de sistema de alta disponibilidad

Seguridad en tiempos de Big Data

SERIE ESTRATEGIA COMERCIAL CRM. Lic. Guiomar Patricia González P.

Urchin 6. Serás dueño de los datos de tu web

CJ INGENIERÍA Innovación & Ingeniería Ltda.

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI

JASPER SERVER BI INTRODUCCION

GUÍA TÉCNICA. Desarrollo de Sistemas de Información la plataforma Business Intellingence Pentaho

Business Intelligence

Introducción a nivaria{ ceva Conceptos Generales. Nivaria Innova

Seguridad Estructural SL

Big Data y BAM con WSO2

Experiencia sobre Control de Proyectos Externalizados en Grandes Organizaciones

Informe de pruebas. En la siguiente tabla se especifican los casos de pruebas realizados al sistema y el resultado de éstas.

SMART ENERGY. avanzados. de la medida. Más de 140 compañías de utilities en todo el mundo disponen de soluciones Indra. indracompany.

Oferta formativa 2014

SMART ENERGY. Más de 140 compañías de utilities en todo el mundo disponen de soluciones Indra. indracompany.com

Kais Analytics Business Intelligence

Sistema de Asignación de Riesgos Crediticios

ALTERYX. Claudia María Tabares Betancur

Sistema de análisis de información. Resumen de metodología técnica

Sistema de Asignación de Riesgos Crediticios

GeneXus BPM Suite X. Última actualización: 01 de Setiembre de 2008

PRESENTACIÓN PRODUCTO. Más que un software, el método más eficaz de conciliar.

FICHA TECNICA SISTEMA ELVIS Enumeración y descripción de funcionalidades

CONFIGURACIÓN Y DESARROLLO

BPO Consulting.es Business Intelligence Encuentre respuestas a sus preguntas. Tenemos Soluciones Para su Negocio

METASYS SOFTWARE. Metasys Energy Dashboard

Maxpho Commerce 11. Gestión CSV. Fecha: 20 Septiembre 2011 Versión : 1.1 Autor: Maxpho Ltd

- Know Systems. DKS9 BPM-Gestión del Conocimiento 2011 Página 1 de 17

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK.

Customer Intelligence Fernando Mogetta Gerente de Consultoría de Negocios SAS Argentina. Copyright 2010, SAS Institute Inc. All rights reserved.

Índice 1 CONSULTORÍA DE LA CADENA DE SUMINISTRO 2 CÓMO LO HACEMOS? 3 METODOLOGÍA SCOR 4 NUESTRAS HERRAMIENTAS 5 QUIÉNES SOMOS?

Urchin 7. Urchin Software. Urchin 7

CAT Información. Proveedor de Soluciones Informáticas. Rev.: 10/2008

BIGDATA EN LA EMPRESA

Big Data. Rodolfo Campos

GESTIÓN REMOTA Y CENTRALIZADA DE DISPOSITIVOS MÓVILES PROPUESTA DE COLABORACIÓN.

PROYECTO ESPECIAL CHAVIMOCHIC INFORME TECNICO PREVIO DE EVALUACION DE SOFTWARE N GR-LL/PECH-05-INF

Maximiza los ingresos no aeronáuticos del Aeropuerto

Monitorización y gestión de dispositivos, servicios y aplicaciones

Remote Energy Management

Oteara. Inteligencia Social para la Escucha Activa en Internet. Presentación Mayo 2015

Automatizar los procesos. Herramientas especializadas para el análisis de datos. Solución integrada acorde con PCDAI. Software libre. DEFINICION.

Curso de Analítica web con Google Analytics para emprendedores en la enseñanza del español y gestión cultural Centro Internacional de Tecnologías

Portafolio de servicios

DATA WAREHOUSE DATA WAREHOUSE

a3asesor doc cloud nos proporciona inmediatez y calidad a la hora de atender al cliente EXPERIENCIAS Wolters Kluwer

CURSO DE ADMINISTRACIÓN Y PROGRAMACIÓN EN SQL SERVER 2008 BUSINESS INTELLIGENCE

Cocinando con Big Data

Big data A través de una implementación

TIVOLI. GERZEL, Stella Maris.

Base de datos en Excel

BUSINESS INTELLIGENCE. programa de gestión comercial inteligencia analítica

1. Introducción: Qué es la Gestión Documental-TI o Gestor Documental?

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO

limentación Sage Murano Abre las puertas al ERP sin límites para el sector de la alimentación

Herramientas útiles para gestionar tu negocio

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008

Big Data: Qué es y por qué es relevante?

LIBERA EL PODER DEL COMPUTO EN LA NUBE. TELMEX LOS CONTENIDOS DE ESTA PRESENTACIÓN SON PROPIETARIOS Y CONFIDENCIALES

Convertimos lo complicado en sencillo, lo fácil en operativo y eliminamos lo ineficaz

LIBERA EL PODER DEL COMPUTO EN LA NUBE. Servicios Cloud.

Minería de datos en la nube. Patricia Rayón Villela

CASO DE USO: IBM ILOG RULES EN SISTEMAS DE GUERRA ELECTRÓNICA

We Care For Your Business Security

BPO de Procesos de Gestión Documental. Consultoría y desarrollo de Soluciones TI. DOSSIER GRUPO EXCELTIA S.A. I GESTIÓN DOCUMENTAL MARZO-15_REV02

CURSO: DESARROLLADOR PARA APACHE HADOOP

Eres consciente del estado actual de tu proyecto?

10 Soluciones Tecnológicas imprescindibles para tu empresa

Producto. Información técnica y funcional. Versión 2.8

INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer

Transcripción:

PREVIEW BIDOOP 2.0 Big Data Brunch 08 de Julio 2014

Quién soy? Trabajando con Hadoop desde 2010 sluangsay@pragsis.com @sourygna CTO de Pragsis Responsable departamento sistemas Preventa Instructor de Hadoop (Pragsis, U-Tad, FormHadoop) Proyectos (toma de requisitos, diseño de la infraestructura, despliegue, administración ) en Inteco, Telefónica, Inditex, Ono Participación en desarrollo de motor de eventos y algoritmos de Machine Learning Committer de Apache Chukwa Consultoría estratégica (Mobily) Preventa 2

Hadoop: breve descripción (I) 3

Hadoop: breve descripción (II) 4

Hadoop: breve descripción (III) 5

Hadoop: breve descripción (IV) 6

Hadoop: breve descripción (IV) 7

Hadoop : no es solo un problema tecnológico! 8

ROI: pieza clave del diseño de Bidoop Bidoop se ha pensado como: Capa aplicativa encima de Hadoop, que aporta soluciones reales (E2E) a los clientes Solución totalmente gráfica (interfaz web): se puede usar todo el potencial de Hadoop sin saber de java/mapreduce (y etc). No pierdas tiempo en desarrollar en java/mapreduce: desarrolla tu negocio Con Bidoop 2.0 (GA: Septiembre 2014): - interfaz web mejorada - configuración mediante drag & drop : más productividad - más funciones analíticas - mejora en ETL 9

Bidoop Layer: visión general (I) SECTORES BANCA SEGUROS TELECOM EHEALTH RETAIL ENERGÍA MEDIA HERRAMIENTAS BI Y VISUALIZACIÓN Dashboard Explotación del conocimiento NUESTRAS SOLUCIONES Análisis de Geolocalización Gestión Call Center Análisis de Redes Sociales Dashboards en Tiempo Real Análisis de Seguridad Análisis de Compras Servicios Financieros Perfilado Web Segmentación Avanzada Detección del Fraude Inteligencia avanzada Optimización Marketing Análisis de Comportamiento Análisis de Generación de Energía Marketing Viral y Modelos de Influencia NUESTROS PRODUCTOS Layer Aceleradores del desarrollo y analítica PLATAFORMAS COMPATIBLES Capacidad Ilimitada FUENTES DE INFORMACIÓN www Logs XML Datos en bruto 10

Bidoop Layer: visión general (II) 11

Demo de Bidoop 2.0: contexto En esta demo, se describe un caso de uso de seguridad: Podemos detectar en tiempo real todos los ataques a nuestra página web? Capturamos en streaming: logs de todos los servidores web Motor de evento: reglas de negocio de seguridad Alertas y dashboards Para la demo, 2 business rules: _ ataques LFI: inserción de una ruta alternativa en la URL http://pragsis.com/debil.php?value=/etc/passwd%00 _ ataques RFI: Remote File Inclusion 12

Demo de Bidoop 2.0: ETL Bidoop controla todas las fases de la ETL: Extraction: con Flume o Sqoop (Bidoop 1.x : Chukwa) ejemplo: ficheros de logs, BBDD, social media, URLs, FTP, ejecución de scripts Transformation: filtro, regex, asociaciones Load: carga en Hive, definición de tipos y particiones, mecanismos de archivados Además de la facilidad de configuración, Bidoop ofrece parches al software OpenSource Jiras para Chukwa: CHUKWA-686, CHUKWA-668, CHUKWA-664, CHUKWA-593 Jiras para Flume: FLUME-2321, FLUME-2344 13

Demo de Bidoop 2.0: ETL 14

Demo de Bidoop 2.0: motor de eventos Un CEP (Complex Event Processing) con la potencia de Hadoop (Flume, HBase) Las campanas de la iglesia suenan Sale un hombre en traje acompañando una mujer vestida de blanco El arroz vuela por el aire Boda! Ejemplo de wikipedia Basado en algoritmo RETE: _ nodos alphas: eventos sencillos _ nodos betas: estados más inteligentes, combinación de nodos alphas y/o betas α β α Ejemplo de correlaciones: _ si B1 y B2, entonces B3 _ si A1 aparece 10 veces en menos de 2 minutos, entonces B1 15

Demo de Bidoop 2.0: motor de eventos 16

Demo de Bidoop 2.0: visualización La visualización es la última etapa para explotar los datos Recordatorio: Excell no es una herramienta de visualización Con Bidoop: _ dashboards integrados, orientados a verticales _ posibilidad de integración con herramientas comerciales Ejemplo de integración con Tableau: 17

Demo de Bidoop 2.0: visualización 18

Demo de Bidoop 2.0: motor de workflow Permite crear flujos complejos de procesos analíticos Contiene varias librerías analíticas: clustering, regresión linear, filtros colaborativos, modelos de churn Integra todos los componentes de Hadoop: Hive, HBase, Pig, R, java MapReduce Herramienta drag & drop : más intuitivo y rápido que Oozie Caso de uso: Twitter Qué piensan de mi empresa la gente en Twitter? Podemos hacer un análisis de su sentimiento? 19

Demo de Bidoop 2.0: motor de workflow 20

Demo de Bidoop 2.0: visualización de Tweets 21

Retail: Problema en la detección a través de la inspección de logs Problema: Todos los almacenes de una gran empresa de retail están completamente automatizados y generan enormes cantidades de logs. Esos logs son demasiado grandes para analizarlos mediante una solución tradicional. Un sencillo problema puede generar pérdidas millonarias en horas. Solución: 2 clusters Hadoop : batch (18 nodos) & Hbase (7 nodos). Procesado de eventos complejos sobre MapReduce-Hbase (basado en el algoritmo RETE). Históricos almacenados en Hive para machine learning & data mining. Beneficios: Detección de problemas en tiempo real Localización de tendencias y patrones recurrentes orientados a la predicción de fallos. 22

Inteco: Análisis de seguridad Problema: Necesidad de mejor análisis de seguridad lógica y de prevención y detección de fraude, intrusiones, hacking, phishing, etc Solución: Sistema de agregación y correlación inteligente de registros de Seguridad lógica. Detección de posible fraude analizando el patrón de uso e información geolocalizada. Análisis de transacciones y operaciones o accesos dudosos. Se realiza una clasificación automática (en reglas) mediante reglas de aprendizaje no supervisado. Beneficios: Mayor control en las operaciones y transacciones, logrando la posibilidad de aplicar modelos de prevención de seguridad y detectando en tiempo real cualquier sistema de fraude o anomalía en operaciones. Eventos Macro de Eventos Directivas Backlogs Repositorio centralizado 23

Sector Telco: Una solución BI sobre Hadoop Problema: Es complicado el uso de BI con TB de datos. Cómo crear una plataforma de BI fácilmente escalable para diferentes clientes, modelos y fuentes de información? Solución: Una solución Hadoop Basada en Cloud (Joyent). Framework BI completo: Extracción (de los clientes con Flume y FTP), Transformación (MapReduce), Carga y análisis (Hive), Exportación al datamart (MySQL) + Visualización (Pentaho, Jaspersoft, Tableau). Beneficios: Hadoop + Cloud = escalabilidad horizontal. Una solución genérica que funcionó para cuatro clientes diferentes (primera fase del proyecto, marzo 2013). 24

Con Bidoop: más productividad Bidoop te permite mejorar el ROI de tus proyectos Big Data: Solución intuitiva: No necesitas formar desarrolladores java/mapreduce ni integradores de soluciones Big Data Solución gráfica y drag & drop : Puedes centrarte en desarrollar tu negocio Solución que aporta mucha productividad: _ Ejemplo del proyecto de retail(20 reglas de negocio complejas): _ Sin Bidoop: 175 ficheros, 21k líneas, 2160 horas de desarrollo _ Con Bidoop 2.0: 40 horas de trabajo (2 horas por cada regla) _ Ejemplo del proyecto de Telco(BI en Hadoop) _ Sin Bidoop: 231 ficheros, 20k líneas de código, 1920 horas de desarrollo _ Con Bidoop 2.0: 61 horas de trabajo (16 horas para la ETL, 45 para la analítica) 25

Contacto (+34) 91 768 04 90 bidoop@pragsis.com www.pragsis.com TWITTER Twitter.com/BIDOOP_HADOOP_e LINKEDIN Linkedin.com/company/pragsis 26