Desmitificando Big Data:



Documentos relacionados
Social Big Data. Ignacio Bustillo Fecha presentación: 13 de Noviembre de 2014

Conectores Pentaho Big Data Community VS Enterprise

Esta solución de fácil uso está orientada a cualquier industria, ya sea una empresa del sector privado o del sector público.

Diplomado en Big Data

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co

Big Data. Rodolfo Campos

Unidad 5. Conceptos y Estructuras de Archivos

Soluciones Integrales en Inteligencia de Negocios

Gestión del Conocimiento. Gestión del Conocimiento. Herramientas para la

EL DATA SCIENTIST MAS QUE UNA MODA

Hadoop. Cómo vender un cluster Hadoop?

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

Introducción a la Minería de Datos (Data Mining)

BIG DATA. Jorge Mercado. Software Quality Engineer

BUSINESS INTELLIGENCE Y REDSHIFT

Asignación de Procesadores

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre.

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1

Sistemas de Información para la Gestión. UNIDAD 2: RECURSOS DE TI Información y Aplicaciones

Conceptos básicos de Big Data

Seguridad en tiempos de Big Data

Trabajo final de Ingeniería

CL_55049 PowerPivot, Power Viewand SharePoint 2013 Business Intelligence Center for Analysts

Business Intelligence

Convertimos lo complicado en sencillo, lo fácil en operativo y eliminamos lo ineficaz

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

w w w. l o c a t i o n - w o r l d. c o m

DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012

UN PASEO POR BUSISNESS INTELLIGENCE

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK.

Mineria de Grafos en Redes Sociales usando MapReduce

POSTGRADO. Ingeniería EXPERTO EN BIG DATA

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS

w w w. l o c a t i o n - w o r l d. c o m

Microsoft SQL Server Conceptos.

e-commerce vs. e-business

E-learning: E-learning:

Minería de datos en la nube. Patricia Rayón Villela

Cenfotec ofrece talleres de preparación para la certificación internacional de Microsoft SQL Server

Visión global del KDD

RECURSOS DE TI Aplicaciones - Bibliografía FUNDAMENTOS DE LA INTELIGENCIA DE NEGOCIOS

Día :00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica

SAS Data Scientist. Plan de Formación

Especialización en bases de datos, Datamining y data Warehouse

CURSOS PREPARACIÓN PARA CERTIFICACIÓN MICROSOFT SQL SERVER

Máster. en Inteligencia de Negocios

INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer

XII Encuentro Danysoft en Microsoft Abril Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código

DATA WAREHOUSE DATA WAREHOUSE

Introducción a los sistemas de Bases de datos. Profesor: Msc. MIGUEL ANGEL NIÑO ZAMBRANO

Máster. en en Business Intelligence

BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

Big Data to Relevant Data Rentabilizando la información

Big Data: Qué es y por qué es relevante?

Alessandro Chacón Ernesto Level Ricardo Santana

Qué necesito saber para tener mi sitio web en Internet?

CL_50578 MDX with Microsoft Analysis Services

Modulo I. Introducción a la Programación Web. 1.1 Servidor Web.

Bechtle Solutions Servicios Profesionales

Big Data y BAM con WSO2

Muchos Datos. Pocos Datos. Cualquier cantidad de Datos. Analíticas de Negocio

Location Business Solutions

Quienes Somos? Valor. Estrategia

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

ING. YURI RODRIGUEZ ALVA

Business Process Management(BPM)

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

Base de datos II Facultad de Ingeniería. Escuela de computación.

Contact Center Comunicación multicanal integrada

IWG-101: Introducción a la Ingeniería. Departamento de Informática, UTFSM 1

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

SpagoBI Open Source Business Intelligence

BI Business Intelligence Un Mercado de Alto Crecimiento

CL_50469 SharePoint 2010 End User Level II

Inteligencia de Negocios. & Microsoft Excel 2013

TECNÓLOGO EN INFORMÁTICA PLAN DE ESTUDIOS

CL_50400 Designing, Optimizing, and Maintaining a Database Administrative Solution for Microsoft SQL Server 2008

Viernes 17 de Octubre de 2014

El ABC de Big Data: Analytics, Bandwidth and Content

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

3.3.3 Tecnologías Mercados Datos

MS_6234 Implementing and Maintaining Microsoft SQL Server 2008 Analysis Services

Unidad 1. Fundamentos en Gestión de Riesgos

Bases de datos. Cursos de Desarrollo de habilidades gerenciales

GENERALIDADES DE BASES DE DATOS

ROL DE LA INTEROPERABILIDAD EN BIG DATA, PORQUE NO TODAS LAS FUENTES DE DATOS SON IGUALES. Marta González

Fundamentos de la Inteligencia de Negocios

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS

MS_10748 Deploying System Center 2012, Configuration Manager

RESUMEN DE LA SOLUCIÓN CA ERwin Modeling. Cómo puedo gestionar la complejidad de los datos y mejorar la agilidad empresarial?


MINISTERIO DE EDUCACIÓN DIRECCIÓN DE EDUCACIÓN TÉCNICA Y PROFESIONAL PROGRAMA DE LA ASIGNATURA BASE DE DATOS ESPECIALIDAD INFORMÁTICA.

5.2. PROYECTO RODA. (6/07/04).

Beneficios estratégicos para su organización. Beneficios. Características V

Base de datos relacional

Presentación Data Warehouse UNSAM

Visión general CIUDADANO SECTOR PÚBLICO. Necesidades y servicios alineados. Toma de decisiones HERRAMIENTAS. Mejora de la trazabilidad del dato

Transcripción:

Desmitificando Big Data: Data Mining y Business Intelligence 2.0 Ignacio Bustillo Ignacio.Bustillo@stratebi.com Twitter: @IgnacioBustillo Fecha presentación: 14 de Noviembre de 2014

'Hello world!' Creador & Organizador Docente universitario

Desmitificando Big Data: Data Mining y Business Intelligence 2.0

Big Data como persona 2014

Qué es BigData?

Este concepto hace referencia a la acumulación masiva de datos. Otras denominaciones son datos masivos o datos a gran escala. En la literatura escrita en lengua hispana con frecuencia se utiliza el término en inglés Big data, como aparece en el ensayo de Viktor Schönberger Big data: La revolución de los datos masivos Wikipedia.org

Barreras tecnológicas en el procesamiento de grandes problemas

Supercomputador ALTAMIRA

Commodity Hardware = Low Cost = Uso masivo

Historia de tecnologías

TECNOLOGÍAS Apache KAFKA 2004 2014

TECNOLOGÍAS 2004 2007 2009 2010 2011 2014

CRONOGRAMA BIG DATA 2004

Un poco de historia Las primeras implementaciones de Google necesitaban realizar operaciones de multplicación de grandes matrices para calcular el PageRank La preocupación por tratar grandes colecciones de datos, llevó a crear algoritmos y frameworks capaces de poder procesar terabytes de información Una de las primeras aplicaciones capaces de programar MapReduce fue implementado y diseñado inicialmente por Doug Cutting

DISTRIBUCIÓN MAP REDUCE

10 Y en 2004 no había datos? Y los bancos? Y las ventas de supermercados?

http://www.nytimes.com/2004/11/14/business/yourmoney/14wal.html?_r=1&

http://www.nytimes.com/2004/11/14/business/yourmoney/14wal.html?_r=1&

Algo raro? No. Data Mining

1996 Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos (Fayyad y otros, 1996) From Data Mining to Knowledge Discovery in Databases

DATA MINING La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Las técnicas de la minería de datos provienen de la inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Wikipedia.org

En 1993, la Universidad de Waikato de Nueva Zelanda inició el desarrollo de la versión original de Weka (en TCL/TK y C) 1993 Fue desarrollado inicialmente por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland en 1993.

Problema Single node. Y la distribución de algoritmos?

Nuevas Propuestas en BigData: DataMining 2.0

Nuevas Propuestas en BigData: DataMining 2.0 http://hortonworks.com/hadoop-tutorial/usingrhadoop-to-predict-visitors-amount/

Nuevas Propuestas en BigData: DataMining 2.0 http://hortonworks.com/hadooptutorial/using-rhadoop-to-predictvisitors-amount/

Nuevas Propuestas en BigData: DataMining 2.0

Nuevas Propuestas en BigData: DataMining 2.0

Nuevas Propuestas en BigData: DataMining 2.0

Nuevas Propuestas en BigData: DataMining 2.0

DATA MINING Algo más que el presente Y LA FOTO ACTUAL? BUSINESS INTELLIGENCE

In 1989, Howard Dresner expanded on the popular umbrella term "Business Intelligence (BI)", originally coined by Hans Peter Luhn in 1958. Dresner defined it to mean "concepts and methods to improve business decision making by using fact-based support systems". Not long after, in response to the need for better BI, companies such as Business Objects, Actuate, Crystal Reports, and MicroStrategy began to emerge, offering to report and analyze company data. Source: A Brief History of Decision Support Systems by D.J. Power. 1989 Conceptos y métodos para mejorar la toma de decisiones basadas en hechos

BUSINESS INTELLIGENCE

Business Intelligence es la habilidad para transformar los datos en información, y la información en conocimiento, de forma que se pueda optimizar el proceso de toma de decisiones en los negocios Solución BI completa permite: Observar: qué está ocurriendo? Comprender: por qué ocurre? Predecir: qué ocurriría? Colaborar. qué debería hacer el equipo? Decidir: qué camino se debe conseguir? Gestión del conocimiento Qué es lo que la empresa está buscando?

Un conjunto de prácticas tecnológicas, herramientas informáticas y conocimientos funcionales aplicados al negocio, que permiten estructurar el acceso a la información, y la información misma, para que sea utilizada en la toma de decisiones en cualquier nivel de una organización

Herramientas por doquier

Herramientas por doquier

20 Vendedores de humo

Big Data y Business Intelligence

Herramientas BI buscan actualizarse Creación de nuevos conectores: Manipulación de datos Visualización de datos El primero que lo tenga es el que tiene éxito

Pentaho Data Integration

Talend Open Studio

Los retos de las tecnologías tradicionales y las propuestas Big Data para procesamiento de datos

RETO 1: Almacenamiento. DBs Relacionales para todo?

Leer datos es costoso Realmente necesitamos transacciones para todo? Cómo escalamos? Todo dominio se representa bien en un modelo relacional?

Not Only SQL (NoSQL) Como respuesta a estos problemas surgió el paradigma NoSQL NoSQL no es un sustituto a las bases de datos relacionales busca otras opciones para escenarios específicos Es solo una forma de decir que no todos los problemas son clavos que pueden ser atacados con un RDBMS El desarrollador cuenta con un abanico de soluciones y puede elegir la mejor para su problema en específico Existen varias formas de NoSQL, que atacan los problema del escalamiento, performance y modelado de los datos de formas distintas.

Tipos de BD Big Data. Not Only SQL (NoSQL) Bases de datos orientadas a documentos Almacenes Key-Value Bases de datos orientadas a objetos Bases de datos orientadas a grafos No sustituyen al modelo relacional. Escenarios específicos.

DBs Clave-Valor Más simples en cuanto su uso VALOR guardado se almacena como un arreglo de bytes (BLOB) El tipo de contenido no es importante para la base de datos, solo la clave y el valor que tiene asociado No necesita definir un esquema (columnas, tipos de datos) para almacenar la información. Escalabilidad: de key X a X+100 en Server 1, de X+101 a X+200 a Server2

DBs orientadas a documentos Un almacén key-value con la excepción de que el valor no se guarda sólo como un campo binario, sino con un formato definido de forma tal que el servidor pueda entender la diferencia es que el campo binario puede ser entendido por la base de datos

DBs orientadas a objetos Se basan en el paradigma orientado a objetos y no en el modelo relacional No se basan en claves primarias sino en OID Pueden representar relaciones jerárquicas Las relaciones entre tablas son a través de punteros a objetos Las bases orientadas a objetos nunca tuvieron el impacto esperado, pero tienen varios nichos específicos como algunas aplicaciones de carácter científico

30 DBs orientadas a grafos Almacenan los datos en forma de grafo. Da importancia no solo a los datos, sino a las relaciones entre ellos Más eficiente navegar entre relaciones que en un modelo relacional Sólo son aprovechables si tu información se puede representar fácilmente como una red

2004 2007 2009 2010 2011 2014

RETO 2: Procesamiento Cómo procesamos la cantidad ingente de datos?

Supercomputador vs Cluster con commodity hardware

Las primeras implementaciones de Google necesitaban realizar operaciones de multplicación de grandes matrices para calcular el PageRank La preocupación por tratar grandes colecciones de datos, llevó a crear algoritmos y frameworks capaces de poder procesar terabytes de información con commodity HW Una de las primeras aplicaciones capaces de programar MapReduce fue implementado inicialmente en Hadoop, diseñado inicialmente por Doug Cutting

Divide y vencerás

Programación Java

Operaciones en disco (HD) Y la memoria?

DB COLUMN El viejo que revive

VS

RETO 3: Real Time Antes existía?

Real Time: Procesamiento

Real Time: Flujos y colas

Nuevos modelos de negocio Fomento distribución de datos: APIficación Fomento de enriquecimiento de soluciones analíticas Impulso al Cloud

Puntos geoposicionados www.factual.com

Menciones de marcas www.explorabrand.com

Infraestructura Cloud y otros servicios

GRAN BENEFICIADO: OPEN SOURCE

NUEVOS EQUIPOS: DATA SCIENTIST

Big Data, Data Mining, Business Intelligence

Búsquedas en la web

Apariciones en noticias

Data Analytics vs Big Data

Búsquedas en la web

Apariciones en noticias

En Resumen

El procesamiento masivo de datos no es nuevo Diferentes planteamientos en resolución de problemas Nuevas propuestas tecnológicas. Evolución creciente Actualización de herramientas Fomento del Open Source Fomento del analytics Nuevas oportunidades de negocio Nuevas demandas en el sector (Data Scientist = todoterreno) Data Mining y Business Intelligence 2.0

Business Analytics y Data Mining son los procedimientos. Big Data es la tecnología.