Desmitificando Big Data: Data Mining y Business Intelligence 2.0 Ignacio Bustillo Ignacio.Bustillo@stratebi.com Twitter: @IgnacioBustillo Fecha presentación: 14 de Noviembre de 2014
'Hello world!' Creador & Organizador Docente universitario
Desmitificando Big Data: Data Mining y Business Intelligence 2.0
Big Data como persona 2014
Qué es BigData?
Este concepto hace referencia a la acumulación masiva de datos. Otras denominaciones son datos masivos o datos a gran escala. En la literatura escrita en lengua hispana con frecuencia se utiliza el término en inglés Big data, como aparece en el ensayo de Viktor Schönberger Big data: La revolución de los datos masivos Wikipedia.org
Barreras tecnológicas en el procesamiento de grandes problemas
Supercomputador ALTAMIRA
Commodity Hardware = Low Cost = Uso masivo
Historia de tecnologías
TECNOLOGÍAS Apache KAFKA 2004 2014
TECNOLOGÍAS 2004 2007 2009 2010 2011 2014
CRONOGRAMA BIG DATA 2004
Un poco de historia Las primeras implementaciones de Google necesitaban realizar operaciones de multplicación de grandes matrices para calcular el PageRank La preocupación por tratar grandes colecciones de datos, llevó a crear algoritmos y frameworks capaces de poder procesar terabytes de información Una de las primeras aplicaciones capaces de programar MapReduce fue implementado y diseñado inicialmente por Doug Cutting
DISTRIBUCIÓN MAP REDUCE
10 Y en 2004 no había datos? Y los bancos? Y las ventas de supermercados?
http://www.nytimes.com/2004/11/14/business/yourmoney/14wal.html?_r=1&
http://www.nytimes.com/2004/11/14/business/yourmoney/14wal.html?_r=1&
Algo raro? No. Data Mining
1996 Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos (Fayyad y otros, 1996) From Data Mining to Knowledge Discovery in Databases
DATA MINING La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Las técnicas de la minería de datos provienen de la inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Wikipedia.org
En 1993, la Universidad de Waikato de Nueva Zelanda inició el desarrollo de la versión original de Weka (en TCL/TK y C) 1993 Fue desarrollado inicialmente por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland en 1993.
Problema Single node. Y la distribución de algoritmos?
Nuevas Propuestas en BigData: DataMining 2.0
Nuevas Propuestas en BigData: DataMining 2.0 http://hortonworks.com/hadoop-tutorial/usingrhadoop-to-predict-visitors-amount/
Nuevas Propuestas en BigData: DataMining 2.0 http://hortonworks.com/hadooptutorial/using-rhadoop-to-predictvisitors-amount/
Nuevas Propuestas en BigData: DataMining 2.0
Nuevas Propuestas en BigData: DataMining 2.0
Nuevas Propuestas en BigData: DataMining 2.0
Nuevas Propuestas en BigData: DataMining 2.0
DATA MINING Algo más que el presente Y LA FOTO ACTUAL? BUSINESS INTELLIGENCE
In 1989, Howard Dresner expanded on the popular umbrella term "Business Intelligence (BI)", originally coined by Hans Peter Luhn in 1958. Dresner defined it to mean "concepts and methods to improve business decision making by using fact-based support systems". Not long after, in response to the need for better BI, companies such as Business Objects, Actuate, Crystal Reports, and MicroStrategy began to emerge, offering to report and analyze company data. Source: A Brief History of Decision Support Systems by D.J. Power. 1989 Conceptos y métodos para mejorar la toma de decisiones basadas en hechos
BUSINESS INTELLIGENCE
Business Intelligence es la habilidad para transformar los datos en información, y la información en conocimiento, de forma que se pueda optimizar el proceso de toma de decisiones en los negocios Solución BI completa permite: Observar: qué está ocurriendo? Comprender: por qué ocurre? Predecir: qué ocurriría? Colaborar. qué debería hacer el equipo? Decidir: qué camino se debe conseguir? Gestión del conocimiento Qué es lo que la empresa está buscando?
Un conjunto de prácticas tecnológicas, herramientas informáticas y conocimientos funcionales aplicados al negocio, que permiten estructurar el acceso a la información, y la información misma, para que sea utilizada en la toma de decisiones en cualquier nivel de una organización
Herramientas por doquier
Herramientas por doquier
20 Vendedores de humo
Big Data y Business Intelligence
Herramientas BI buscan actualizarse Creación de nuevos conectores: Manipulación de datos Visualización de datos El primero que lo tenga es el que tiene éxito
Pentaho Data Integration
Talend Open Studio
Los retos de las tecnologías tradicionales y las propuestas Big Data para procesamiento de datos
RETO 1: Almacenamiento. DBs Relacionales para todo?
Leer datos es costoso Realmente necesitamos transacciones para todo? Cómo escalamos? Todo dominio se representa bien en un modelo relacional?
Not Only SQL (NoSQL) Como respuesta a estos problemas surgió el paradigma NoSQL NoSQL no es un sustituto a las bases de datos relacionales busca otras opciones para escenarios específicos Es solo una forma de decir que no todos los problemas son clavos que pueden ser atacados con un RDBMS El desarrollador cuenta con un abanico de soluciones y puede elegir la mejor para su problema en específico Existen varias formas de NoSQL, que atacan los problema del escalamiento, performance y modelado de los datos de formas distintas.
Tipos de BD Big Data. Not Only SQL (NoSQL) Bases de datos orientadas a documentos Almacenes Key-Value Bases de datos orientadas a objetos Bases de datos orientadas a grafos No sustituyen al modelo relacional. Escenarios específicos.
DBs Clave-Valor Más simples en cuanto su uso VALOR guardado se almacena como un arreglo de bytes (BLOB) El tipo de contenido no es importante para la base de datos, solo la clave y el valor que tiene asociado No necesita definir un esquema (columnas, tipos de datos) para almacenar la información. Escalabilidad: de key X a X+100 en Server 1, de X+101 a X+200 a Server2
DBs orientadas a documentos Un almacén key-value con la excepción de que el valor no se guarda sólo como un campo binario, sino con un formato definido de forma tal que el servidor pueda entender la diferencia es que el campo binario puede ser entendido por la base de datos
DBs orientadas a objetos Se basan en el paradigma orientado a objetos y no en el modelo relacional No se basan en claves primarias sino en OID Pueden representar relaciones jerárquicas Las relaciones entre tablas son a través de punteros a objetos Las bases orientadas a objetos nunca tuvieron el impacto esperado, pero tienen varios nichos específicos como algunas aplicaciones de carácter científico
30 DBs orientadas a grafos Almacenan los datos en forma de grafo. Da importancia no solo a los datos, sino a las relaciones entre ellos Más eficiente navegar entre relaciones que en un modelo relacional Sólo son aprovechables si tu información se puede representar fácilmente como una red
2004 2007 2009 2010 2011 2014
RETO 2: Procesamiento Cómo procesamos la cantidad ingente de datos?
Supercomputador vs Cluster con commodity hardware
Las primeras implementaciones de Google necesitaban realizar operaciones de multplicación de grandes matrices para calcular el PageRank La preocupación por tratar grandes colecciones de datos, llevó a crear algoritmos y frameworks capaces de poder procesar terabytes de información con commodity HW Una de las primeras aplicaciones capaces de programar MapReduce fue implementado inicialmente en Hadoop, diseñado inicialmente por Doug Cutting
Divide y vencerás
Programación Java
Operaciones en disco (HD) Y la memoria?
DB COLUMN El viejo que revive
VS
RETO 3: Real Time Antes existía?
Real Time: Procesamiento
Real Time: Flujos y colas
Nuevos modelos de negocio Fomento distribución de datos: APIficación Fomento de enriquecimiento de soluciones analíticas Impulso al Cloud
Puntos geoposicionados www.factual.com
Menciones de marcas www.explorabrand.com
Infraestructura Cloud y otros servicios
GRAN BENEFICIADO: OPEN SOURCE
NUEVOS EQUIPOS: DATA SCIENTIST
Big Data, Data Mining, Business Intelligence
Búsquedas en la web
Apariciones en noticias
Data Analytics vs Big Data
Búsquedas en la web
Apariciones en noticias
En Resumen
El procesamiento masivo de datos no es nuevo Diferentes planteamientos en resolución de problemas Nuevas propuestas tecnológicas. Evolución creciente Actualización de herramientas Fomento del Open Source Fomento del analytics Nuevas oportunidades de negocio Nuevas demandas en el sector (Data Scientist = todoterreno) Data Mining y Business Intelligence 2.0
Business Analytics y Data Mining son los procedimientos. Big Data es la tecnología.