www.consultec.es Introducción a Big Data

Documentos relacionados
Big Data Analytics & IBM BIG INSIGHT

CURSO: DESARROLLADOR PARA APACHE HADOOP

Tabla de Contenido. iii

Marco Tulio Gómez. Business Intelligence Consultant Soluciones Computarizadas. #sqlsatmexico. Data Factory

INTRODUCCION. Cátedra Electiva: "Big Data: Arquitecturas y Estrategias de Análisis de Datos Masivos 1

ANALÍTICA DE BIG DATA (BDA)

Big Data, qué es y su impacto en las áreas de Riesgo y Crédito. Augusto Umaña Ruiz. Banco Davivienda. Gerente de Inteligencia de Negocios

Diplomado en Gestión de Grandes Volúmenes de Datos (Big Data)

Laguna de datos en acción: Análisis de loop cerrado y en tiempo real de Hadoop

CURSOS BIGDATA. Para más información y costos: Lic. Nayana Guerrero

HADOOP LIVE. 12 de diciembre de 2017

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1

Big data A través de una implementación

MS_20467 Designing Business Intelligence Solutions with Microsoft SQL Server 2014

BIG DATA: Una mirada tecnológica

Andres Felipe Rojas / Nancy Gelvez. UNESCO UNIR ICT & Education Latam Congress 2016

DESARROLLO APLICACIONES BUSINESS INTELLIGENCE CON MS SQL SERVER Big Data

Introducción a Tecnologías Big Data

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO

MÁster en Data Science y Arquitectura Big Data_ DURACIÓN: 248 HORAS

IFCT0109_SEGURIDAD INFORMÁTICA (RD 686/2011, de 13 de mayo modificado por el RD 628/2013, de 2 de agosto)

Software Libre para Aplicaciones de Big Data

SharePoint 2013 Avanzado - Business Intelligence Duración: 40 horas Código: MS-55063

Toda nuestra Experiencia a tu alcance

Hadoop. Cómo vender un cluster Hadoop?

HDInsight. Big Data, al estilo Microsoft

Introducción a Big Data y su aplicación en el entono asegurador. Fernando Turrado García Octubre 2016

Hora 1 1. Introducción 2. Web semántica 2.1 Ontologías 2.2 Lenguajes 2.3 Ejemplos 2.4 Estado actual Microformatos 2.4.

Developer Training for Spark and Hadoop

Big Data y Seguridad

MÁSTER: MÁSTER EXPERTO EN BIG DATA

Big Data y Manejo de Datos Maestros

BIG DATA MARÍA PARRA AMAT. Almería, 5 junio 2015

MÁSTER EN BIG DATA MANAGEMENT & DATA ENGINEERING. Master

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

Acelerando la innovación con Apache Spark. Ricardo Barranco Fragoso IBM Big Data & Analytics Specialist

CURSO DE APACHE SPARK_

Arancha Pintado. Perfiles Big Data.

PROGRAMA FORMATIVO: ANALISTA DE DATOS BIG DATA CLOUDERA

Abril 1, 2017 Santiago, Chile

MÁSTER: MÁSTER BIG DATA ANALYTICS

BIG DATA. Jorge Mercado. Software Quality Engineer

MS_20467 Designing Self-Service Business Intelligence and Big Data Solutions

XII Encuentro Danysoft en Microsoft Abril Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código

CURSO ONLINE: ARQUITECTURAS BIG DATA

Inteligencia de Negoción con GlobalDataMED

Métodos y herramientas para analizar la información y facilitar la toma de decisiones empresariales.

Fundamentos de Bases de Datos. Práctica 1.

SQL Server SQL Server 2008 y 2008 R2. SQL Server SQL Server 2014

Modelos Multidimensionales con Analysis Services Primeros Pasos

Nuestra 1ª experiencia con Wave Analytics

La importancia de Big Data en finanzas

Conectores Pentaho Big Data Community VS Enterprise

CURSO: APACHE SPARK CAPÍTULO 1: INTRODUCCIÓN.

Noviembre18, 2017 Concepción, Chile. #sqlsatconce

Computadora. Una computadora es un dispositivo electrónico, que opera bajo el control de instrucciones almacenadas en su propia memoria.

en Big Data y Business Analytics

Toda nuestra Experiencia a tu alcance

Objetivos: Descripción del curso. Curso: Dirigido a: Big Data - Administración I UNIVERSIDAD NACIONAL DE INGENIERÍA Ê Ê Ê Ê Ê.

Coordinación de Formación de Capital Humano en el Campo Espacial. Mario M. Arreola Santander

Calidad de datos y Big Data

Mitos y Realidades del Big Data -Introducción al Big Data-

Big Data. Rodolfo Campos

UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS DEPARTAMENTO DE CIENCIAS DE LA COMPUTACIÓN

Arquitectura de sistemas

Big Data, MapReduce y. Hadoop. el ecosistema. Bases de Datos No Relacionales Instituto de Computación, FING, UdelaR 2016

20762 Developing SQL Databases

Raúl Saráchaga. Explorando los sabores de Azure Data Warehouse

Big Data Analytics: propuesta de una arquitectura

Taller Big Data - Parte 1

Base Trabajo Practico BIG DATA

Estado actual de los Bots en la Empresa , N e c s i a I T C o n s u l t i n g. C o n f i d e n t i a l

Web GIS y Big Data en los análisis de tendencias y comportamientos

Bases de datos distribuidas Fernando Berzal,

Azure. Plan de Estudio

El contenido del curso será desarrollado teniendo en cuenta los siguientes objetivos de aprendizaje:

Sistemas de Big Data El nuevo paradigma de los datos masivos. Jordi Casas Roma Carles Garrigues Olivella

BUSINESS INTELLIGENCE

SaciLab / SaciWeb CARACTERÍSTICAS TÉCNICAS Y FUNCIONALES

20767A Implementing a SQL Data Warehouse

Introducción al Big Data

PROGRAMA FORMATIVO: DESARROLLADOR SPARK BIG DATA CLOUDERA

Técnico Profesional en SQL Server 2014: Especialista Business Intelligence

Big Data para operadores de red y DNS. GORE 18 Madrid, Octubre 2016 Sebastian Castro NZRS

Arquitectura de sistemas: Título: AnalyticsMOOC- Solución TIC Big Data para entornos MOOC Número de expediente: TSI

CURSO PRESENCIAL EN MADRID: ARQUITECTURAS BIG DATA

Social Big Data. Ignacio Bustillo Fecha presentación: 13 de Noviembre de 2014

TP3 - Sistemas Distribuidos Map-Reduce

Especialidad en Sistemas de Información

Tema 3 Aplicaciones Ofimáticas

Asumir el control de big data: soluciones de análisis y almacenamiento para obtener información de gran impacto sobre el negocio

Grupo Binario Dominicano. Diplomado Creación de Informes Empresariales con SQL Server y Reporting Services

BIG DATA EN EL SISTEMA DATATUR- ESTADISTICAS TURISTICAS DE TURESPAÑA

CATALOGO DE CURSOS VNIVERSITAS ON-LINE INFORMÁTICA. Consultoría de Form ación i Marketing. Magister in Negotiis Adm inistrandis

Especialidad en Sistemas de Información

Roadmap para la adopción de nuevas arquitecturas de información

Curso Implementing Data Models and Reports with Microsoft SQL Server 2014 (20466)

Microsoft SQL Server. Percepciones más profundas a través de los datos Documento estratégico técnico. Publicado: Junio de 2015

CL_ Quick Microsoft SQL Server 2012 Analysis Services.

Transcripción:

Introducción a Big Data

Quiénes somos? Gorka Armen+a Developer garmen+a@consultec.es @joruus Iñaki Elcoro Developer ielcoro@consultec.es @iceoverflow

Índice 1. Introducción 2. Qué no es Big Data? 3. Qué es Big Data? 4. Utilidades 5. Ejemplo real: Walmart 6. Características Técnicas 7. Markets de Datos 8. Hadoop 9. Microsoft HDInsight 10.Demo

Introducción Big Data es desde hacer un par de años una de las grandes tendencias dentro del mundo de la tecnología y del marketing, uno de esos buzzwords que en un momento dado empiezan a propagarse y aparecer por todo internet, las grandes empresas se interesan por ello, se crea una industria alrededor y, de repente, todo el mundo sabe lo que es Big Data. O no BIG DATA

Qué no es Big Data? Antes de empezar, lo primero es desengañarnos. Big Data no es una base de datos enorme Big Data no es un data warehouse enorme Big Data no es una nueva forma de Business Intelligence Big Data no es llevar las base de datos a la nube

Qué es Big Data? - Situación actual emails Información generada por apps móviles GPS Bases de Datos Relacionales Archivos (XML, Logs, ) Redes Sociales RFID Información generada por máquinas Big Data Bases de Datos Analí+cas (Data Warehouse) ERP/CRM APIs Sensores Y mucho más. Y lo que está por venir Base de Datos NoSQL Internet de las Cosas

Qué es Big Data? - Definiciones Definiciones encontradas en internet Información que tiene un orden de magnitud más grande de lo que estamos acostumbrados. Información que es muy grande y no se ajusta a las estructuras de las bases de datos actuales. Es un conjunto de datos cuyo tamaño está más allá de la capacidad de la mayoría de los software utilizados para capturar, gestionar y procesar la información dentro de un lapso tolerable de tiempo.

Qué es Big Data? - Las 3 Vs Volume: grandes volúmenes de información Se está pasando de hablar en Gigabytes o Terabytes a tamaños de datos de Petabytes, Exabytes o Zettabytes. Volúmenes que se nos escapan.

Qué es Big Data? - Las 3 Vs Variety: información de tipos muy diversos Ya no solo tenemos información estructurada en Bases de Datos o Archivos. Ahora empezamos a tener información con tipos diferentes y totalmente desestructurada.

Qué es Big Data? - Las 3 Vs Velocity: velocidad con la que se genera la información La velocidad a la que se genera esta información hace imposible gestionarla con sistemas de base de datos convencionales. Las empresas y las personas ya no quieren estar al día, quieren estar al segundo.

Qué es Big Data? Retos actuales Dar sentido al gran volumen de datos Necesitamos las herramientas adecuadas para dar sentido de la abrumadora cantidad de datos generados por la disminución de los costos de hardware y de las fuentes de datos complejas. La comprensión de una variedad cada vez mayor de datos Debemos poder analizar datos tanto relacionales como no relacionales. Más del 85% de los datos capturados son desestructurados. Habilitación de análisis en tiempo real de los datos Los nuevos grandes generadores de datos (Twitter, Facebook, ) están produciendo volúmenes de datos sin precedentes y en tiempo real, lo que no se puede analizar eficazmente mediante procesos por lotes normales.

Qué es Big Data? - Entendimiento: de los datos a la sabiduría Sabiduría Experiencia Contexto Conocimiento Información Datos

Utilidades Toma de decisiones El valor del Big Data no es la información, sino la nueva forma de toma de decisiones basada en evidencias y datos empíricos. Tomar decisiones en base a datos empíricos y tendencias Tomar decisiones en base a corazonadas, instinto o experiencias pasadas

Utilidades Transparencia Compartir y hacer accesible grandes volúmenes de datos a las partes interesadas y de manera oportuna puede crear un enorme valor y aumentar la eficiencia.

Utilidades Experimentación Una vez recopilados los datos que nos interesan, la experimentación y la exploración de los mismos puede mostrarnos información que a primera vista nunca hubiésemos encontrado o que nunca se nos hubiese ocurrido buscar.

Utilidades Innovación Permite crear nuevos productos y servicios, mejorar los existentes e, incluso, crear nuevos modelos de negocio.

Ejemplo real: Walmart Walmart es una multinacional de grandes almacenes Es la segunda mayor empresa del mundo por ingresos

Ejemplo real: Walmart Algunos datos: 200 millones de clientes a la semana 10700 tiendas 27 países 2 millones de trabajadores 1,5 millones de transacciones por hora Varios Terabytes de información generada en tiempo real Base de datos de 3 Petabytes

Ejemplo real: Walmart Guardando todas las compras de todos los clientes se dieron cuenta que en época de huracanes los Walmart de las zonas afectadas vendían más cajas de Pop-Tarts que en otras épocas. Se indicó a los gerentes de las tiendas que en esas épocas pusiesen los Pop-Tarts en la entrada de las tiendas. Resultado: Aumento extraordinario de las ventas A quién se le hubiese ocurrido cruzar los datos de ventas con los datos meteorológicos o con los calendarios de huracanes?

Ejemplo real: Walmart Hanna twitea: I love Salt!. En unos segundos el Tweet llega a los sistemas de Walmart, se analiza y unos minutos más tarde le llega a una amiga suya el siguiente email: Buenos días! Nos pediste que te avisásemos cuando fuese el cumpleaños de Hanna. Pues ya está aquí y acaba de tweetear algo bueno sobre la película Salt de Angelina Jolie. Quieres regalarle algo relacionado con ello? Tenemos algunas sugerencias que hacerte

Ejemplo real: Walmart Social Genome Base de conocimiento que captura entidades y relaciones del mundo social. Obtiene entidades de su base de datos, de otros datos tanto públicos como privados y de redes sociales.

Ejemplo real: Walmart Social Genome Se identifican las entidades interesantes y las relacionan entre sí, consiguiendo toda la información de la que son capaces. Es un sistema vivo, en constante evolución. Una persona interesada en un tema Una persona que asiste a un evento Un evento sobre un tema Una asociación entre empresa y producto

Ejemplo real: Walmart Resumiendo

Características Técnicas Arquitectura Alta escalabilidad Procesamiento paralelo Baja latencia Datos no estructurados y estructurados NoSQL By-pass de datos

Características Técnicas Key-Value Pair La forma más sencilla de almacenamiento de datos en un entorno de Big Data y NoSQL Los datos no están controlados por el sistema, por lo tanto los desarrolladores deberán pensar muy bien donde y como almacenan los datos

Markets de Datos Además de las fuentes de datos que tengamos en nuestra organización: bases de datos, emails, logs, documentos, etc Podemos acceder a grandes volúmenes de datos (Data Sets) en los markets. Hay gratuitos y de pago.

Hadoop Es una plataforma diseñada para almacenar y analizar grandes volúmenes de datos de diferentes tipos. Basada en Google Map/ Reduce y Google Filesystem. Map/Reduce: Map: trabajos desarrollados por nosotros. Se distribuyen las tareas en diferentes nodos y se ejecutan en paralelo. Esto genera una información intermedia. Reduce: fusiona la información intermedia y se la ofrece al usuario. HDFS (Hadoop Distributed File System): Sistema de archivos distribuidos, con replicación automática y optimizado para lectura. Cada fichero se partición y se distribuye en todos los servidores.

Hadoop Otros proyectos alrededor de Hadoop Hive: Data Warehouse sobre Hadoop con lenguaje HiveQL ( SQL ). Pig: Lenguaje de script para consulta y análisis de la información. Desarrollado por Yahoo!. Sqoop: Framework para la integración de bases de datos relacionales. Flume: Servicio para recolectar, agregar y mover grandes volúmenes de datos de eventos/logs.

Microsoft HDInsight Servicio basado en Hadoop. Dos versiones: Windows Azure HDInsight (on-demand) HDInsight Server (on-premise)

Microsoft HDInsight Acceso a todo tipo de usuarios, incluidos desarrolladores y profesionales IT. Fácil instalación, administración y configuración. Integración con herramientas conocidas como Excel, PowerPivot, PowerView, SQL Server Analysis Services o Reporting Services..NET SDK para Hadoop (a través e NuGet): Map/Reduce LINQ to Hive WebHDFS Client

DEMO

Gracias!

Dudas? Gorka Armen+a Developer garmen+a@consultec.es @joruus Iñaki Elcoro Developer ielcoro@consultec.es @iceoverflow