1 Big Data The Big Picture Recolección y tratamiento de datos masivos de orígenes diversos, que representan una fuente constante para el análisis y descubrimiento de información útil para la toma de decisiones.
2 TECNOLOGÍAS Trabajaremos con las principales tecnologías del mercado, como Apache Hadoop, Spark y Hbase o MapReduce INFRAESTRUCTURA Llevaremos a cabo proyectos sobre Cloudera, la distribución de Hadoop más utilizada. Pero veremos implementaciones como IBM Big Insights o MapR ALMACENAMIENTO Tendremos ocasión de trabajar con Apache Cassandra y MongoDB y estudiaremos los Big Data tradeoffs entre Bases de datos relacionales y NoSQL. También estudiaremos la idoneidad de las Graph Databases como Neo4j o GraphDB ANÁLISIS Y BI Trabajaremos con Python y R como lenguajes y nos introduciremos en suites como IBM Cognos BI o herramientas de análisis estadístico como SPSS VISUALIZACIÓN Nos adentraremos en el mundo de la visualización avanzada de datos, y trabajaremos con tableau, R y distintas librerías python como NetworkX, matplotlib o geoplotlib entre otras.
3 Perfiles Data Scientist Data Architect Data Analyst Data Engineer Decision Maker Ordena, clasifica y modela los datos y elabora modelos predictivos. Las matemáticas, y las estadísticas sus armas Diseña sistemas de gestión de datos e integra, centraliza y gestiona orígenes de datos. El modelado de datos y los procesos ETL son su ámbito. Recolecta, procesa y realiza análisis estadísticos para llegar a enunciados que representen tendencias o hechos reales. Construyen, m a n t i e n e n y evalúan soluciones Big Data diseñadas por el arquitecto. Apoyan la toma de decisiones con las c o n c l u s i o n e s derivadas del análisis de datos. Las herramientas BI son su medio
4 Itinerario formativo Resumen The Big Picture Introducción al Big Data, Usos y escenarios, aplicaciones. Implicaciones actuales. Perspectiva y evolución. Infraestructura Implementaciones de Hadoop: Cloudera, Hortonworks, MapR y IBM BigInsights Arquitectura Análisis Análisis Estadístico con R, Python. Uso de SPSS Modeler, IBM Cognos BI 01 02 03 04 05 06 Tecnologías Principales actores en el mercado. Apache Hadoop, Hbase, Spark, MapReduce, Cassandra. Fundamentos Almacenamiento NoSQL vs Relational Graph Databases MongoDB Apache Cassandra. Visualización Trabajaremos con las principales librerías Python para visualización. Comandos en R para gráficas, Tableau
5 Distribución del conocimiento Cómo se organiza el contenido 10% 20% 20% 50% Teoría Casos Reales Master Class Ejercicios Fundamentos y Conceptos El objetivo será fundar una base sólida donde los conceptos estén claros y se obtenga una visión actual y holística del Big Data. Experiencia Real Nuestros expertos están trabajando en proyectos de Big Data en empresas de primer nivel. Compartirán con nosotros los casos a los que se enfrentan día a día, y analizaremos juntos las lecciones que han obtenido. Clases Únicas Una vez a la semana recibiremos una master class de un experto en diferentes áreas que nos desvelarán los secretos y conocimientos avanzados que de otra manera tardaríamos años en adquirir. Eminentemente práctico La mayor parte del programa se dedicará a la realización tutorizada de ejercicios prácticos. Estos ejercicios serán guiados al principio pero muchos ejercicios se realizarán en equipo y podrán tener más de una solución.
6 Habilidades Qué habilidades adquiriremos La base Una visión holística del Big Data y las tecnologías y Soluciones a su alcance. Tendencias y futuro. La representación del dato Adquiriremos destreza en la representación de los datos de una forma exhaustiva e intuitiva Big Data Storage Estudiaremos los motores de bases de datos en tres enfoques, nosql, Relacionales y Graph Databases. Trabajaremos con MongoDB Visualization Analytics y BI Big Data Storage Plataforma Hadoop Big Data Fundamentals Analítica, Estadística y Business Intelligence Los datos necesitan un análisis para convertirse en enunciados, trabajaremos con Python, R, SPSS y Cognos Hadoop e implementaciones Adquiriremos dominio de la plataforma y estudiaremos las distribuciones más utilizadas, así como su idoneidad en cada tipo de proyecto.
7 Cómo nos gusta enseñar Nuestra metodología El conocimiento se transmite. Nos apasiona nuestro trabajo y deseamos que n u e s t r o s a l u m n o s participen de nuestra ilusión. El aprendizaje se potencia cuando te diviertes Esto es un hecho, Elconocimiento se adquiere N u e s tra filosofía e s aprender haciendo. Sabemos que es ahí donde necesitas nuestra guía. No te vamos a enseñar nada que puedas buscar tu mismo en Google.
8 Herramientas PRUEBAS DE NIVEL Y APROVECHAMIENTO LABORATORIOS ESCRITORIOS VIRTUALES MASTER CLASSES Y CASOS REALES 04 05 VIRTUAL & REMOTE TRAINING 03 LEARN BY DOING 02 01
9 Cómo seleccionamos a los candidatos Proceso de selección Buscamos a los mejores Hemos puesto mucho esfuerzo en crear estos másteres. Deseamos que todos los participantes disfruten aprediendo tanto como nosotros vamos a disfrutar enseñando. Necesitamos asegurarnos que todos los candidatos tienen las características y capacidades necesarias para aprovechar y asimilar los conocimientos. www.digitaltechinstitute.com/apply
10 Cómo seleccionamos a los candidatos Nuestro proceso de selección Trayectoria Valoramos la experiencia profesional y el perfil del candidato. Ilusión Preferimos una persona apasionada que cien meramente interesadas Expectativas Valoramos las expectativas del candidato hacia el curso. Nos aseguramos de ofrecerte exactamente lo que estás buscando. Conocimientos Nos aseguramos que el candidato disponga de los conocimientos necesarios para aprovechar el itinerario formativo.
11 PRESENTACIÓN Presentación y definición de objetivos. Descripción general de la formación. Claves para sacar el máximo provecho. Entorno de trabajo INTRODUCCIÓN Qué es Big Data y qué no es Big Data. Casos reales de uso. Definiciones. Quién utiliza Big Data. Perfiles. Por qué es importante. FUNDAMENTOS Qué necesitamos saber. Fundamentos de estadística. Conceptos relacionados con data management. Módulo 1 - Fundamentos Establecemos las bases. Manejamos los términos de manera apropiada y definimos términos basándonos en ejemplos. TECNOLOGÍAS Qué es Hadoop, Hive, MaReduce, HDFS. Distributed & Parallel processing y Hadoop clusters. nosql. NewSQL. Alternativas y ecosistema Big Data. INFRAESTRUCTURA Distribuciones Hadoop. Cloudera. Hortonworks. Isotope. IBM BigInsights. ALMACENAMIENTO Una inmersión en el mundo del almacenamiento. Descripción general del ecosistema. Tipos de motores. Datawarehousing. OLTP vs OLAP. SQL vs NoSQL. HDFS. Cassandra. ANALÍTICA Y VISUALIZACIÓN Business Intelligence & Analytics. Herramientas. Formas de representar los datos. Herramientas ara visualización de datos.
12 INTRODUCCIÓN Hablamos de los distintos componentes y la función que cumple cada uno. Computación distribuida. Otras tecnologías en el ecosistema Hadoop. INSTALACIÓN Modos de Instalación. Modo Standalone. Modo pseudo-distribuido. Configurando SSH. Variables de Entorno. Configuración. Iniciando HDFS y YARN. Monitorización. ALMACENANDO DATOS Almacenando datos con HDFS. Escritura y lectura. Comandos HDFS. Nodos. Replicación y recuperación. ETL. Ingestión de datos. Hbase. Módulo 2 - Tecnologías Conoceremos de fondo Apache Hadoop, HDFS, MapReduce y YARN MAPREDUCE Procesando datos con MapReduce. Fases Map y Reduce. Flujo de datos. Implementando MapReduce en Java. Desplegar un jar en Hadoop. Monitorización. YARN Gestión de recursos de cluster. Arquitectura. Daemons. Operación, seguridad y gobierno de datos. Fair scheduler. CPU y Memoria. PLANIFICACIÓN Y TAREAS Anatomía de un Job Run en YARN. Parámetros. Cluster resource Allocation. Colas de trabajos. Ejecutando trabajos en colas específicas. Logs.
13 INTRODUCCIÓN Distribuciones más utilizadas. Cloudera. HortonWorks, MapR. IBM BigInsights. Diferencias, escenarios de idoneidad. HDFS Profundizando en HDFS. NameNode. DataNode. Creando, recuperando y manipulando archivos. Comandos HDFS. Copiando datos a Hadoop. Toleranci a fallos. Módulo 3 - Infraestructura Trabajaremos con la distribución Hadoop más utilizada Cloudera. También profundizaremos en el conocimiento de otras distribuciones como Hortonworks, IBM BigInsights o MapR. Trabajaremos con Impala, Pig, Hue, Spark,.. CLOUDERA Instalación y VMs. Hardware e infraestructura para un cluster. Cloudera Manager. Montar un cluster de servidor con varios nodos. Seguridad. Monitorización IMPALA & PIG Instalación de Impala y pig. Lenguajes de programación. Creando consultas con pig. HUE & OTROS CLIENTES HADOOP Clientes, propósito. Instalando y configurando Hue. Autenticación y autorización. APACHE SPARK Introducción. Instalación. Lenguajes de programación. Appification, RDD. Ingesta de datos, Lambdas. Transformaciones. Acciones. Persistencia. Conversiones implícitas. Java en Spark. Instrumentación y librerías.
14 INTRODUCCIÓN El almacenamiento en Big Data. Problemática y soluciones. Tipos de bases de datos. nosql vs SQL. Graph Databases. Bases de datos MPP Módulo 4 - Almacenamiento Estudiaremos los distintos sistemas de almacenamiento más utilizados en proyectos Big Data y sus implicaciones. Trabajaremos con MongoDB como motor nosql APACHE CASSANDRA Introducción y casos de uso. Arquitectura. Instalación. Replicación y consistencia. Introducción a CQL. Write & read path. Multirow partitions. Compaction. Transacciones, Tipos complejos. MONGODB Introducción e instalación. Escalabilidad. Mongo Shell. Collections, BSON, Operadores. Insert & Updates & Queries. Encontrando documentos. Indexado. Big Data & reporting. HIVE Arquitectura. Esquema. Hive Warehouse. Lenguaje Hive. HiveQL. Ingesta de datos. Bucketing, joins, distributed cache, UDTFs. Funciones analíticas. INGESTA DE DATOS. SQOOP Y FLUME Sqoop y Flume. Ingesta de datos desde DB relacionales con Sqoop. Flume network streams. Multi-agent Flows. Sinks, Channels & Interceptors. HBASE Arquitectura. Diseño de tablas. Relaciones. Nodos de cluster. Hfiles y regions. Scaling y compaction
15 INTRODUCCIÓN La analítica de datos. Herramientas. Introducción al modelado de datos. Relaciones. Normalización. Estadística. Visualización y presentación. ANÁLISIS DE DATOS CON PYTHON Fundamentos de Python. Instalando Python. Ejecutando Programas en Python. Estructuras de datos. Construcciones e iteraciones. Librerías ara análisis. Pandas. NumPy. SciPy. Blaze. Módulo 5 - Análisis Trabajaremos con los datos para obtener correlaciones y conclusiones que nos ayuden en la toma de decisiones. Trabajaremos con Python pero también tendremos ocasión de profundizar en R y nos indotrduciremos en SPSS modeler y Cognos BI INTRODUCCIÓN A R Introducción e instalación. IDEs para R. Variables, operadores. Estructuras de datos, Funciones, control de flujo. Importando datos. Paquetes. Exploración de datos con R. IBM SPSS MODELER Introducción a Data Mining. Trabajando con modeler. Recolección de datos. Entendiendo los datos. Configurando la unidad de análisis. Integrando datos. Derivando y clasificando datos. Relaciones. Modelado. IBM COGNOS BUSINESS INTELLIGENCE Consumo de datos en Cognos BI. Creación de reportes. Espacio de trabajo. Modelos de Metadata. Framework manger. Cube designer. Extendiendo Cognos.
16 INTRODUCCIÓN La analítica de datos. Herramientas. Introducción al modelado de datos. Relaciones. Normalización. Estadística. Visualización y presentación. VISUALIZACIÓN DE DATOS CON PYTHON Fundamentos de Python. Instalando Python. Ejecutando Programas en Python. Estructuras de datos. Construcciones e iteraciones. Librerías ara análisis Módulo 6 - Visualización En éste módulo tendremos ocasión de profundizar más en las herramientas de análisis y proceso, con especial acento en aquellas herramientas y técnicas que nos permiten visualizar los resultados. VISUALIZACIÓN DE DATOS CON R Introducción e instalación. IDEs para R. Variables, operadores. Estructuras de datos, Funciones, control de flujo. Importando datos. Paquetes. Exploración de datos con R. PENTAHO REPORTING & DASHBOARDS Consumo de datos en Cognos BI. Creación de reportes. Espacio de trabajo. Modelos de Metadata. Framework manger. Cube designer. Extendiendo Cognos. TABLEAU Introducción a Data Mining. Trabajando con modeler. Recolección de datos. Entendiendo los datos. Configurando la unidad de análisis. Integrando datos. Derivando y clasificando datos. Relaciones. Modelado.