ANALÍTICA DE BIG DATA (BDA)

Documentos relacionados
Big Data Analytics & IBM BIG INSIGHT

CURSO: DESARROLLADOR PARA APACHE HADOOP

MÁSTER EN BIG DATA MANAGEMENT & DATA ENGINEERING. Master

DESARROLLO APLICACIONES BUSINESS INTELLIGENCE CON MS SQL SERVER Big Data

Introducción a Big Data

CURSO DE APACHE SPARK_

BIG DATA: Una mirada tecnológica

Intel lanza su procesador Caballero Medieval habilitado para Inteligencia Artificial

FACULTAD DE INGENIERÍA

LICENCIATURA EN CIENCIAS COMPUTACIONALES. Este programa educativo se ofrece en las siguientes sedes académicas de la UABC:

La educación como protagonista del futuro productivo. José Luis Roces Rector ITBA

Licenciado en Ciencias Computacionales Plan

HADOOP LIVE. 12 de diciembre de 2017

en Big Data y Business Analytics

YO, CIENCIA DE DATOS. BIG DATA DAY Facultad de Ciencias, UNAM Ciudad de México, marzo 2016

Diplomado Big Data. Educación Profesional Escuela de Ingeniería Pontificia Universidad Católica de Chile 1

IFCT0109_SEGURIDAD INFORMÁTICA (RD 686/2011, de 13 de mayo modificado por el RD 628/2013, de 2 de agosto)

MÁSTER: MÁSTER BIG DATA ANALYTICS

Acelerando la innovación con Apache Spark. Ricardo Barranco Fragoso IBM Big Data & Analytics Specialist

TABLA DE EQUIVALENCIAS DE ASIGNATURAS PLAN DE ESTUDIOS PROPUESTO PLAN DE ESTUDIOS

Mitos y Realidades del Big Data -Introducción al Big Data-

PLAN DE ESTUDIOS

Arquitectura de sistemas: Título: AnalyticsMOOC- Solución TIC Big Data para entornos MOOC Número de expediente: TSI

1 o GII. Universidad de Murcia Facultad de Informática. Calendario de Exámenes 2018 Convocatoria de junio

Big Data y Análisis de Sentimiento

Buenas prácticas para la implementación de herramientas de Ciencia de Datos Leonardo Alfonso Ramos Corona Facultad de Geografía, UAEM.

Introducción a Tecnologías Big Data

LAS 14 AREAS TEMATICAS DE LA COMPUTACIÓN

Hora 1 1. Introducción 2. Web semántica 2.1 Ontologías 2.2 Lenguajes 2.3 Ejemplos 2.4 Estado actual Microformatos 2.4.

CURSOS BIGDATA. Para más información y costos: Lic. Nayana Guerrero

PROGRAMA FORMATIVO: ANALISTA DE DATOS BIG DATA CLOUDERA

INTRODUCCION. Cátedra Electiva: "Big Data: Arquitecturas y Estrategias de Análisis de Datos Masivos 1

CURSO: APACHE SPARK CAPÍTULO 1: INTRODUCCIÓN.

Web GIS y Big Data en los análisis de tendencias y comportamientos

SUMILLAS DE ASIGNATURAS ELECTIVAS DEL PLAN DE ESTUDIOS

Secretaría de Educación de la Ciudad de México Dirección Ejecutiva de Educación Media Superior y Superior

Big Data, qué es y su impacto en las áreas de Riesgo y Crédito. Augusto Umaña Ruiz. Banco Davivienda. Gerente de Inteligencia de Negocios

Introducción a la Ciencia de Datos

Plan de estudios LICENCIATURA EN TECNOLOGIAS DE LA INFORMACION

157 - GRADO EN INGENIERÍA INFORMÁTICA PRIMER CURSO CURSO

Azure. Plan de Estudio

Big Data Análisis de Datos

DATA SCIENCE EN EL MUNDO REAL

BUSINESS INTELLIGENCE

Sistemas de Información Gerencial. Tema 7: BIG DATA. Ing. Francisco Rodríguez Novoa

Curso Especializado. en Internet of Things e Industria 4.0. PROGRAMA

PROGRAMA SUPERIOR EN INTERNET DE LAS COSAS E INDUSTRIA 4.0. Programa Superior

Grado en Ingeniería Informática

BUSINESS ANALYTICS & BIG DATA UNIVERSIDAD NACIONAL DE INGENIERIA. II y III PROGRAMA DE ESPECIALIZACION EN

ARQUITECTURAS. Carlos Reveco D. IN73J Arquitectura, Diseño y Construcción de un Negocio con Apoyo TI.

Transcripción:

ANALÍTICA DE BIG DATA (BDA) Tendencias Retos Oportunidades Fabián García Nocetti IIMAS-UNAM CAACFMI-UNAM AMIAC

Ciencia de Datos y Big Data Analítica de Big Data (BDA) Aplicaciones Arquitectura General para BDA Oportunidades-Retos-Tendencias Conclusiones

Crecimiento explosivo cantidad de datos Generados a grandes velocidades Distintos formatos y diferentes fuentes Redes sociales, dispositivos móviles, sensores, etc. Necesidad de extraer Patrones, tendencias y/o conocimiento De forma rápida y eficiente

Evolución de métodos tradicionales Rendimiento Escalabilidad Contenido de valor que genera permite Mejora en toma de decisiones Obtención de ventajas competitivas Diferentes campos de acción

Ciencia de Datos Ciencia de datos y Big Data

Ciencia de Datos Ciencia de datos y Big Data Big Data: Debe involucrar cómputo distribuido en múltiples servidores. Debe entremezclar gestión y procesamiento de datos. Debe ir más allá de las bases de datos relacionales y data warehouses. Debe permitir resultados que no estaban disponibles con los enfoques anteriores, o que llevarían sustancialmente mucho más tiempo (tiempo de ejecución o latencia).

Ciencia de Datos Ciencia de datos y Big Data Ciencia de Datos: Debe involucrar conocimientos de uno o más dominios (por ejemplo finanzas, medicina o geología). Debe tomar en cuenta aspectos computacionales. Debe incluir técnicas científicas tales como la prueba de hipótesis y la validación de resultados. Los resultados deben ser confiables. Debería involucrar más matemáticas y estadísticas que los enfoques anteriores..

Ciencia de Datos Ciencia de datos y Big Data Ciencia de Datos: Debería incluir el aprendizaje automatizado (machine learning), inteligencia artificial o algoritmos de descubrimiento de conocimiento (knowledge discovery). Debería implicar la visualización y creación rápida de prototipos para el desarrollo de software. Debe satisfacer al menos uno de estos deberes en un nivel perturbador.

Big Data Avance tecnológico ha permitido un crecimiento explosivo de datos generados Fuentes: redes sociales, dispositivos móviles, sensores, máquinas de rayos x, telescopios, sondas espaciales, log de aplicativos, sistemas de predicción del clima, sistemas de geo-posicionamiento y, en términos generales, lo que se puede clasificar como Internet de las Cosas"

Big Data Necesidad de extraer patrones, tendencias y/o conocimiento para apoyar la toma de decisiones. Métodos tradicionales de procesamiento de datos han tenido que evolucionar rápidamente (escalabilidad y rendimiento). A este fenómeno se le ha llamado Big Data. Referencia principalmente a tres términos conocidos como las 3 Vs: Volumen, Velocidad y Variedad.

Big Data

Big Data BD incluye técnicas, tecnologías, métodos y paradigmas que apoyan la solución de problemas relacionados con datos de una forma diferente y más adecuada que los métodos tradicionales. BD permite nuevas y mejores formas de procesar información. Ventajas sobre los enfoques tradicionales (velocidad, costos de implementación, escalabilidad, flexibilidad y elasticidad)

Big Data Enfoques orientados a la computación distribuida y el procesamiento paralelo masivo. Convergentes también con la computación en la nube y nuevas formas de almacenar los datos mediante modelos no relacionales. Existen arquitecturas de referencia patrones de diseño y tendencia de S/W y H/W para facilitar el uso de BD.

Big Data Google, Yahoo y Amazon han investigado y desarrollado proyectos de gran relevancia y escala, resolviendo problemas inherentes a la gestión de BD. Surgieron modelos de almacenamiento distribuido de datos: BigTable (Google), Dynamo (Amazon) y derivados. Arquitecturas y algoritmos de PPM: MapReduce, Google File System, Apache Hadoop y Hadoop File System, orientados para trabajar con BD.

Big Data Estas tecnologías de procesamiento de datos y servicios en la nube han sido utilizadas y apropiadas por por otros sectores que generan BD: Comercio electrónico Gobierno Salud Ciencia (física, bioinformática, astronomía y genética)

BDA Pero los datos almacenados y gestionados no representan por si solos una ventaja. Lo verdaderamente importante: VALOR que se puede generar a partir de estos datos. Se ha logrado aumentar la productividad de las empresas mediante el entendimiento de sus nichos de mercado. Gobierno: descubrir patrones demográficos a partir de datos de las redes sociales, diarios electrónicos y otros para la toma de decisiones de diferente índole.

BDA

BDA Ciencia: analizar datos generados en diferentes áreas de investigación (astronomía, meteorología, computación social y bioinformática) para obtener patrones y tendencias que han permitido entender procesos físicos, naturales, químicos y genéticos. Cuarta V (Valor) o Big Data Analytics Principal reto: transformar la Big Data en conocimiento y llevar estas aplicaciones a las organizaciones.

BDA Las organizaciones agregan retos adicionales: Costo computacional Seguridad informática Integración con otros sistemas Volatilidad de los requisitos Otros aspectos de cada negocio o área de dominio.

BDA Aplicaciones Las áreas de aplicación de Big Data Analytics han sido las mismas durante varios años Actualmente pueden verse más beneficiadas por las ventajas que ofrece la revolución de los datos y los nuevos métodos y técnicas de Big Data Analytics. La productividad y competitividad de las empresas y la administración pública se pueden incrementar gracias a Big Data.

BDA Aplicaciones En las disciplinas científicas La computación social y personal El comercio y los negocios El gobierno y la administración pública La salud y el cuidado humano Los servicios públicos y la manufactura BDA incide como acelerador de su desarrollo.

BDA Aplicaciones

BDA Aplicaciones

Arquitectura para BDA Extraer el Valor ha generado diversos retos computacionales Las tecnologías tradicionales utilizadas para el procesamiento de datos no logran satisfacer todas las Escalabilidad, rendimiento, almacenamiento, tiempo de procesamiento, entre otras. Las tecnologías de BD se apoyan en tres pilares: Sistemas de Archivos Distribuidos, Bases de Datos Escalables y Software de Procesamiento en Paralelo.

Arquitectura para BDA ARQUITECTURA Analítica de Big Data Componente Hadoop La plataforma de computación en la nube Hadoop es un framework que permite el procesamiento distribuido de grandes cantidades de datos sobre clústeres de computadoras. MapReduce Modelo de programación y ejecución para el procesamiento y generación de BD, basado en el método divide y vencerás. Diivide el problema complejo en muchos sub-problemas hasta que estos sean escalables, de tal manera que puedan ser resueltos directamente.

Arquitectura para BDA

Arquitectura para BDA Algunas de las herramientas y tecnologías más usadas son: Ambari. Herramienta para configuración de clústeres Hadoop. NoSql. Bases de datos escalables para almacenar y procesar grandes volúmenes de datos. Apache Hive. Sistema de data warehouse sobre Hadoop. Apache Oozie. Orquestador de tareas relacionadas con el ecosistema Hadoop. Apache Sqoop. Herramienta de ETL diseñada para transferir de forma eficiente información entre Hadoop y bases de datos relacionales.

Arquitectura para BDA Algunas de las herramientas y tecnologías más usadas son: Apache Pig. Proporciona un lenguaje de alto nivel para simplificar a los usuarios de Hadoop en análisis de grandes volúmenes de datos. Apache ZoopKeeper. Herramienta de sincronización de clusters Hadoop. Apache Flume. Herramienta para capturar, analizar y monitorizar datos de ficheros de log. Apache Avro. Sistema de serialización de datos. Apache Mohout. Plataforma de aprendizaje autónomo y data mining construida sobre Hadoop. Apache Spark. Altenativa a Hadoop que se basa en el almacenamiento de datos en memoria.

Oportunidades

Retos Captura, Almacenamiento, Transmisión, Procesamiento, Curación, Análisis, Visualización, Seguridad, Escalabilidad, Desempeño y Consistencia Tangenciales a los retos que enfrentan las organizaciones para ingresar y tener éxito en el mundo de Big Data Analytics.

Tendencias Cuando se habla de tendencias en Big Data, generalmente se refieren a tres grupos principales: Tendencias en Almacenamiento, Tendencias en Comunicaciones y Tendencias en Software Stack. Apache Hadoop NoSQL y Sistemas Híbridos Data Analytics as a Service (DAaaS) Compresión de Datos

Tendencias In-database Analytics Arquitecturas caracterizadas por su temporalidad. Arquitecturas caracterizadas por el almacenamiento y representación de los datos Arquitecturas caracterizadas por la plataforma para el cómputo de los datos

Conclusiones La revolución de los datos ha generado mayores ventajas y beneficios en diversos sectores, como la salud, la ciencia, los negocios y el gobierno Esto ha permitido mejorar la calidad de vida de las personas y contribuir con el desarrollo de las regiones que hacen uso de la misma. Sin embargo, también ha traído nuevos desafíos que no se contemplaban en los métodos tradicionales.

Conclusiones Los desafíos van desde la captura y almacenamiento de los datos, hasta su análisis e interpretación. A d i c i o n a l m e n t e, l a c u l t u r a e n l a s organizaciones es otro reto para Big Data Analytics, ya que deben ser conscientes de sus necesidades (estratégicas, económicas, funcionales) antes de abordar problemas de este tipo; de lo contrario, dichas implementaciones podrían fracasar.