ANALÍTICA DE BIG DATA (BDA) Tendencias Retos Oportunidades Fabián García Nocetti IIMAS-UNAM CAACFMI-UNAM AMIAC
Ciencia de Datos y Big Data Analítica de Big Data (BDA) Aplicaciones Arquitectura General para BDA Oportunidades-Retos-Tendencias Conclusiones
Crecimiento explosivo cantidad de datos Generados a grandes velocidades Distintos formatos y diferentes fuentes Redes sociales, dispositivos móviles, sensores, etc. Necesidad de extraer Patrones, tendencias y/o conocimiento De forma rápida y eficiente
Evolución de métodos tradicionales Rendimiento Escalabilidad Contenido de valor que genera permite Mejora en toma de decisiones Obtención de ventajas competitivas Diferentes campos de acción
Ciencia de Datos Ciencia de datos y Big Data
Ciencia de Datos Ciencia de datos y Big Data Big Data: Debe involucrar cómputo distribuido en múltiples servidores. Debe entremezclar gestión y procesamiento de datos. Debe ir más allá de las bases de datos relacionales y data warehouses. Debe permitir resultados que no estaban disponibles con los enfoques anteriores, o que llevarían sustancialmente mucho más tiempo (tiempo de ejecución o latencia).
Ciencia de Datos Ciencia de datos y Big Data Ciencia de Datos: Debe involucrar conocimientos de uno o más dominios (por ejemplo finanzas, medicina o geología). Debe tomar en cuenta aspectos computacionales. Debe incluir técnicas científicas tales como la prueba de hipótesis y la validación de resultados. Los resultados deben ser confiables. Debería involucrar más matemáticas y estadísticas que los enfoques anteriores..
Ciencia de Datos Ciencia de datos y Big Data Ciencia de Datos: Debería incluir el aprendizaje automatizado (machine learning), inteligencia artificial o algoritmos de descubrimiento de conocimiento (knowledge discovery). Debería implicar la visualización y creación rápida de prototipos para el desarrollo de software. Debe satisfacer al menos uno de estos deberes en un nivel perturbador.
Big Data Avance tecnológico ha permitido un crecimiento explosivo de datos generados Fuentes: redes sociales, dispositivos móviles, sensores, máquinas de rayos x, telescopios, sondas espaciales, log de aplicativos, sistemas de predicción del clima, sistemas de geo-posicionamiento y, en términos generales, lo que se puede clasificar como Internet de las Cosas"
Big Data Necesidad de extraer patrones, tendencias y/o conocimiento para apoyar la toma de decisiones. Métodos tradicionales de procesamiento de datos han tenido que evolucionar rápidamente (escalabilidad y rendimiento). A este fenómeno se le ha llamado Big Data. Referencia principalmente a tres términos conocidos como las 3 Vs: Volumen, Velocidad y Variedad.
Big Data
Big Data BD incluye técnicas, tecnologías, métodos y paradigmas que apoyan la solución de problemas relacionados con datos de una forma diferente y más adecuada que los métodos tradicionales. BD permite nuevas y mejores formas de procesar información. Ventajas sobre los enfoques tradicionales (velocidad, costos de implementación, escalabilidad, flexibilidad y elasticidad)
Big Data Enfoques orientados a la computación distribuida y el procesamiento paralelo masivo. Convergentes también con la computación en la nube y nuevas formas de almacenar los datos mediante modelos no relacionales. Existen arquitecturas de referencia patrones de diseño y tendencia de S/W y H/W para facilitar el uso de BD.
Big Data Google, Yahoo y Amazon han investigado y desarrollado proyectos de gran relevancia y escala, resolviendo problemas inherentes a la gestión de BD. Surgieron modelos de almacenamiento distribuido de datos: BigTable (Google), Dynamo (Amazon) y derivados. Arquitecturas y algoritmos de PPM: MapReduce, Google File System, Apache Hadoop y Hadoop File System, orientados para trabajar con BD.
Big Data Estas tecnologías de procesamiento de datos y servicios en la nube han sido utilizadas y apropiadas por por otros sectores que generan BD: Comercio electrónico Gobierno Salud Ciencia (física, bioinformática, astronomía y genética)
BDA Pero los datos almacenados y gestionados no representan por si solos una ventaja. Lo verdaderamente importante: VALOR que se puede generar a partir de estos datos. Se ha logrado aumentar la productividad de las empresas mediante el entendimiento de sus nichos de mercado. Gobierno: descubrir patrones demográficos a partir de datos de las redes sociales, diarios electrónicos y otros para la toma de decisiones de diferente índole.
BDA
BDA Ciencia: analizar datos generados en diferentes áreas de investigación (astronomía, meteorología, computación social y bioinformática) para obtener patrones y tendencias que han permitido entender procesos físicos, naturales, químicos y genéticos. Cuarta V (Valor) o Big Data Analytics Principal reto: transformar la Big Data en conocimiento y llevar estas aplicaciones a las organizaciones.
BDA Las organizaciones agregan retos adicionales: Costo computacional Seguridad informática Integración con otros sistemas Volatilidad de los requisitos Otros aspectos de cada negocio o área de dominio.
BDA Aplicaciones Las áreas de aplicación de Big Data Analytics han sido las mismas durante varios años Actualmente pueden verse más beneficiadas por las ventajas que ofrece la revolución de los datos y los nuevos métodos y técnicas de Big Data Analytics. La productividad y competitividad de las empresas y la administración pública se pueden incrementar gracias a Big Data.
BDA Aplicaciones En las disciplinas científicas La computación social y personal El comercio y los negocios El gobierno y la administración pública La salud y el cuidado humano Los servicios públicos y la manufactura BDA incide como acelerador de su desarrollo.
BDA Aplicaciones
BDA Aplicaciones
Arquitectura para BDA Extraer el Valor ha generado diversos retos computacionales Las tecnologías tradicionales utilizadas para el procesamiento de datos no logran satisfacer todas las Escalabilidad, rendimiento, almacenamiento, tiempo de procesamiento, entre otras. Las tecnologías de BD se apoyan en tres pilares: Sistemas de Archivos Distribuidos, Bases de Datos Escalables y Software de Procesamiento en Paralelo.
Arquitectura para BDA ARQUITECTURA Analítica de Big Data Componente Hadoop La plataforma de computación en la nube Hadoop es un framework que permite el procesamiento distribuido de grandes cantidades de datos sobre clústeres de computadoras. MapReduce Modelo de programación y ejecución para el procesamiento y generación de BD, basado en el método divide y vencerás. Diivide el problema complejo en muchos sub-problemas hasta que estos sean escalables, de tal manera que puedan ser resueltos directamente.
Arquitectura para BDA
Arquitectura para BDA Algunas de las herramientas y tecnologías más usadas son: Ambari. Herramienta para configuración de clústeres Hadoop. NoSql. Bases de datos escalables para almacenar y procesar grandes volúmenes de datos. Apache Hive. Sistema de data warehouse sobre Hadoop. Apache Oozie. Orquestador de tareas relacionadas con el ecosistema Hadoop. Apache Sqoop. Herramienta de ETL diseñada para transferir de forma eficiente información entre Hadoop y bases de datos relacionales.
Arquitectura para BDA Algunas de las herramientas y tecnologías más usadas son: Apache Pig. Proporciona un lenguaje de alto nivel para simplificar a los usuarios de Hadoop en análisis de grandes volúmenes de datos. Apache ZoopKeeper. Herramienta de sincronización de clusters Hadoop. Apache Flume. Herramienta para capturar, analizar y monitorizar datos de ficheros de log. Apache Avro. Sistema de serialización de datos. Apache Mohout. Plataforma de aprendizaje autónomo y data mining construida sobre Hadoop. Apache Spark. Altenativa a Hadoop que se basa en el almacenamiento de datos en memoria.
Oportunidades
Retos Captura, Almacenamiento, Transmisión, Procesamiento, Curación, Análisis, Visualización, Seguridad, Escalabilidad, Desempeño y Consistencia Tangenciales a los retos que enfrentan las organizaciones para ingresar y tener éxito en el mundo de Big Data Analytics.
Tendencias Cuando se habla de tendencias en Big Data, generalmente se refieren a tres grupos principales: Tendencias en Almacenamiento, Tendencias en Comunicaciones y Tendencias en Software Stack. Apache Hadoop NoSQL y Sistemas Híbridos Data Analytics as a Service (DAaaS) Compresión de Datos
Tendencias In-database Analytics Arquitecturas caracterizadas por su temporalidad. Arquitecturas caracterizadas por el almacenamiento y representación de los datos Arquitecturas caracterizadas por la plataforma para el cómputo de los datos
Conclusiones La revolución de los datos ha generado mayores ventajas y beneficios en diversos sectores, como la salud, la ciencia, los negocios y el gobierno Esto ha permitido mejorar la calidad de vida de las personas y contribuir con el desarrollo de las regiones que hacen uso de la misma. Sin embargo, también ha traído nuevos desafíos que no se contemplaban en los métodos tradicionales.
Conclusiones Los desafíos van desde la captura y almacenamiento de los datos, hasta su análisis e interpretación. A d i c i o n a l m e n t e, l a c u l t u r a e n l a s organizaciones es otro reto para Big Data Analytics, ya que deben ser conscientes de sus necesidades (estratégicas, económicas, funcionales) antes de abordar problemas de este tipo; de lo contrario, dichas implementaciones podrían fracasar.