Asumir el control de big data: soluciones de análisis y almacenamiento para obtener información de gran impacto sobre el negocio 1
Agenda Big data y NAS de escalamiento horizontal EMC Isilon La promesa de Hadoop Descripción general de la tecnología Hadoop Isilon y Hadoop Retos tecnológicos de Hadoop en DAS Cómo Isilon lo ayuda a asumir el control de big data Ejemplo de caso de estudio Recursos 2
Exabytes El reto de big data 90 80 70 60 50 40 30 20 10 0 2009 2010 2011 2012 2013 2014 Basados en archivos: CAGR del 61.8 % Basados en bloques: CAGR del 23.7 % En 2013, el 80 % de toda la capacidad de almacenamiento implementada estará destinada a datos no estructurados Fuente: Scale Out Storage in the Content Driven Enterprise: Unleashing the Value of Information Assets, informe técnico de IDC 3
NAS de escalamiento horizontal EMC Isilon Simplicidad y facilidad de uso: Un solo sistema de archivos, un solo volumen Escalabilidad masiva: De 18 TB a más de 20 PB NAS más rápido del mundo: 1.6 millones de operaciones SPECsfs y más de 100 GB/s de rendimiento Eficiencia inigualable: Organización en niveles automatizada y más del 80 % de utilización Altamente resistente: Sobrevive a fallas múltiples Opciones sólidas de seguridad y protección de datos Flexible: Soporte multiprotocolo, incluido el soporte nativo para HDFS 4
Hadoop: encuentre los datos más valiosos 5
Hadoop Creado hace más de 6 años Plataforma de software diseñada para analizar grandes cantidades de datos no estructurados Dos componentes principales: Sistema de archivos distribuido Hadoop (HDFS) (almacenamiento) MapReduce (cómputo) Ahora un proyecto Apache de nivel superior respaldado por una gran comunidad de desarrollo de código abierto 6
Descripción general de la tecnología Hadoop NameNode NameNode secundario JobTracker DataNode/TaskTracker 7
NameNode Administra el espacio de nombres del sistema de archivos Almacena todos los metadatos en la memoria RAM Nombres de archivos, propietarios, grupo, información de acceso Identifica los bloques asociados Administra la replicación de bloques 8
NameNode secundario Administra y edita logs, y realiza puntos de comprobación de metadatos de NameNode NO proporciona failover de NameNode No es un respaldo ni un standby activo para el NameNode 9
JobTracker Administra todos los trabajos del cluster Rastrea e informa el estado de trabajos y tareas Proporciona la funcionalidad de líneas de espera de trabajos 10
DataNode/TaskTracker Almacena bloques de archivos en un sistema de archivos nativo del SO de host (por ejemplo, EXT3, ZFS) Responde solicitudes de lectura/escritura de los clientes Ejecuta operaciones de replicación, eliminación y creación de bloques Algunos bloques se pueden almacenar en múltiples DataNodes para brindar redundancia 11
Isilon: compatibilidad nativa con HDFS La primera y única plataforma NAS de escalamiento horizontal con compatibilidad nativa con HDFS 1.0 y HDFS 2.0 Isilon es compatible con las interfaces de HDFS para que NameNode y DataNode alojen datos y metadatos El sistema de archivos subyacente es OneFS Es tan fácil como dirigir los clientes HDFS al nombre DNS del cluster Isilon! 12
Estrategias de infraestructura para Hadoop Direct Attached Storage (DAS) NAS de escalamiento horizontal EMC Isilon NameNode Software Apache Hadoop en servidor x86 NAS de escalamiento horizontal de Isilon 13
Retos tecnológicos de Hadoop en DAS 14
Retos tecnológicos de Hadoop 1 2 3 4 5 6 Infraestructura de almacenamiento dedicada Excepcional solo para Hadoop Punto único de falla NameNode Falta de protección de datos empresariales Sin Snapshots, replicación, respaldo Eficiencia de almacenamiento deficiente Espejeado 3 veces Escalabilidad fija Cómputo rígido según radio de almacenamiento Importación y exportación manuales Sin soporte multiprotocolo Hadoop en DAS NameNode 15
Retos tecnológicos de Hadoop 1 Infraestructura de almacenamiento dedicada Excepcional solo para Hadoop Hadoop en DAS 1 vez NameNode 2 Punto único de falla NameNode 1 vez 1 vez 3 Falta de protección de datos empresariales Sin Snapshots, replicación, respaldo 4 Eficiencia de almacenamiento deficiente Espejeado 3 veces 2 veces 2 veces 5 Escalabilidad fija Cómputo rígido según radio de almacenamiento 2 veces 3 veces 6 Importación y exportación manuales Sin soporte multiprotocolo 3 veces 3 veces 16
Isilon y Hadoop ANÁLISIS DISPOSITIVOS DE MÓVILES Hadoop 2.0 Funciones clave Compatibilidad nativa con HDFS Compatibilidad con Pivotal HD Compatibilidad simultánea con HDFS 1.0 y HDFS 2.0 NameNode distribuido Beneficios Compatibilidad con aplicaciones Hadoop abiertas Sin puntos únicos de falla TCO mejorado 17
Isilon enfrenta el reto de Hadoop 1 Hadoop en DAS Infraestructura de almacenamiento dedicada Excepcional solo para Hadoop 1 Hadoop en Isilon Plataforma de almacenamiento de escalamiento horizontal Admite múltiples aplicaciones y flujos de trabajo 2 Punto único de falla NameNode 2 Sin puntos únicos de falla NameNode distribuido 3 Falta de protección de datos empresariales Sin snapshots, replicación, respaldo 3 Protección de datos de punto a punto SnapshotIQ, SyncIQ, respaldo de NDMP 4 5 Eficiencia de almacenamiento deficiente Espejeado 3 veces Escalabilidad fija Cómputo rígido según radio de almacenamiento 4 5 Eficiencia de almacenamiento líder en el sector Más del 80 % de utilización de almacenamiento Escalabilidad independiente Agrega cómputo y almacenamiento de manera independiente 6 Importación y exportación manuales Sin soporte multiprotocolo 6 Multiprotocolo NFS, CIFS, FTP, HTTP, HDFS 1.0 y HDFS 2.0 18
Protección de datos de Hadoop Hadoop en DAS El HDFS tradicional no tiene replicación Sin snapshots de datos Pérdida de control de la versión No está diseñado para datos de misión crítica Hadoop en Isilon La integración completa con Isilon SnapshotIQ identifica los cambios Replicación de escalamiento horizontal multithread de múltiples nodos RPO/RTO mejorado para la continuidad del negocio Hadoop replicado geográficamente! 19
Soporte para protocolos Servidores Servidores Hadoop en DAS HDFS no es visible para Windows, Unix, Linux, Apple o cualquier otro sistema de archivos de forma nativa Big data solo se utiliza para big data Hadoop en Isilon Servidores Servidores La compatibilidad multiprotocolo inherente en Isilon permite el acceso universal a todos los sistemas de archivos, incluido Hadoop Big data son datos reales! 20
21 Tiempo de obtención de resultados Almacenamiento primario existente Red del centro de datos Alguna vez copió 100 TB de almacenamiento primario en un sistema Hadoop? Cuánto se tarda aproximadamente en copiar 100 TB de un lugar a otro mediante un enlace de 10 GB? Almacenamiento primario existente Red del centro de datos Lectura de los datos pertinentes que se analizarán Hadoop en DAS Más de 24 horas Nodos de procesamiento de Hadoop Copia de datos Análisis Análisis en el lugar
Return Path Obtiene una ventaja competitiva con análisis de Hadoop y Isilon Reto Crecimiento de datos de 25 a 50 TB por año Rendimiento y capacidad limitados para admitir análisis de Hadoop exhaustivo Sistemas dispares que carecían de rendimiento y capacidad DIZ CARTER Vicepresidente de operaciones de infraestructura Solución Serie X SmartPools, SmartConnect, SmartQuotas, InsightIQ Aplicaciones Hadoop, soluciones de inteligencia de correo electrónico desarrolladas internamente Isilon suministra datos NFS en múltiples conjuntos de aplicaciones de productos y permite que nuestro equipo de análisis pueda acceder a ellos. Eso lo convierte en un activador de negocios clave, ya que permite que Return Path desarrolle soluciones para clientes mucho más rápido. Resultados Permite el acceso ilimitado a los datos de correo electrónico para el análisis Reduce en un 30 % el espacio físico del centro de datos de almacenamiento compartido Mejora la disponibilidad y la confiabilidad del análisis de Hadoop Brinda ahorros de US$350,000 en alimentación, enfriamiento y mantenimiento 22
La ventaja de Isilon para Hadoop El primero y único almacenamiento de escalamiento horizontal con integración nativa de Hadoop Acelere los beneficios de Hadoop Implementación rápida y sencilla Menor tiempo para obtener información Reduzca el riesgo La arquitectura altamente resistente elimina el punto único de falla del NameNode de Hadoop Brinde protección de datos empresarial sólida y eficiente Respaldo, recuperación de datos y snapshots rápidos Replicación de datos sencilla y eficiente para la recuperación de desastres Aumente la eficiencia y reduzca los costos del centro de datos Sin los costos de inversión y administración de una infraestructura Hadoop dedicada Escalamiento de recursos de cómputo y almacenamiento de manera independiente Compatibilidad con ambientes de servidores físicos y virtualizados 23
Más información EMC.com: NAS de escalamiento horizontal EMC Isilon: http://mexico.emc.com/isilon Soluciones de almacenamiento de escalamiento horizontal para Hadoop: http://mexico.emc.com/big-data/scale-out-storage-hadoop.htm Resumen de la solución: Solución de almacenamiento y análisis de big data de EMC Informe técnico: Hadoop en NAS de escalamiento horizontal EMC Isilon Informe de analista: Solución empresarial Hadoop de EMC, Enterprise Strategy Group, 2012 24