Documento técnico El ABC de Big Data: Analytics, Bandwidth and Content Richard Treadway e Ingo Fuchs, NetApp, Noviembre de 2011 WP-7147 RESUMEN EJECUTIVO Las empresas entran en una nueva era en la que la cantidad de datos procesados y almacenados superan las actuales arquitecturas del sector del almacenamiento. NetApp proporciona soluciones dirigidas a la escala de grandes volúmenes de datos mediante el llamado «ABC de Big Data», Analytics, Bandwidth and Content (análisis, ancho de banda y contenido), que permite a los clientes obtener información sobre conjuntos de datos masivos, mover datos rápidamente y almacenar contenido importante durante largos periodos de tiempo sin aumentar la complejidad operativa.
ÍNDICE 1 UNA NUEVA ERA A GRAN ESCALA... 3 2 FUENTES DE GRAN ESCALA... 3 3 CARENCIAS DE LOS MÉTODOS ACTUALES... 4 4 LÍMITES DE LAS INFRAESTRUCTURA... 4 5 EL ABC DE LOS DATOS A ESCALA... 5 6 RESUMEN... 7 LISTA DE FIGURAS Figura 1) Dónde falla su infraestructura?... 5 Figura 2) El ABC de Big Data de NetApp: Analytics, Bandwidth and Content (análisis, ancho de banda y contenido)... 6
1 UNA NUEVA ERA A GRAN ESCALA En la década de 1990, los equipos de tecnología se centraban en obtener un rendimiento óptimo de las aplicaciones infraestructuras clave de sus empresas. Estos «sistemas de registro» en silo normalmente hacían un buen trabajo a la hora de mantener un registro de la información importante pero eran caros y no ofrecían una visión lo suficientemente detallada de los datos para que pudiera suponer una ventaja empresarial. En la primera década del año 2000, el centro de interés de la tecnología cambió hacia la eficiencia y hacia cómo conseguir más con menos. Tecnologías como la virtualización, el uso compartido y la consolidación de la infraestructura existente de la empresa se convirtieron en los impulsores clave de la tecnología. Ahora estamos entrando en la era de la gran escala, donde la cantidad de datos procesados y almacenados por las empresas supera las construcciones arquitectónicas del sector del almacenamiento actual. Como resultado, los equipos de tecnología intentan convertir los sistemas de registro existentes, creados en las décadas de los 90 y 2000, en «sistemas de adquisición», que pueden proporcionar la información necesaria a las personas adecuadas de forma eficiente, y en tiempo real, para ayudarles a realizar análisis más sofisticados y a tomar mejores decisiones empresariales. Evolución de sistemas de registro a sistemas de adquisición Los datos por sí solos no tienen valor. El valor deriva del uso de los mismos para impulsar los resultados del negocio, ofrecer servicios a los clientes y aumentar los ingresos. El reto para el almacenamiento escalable consiste en hacer posibles estos resultados empresariales a partir de conjuntos de datos de dimensiones considerables. 2 FUENTES A GRAN ESCALA Este aumento masivo se produce por diversos motivos. Debido a la presión de los costes, muchas empresas están consolidando sus centros de datos ya que no pueden permitirse que cada unidad empresarial tenga su propia infraestructura tecnológica distribuida por todo el mundo. El paso a cloud computing también contribuye a este aumento, lo cual añade a la demanda cientos de miles de usuarios en menos sistemas centralizados. Otra fuente del aumento de escala es el crecimiento masivo de datos generados por equipos y usuarios. Las tecnologías digitales se están pasando a medios más densos, las fotografías han pasado a ser digitales, los vídeos utilizan la resolución más alta y el análisis avanzado requiere más almacenamiento. Además, los datos generados por el equipo a partir de redes sensores, seguimiento del comportamiento de compra y otras fuentes, contribuyen a crear conjuntos de datos de mayor tamaño que deben comprenderse y comercializarse. En resumen, la cantidad de datos está aumentando y los objetos de datos en sí mismos están aumentando de tamaño. Todo esto crea una cantidad enorme de presión sobre las infraestructuras existentes, especialmente en la plataforma de almacenamiento. A esto es a lo que se refiere NetApp cuando habla del reto de Big Data. De dónde surge Big Data? Aunque los datos de origen humano, como las fotos de Facebook o los tweets, reciben gran parte de la atención en los medios, el mayor crecimiento de datos procede de conjuntos generados por máquinas, como el seguimiento del comportamiento de los clientes y los análisis de mercados financieros.
3 CARENCIAS DE LOS MÉTODOS ACTUALES Las empresas actuales encuentran difícil gestionar el crecimiento exponencial de los grandes volúmenes de datos. Los métodos tradicionales no pueden escalarse al nivel necesario para poder albergar todos los datos, analizarlos a la velocidad a la que llegan y almacenar los conjuntos de datos relevantes de forma eficiente durante periodos de tiempo prolongados. El sector como conjunto ha empezado a encontrarle el truco a la gestión de una infraestructura cada vez más compleja en el mundo virtual, pero tratar la infraestructura en un mundo escalable supone retos muy serios. El tiempo hasta llegar a la información es crítico para las empresas que obtienen el máximo valor de sus datos. Se necesitan semanas o meses para hacer un análisis, lo que supone demasiado tiempo para detectar una tendencia que puede afectar al negocio en un instante. El cumplimiento de normativas también es un reto importante para muchas empresas. Las organizaciones reguladas pueden tener que mantener sus datos durante periodos muy largos de tiempo o para siempre. Y se les pide que encuentren datos rápidamente cuando sean necesarios para informes o durante auditorías del sector. En resumen, el reto de Big Data es el de obtener una ventaja sobre la competencia: cómo obtener el máximo valor para la empresa de su inmenso universo digital de información. 4 LÍMITES DE LAS INFRAESTRUCTURA Los grandes volúmenes de datos superan las infraestructuras de almacenamiento actuales en tres grandes áreas, como se muestra en la figura 1. Complejidad. Los datos ya no son solo texto y números, incluyen eventos en tiempo real y de infraestructura compartida. La información ahora está relacionada, es de alta fidelidad y se compone de múltiples tipos de datos. Aplicar los algoritmos normales para la búsqueda, almacenamiento y categorización cada vez resulta más complejo e ineficiente. Velocidad. A qué velocidad entran los datos? El vídeo de alta definición, la retransmisión multimedia a través de dispositivos reproductores de Internet y el vídeo a cámara lenta para seguimiento, todos ellos tienen tasas de consumo muy elevadas. Los negocios tienen que seguir el ritmo de los flujos de datos para que la información sea útil. También tienen que seguir el ritmo de las tasas de incorporación de datos para proporcionar resultados empresariales más rápidos, o en el caso militar, para salvar vidas. Volumen. Todos los datos recopilados deben almacenarse en una ubicación que sea segura y siempre esté disponible. Con volúmenes de datos tan altos, los equipos técnicos tienen que decidir qué significa «demasiados datos», por ejemplo, es posible que tengan que desechar todos los datos cada semana y empezar de nuevo la semana siguiente. Pero en muchos casos, esto no es una opción, de modo que los datos deben almacenarse por más tiempo, sin aumentar la complejidad operativa. Esto puede provocar que la infraestructura falle rápidamente en esta área.
Figura 1) Dónde falla su infraestructura? 5 EL ABC DE LOS DATOS A ESCALA NetApp ha dividido los conjuntos de soluciones para la gestión de datos a escala en tres áreas principales llamadas «el ABC de Big Data»: Analytics, Bandwidth and Content (análisis, ancho de banda y contenido. Como se muestra en la figura 2, cada área cuenta con sus retos específicos y sus requisitos de infraestructura únicos. Análisis. Esta área de la solución se centra en proporcionar un análisis eficiente para conjuntos de datos extremadamente grandes. El análisis se centra en la obtención de información interna, el aprovechamiento del universo digital y la conversión de los datos en información de alta calidad para proporcionar información en más profundidad sobre el negocio y permitir una mejor toma de decisiones. Ancho de banda. Esta área de la solución se centra en obtener un mejor rendimiento para unas cargas de trabajo muy rápidas. Las aplicaciones de gran ancho de banda incluyen: la capacidad de realizar análisis complejos a velocidades extremadamente altas; la retransmisión de vídeo de alto rendimiento para seguimiento y planificación de la misión; y la edición y reproducción de vídeo en medios y entretenimiento. Contenido. Esta área de la solución se centra en la necesidad de proporcionar un almacenamiento de datos escalable, seguro e ilimitado. Las soluciones de contenido deben permitir el almacenamiento de cantidades de datos virtualmente ilimitadas de forma que las empresas puedan almacenar tantos datos como deseen y encontrarlos cuando los necesiten, sin perderlos.
Figura 2) El ABC de Big Data de NetApp: Analytics, Bandwidth and Content (análisis, ancho de banda y contenido)
6 RESUMEN La nueva era de la escala sobrepasa las arquitecturas de almacenamiento existentes. Las empresas necesitan plantearse las siguientes preguntas: se pueden aprovechar mejor nuestros datos? Qué información interna puede ayudar realmente a nuestro negocio? Cómo podemos utilizar los datos para obtener una ventaja competitiva? Qué pasaría si pudiéramos vincular las tendencias de patrones de compra a la ubicación física de las personas en un momento concreto para proporcionarles una mejor experiencia? Qué pasaría si pudiéramos detectar cuándo va a suceder un fraude? Podemos identificar los puntos conflictivos de probabilidad de fallo antes de que sucedan? La lista de preguntas es ilimitada. Pero la respuesta siempre es la misma. NetApp ofrece las soluciones de almacenamiento que permiten a las empresas aprovechar los grandes volúmenes de datos y transformarlos en un mayor valor de negocio. El universo de los datos puede ser una mina de oro de información. NetApp ayuda a las empresas a encontrar el valor de estos datos y convertirlo en una ventaja empresarial real. La innovación de Big Data se basa en NetApp Las ofertas de Big Data de NetApp ofrecen una base para estimular la innovación, tomar mejores decisiones e impulsar resultados satisfactorios a la misma velocidad que los negocios actuales. NetApp no realiza declaración ni garantía alguna con respecto a la exactitud, fiabilidad o aptitud de cualquier información o recomendación dispuesta en esta publicación, o con relación a los resultados que puedan obtenerse mediante el uso de la información o el cumplimiento de las recomendaciones dispuestas en el presente. La información contenida en este documento se distribuye TAL CUAL, y el uso de la misma o la implantación de cualquier recomendación o técnica incluida en el presente serán responsabilidad del cliente y dependerán de su capacidad para evaluarlas e integrarlas en su entorno operativo. Este documento y la información contenida en el mismo solo se pueden utilizar en relación con los productos de NetApp descritos en este documento. www.netapp.com/es 2012 NetApp, Inc. Todos los derechos reservados. Queda prohibida la reproducción de cualquier parte de este documento sin la previa autorización por escrito de NetApp, Inc. Las especificaciones están sujetas a modificaciones sin previo aviso. NetApp, el logotipo de NetApp y Go further, faster son marcas o marcas registradas de NetApp, Inc. en Estados Unidos y/o en otros países. El resto de marcas o productos son marcas o marcas registradas de sus respectivos propietarios y deberán ser tratadas como tal. WP-7147-1111-esES