núm. 02 Noviembre 2012 Claves Tecnológicas Cloud, big data, redes sociales, consumerización, seguridad... Retrato Grady Booch, Evangelist & IBM Fellow SAPPHIRE NOW Sven Denecken, VP & Head of Co-Innovation OnDemand Entrevista Krish Parikh, VP - LightSpeed Venture Partners Soluciones United VARs. Partner local, solución global
A fondo Claves Tecnológicas 2013 El camino hacia big data TI y negocio: manos a la obra Las organizaciones de TI necesitan interiorizar de forma muy clara lo que significa big data dentro del contexto empresarial y de negocio, con el objetivo de que puedan crear, desarrollar y mantener las infraestructuras necesarias que permitirán a las empresas utilizar este concepto como una ventaja competitiva. David W. Cearley VP & Gartner Fellow Gartner Las TI se encuentran inmersas en un proceso especialmente complejo a la hora de gestionar el incremento del volumen de datos y su conocimiento. Por un lado, la información está creciendo de forma descontrolada, los costes de la infraestructura de almacenamiento siguen representando un dolor de cabeza para TI y la gestión de los datos es cada vez más compleja. Por otro lado, el negocio está demandando nuevos niveles de información a través del análisis de todo tipo de contenidos que les permitan obtener una ventaja competitiva. Estas fuerzas impulsoras, diametralmente opuestas, se reúnen en el nuevo término de moda: big data. El problema de determinar qué información resulta útil y por cuánto tiempo lo es, aumenta el estrés en los sistemas actuales. Mantenerlo todo en un repositorio de información gigantesco, en realidad se puede considerar como un simple acaparamiento. Pero, en este caso, el acopio viene como resultado de saber que la información tiene valor y que, cuando cambian las estrategias y tácticas de negocio, también varía el valor de la información. Nunca sabes lo que puedes necesitar y es importante que los departamentos de TI estén preparados para proporcionar las infraestructuras correctas, que puedan responder a las necesidades de negocio. No solo gran volumen Es importante comprender que big data no es solamente el manejo de grandes volúmenes de datos. Este tipo de proyectos pueden fallar si no se pone también el foco en otros aspectos como la variedad, la velocidad y la complejidad de la información. Es evidente que el volumen es una de las características principales de big data. Estamos viendo ingentes cantidades de datos en prácticamente todos los sectores, en parte a causa de los nuevos tipos de contenidos como rich media, social media o por los datos generados de forma automática por diversos dispositivos. Sin embargo, este volumen extremo de información es solo una parte del conjunto. Es importante tener en cuenta otras cuestiones como las relativas a la gestión de información más compleja, que surgen de la interacción simultánea y persistente de este gigantesco volumen con una gran variedad de formatos de datos, así como la agilidad necesaria en la creación de registros y latencias variables, o la complejidad de los tipos de datos individuales dentro de los distintos formatos. Este concepto de velocidad se aplica a todos los ámbitos, desde la creación de los flujos de datos y de los registros estructurados, hasta la posterior disponibilidad de la información para su acceso y entrega. En otras palabras, describe a qué ritmo se están produciendo 22
Es importante comprender que big data no es solamente el manejo de grandes volúmenes de datos Figura 1. Las 4 áreas en las que deben centrarse las TI para los proyectos de big data. los datos y con qué tiempos han de ser procesados para poder cumplir con la demanda. En cuanto a la variedad, hay que tener en cuenta que es necesario incluir todo tipo de información, desde datos estructurados y datos jerárquicos, hasta documentos, e-mail, datos procedentes de métricas, vídeos, fotos, audio, información financiera y de transacciones, etc. Finalmente, la complejidad denota los diversos estándares, reglas de dominio y formatos de almacenamiento que pueden existir con cada uno de los tipos. Teniendo en cuenta todas estas dimensiones de big data, es necesario colaborar con los usuarios de negocio para identificar y entender los nuevos escenarios que requieren soporte para big data. Es posible que ya haya iniciativas de big data dentro de la propia organización, más allá del departamento de TI. Es recomendable localizar estos esfuerzos y ayudarles. Pero también es importante estar preparados para adaptar la infraestructura y generar cambios en los presupuestos conforme las prioridades del negocio se desplacen hacia el procesamiento y el análisis de big data. En la última edición de la U.S. Data Center Conference, le preguntamos al personal de los centros de datos qué es lo que mejor describiría la estrategia que están siguiendo en cuanto a big data en sus compañías, en los ámbitos de volumen, variedad, velocidad y complejidad de la información (Figura 2). Así mismo, en la Figura 3 se pueden ver las respuestas que recibimos cuando les solicitamos que nos indicaran tres tecnologías, en el orden de prioridad en que las estaban evaluando para el futuro o ya las utilizan y han desplegado, para cumplir con los requisitos de big data. El camino hacia big data Las empresas han de tener en cuenta nuevas formas de aproximarse a la tecnología para hacer sitio a las aplicaciones de big data. Necesitarán adaptar sus infraestructuras y los sistemas legacy únicamente constituirán un retraso en este camino. Proporcionar unos análisis escalables empleando plataformas de almacenamiento como Hadoop ha de combinarse con diseños Las empresas han de tener en cuenta nuevas formas de aproximarse a la tecnología para hacer sitio a las aplicaciones de big data Es necesario colaborar con los usuarios de negocio para identificar y entender los nuevos escenarios que requieren soporte para big data de almacenamiento que sean capaces de soportar un crecimiento masivo, para garantizar tanto la fiabilidad como la rentabilidad. Las plataformas de almacenamiento para big data deberían incluir una capacidad multi-petabyte, con la posibilidad de alojar miles de millones de objetos, una compartición de ficheros heterogénea entre diferentes sistemas operativos, provisionado ágil, así como control del rendimiento de las aplicaciones. También es importante tener en cuenta la protección de los datos y los requerimientos de disponibilidad para big data porque, en muchos casos, habrá demasiados datos como para realizar una copia de seguridad con métodos tradicionales. Es posible que se pueda seleccionar una parte de los datos, que no sea demasiado grande, para hacer una copia, pero cuando hablamos de grandes volúmenes, la solución puede venir la de la mano de sistemas de ficheros específicos que incorporan unidades de disco y de cinta. En lo que respecta a la tecnología, en los últimos años han aparecido nuevas soluciones como Hadoop, in-memory database management systems (DBMS) y bases de datos NoSQL. Además de esto, también se necesitarán nuevas herramientas en el ámbito del análisis, que se ha convertido en uno de los factores principales de los almacenes de datos. Con análisis DBMS in-memory, el uso de MapReduce tanto dentro como fuera del DBMS y el uso de almacenes de datos self-service como nubes privadas para bspreviews magazine Noviembre 2012 23
A fondo Claves Tecnológicas 2013 Figura 2. Qué es lo que mejor describe big data en su empresa actualmente? implementaciones internas son las tecnologías emergentes más utilizadas. Sin embargo, hay que reconocer que tanto los fabricantes de hardware como los de software todavía están en un estadio muy temprano en lo que se refiere a la creación de sus soluciones para big data. Hay que tener cuidado en aquellos casos en que se presenten productos que no estén diseñados ya para big data. Por otro lado, las políticas para la gestión de datos también tendrán que revisarse. La propia naturaleza de muchos escenarios de uso de big data implica la compartición de datos, la reutilización de los mismos y los análisis continuos. También habrá que examinar cuestiones como la seguridad, la privacidad y temas relacionados con la legislación como la gestión de la propiedad intelectual y la retención de datos para propósitos de historial. En nuestra opinión resulta necesario anticipar que big data va a afectar al diseño de la infraestructura de almacenamiento, a la gestión de ese almacenamiento y a la gestión del ciclo de vida de la información. Por este motivo, las TI han de trabajar muy estrechamente con los usuarios de negocio, especialmente los científicos de datos, para entender el alcance de las peticiones que controlarán los requerimientos de software y hardware. Resulta una buena práctica el establecer hitos, crear objetivos y planes, junto con métricas cuantificables para validar el éxito de los proyectos big data, para determinar si realmente han sido una buena inversión. Lo mejor para ello es seguir de cerca a los fabricantes actuales para entender el roadmap de sus soluciones relacionadas con las tecnologías big data. Además, hay que tener también en cuenta las infraestructuras La mayoría de los proyectos big data en 2012 se pueden describir, en el mejor de los casos, como exploraciones Sin personas experimentadas, los proyectos de big data producirán datos, pero carecerán de inteligencia de nubes públicas y privadas, ya que ofrecen muchas de las características que se necesitan para la aplicación de big data. El statu quo Es importante entender que, aunque hay algunas empresas muy conocidas que pregonan a los cuatro vientos sus éxitos en el campo de big data, más allá de estos casos marginales, la mayoría de los proyectos big data en 2012 se pueden describir, en el mejor de los casos, como exploraciones. A pesar de todo el marketing actual que rodea a big data, el número de despliegues actuales que hay en producción es pequeño en cuanto nos salimos de ciertos sectores muy específicos. Estos incluyen a los pioneros basados en web como Amazon, Yahoo, Facebook y ebay o similares, que tuvieron que desarrollar nuevas tecnologías para seguir a la vanguardia, utilizando análisis big data en áreas como la detección de fraude, el riesgo de crédito y de mercado, la gestión de sistemas de negocio electrónicos y la relación con los clientes (CRM). También se pueden encontrar buenos ejemplos del uso innovador de big data en el sector de la salud, organizaciones gubernamentales y el sector del retail. Pero las empresas convencionales son más lentas en la adopción. Vemos que hay algunos proyectos pequeños que realizan grupos que no pertenecen a las TI, incluyendo proyectos basados en Hadoop/NoSQL sobre hardware no utilizado, ficheros ya existentes y software OpenSource. Las cosas, sin embargo, están cambiando rápidamente. Muchas organizaciones ya se están planteando si necesitan big data, cómo comenzar y cuánto va a costar esta actualización. 24
Los científicos de datos necesitan capacidades que van más allá del trabajo con herramientas de BI tradicionales o SQL Los CIO y responsables de personal deben asegurarse de que disponen tanto de presupuesto como de formación para satisfacer la necesidad de personal de TI con experiencia. Sin personas experimentadas, los proyectos de big data producirán datos, pero carecerán de inteligencia. Dicho de forma más sencilla: es imprescindible hacerse con profesionales que dominen las tecnologías como Hadoop y Mapreduce, para que puedan crear el soporte para sus aplicaciones big data. Sin embargo, más allá de lo básico, los conocimientos necesarios para soportar los análisis de big data son muy complejos. La clase emergente de científicos de datos necesita capacidades que van más allá de trabajar con las herramientas de BI tradicionales o SQL. Los individuos que trabajen en estas áreas también deben saber cómo manejar el hardware, incluyendo el conocimiento para agregar nodos a un clúster, aprovisionar almacenamiento y controlar el rendimiento de sus tareas para encontrar y eliminar cuellos de botella. La determinación de los costes de soporte y mantenimiento para el ciclo de vida de los productos o servicios de big data serán un esfuerzo conjunto. Por un lado, el negocio deberá determinar la vida esperada, poblaciones de usuarios y los requerimientos de rendimiento. Por su parte, TI podrá trabajar con estos datos para estimar los costes de la actualización del proyecto big data basándose en las compras de software, hardware y soporte necesarias para implementar el proyecto. Finalmente, es posible que se deba reorganizar el departamento de TI para soportar a un grupo centrado en el soporte y la propiedad de la infraestructura de big data, de modo que cuando los científicos de datos hayan terminado, la organización disponga de una infraestructura lista para producción, operacional y manejable. Además se necesitará personal que pueda encargarse del sistema. Algunos fabricantes ya están comenzando formaciones sobre big data o Hadoop, u ofrecen certificaciones de científicos de datos. Estos deberían añadirse a las empresas durante este año y el próximo. Resumen Está claro que big data a pesar del todo el clamor y el marketing, es una realidad que ha venido a quedarse y que necesita de la acción e intervención inmediata de las empresas para poner en marcha las infraestructuras necesarias para convertirlo en realidad. Estar listo para usar las tecnologías de big data en los próximos 6-12 meses proporcionará una ventaja de un 20% sobre los competidores inmediatos que sigan con tecnologías de datos tradicionales. Así que ha llegado el momento de ponerse manos a la obra. Figura 3. Qué tecnologías está evaluando o ya ha implementado para cumplir con los requerimientos de big data? bspreviews magazine Noviembre 2012 25