ANÁLISIS DE IBM INFOSPHERE BIGINSIGHTS: CONFIGURACIÓN E IMPLEMENTACIÓN DE CASOS PRÁCTICOS CON HADOOP Y BIGSQL

Documentos relacionados

ANÁLISIS DE IBM INFOSPHERE BIGINSIGHTS: CONFIGURACIÓN E IMPLEMENTACIÓN DE CASOS PRÁCTICOS CON HADOOP Y BIGSQL

REGLAMENTO SOBRE EL RÉGIMEN DE LOS TRABAJOS FINALES PARA LA OBTENCIÓN DE LOS TÍTULOS PROPIOS DE MÁSTER QUE SE IMPARTEN EN LA ICADE BUSINESS SCHOOL

INFORME EJECUTIVO DE IDC

PARA 2013 TOP. será un GRAN año para el crecimiento de la inteligencia de negocios INTELIGENCIA DE NEGOCIOS LAS 10 TENDENCIAS

El ABC de Big Data: Analytics, Bandwidth and Content

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK.

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES

Windows Server 2012: Infraestructura de Escritorio Virtual

Día :00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

e-commerce, es hacer comercio utilizando la red. Es el acto de comprar y vender en y por medio de la red.

Soluciones de virtualización de datos

El cambio en la adquisición de soluciones informáticas. El cambio en la adquisición de soluciones informáticas

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

Bechtle Solutions Servicios Profesionales

Introducción a las redes de computadores

Resumen de la solución SAP SAP Technology SAP Afaria. Gestión de la movilidad empresarial para mayor ventaja competitiva

CONCLUSIONES. De la información total que acabamos de facilitar al lector podemos realizar el siguiente resumen:

Bases de la convocatoria Zinc Shower 2015

IAP TÉCNICAS DE AUDITORÍA APOYADAS EN ORDENADOR (TAAO)

Gestión de la Configuración

Una plataforma de préstamo y lectura de libros electrónicos para las Bibliotecas

Escudo Movistar Guía Rápida de Instalación Dispositivos Symbian

BUSINESS INTELLIGENCE A TRAVÉS

WE ARE EXPERTS IN DATA PROCESSING & ANALYTICS IDATHA. DARK DATA White Paper - IDATHA. Octubre IDATHA.COM

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Unidad 1. Fundamentos en Gestión de Riesgos

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

System Center. la plataforma para una gestión ágil de los entornos de TI IDG COMMUNICATIONS, S.A.

Curso: Arquitectura Empresarial basado en TOGAF

Está creado como un organizador y gestor de tareas personalizables para generar equipos de alto desempeño en diferentes rubros de empresas.

El futuro del trabajo y del espacio

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento

Introducción. Definición de los presupuestos

Funcionalidades Software SAT GotelGest.Net (Software de Servicio de Asistencia Técnica)

Cómo afecta la Ley Orgánica de Protección de Datos de carácter personal a un Administrador de fincas y a las Comunidades de Propietarios que gestiona

Horizons. BYOD y virtualización. Introducción. Las 10 ideas principales del estudio Cisco IBSG. Horizons

Guía rápida de la Oficina Virtual Área Web y Administración Electrónica

AHORRACOM SOLUCIONES AVANZADAS S.L. Avda. de la Industria 13, Oficina Alcobendas, Madrid.

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

TERMINOS DE USO DE LOS SITIOS WEB PROPIEDAD DE COMERCIALIZADORA SIETE S.A. DE C.V

Manual de uso de la plataforma para monitores. CENTRO DE APOYO TECNOLÓGICO A EMPRENDEDORES -bilib

Solicitar la competencia Business Intelligence Solutions

Aviso Legal. Entorno Digital, S.A.

POLÍTICA DE PRIVACIDAD PARA APLICACIONES MÓVILES GRUPOCOPESA. 1. información que se obtiene la aplicación y su utilización

INTRANET DE UNA EMPRESA RESUMEN DEL PROYECTO. PALABRAS CLAVE: Aplicación cliente-servidor, Intranet, Área reservada, Red INTRODUCCIÓN

Inteligencia aplicada a la protección de infraestructuras

Construcción de cubos OLAP utilizando Business Intelligence Development Studio

INSTALACIÓN DE ORACLE 8i (8.1.7) SOBRE NT

Presentación del Data Monitor de Sedex Nuestra interesante nueva gama de herramientas de creación de informes

Escuela de Organización Industrial

UNIVERSIDAD DE SALAMANCA

INTRODUCCIÓN: Una Visión Global del Proceso de Creación de Empresas

Management del nuevo siglo. James W. Cortada

Los mayores cambios se dieron en las décadas de los setenta, atribuidos principalmente a dos causas:

Ley Orgánica de Protección de Datos

Sistemas de información

Versión final 8 de junio de 2009

Infraestructura Extendida de Seguridad IES

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente

Pliego de Prescripciones Técnicas para la contratación de un servicio para la ejecución del plan de comunicación 2014 de BILIB.

Plan de Estudios Maestría en Marketing

Software diseñado especialmente para Planificación del entrenamiento, control de evaluaciones, Captura y Edición de Video.

Gestión de Configuración del Software

Big Data: Qué es y por qué es relevante?

GESTIÓN DOCUMENTAL PARA EL SISTEMA DE CALIDAD

gestión económica programación económica gestión financiera contratación administrativa

AVISO LEGAL y POLITICA DE PRIVACIDAD

Condiciones de servicio de Portal Expreso RSA

Modelo de Política de Privacidad

SOLUCIÓN HOSPEDADA. Introducción a los modelos de asociación de partners de Microsoft Dynamics CRM

Módulo 7: Los activos de Seguridad de la Información

Por qué deberías adaptar tu página web a la navegación móvil?

CONCEPTOS BASICOS. Febrero 2003 Página - 1/10

Metodología básica de gestión de proyectos. Octubre de 2003

"Situación Actual y Perspectivas de las Agencias de Viajes que operan con Turismo Receptivo en la ciudad de Posadas en Materia de Internet como

PLAN DIRECTOR DE SERVICIOS MÓVILES DE VALOR AÑADIDO EN LA ADMINISTRACIÓN PÚBLICA

Las diez cosas que usted debe saber sobre las LICENCIAS de los derechos de Propiedad Industrial e Intelectual

Internet Information Server

Microsoft SQL Server Conceptos.

FUENTES SECUNDARIAS INTERNAS

Quienes Somos? Valor. Estrategia

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

1.2 Alcance. 1.3 Definición del problema

PROCEDIMIENTO ESPECÍFICO. Código G Edición 0

Convocatoria de Acciones de Apoyo a la Transferencia de Tecnología y Conocimiento

Capítulo 5. Cliente-Servidor.

Mi propuesta consiste en crear un portal Web que contemple las siguientes funcionalidades:

FORMACIÓN E-LEARNING. Curso de Marketing Operativo

Windows Server 2012: Identidad y Acceso. Módulo 2: Descripción General de Windows Server 2012 Remote Desktop Services.

Norma ISO 9001: Sistema de Gestión de la Calidad

GVSIG ACUERDO DE LICENCIA DE CONTRIBUCIÓN

DE VIDA PARA EL DESARROLLO DE SISTEMAS

DECLARACIÓN DE PRIVACIDAD DE FONOWEB

Traslado de Data Center

El Outsourcing como Opción Estratégica

Condiciones legales particulares de suscripción al panel y a las BBDD de SONDEA. Protección de datos de carácter personal

Transcripción:

ANÁLISIS DE IBM INFOSPHERE BIGINSIGHTS: CONFIGURACIÓN E IMPLEMENTACIÓN DE CASOS PRÁCTICOS CON HADOOP Y BIGSQL

AUTORIZACIÓN PARA LA DIGITALIZACIÓN, DEPÓSITO Y DIVULGACIÓN EN ACCESO ABIERTO (RESTRINGIDO) DE DOCUMENTACIÓN 1º. Declaración de la autoría y acreditación de la misma. El autor D., como de la UNIVERSIDAD PONTIFICIA COMILLAS (COMILLAS), DECLARA que es el titular de los derechos de propiedad intelectual, objeto de la presente cesión, en relación con la obra 1, que ésta es una obra original, y que ostenta la condición de autor en el sentido que otorga la Ley de Propiedad Intelectual como titular único o cotitular de la obra. En caso de ser cotitular, el autor (firmante) declara asimismo que cuenta con el consentimiento de los restantes titulares para hacer la presente cesión. En caso de previa cesión a terceros de derechos de explotación de la obra, el autor declara que tiene la oportuna autorización de dichos titulares de derechos a los fines de esta cesión o bien que retiene la facultad de ceder estos derechos en la forma prevista en la presente cesión y así lo acredita. 2º. Objeto y fines de la cesión. Con el fin de dar la máxima difusión a la obra citada a través del Repositorio institucional de la Universidad y hacer posible su utilización de forma libre y gratuita ( con las limitaciones que más adelante se detallan) por todos los usuarios del repositorio y del portal e-ciencia, el autor CEDE a la Universidad Pontificia Comillas de forma gratuita y no exclusiva, por el máximo plazo legal y con ámbito universal, los derechos de digitalización, de archivo, de reproducción, de distribución, de comunicación pública, incluido el derecho de puesta a disposición electrónica, tal y como se describen en la Ley de Propiedad Intelectual. El derecho de transformación se cede a los únicos efectos de lo dispuesto en la letra (a) del apartado siguiente. 1 Especificar si es una tesis doctoral, proyecto fin de carrera, proyecto fin de Máster o cualquier otro trabajo que deba ser objeto de evaluación académica

3º. Condiciones de la cesión. Sin perjuicio de la titularidad de la obra, que sigue correspondiendo a su autor, la cesión de derechos contemplada en esta licencia, el repositorio institucional podrá: (a) Transformarla para adaptarla a cualquier tecnología susceptible de incorporarla a internet; realizar adaptaciones para hacer posible la utilización de la obra en formatos electrónicos, así como incorporar metadatos para realizar el registro de la obra e incorporar marcas de agua o cualquier otro sistema de seguridad o de protección. (b) Reproducirla en un soporte digital para su incorporación a una base de datos electrónica, incluyendo el derecho de reproducir y almacenar la obra en servidores, a los efectos de garantizar su seguridad, conservación y preservar el formato.. (c) Comunicarla y ponerla a disposición del público a través de un archivo abierto institucional, accesible de modo libre y gratuito a través de internet. 2 (d) Distribuir copias electrónicas de la obra a los usuarios en un soporte digital. 3 4º. Derechos del autor. El autor, en tanto que titular de una obra que cede con carácter no exclusivo a la Universidad por medio de su registro en el Repositorio Institucional tiene derecho a: a) A que la Universidad identifique claramente su nombre como el autor o propietario de los derechos del documento. b) Comunicar y dar publicidad a la obra en la versión que ceda y en otras posteriores a través de cualquier medio. c) Solicitar la retirada de la obra del repositorio por causa justificada. A tal fin deberá ponerse en contacto con el vicerrector/a de investigación (curiarte@rec.upcomillas.es). d) Autorizar expresamente a COMILLAS para, en su caso, realizar los trámites necesarios para la obtención del ISBN. 2 En el supuesto de que el autor opte por el acceso restringido, este apartado quedaría redactado en los siguientes términos: (c) Comunicarla y ponerla a disposición del público a través de un archivo institucional, accesible de modo restringido, en los términos previstos en el Reglamento del Repositorio Institucional 3 En el supuesto de que el autor opte por el acceso restringido, este apartado quedaría eliminado.

d) Recibir notificación fehaciente de cualquier reclamación que puedan formular terceras personas en relación con la obra y, en particular, de reclamaciones relativas a los derechos de propiedad intelectual sobre ella. 5º. Deberes del autor. El autor se compromete a: a) Garantizar que el compromiso que adquiere mediante el presente escrito no infringe ningún derecho de terceros, ya sean de propiedad industrial, intelectual o cualquier otro. b) Garantizar que el contenido de las obras no atenta contra los derechos al honor, a la intimidad y a la imagen de terceros. c) Asumir toda reclamación o responsabilidad, incluyendo las indemnizaciones por daños, que pudieran ejercitarse contra la Universidad por terceros que vieran infringidos sus derechos e intereses a causa de la cesión. d) Asumir la responsabilidad en el caso de que las instituciones fueran condenadas por infracción de derechos derivada de las obras objeto de la cesión. 6º. Fines y funcionamiento del Repositorio Institucional. La obra se pondrá a disposición de los usuarios para que hagan de ella un uso justo y respetuoso con los derechos del autor, según lo permitido por la legislación aplicable, y con fines de estudio, investigación, o cualquier otro fin lícito. Con dicha finalidad, la Universidad asume los siguientes deberes y se reserva las siguientes facultades: a) Deberes del repositorio Institucional: - La Universidad informará a los usuarios del archivo sobre los usos permitidos, y no garantiza ni asume responsabilidad alguna por otras formas en que los usuarios hagan un uso posterior de las obras no conforme con la legislación vigente. El uso posterior, más allá de la copia privada, requerirá que se cite la fuente y se reconozca la autoría, que no se obtenga beneficio comercial, y que no se realicen obras derivadas. - La Universidad no revisará el contenido de las obras, que en todo caso permanecerá bajo la responsabilidad exclusiva del autor y no estará obligada a ejercitar acciones legales en nombre del autor en el supuesto de infracciones a derechos de propiedad intelectual derivados del depósito y archivo de las obras. El autor renuncia a cualquier reclamación frente a la Universidad por las formas no ajustadas a la legislación vigente en que los usuarios hagan uso de las obras.

- La Universidad adoptará las medidas necesarias para la preservación de la obra en un futuro. b) Derechos que se reserva el Repositorio institucional respecto de las obras en él registradas: - retirar la obra, previa notificación al autor, en supuestos suficientemente justificados, o en caso de reclamaciones de terceros. Madrid, a 27 de Agosto de 2014 ACEPTA Fdo

Proyecto realizado por el alumno: Pablo Liste García Fdo.: Fecha: 27 / 08 / 2014 Autorizada la entrega del proyecto cuya información no es de carácter confidencial EL DIRECTOR DEL PROYECTO David Contreras Bárcena Fdo. : Fecha: 27 / 08 / 2014 Vº Bº DEL COORDINADOR DE PROYECTOS Israel Alonso Martínez Fdo. : Fecha: 27 / 08 / 2014

Agradecimientos Quiero expresar mi más sincero agradecimiento a todas las personas que me ha apoyado durante estos años de carrera en I.C.A.I. En primer lugar a mi padre y a mi madre, principales responsables de mi elección de carrera universitaria en este centro. Son las personas que siempre han estado a mi lado, dándome las energías necesarias para estudiar en los momentos más complicados y ayudándome a darme cuenta de que con esfuerzo, trabajo y sobre todo ganas de conseguir lo que uno se propone, los resultados siempre son positivos. En segundo lugar, quiero agradecer a mi hermano, y compañero de universidad, el ánimo que me ha dado durante estos años y los buenos momentos que hemos pasado juntos compartiendo universidad y clase en algunas ocasiones. El tenerle todos los días en situaciones parecidas a las que me encontraba yo ha sido una suerte ya que nos teníamos el uno al otro en todo momento para ayudarnos a conseguir superarlas. En tercer lugar, quiero agradecer especialmente a mis abuelos el apoyo que me han mostrado durante todos estos años. A pesar de estar muy lejos de mí, siempre han estado dispuestos a ayudarme en lo que fuera necesario, y nunca han dejado de preocuparse por mí. Sin ellos sé que el haber estudiado en esta universidad de prestigio nacional hubiera sido mucho más complicado, atreviéndome a decir casi imposible. En cuarto lugar, quiero agradecer a mis amigos desde la infancia el haberme apoyado y hacerme sentir el mejor en todo lo que hacía, y capaz de superar cualquier adversidad que se me presentara tanto a nivel personal como a nivel académico. Sin olvidarme, por supuesto, de los nuevos compañero y amigos hechos en la universidad día a día durante estos 5 años de carrera. Son ellos los que hacen que el refrán de que los amigos se pueden contar con los dedos de una mano sea totalmente falso para mí. Sé que puedo contar con todos ellos para lo que sea. En quinto lugar, a todos mis profesores, tanto del colegio como del instituto, como de la universidad, ya que a pesar de que no nos demos cuenta durante el paso de los años como

estudiantes de la influencia que provocan en nosotros, es ahora que se acaba mi etapa estudiantil cuando me doy cuenta de que todos y cada uno de ellos han influido de un modo u otro en los pasos que he ido dando hasta llegar a la situación en la que me encuentro en la actualidad. Sin ellos muy probablemente no estaría escribiendo estos agradecimientos. Quiero hacer una mención especial a David Contreras Bárcena, mi director del proyecto de Fin de Carrera, que me han apoyado estos meses y me han ayudado en todo lo que he necesitado, si no fuera por ellos no hubiera podido terminar el proyecto a tiempo. Muchas gracias a todos.

ANÁLISIS DE IBM INFOSPHERE BIGINSIGHTS: CONFIGURACIÓN E IMPLEMENTACIÓN DE CASOS PRÁCTICOS CON HADOOP Y BIGSQL Autor: Director: Liste García, Pablo Contreras Bárcena, David Entidad colaboradora: ICAI Universidad Pontificia Comillas RESUMEN DEL PROYECTO Objetivos La gestión de grandes volúmenes de datos se ha convertido en un aspecto crítico para el crecimiento sostenible de las empresas y en un factor diferencial de la operativa de cualquier negocio en la Era de la Información. Por lo tanto, las organizaciones necesitan disponer de soluciones tecnológicas que les permitan analizar los masivos volúmenes de datos para desarrollar con éxito sus planes estratégicos y operativos. El propósito principal de este proyecto es realizar el análisis de la plataforma Big Data de IBM y de otras tecnologías complementarias que ofrecen una solución a esta problemática. Los objetivos específicos del proyecto son los siguientes: Estudio de tecnologías Big Data destinadas a la manipulación, gestión y análisis de grandes volúmenes de datos de todo tipo. Análisis de las tecnologías complementarias a Big Data. Estudio de la plataforma de software InfoSphere BigInsights. Definición, desarrollo y ejecución de casos prácticos mediante las tecnologías Hadoop y Big SQL con el fin de comprobar que ofrecen los resultados que manifiestan teóricamente.

Introducción La capacidad de recopilar y procesar enormes cantidades de datos en tiempo real es algo que el ser humano nunca ha tenido antes. Hoy en día, el "Universo Digital", es decir, la cantidad de datos digitales que se producen a nivel mundial está creciendo de manera exponencial, y seguirá aumentando. Terabytes de datos se generan a diario por millones de dispositivos que nos rodean. Figura 1: Áreas de aplicación Big Data Además, el aumento de las redes sociales y el crecimiento exponencial de los datos generados a partir de diferentes fuentes, tales como smartphones, sensores, o cualquier otro dispositivo móvil contribuyen a este crecimiento con datos de diferente naturaleza (estructurado y no estructurado) y tipos (texto, imágenes, audio o video). Figura 2: Las cinco V de Big Data

Para hacer frente a tal cantidad de datos no convencionales y no estructurados, que pueden alcanzar petabytes, exabytes o zettabytes, una nueva tecnología llamada "Big Data" ha surgido. El concepto de Big Data se refiere a la enorme cantidad de información que no puede ser procesada o analiza utilizando procesos o herramientas tradicionales. El Big data comenzó como una tecnología innovadora hasta llegar a transformarse en un mercado y finalmente en una industria. El sistema más utilizado en esta industria es Hadoop, que significo la aparición de un sistema de software prácticamente análogo al término Big Data. Apache Hadoop es una nueva forma para las empresas de almacenar y analizar datos, es un framework que permite procesar grandes volúmenes de datos mediante la utilización de clústers a través de un modelo de programación sencillo, asimismo, replica sus datos en varios equipos, por lo que si uno se cae, los datos se procesan en uno de los equipos replicados. En este proyecto se ha realizado un análisis de la plataforma Big Data de IBM estudiando en profundidad InfoSphere BigInsights, que es una plataforma de software para descubrir, analizar y visualizar los diferentes tipos de datos provenientes de fuentes heterogéneas, así como de las tecnologías de código abierto que vienen incluidas en InfoSphere BigInsights. Figura 3: Plataforma Big Data de IBM

El software es empleado con el fin de analizar el volumen, la variedad y velocidad de datos que de manera continuada y día a día se introducen en una organización, ayudando a ésta a entender y analizar tanto volúmenes masivos de información no estructurada como pequeños volúmenes de información. Finalmente, se han configurado e implementado casos prácticos con el fin de corroborar que las tecnologías analizadas ofrecen las prestaciones que manifiestan teóricamente. El contenido de estos casos prácticos se resume en las siguientes tareas: Creación de una conexión a un servidor Big SQL. Creación y carga de tablas Big SQL en diferentes escenarios. Desarrollo de consultas Big Data mediante Big SQL. Creación, desarrollo y ejecución de una aplicación Big SQL. Utilización de Jsqsh para generar scripts Big SQL. Configuración de clúster Big Data para soportar funcionalidad multi-nodo. Definición y configuración de comunicación entre nodos del clúster. Configuración e implementación de servicios a los nodos del clúster. Configuración y administración de un clúster Hadoop con BigInsights Resultado y Conclusiones Es evidente que hoy en día si una empresa quiere competir en una economía integrada a escala global necesita comprender los mercados, clientes, productos, competidores, proveedores, empleados, las normativas y mucho más de manera exhaustiva. Para lograr esta comprensión es necesario el uso eficaz de la información y la analítica de datos. De hecho, para la mayoría de las empresas el activo más valioso y diferenciador que poseen es la información.

Con la aparición y la creciente aceptación de Big Data se están descubriendo formas completamente nuevas de obtener información muy valiosa para la incrementar la competitividad. Las empresas se encuentran en un proceso de transformación con el fin de aprovechar el amplio abanico de información de la que disponen para mejorar la toma de decisiones, además de su rendimiento. En los diferentes sectores del mercado existe la posibilidad de utilizar grandes volúmenes de datos, así como de nuevas tecnologías para el análisis de datos, y es por esto por lo que cada vez toma más fuerza la frase: Los expertos del Big Data de hoy serán los líderes del mañana.

IBM BIGINSIGHTS INFOSPHERE ANALYSIS: CONFIGURATION AND IMPLEMENTATION OF CASE STUDIES WITH HADOOP AND BIG-SQL Author: Liste García, Pablo Supervisor: Contreras Bárcena, David Affiliation: ICAI Universidad Pontificia Comillas ABSTRACT Purpose Managing large amounts of data has become a critical issue for sustainable business growth. On top of that, it also is a differential factor in any business operation within the Information Age. Therefore, the organizations need technology solutions that allow them to analyse massive amounts of data in order to successfully develop their strategic and operational plans. The main purpose of this project is to make an analysis of the IBM Big Data platform and also from other complementary technologies that are able to offer a solution to this problem. The specific objectives of the project are the following: Studying of Big Data technologies for the manipulation, management and analysis of all kinds of large data volumes. Analysing of complementary Big Data technologies. Studying of InfoSphere BigInsights software platform. Definition, development and implementation of case studies by using the Big Hadoop and SQL technologies to verify that they offer the results that show theoretically.

Introduction The ability to collect and process vast amounts of data in real time is something that human beings have never had before. Today, the "Digital Universe", I mean, the amount of digital data being produced worldwide is growing exponentially, and will continue to increase. Terabytes of data are generated every day by millions of devices around us. Picture 1: Big Data Application Areas In addition, the rise of social networks and the exponential growth of data generated from different sources, such as smartphones, sensors, or any other mobile device are contributing to this growth with data of a different nature (structured and unstructured) and diverse types such as text, images, audio or video. Picture 2: The Big Data five V

To face so many unconventional and unstructured data, which can reach petabytes, exabytes or zettabytes, a new technology called "Big Data" has emerged. The concept of Big Data refers to the huge amount of information that can not be processed or analyzed using traditional tools or processes. Big Data began as an innovative technology up to become a market and eventually in an industry. The system most commonly used in this industry is Hadoop, I mean, the occurrence of a software system practically analogous to the Big Data concept. Apache Hadoop is a new way for companies to store and analyze data, is a framework that allows to process large volumes of data using clústers through a simple programming model, and in the same way, it allows to replicate data on multiple computers. Thus, if one of this computers falls, the data are processed in one of the computers replicated. In this project it has been an analysis of the IBM Big Data platform, studying in depth the InfoSphere BigInsights technology, which is a software platform to discover, analyze and visualize different types of data from heterogeneous sources by using open source technologies that are included in InfoSphere BigInsights. Picture 3: IBM Big Data platform

This software is used to analyze the volume, variety and velocity of data that continuously and on a daily bases it is introduced into an organization, helping it to understand and analyze both massive volumes of unstructured information such small volumes of information. Finally, it have been configured and implemented several case studies in order to confirm that the technologies discussed offer the benefits that manifest theoretically. The content of these case studies are summarized in the following tasks: Creating a connection to a Big SQL server. Creating and loading Big SQL tables in different scenarios. Development by Big Data Queries by using Big SQL. Definition, development and implementation of a Big SQL application. Using Big Jsqsh to generate SQL scripts. Big Data cluster configuration in order to support multi-node functionalities Definition and configuration of communication between cluster nodes. Configuration and implementation of services for the cluster nodes. Configuring and managing a Hadoop cluster within BigInsights Results and Conclusions It is clear that today if a company wants to compete in a globally integrated economy, he needs to understand markets, customers, products, competitors, suppliers, employees, policy and much more in a comprehensively way. For achieving this understanding it is necessary to use information and data analysis in an effective way. In fact, for most companies the most valuable and differentiating asset that it has is information. With the emergence and growing acceptance of Big Data, it is finding completely new ways of obtaining valuable information in order to increase competitiveness.

Companies are following a process of transformation in order to take advantage of the wide range of information available to them to improve decision-making and performance. In different market sectors is possible to use large volumes of data, as well as new technologies for data analysis, and that is why increasingly the phrase "Big Data experts of today are the leaders of tomorrow" is taking more strength.

Índice de la Capítulo 1 Introducción 1 Capítulo 2 Definición del proyecto 5 2.1 Objetivos Del Proyecto 5 2.2 Metodología y Recursos 7 Capítulo 3 Big Data 9 3.1 Concepto de Big Data 9 3.2 Las cinco V 10 3.3 Tipos de información 11 3.4 Arquitectura de Big Data 13 Capítulo 4 Hadoop 15 4.1 Concepto de Hadoop 15 4.2 Componentes Hadoop 16 Capítulo 5 Plataforma Big Data de IBM 19 5.1 Aspectos clave del análisis de datos 19 5.2 Manifiesto de la plataforma Big Data 20 5.3 Estrategia Big Data de IBM 21 5.4 Principales prestaciones de la plataforma Big Data IBM 24 Capítulo 6 IBM InfoSphere BigInsights 27 6.1 Componentes principales de BigInsights 29 6.1.1 Sistema de archivos 29 6.1.2 MapReduce Frameworks 33 6.2 Componentes adicionales de BigInsights 36 6.3 Text Analytics 41

6.4 IBM Big SQL 42 6.5 Consola InfoSphere BigInsights 43 6.6 Herramientas InfoSphere BigInsights para eclipse 44 6.7 Integración con otros productos de IBM 45 Capítulo 7 Laboratorio Big SQL 49 7.1 Preparación del entorno 50 7.1.1 Arranque de los componentes de BigInsights 50 7.1.2 Arranque de eclipse 51 7.1.3 Creación de una conexión al clúster de Hadoop desde eclipse 52 7.1.4 Creación de una conexión al servidor Big SQL desde eclipse 53 7.2 Consultas de datos medianre Big SQL 56 7.2.1 Creación de un proyecto y un scrip Big SQL 56 7.2.2 Creación de tablas y carga de datos 59 7.2.3 Ejecución de consultas sql básicas 63 7.2.4 Análisis de datos mediante Big SQL 66 7.2.5 Creación y manejo de vistas 69 7.2.6 Uso de Big SQL desde una aplicación cliente JDBC 71 Capítulo 8 Laboratorio Hadoop 77 8.1 Gestión de un clúster Hadoop 77 8.1.1 Preparación de entorno para un clúster multi-nodo 78 8.1.2 Agregación de un nodo del clúster 81 8.1.3 Eliminación de un nodo 88 8.2 Administración de Hadoop 89 8.2.1 Administración de servicios específicos 89 8.2.2 Configuración predeterminada de Hadoop 91 8.2.3 Aumento del tamaño del bloque de almacenamiento 91 8.2.4 Asignación de espacio en disco para DataNode 93 8.2.5 Configuración del factor de replicación 93 Capítulo 9 Conclusiones 95 Capítulo 10 Bibliografía 97

Índice de Figuras Figura 1: Áreas de aplicación Big Data 9 Figura 2: Las cinco V de Big Data 11 Figura 3: Tipos de datos Big Data 13 Figura 4: Arquitectura Big Data 13 Figura 5: Manifiesto de la plataforma Big Data: Imperativos y tecnología subyacente 21 Figura 6: Puntos de entrada de la plataforma Big Data de IBM 23 Figura 7: Plataforma Big Data de IBM 25 Figure 8: Ediciones de InfoSphere BigInsights 28 Figura 9: Ejemplo MapReduce 36 Figura 10: Pestaña de Bienvenida de la consola de InfoSphere BigInsight 44 Figura 11: Inicio componente de BigInsights 50 Figura 12: Clúster Status 51 Figure 13:Task Launcher for Big Data 52 Figura 14: Creación de un servidor BigInsights 53 Figura 15: Comprobación servidor BigInsights 53 Figura 16: Perspectiva Database Development 54 Figura 17: Conexión Big SQL JDBC 54 Figura 18: Información de la conexión JDBC 55 Figura 19: Panel Data Source Explorer 55 Figura 20: Creación proyecto BigInsights 57

Figura 21: Cambio de perspectiva 57 Figure 22: Creación de Script SQL 58 Figura 23: Conexión Big SQL 58 Figura 24: Contenido fichero README.txt 60 Figuro 25: Ejecución script setup.sh 60 Figura 26: Mensaje cargando datos 61 Figura 27: Tablas creadas 61 Figura 28: Contenido del fichero GOSALESDW_ddl.sql. 62 Figura 29: Contenido del fichero GOSALESDW_load.sql. 62 Figura 30: Contenido o datos cargados 63 Figura 31: Select de la tabla GO_REGION_DIM 64 Figura 32: Contenido de la tabla GO_REGION_DIM 64 Figura33: Select de regiones filtrada 64 Figura 34: Resultado de regiones 65 Figura 35: Select unión de tablas 65 Figura 36: Resultado unión de tablas 66 Figura 37: Select de producto,cantidad y método de venta 67 Figura 38: Resultados de la Select de producto,cantidad y método de venta 67 Figura 39: Select para obtener número de productos según atributos 68 Figura 40: Número total de productos según atributos 68 Figura 41: Creación de vista 69 Figura 42: Vista myview 70 Figura 43: Resultados select limit 20 71 Figura 44: External JARs 72

Figura 45: Creación de paquete 72 Figura 46: Creación de una clase java 73 Figura 47: Código de la clase java 75 Figura 48: Ejecución como una aplicación java 76 Figura 49: Resultados obtenidos por la aplicación java 76 Figura 50: Icono Convert to Data Node 78 Figura 51: Cambio de hostname 79 Figura 52: Comprobación del hostname 79 Figura 53: Dirección IP del Master 80 Figura 54: Dirección IP del nodo Child 80 Figura 55: Hosts 80 Figura 56: Comprobación de acceso al nodo 81 Figura 57: Inicio componentes de BigInsights 82 Figura 58: Resultado del inicio de componentes BigInsights 82 Figura 58: Login a la consola BigInsights 83 Figura 59: Nodos del clúster 83 Figura 60: Ventana añadir nodos 84 Figura 61: Disponibilidad del nodo 84 Figura 62: Ventana añadir servicios 85 Figura 63: Resultados de añadir servicios 85 Figura 64: Nodos en ejecución 86 Figura 65: Host de los 3 nodos 86 Figura 66: Comando addnode 87 Figura 67: Mensaje de nodo añadido con éxito 87

Figura 68: Nuevos nodos en ejecución 87 Figura 69: Comando removenode 88 Figura 70: Eliminación de nodo exitosa 88 Figura 71: Ejecución del script listnode.sh 89 Figura 72: Servicios de un nodo en ejecución 90 Figura 73: Comando stop.sh 90 Figura 74: Contenido del directorio $BIGINSIGHTS_HOME/hdm/hadoop-conf-staging 92 Figura 75: Tamaño del bloque 93 Figura 76: Asignación de espacio en disco 93 Figura 77: Diferentes factores de replicación 94

Índice de Tablas Tabla 1: Comparativa entre HDFS y GPFS 33 Tabla 2: Tecnologías Hadoop adicionales 40 Tabla 3: Aplicaciones analíticas 42 Tabla 4: Productos de IBM integrados con InfoSphereBigInsights 48 Tabla 5: Información de usuarios 49 Tabla 6: Información de login 77

Capítulo 1 INTRODUCCIÓN La inestable situación económica en la que se encuentran muchas empresas ha obligado a tomar nuevas decisiones en busca de optimizar los recursos y reducir los gastos. Entre las medidas que se han empezado a utilizar, están las que afectan a los departamentos de TI. La revolución tecnológica que comenzó hace varios años ha supuesto que aumente el número de opciones de dispositivos que tiene cada usuario. Al ordenador portátil, herramienta fundamental en el ámbito empresarial desde su llegada, hace unos años que se le añadió el Smartphone y más recientemente la Tablet. Lo que ocurre es que se vive en un mundo hiperconectado, en el que los Smartphone, las Tablets y otros dispositivos están transformando nuestros modos, capacidades y formas de trabajar, y eso lleva asociado la necesidad de gestionar más cantidad de información y hacerlo en el menor tiempo posible. Según un informe de IDC [GANT12], se prevé que el universo digital (información digital creada y copiada) alcance los 40 zegabytes en 2020, una cifra que supera las previsiones que se habían hecho anteriormente en un 14%. Esto supone que el universo digital se duplicará cada dos años hasta el 2020. En la actualidad se crea y replica información a un ritmo vertiginoso, y estas masas de datos no tienen la forma tradicional de información estructurada en grandes bases de datos, sino que hoy invariablemente llegan en enormes cantidades de datos no estructurados, conocidos como Big Data. Y es éste un fenómeno de altísimo impacto para el mundo empresarial. Según el mencionado informe, únicamente se está aprovechando una parte insignificante del potencial de Big Data. Actualmente, solo un 3% de los datos potencialmente útiles están clasificados, y el porcentaje de ellos que se analiza es todavía inferior. El volumen de datos útiles se expande al ritmo que crece el universo digital. Page 1 of 123

En 2020 [GANT1], el 33% del universo digital (más de 13.000 exabytes) tendrá valor si esta información está clasificada y es susceptible de ser analizada, y entonces, el valor de negocio de esta información será incuestionable. La proliferación de dispositivos como los PCs y los Smartphones, el incremento del acceso a Internet en los mercados emergentes y el aumento de datos generados por máquinas, como cámaras de videovigilancia o detectores inteligentes, han sido clave en el desarrollo imparable de los Big Data. De hecho, la información generada por máquinas se ha incrementado desde el 11% registrado en 2005 a más del 40% que se prevé en 2020 [GANT12]. Este es sin duda el principal factor que influye en la expansión del universo digital. Nuestro mundo está lleno de sensores inteligentes con capacidad para recibir información permanentemente y en casi cualquier lugar, que puede ser tratada por entornos M2M (Máquina a Máquina). Las aplicaciones de software que se pueden descargar permiten a las personas hacer casi cualquier cosa desde sus teléfonos móviles y tabletas, mientras que las aplicaciones geoespaciales como Google Maps generan enormes cantidades de datos todos los días. A esto, hay que añadir el consumo masivo de fotografía y video digital todos los días. La industria de las TI está respondiendo al reto que representa Big Data con productos innovadores de hardware y software. Entre estos hay nuevas arquitecturas de almacenamiento de escalabilidad horizontal diseñados específicamente para almacenar y gestionar volúmenes únicos de información no estructurada que escalan de forma lineal hasta decenas de Petabytes, aplicaciones, software y dispositivos para entornos analíticos y de Business Intelligence. La inversión en Tecnologías de la Información, considerada la infraestructura del universo digital, crecerá un 40% hasta el 2020[GANT12]. En este contexto, la inversión en áreas como gestión de almacenamiento, seguridad, Big Data y Cloud Computing crecerá considerablemente más rápido, y las arquitecturas de nube supondrán un facilitador clave para poder procesar entornos de Big Data. De esta forma, el tipo de datos almacenados en la nube experimentará una transformación radical durante los próximos años. En 2020, IDC predice que el 46,7% de la información almacenada en la nube va a estar relacionada con el entretenimiento [GANT12], es decir, que no serán datos corporativos. Los Page 2 of 123