Jornadas INCATEC 2015 Dr. Pedro Nolasco Bonillo Ramos Ingeniero en Computación. USB Magíster en Ingeniería de Sistemas. USB Magíster en Gerencia de las Finanzas. UNY Doctor en Ciencias de la Computación. UCV Teólogo. UCAB.
Agenda Introducción Nuevas unidades de medida Datos no estructurados Tipos de datos en Big Data Modelo 4V de Big Data Retos Actuales Solución a los retos con Big Data Áreas de aplicación de Big Data 2
Agenda Arquitectura Big Data Casos de éxito de Big Data en la Industria Desafíos para la región Perspectiva organizacional Impacto económico y oportunidades de negocio 3
Introducción Big Data (del idioma inglés grandes datos ) es en el sector de tecnologías de la información y la comunicación una referencia a los sistemas que manipulan grandes conjuntos de datos. Gartner Group define Big data como un conjunto de datos de gran volumen, de gran velocidad y procedente de gran variedad de fuentes de datos que demandan formas innovadoras y efectivas de procesar la información. 4
Origen del Big Data 5
Unidades de almacenamiento 6
7
Pasa cada 60 segundos 8
Datos no estructurados La característica de "variedad" utilizada para definir Big Data lleva muchas veces a pensar que solo es apropiado para el almacenamiento y análisis de información no estructurada. La expresión "información no-estructurada" se refiere típicamente a aquellos datos que no están organizados bajo el Modelo de Datos Relacional, definido por Edgar Codd en 1970. 9
Tipos de Datos en Big Data Smart Data Son todos los datos referentes al negocio. En este grupo se puede encontrar desde las cifras de ventas, datos sobre los clientes, etc. Todo aquello que esté relacionado con la consecución de los objetivos de la empresa. 10
Tipos de Datos en Big Data Identity Data Son todos los datos que nos permiten identificar a nuestros clientes actuales y potenciales: datos sobre sus gustos, historial de compras, perfil de internauta, tipo de interacción con nuestros contenidos (web, redes sociales, blog, etc.), entre otros. 11
Tipos de Datos en Big Data Identity Data Toda la información que nos permite personalizar nuestra oferta de producto, contenido y canal de comunicación con los clientes al máximo. En esta etapa es cuando entran en escena las herramientas de CRM y Business Intelligence. 12
Tipos de Datos en Big Data Open data Agrupa al resto de datos externos a la empresa y que son accesibles por todo el mundo. Por su volumen y diversidad, nos será más difícil sacarles partido. Pero una vez encontrada la fuente de datos (e integrada), los beneficios que podemos obtener de esta información son enormes. 13
Modelo 4V del Big Data 14
Retos Actuales: Variedad Han surgido nuevos tipos de datos que se quieren almacenar: datos no estructurados. Las Bases de Datos Relacionales no pueden almacenar correctamente este tipo de datos. 15
Retos Actuales: Escalabilidad La rapidez y rendimiento en consultas o procesamiento de datos, busca escalar siempre las arquitecturas en forma horizontal y vertical. Es decir, podemos añadir más servidores (horizontal) o mejorar el servidor actual (vertical) 16
Retos Actuales: Escalabilidad El problema es que actualmente las Bases de Datos Relacionales no pueden estar distribuidas en nodos diferentes. Es impensable que una Clave Foránea (FK), apunte a una tabla que está en otro nodo, por ello la única forma de conseguir estos dos objetivos es añadiendo CPU y Memoria, haciendo escalabilidad vertical. Pero esto no es suficiente, buscamos escalabilidad horizontal para tener todos los servidores que queramos trabajando en paralelo. 17
Retos Actuales: Modelo relacional El modelo relacional no da soporte para todos los problemas. No podemos atacar todos los problemas con el mismo enfoque, queremos optimizar al 100% nuestro sistema y no podemos ajustar nuestros sistemas a este modelo. Por ejemplo, en el modelo relacional no podemos tener columnas variables según las filas. 18
Restos Actuales: Velocidad La velocidad de generación de datos hoy en día es muy alta, simplemente hay que verlo con las redes sociales, aunque las empresas medias y muchas de las grandes no se ven afectadas por ello. Donde sí influye la velocidad es en el procesamiento de todo este conjunto de datos, pues cuantos más datos tengamos se requiere más tiempo de procesamiento. Por ello, se necesita un ecosistema que sea capaz de escalar horizontalmente para trabajar en paralelo y ahorrar tiempo. 19
Soluciones: NoSQL Bases de datos Big Data Nuevos gestores de bases de datos basados en no soló los lenguajes de consulta relacionales (NoSQL) buscan dar solución a los problemas anteriores. Por ejemplo, las Bases de Datos clave-valor consiguen almacenar de forma sencilla diferentes tipos de datos no estructurados. 20
Soluciones: MapReduce Sistema de archivos distribuido para garantizar escalabilidad El corazón de Big Data, es el concepto del algoritmo MapReduce y el Manejo de Archivos Distribuidos de Hadoop (HDFS). El primero es un algoritmo que permite procesar grandes volúmenes de información de forma sencilla y resumida, el segundo es una herramienta que garantiza ejecutar programas MapReduce hechos por usuarios en nodos distribuidos. 21
Soluciones: HDFS Sistema de archivos distribuido para garantizar escalabilidad Una de las características más importantes es que HDFS consigue hacer transparente y simple la creación de clústeres de nodos que trabajan en paralelo como uno solo. 22
Soluciones: Metodología 23
Aplicación: Social Media Web y Social Media: Incluye contenido web e información que es obtenida de los medios sociales como Facebook, Twitter, LinkedIn, Foursquare, Tuenti, blogs como Technorati, blogs de periódicos, wikis como MediaWiki, Wikipedia, entre otros. 24
Aplicación: Biometría La información biométrica se refiere a la identificación automática de una persona de acuerdo a sus características anatómicas o trazos personales. Los datos anatómicos se crean a partir de las características físicas, incluyendo huellas digitales, iris, escaneo de la retina, reconocimiento facial, genética, DNA, reconocimiento de voz, incluso olor corporal, etc. 25
Aplicación: Sistemas Transaccionales Incluye registros de ciudadanos, tramites, impuestos, facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados. 26
Aplicación: Machine to machine M2M se refiere a las tecnologías que permiten conectarse a diferentes dispositivos entre sí. M2M utiliza sensores o medidores que capturan algún evento en particular (humedad, velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a otras aplicaciones que traducen estos eventos en información significativa. 27
Arquitectura Big Data 28
Casos de éxito 29
Desafíos para la región Hay tres retos principales que requieren cumplir las empresas del cono sur: 1. Priorizar al negocio sobre la tecnología. Los proyectos Big Data deben nacer del negocio. 2. Lograr una visión global del negocio para no generar silos de información. 3. Emancipación a través del talento: Las empresas deben comprender que además de información y tecnología, deben incluir expertos y asesores en su organización. 30
Perspectiva organizacional Las empresas van a tener que adecuar sus organizaciones para poder manejar Big Data: Quién debe ser el dueño de la Data? Las empresas van a necesitar áreas de Big Data Analytics. 31
Impacto económico y oportunidades de negocio Demanda de talento analítico insatisfecha. Es difícil ubicar Personal especializado en Big Data, son muy escasos. Nuevos talentos requeridos con nuevos perfiles. 32
Bibliografía Ignacio Bustillo (2013). Big Data. Disponible en (Fecha: Agosto 2014): http://www.ignaciobustillo.com/blog/bigdata Alvaro Rattinger (2014). Big Data y Social Media, combinación estratégica. Disponible en (Agosto 2014): http://www.merca20.com/big-data-y-social-media-combinacio n-estrategica/ Alexander Ambriz Rivas (2013). Almacenamiento de datos estructurados con Big Data. Disponible en (Agosto 2014): https://www.ibm.com/developerworks/ssa/library/bd-almace namiento-datos/ Trístan Elósegui (2014). Big Data Analitycs: El Futuro de la Analítica Digital. Disponible en (Agosto 2014): http://tristanelosegui.com/2014/05/05/big-data-analytics-el-fu turo-de-la-analitica-digital/ Mayer-Schönberger, V. (2013). Big Data: A Revolution That Will Transform How We Live, Work, and Think. Houghton, M. 33
Preguntas? Dr. Pedro Nolasco Bonillo Ramos Presidente PhD 2014 Consultores C.A. email: pedro.bonillo.phdconsultores@gmail.com skype: pedro.nolasco.bonillo teléfono oficina: (+58) 2129918911 celular: (+58) 4166830677 (+58) 04241287373 34