Big Data y NO-SQL el futuro de la Arquitectura de Información Jorge Mario Calvo L. EMPRENDEMICO = EMPRENdedor + academico http://jorgemariocalvo.net http://www.emprendemico.com Twitter: @Emprendemico Conocimiento Experiencia Sabiduría Pensar Hacer Ser Oigo y Olvido Veo y Entiendo Hago y Aprendo Confucio
No hay verdades absolutas; todas las verdades son verdades a medias. El mal surge de querer tratarlas como verdades absolutas. Alfred North Whitehead Aunque quizá sea difícil vivir con generalizaciones, es inconcebible vivir sin ellas. Peter Gay
Base de Datos = Relacional Consulta= SQL
Un solo estilo de Base de Datos no es suficiente hoy para la gestión de la información
Arquitectura de Información Arquitectura Empresarial y la Arquitectura de Información Zachman
Arquitectura Empresarial y la Arquitectura de Información Arquitectura de Información
Arquitectura Trabajo entre Arte y Ciencia Para la construcción de sistemas complejos Controlando la complejidad y la funcionalidad. Disciplina usada en varias industrias
Arquitectura Disciplina que busca desagregar, de forma inteligente y prudente, un todo (producto) en las partes y sus relaciones y reflejarlo en un modelo o en un diseño. Estructura con una visión
Arquitectura Empresarial: enfoque Togaf Arquitectura de Negocio Arquitectura de Información Arquitectura de Aplicaciones Arquitectura de Tecnología
Arquitectura de Información: Entregables Enterprise Data Model Data Technology Architecture Information Value Chain Analysis (Procesos) Data Integration/MDM Architecture DW/BI Architecture Metadata Architecture Enterprise Taxonomies and Namespace Document Management Architecture
Metadata Enterprise Data Model La información es el mayor activo de la empresa Existen diferentes dominios de datos El modelo relacional y SQL no es la solución en todos los dominios Data Technology Master Data Document DW/BI Architecture NO-SQL es la propuesta
NO-SQL (Not Only SQL) Data Technology. Data Integration/MDM Architecture Modelo Relacional ha funcionado para ambientes pequeños y medianos. (Giga y hasta Teras con altos costos) Data Modeling Entidad/Relación. Muy complejo 700 tablas mínimo y lo mostramos orgullosos NO-SQL Key Value. Hadoop. Map Reduce Apache Cassandra Data Modeling ECORE Eclipse Entity Framework. Microsoft
Data Modeling Actualmente es algo técnico y se hace al momento de desarrollo y no se discute con los Stakeholders. Se confunde con el diseño de Base de Datos Relacionales (700 tablas) Modelos de Alto Nivel Conceptuales son fundamentales en la arquitectura y se deben diseñar antes de los procesos Los diseñadores de procesos clarifican el lenguaje a través de los modelos de datos
Key Value Key Value Modelo Flexible Escalable Cargas Masivas
Hadoop Arquitectura flexible para el procesamientos de datos de grandes volúmenes utilizando hardware commodity. Proyecto Open Source del grupo Apache HW Commodity + Open Source = Costos Bajos
Hadoop, MapReduce y No-SQL BI DataWarehouse No-SQL MapReduce Framework HDFS (Hadoop Distributed File System)
MapReduce
NO-SQL (Not Only SQL) Document Modelo Relacional usamos binarios largos o textos o solo referencia a una archivo externo Un desastre cualquiera de las 2 soluciones NO-SQL Bases de Datos Documentales. Inspirados de Lotus Notes MongoDB. CouchDB Representación. JSON y XML
Bases de Datos Documentales Basado en Key Value Inspirado en el modelo de Lotus Notes Soporte de versiones a los documentos KEY
NO-SQL (Not Only SQL) DW/BI Architecture Modelo Relacional usamos modelo estrella Para analizar cualquier columna siempre acceso un registro. Pésimo desempeño NO-SQL Columnares. Bigtable. InfiniDB. Apache Cassandra Data Modeling Alto nivel. Semántico.
Columnares Almacenamiento y Acceso por Registro ID Nombre Salario 79378140 Jorge Mario Calvo 3456 51740099 Gloria Cortes 6789 79234567 Pepito Perez 4567 Almacenamiento y Acceso por Columna ID 79378140 51740099 79234567 Nombre Jorge Mario Calvo Gloria Cortes Pepito Perez Salario 3456 6789 4567
NO-SQL (Not Only SQL) Metadata, Taxonomies and Namespace Modelo Relacional a través de llaves Problema los SQLs. joins NO-SQL Graph Databases. RDF. Neo4j Data Modeling RDF. RDF Schemas. Ontologías
Graph Modelar la complejidad de la relación de los datos Inspirado en la teoría matemática de grafos Web Semántica RDF es un ejemplo
Representación Relacional
Consultas Amigos Directos select distinct uf.* from t_user_friend uf where uf.user_1 =? Amigos de Amigos select distinct uf2.* from t_user_friend uf1[ca] inner joint t_user_friend uf2 on uf1.user_1 = uf2.user_2[ca] where uf1.user_1 =?
RDF Resource Description Framework Es el modelo para los datos enlazados y la base de la Web Semántica Modela como hacer relaciones entre datos (cosas) Es un estándar W3C http://www.w3.org/rdf/ Definido por Tim Berners Lee como la próxima Web http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html 0:00-1:14 3:55:4:20 5:35:7.40
RDF Statements. Tripletas RDF Tripletas del Estilo Resource, Property y Property value Subject, Predicate and Object URI
DBPEDIA
Inteligencia Participantes charla Información Charla Bigdata Uso Contactar Data Jorge Mario Calvo Consulta Ultima actualización? Hecho Perfil Sentido Red Social
Data Deluge (The Economist)
Qué es Big Data? Big Data es el termino que se utiliza para denominar las tecnologías, herramientas y metodologías que se requieren para capturar, gestionar y procesar grandes volúmenes de datos (desde terabytes hasta petabytes). Con la tecnología tradicional como los RDBMs no es posible gestionar estos volúmenes Surgimiento de las NO-SQL (Not Only SQL)
Ejemplos Web logs RFID Sensor networks Social networks y social data Internet text and documents Internet search indexing Call detail records Astronomy Atmospheric science Genomics, biogeochemical, biological Military surveillance Medical records Photography archives, video archives Large-scale ecommerce
Beneficios de la Big Data Detectar las tendencias de negocios Detectar los gustos y comportamientos de los usuarios La prevención de enfermedades Luchar contra la delincuencia Mejorar la calidad de vida Trafico Meteorología
Beneficios de la Big Data Predecir y modelar el futuro
Tendencias y Tecnologías Administradores de Base de Datos No-SQL Tamaño: de Terabytes a Petabytes Trabajo en forma desconectada Información semi estructurada Arquitecturas distribuidas Estilos de No-SQL Key Value Big Table Graph Documents Data Mining Compartir y compartir los datos (Open and Linked Data)
Conclusión BigData es la gran próxima revolución de la humanidad. Era Industrial Maquina de Vapor. Inicio de la Era Industrial 1950s Robotización. Aumento de la productividad Era de la Información Computador. 1950s. Inicio de la Era de la Información Internet y la Web. Consolidación de la Era de la Información Web 2.0. El usuario tiene el poder. Creación de Data BigData. Servicios. Conocimiento. Inteligencia.????????
A construir Data Startups http://klout.com/home
Gracias!!!! Jorge Mario Calvo L. jorgemariocalvo@gmail.com http://jorgemariocalvo.net/ http://emprendemico.com/ https://twitter.com/emprendemico @Emprendemico