Big Data I: Ingeniería de datos

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Big Data I: Ingeniería de datos"

Transcripción

1 Big Data I: Ingeniería de datos Felipe Ortega Dpto. de Estadística e Investigación Operativa Universidad Rey Juan Carlos April 8, 2014

2 Algunos números sobre big data (cc) 2014 Felipe Ortega. Algunos derechos reservados. Este documento se distribuye bajo una licencia Creative Commons Reconocimiento-CompartirIgual 3.0, disponible en: Big Data I: Ingeniería de datos. Felipe Ortega 1/90

3 Contenidos 1 Introducción a ingeniería de datos 2 Obtención de datos 3 Representación de datos 4 Almacenamiento de datos 5 Preparación, transformación y cómputo de datos 6 Ecosistema Apache Hadoop 7 Procesamiento de alta velocidad 8 Lenguajes y entornos 9 Replicabilidad 10 Conclusiones 11 Referencias Big Data I: Ingeniería de datos. Felipe Ortega 2/90

4 Objetivos Introducción a los aspectos técnicos y de infraestructura para ingeniería de datos. Fundamentos para comprender el papel y la importancia de los métodos y tecnologías de ingeniería de datos en la actualidad. Ilustraremos con ejemplos tecnológicos y casos de estudio. Conoceremos tendencias actuales en ingeniería de datos e infraestructuras asociadas. Big Data I: Ingeniería de datos. Felipe Ortega 3/90

5 Qué es la ciencia de datos? Diagrama de Venn de la Ciencia de Datos (por Drew Conway). Big Data I: Ingeniería de datos. Felipe Ortega 4/90

6 Ingeniería + análisis de datos Basado en Fig 1-1 de [1]. Big Data I: Ingeniería de datos. Felipe Ortega 5/90

7 Dimensiones big data Término controvertido, incluso para los propios profesionales. Consenso: definido por las 3 Vs [2]. Volumen (tamaño, procesamiento). Velocidad (adquisición, procesamiento). Variedad (dimensiones). A veces, se añade una cuarta V : valor (el valor añadido que aporta big data para el negocio o dominio de aplicación). No es sólo una cuestión de tamaño. Big Data I: Ingeniería de datos. Felipe Ortega 6/90

8 Big Data en la práctica... Big Data I: Ingeniería de datos. Felipe Ortega 7/90

9 Cuántos son muchos datos? Más de los que podamos procesar en un sólo computador (incluso con un servidor potente). Por necesitar demasiada memoria. Por requerir demasiado espacio de almacenamiento. Porque no podemos almacenar el flujo de datos que nos llega de forma permanente (procesado on-line vs. off-line). Porque necesitamos resultados con gran rapidez para tomar decisiones operativas. A continuación, presentamos algunos ejemplos [14]. Big Data I: Ingeniería de datos. Felipe Ortega 8/90

10 Algunos números sobre big data Walmart. Fortune 500 Global. Mayor empleador privado del mundo (+2 millones empleados). Mayor distribuidor minorista del mundo. Sus servidores procesan más de un millón de transacciones de clientes cada hora. Sus bases de datos almacenan más de 2,5 Petabytes (1 Petabyte = 1024 Terabytes). Big Data I: Ingeniería de datos. Felipe Ortega 9/90

11 Algunos números sobre big data LHC (CERN). Mayor y más potente colisionador de partículas del mundo. Una de las mayores fuentes de datos de experimentos científicos del mundo. Se estima que genera unos 15 Petabytes de información anualmente. Se analizan en un sistema computacional distribuído y tolerante a fallos (grid computing): 170 centros de computación, 36 países participantes. Red global de comunicación. Big Data I: Ingeniería de datos. Felipe Ortega 10/90

12 Algunos números sobre big data Datos en la Web. Facebook opera sobre 500 Terabytes de información de registro de actividad de sus usuarios, y sobre cientos de Terabytes de imágenes. Cada minuto se cargan 100 horas de vídeo en Youtube, y más de horas de vídeo son vistas. Twitter sirve a casi 600 millones de usuarios que generan tweets cada segundo. Los sistemas de ebay procesan más de 100 Petabytes de información al día. Big Data I: Ingeniería de datos. Felipe Ortega 11/90

13 Algunos números sobre big data Sector aeronáutico. Un avión comercial de Boeing puede generar alrededor de 10 Terabytes de información operacional cada 30 minutos de funcionamiento. Por tanto, en un vuelo transatlántico se pueden llegar a generar varios cientos de Terabytes de información. Se realizan alrededor de vuelos diarios en todo el mundo. Esto nos ofrece una idea de la ingente cantidad de datos generada por máquinas y redes de sensores de manera regular. Big Data I: Ingeniería de datos. Felipe Ortega 12/90

14 Necesidades computacionales Precisamos potencia y capacidad de computación para enfrentarnos al análisis de una ingente cantidad de datos. Problema: el tráfico de datos crece a mayor velocidad que nuestra capacidad de computación. Entre 2002 y 2009 el volúmen global del tráfico de datos se multiplicó por 56, pero la potencia de computación se multiplicó sólo por 16. Entre 1998 y 2005 los centros de datos crecieron en tamaño un 173% anual [14], mientras que la eficiencia en consumo energético no mejoró a la par. Esto generará una enorme huella de consumo energético para análisis de datos. Además, en torno al 50% de los centros de cómputo de datos sólo funcionan al 50% de su rendimiento máximo. Big Data I: Ingeniería de datos. Felipe Ortega 13/90

15 Tareas en ingeniería de datos Obtención de datos. Gestión de múltiples fuentes de datos (offline vs. tiempo real). Almacenamiento de datos. Datos estructurados vs. no estructurados. Datos enlazados. Metadatos y estándares de representación. Preparación de datos. Limpieza de datos. Datos no disponibles (imputación). Big Data I: Ingeniería de datos. Felipe Ortega 14/90

16 Tareas en ingeniería de datos Tratamiento de datos. Organización de conocimiento (ontologías). Identificación/extracción de datos relevantes. Cómputo y paralelización. Particionado y compresión de datos. Multiprocesado y procesamiento paralelo (clusters, cloud computing). Paradigmas de cómputo (ej. Map Reduce). Big Data I: Ingeniería de datos. Felipe Ortega 15/90

17 Tareas en ingeniería de datos: otros aspectos Tecnologías y recursos de computación. Necesidad de adquirir nociones sobre el impacto de diferentes alternativas sobre el rendimiento de la infraestructura de computación. Planificación estratégica de uso de recursos. Desarrollo y gestión de software. El código se convierte en activo fundamental. Importancia del software libre como opción preferencial para análisis de datos. Gestión de datos. Mantener nuestros datos organizados, organización y aprovechamiento de metadatos (datos acerca de los datos). Big Data I: Ingeniería de datos. Felipe Ortega 16/90

18 Obtención de datos Etapa crucial y con frecuencia infravalorada. Con frecuencia, la obtención y preparación de datos consume cerca del 85% del tiempo total del proyecto de análisis de datos. Diferentes retos. Multiplicidad de fuentes. Métodos de obtención de datos (scrapping, streaming, APIs...). Diferentes formatos de representación. Consolidación de datos obtenidos. Big Data I: Ingeniería de datos. Felipe Ortega 17/90

19 Obtención de datos Multiplicidad de fuentes Big Data I: Ingeniería de datos. Felipe Ortega 18/90

20 Obtención de datos: aspectos de diseño Construir módulos intercambiables para manejar cada tipo de fuente. Misma interfaz de uso, ocultando peculiaridades del manejo de cada fuente o tipo de datos. Considerar diseños basados en colas de elementos (datos o bloques de datos de entrada) que permitan gestionar: Distintas velocidades de adquisición. Datos heterogéneos. Mantenimiento estricto del orden de llegada. Big Data I: Ingeniería de datos. Felipe Ortega 19/90

21 Obtención de datos: aspectos de diseño Nunca debemos asumir que las fuentes nos van a enviar los datos correctamente representados o íntegros. Ejemplo: Beautiful Soup. Biblioteca Python para adquisición de datos HTML (y XML). Soporta fallos en sintaxis HTML (o XML) de los documentos de origen. Big Data I: Ingeniería de datos. Felipe Ortega 20/90

22 Obtención de datos: aspectos de diseño Aquí importa (y mucho) la velocidad de ejecución. En flujos de datos en tiempo real podemos perder datos si no los recuperamos a tiempo. Los tiempos de espera para tratamiento de fuentes de gran volumen se pueden alargar demasiado (días, semanas). Ejemplos: lxml, UJSON (Python). Big Data I: Ingeniería de datos. Felipe Ortega 21/90

23 Obtención de datos: aspectos de diseño Pero también hay que respetar los límites impuestos por determiandos sistemas fuente. En APIs públicas, se suele limitar el número de consultas que pueden realizarse en un cierto intervalo, también la cantidad de datos devueltos por cada consulta o el rango temporal que podemos abarcar. Ejemplos: Twitter REST API 1.1, Facebook. Big Data I: Ingeniería de datos. Felipe Ortega 22/90

24 Representación de datos Formatos relacionados con tecnologías web. HTML, XML, JSON, YAML, etc. Procesamiento. CSV, HDF5, ff, otros formatos específicos. Metadatos. RDF (datos enlazados). Big Data I: Ingeniería de datos. Felipe Ortega 23/90

25 Representación de datos Ejemplos [3]: JSON Big Data I: Ingeniería de datos. Felipe Ortega 24/90

26 Representación de datos Ejemplos [3]: YAML Big Data I: Ingeniería de datos. Felipe Ortega 25/90

27 Representación de datos Ejemplos [3]: XML Big Data I: Ingeniería de datos. Felipe Ortega 26/90

28 Representación de datos Benchmark bibliotecas serialización (Python) [4]. time format cjson cpickle json msgpack ujson yaml size Big Data I: Ingeniería de datos. Felipe Ortega 27/90

29 Representación de datos: procesamiento Almacenamiento de estructuras de datos de gran tamaño en disco. Estándares Hyerarchical Data Format version 5 (HDF5). Otros formatos específicos. Paquetes R ff, ffbase o bigmemory. Big Data I: Ingeniería de datos. Felipe Ortega 28/90

30 Representación de datos: HDF5 Conjunto de datos jerárquicos, estructurados y autodescriptivos (metadatos). Capaz de escalar con facilidad al nivel de Exabyte (~1000 TB), compresión transparente, ubicación en múltiples dispositivos. Capacidad de indexación y E/S parcial. Evitamos cargar grandes volúmenes de datos en memoria o búsquedas secuenciales. Bibliotecas disponibles en C, C++, Python, MATLAB, etc. Big Data I: Ingeniería de datos. Felipe Ortega 29/90

31 Representación de datos: HDF5 Recomendable cuando los datos sean [5]: Grandes arrays numéricos. De tipo homogéneo. Que se puedan organizar jerárquicamente. Con metadatos de tipo arbitrario. Para gestión de relaciones entre datos mejor usar bases de datos. Se puede usar también formatos más sencillos (e.g. CSV) para casos simples. Big Data I: Ingeniería de datos. Felipe Ortega 30/90

32 Representación de datos: otros formatos Proyecto ff para el lenguaje R. Permite manejar grandes volúmenes de datos en R, sin necesidad de recurrir a clusters o cloud computing. Implementación de estructuras de datos comunes en R (ej. data frames). Implementación en C y C++ a bajo nivel, transparente para el usuario. Soporte para aplicación paralela de operaciones sobre datos en disco. Big Data I: Ingeniería de datos. Felipe Ortega 31/90

33 Representación de datos: RDF Resource Description Framework. Familia de estándares de representación de metadatos promovida por W3C. Tripletas (sujeto-predicado-objeto) definen grafos dirigidos. Ofrecen información sobre ubicación y relaciones entre los datos almacenados (recursos web enlazados). Es posible consultar el grafo mediante el lenguaje SPARQL. Big Data I: Ingeniería de datos. Felipe Ortega 32/90

34 Representación de datos Ejemplo grafo RDF. Big Data I: Ingeniería de datos. Felipe Ortega 33/90

35 Modelo de datos Define el diseño y la implementación del sistema que almacena y gestiona los datos. Datos estructurados. Podemos almacenar sus valores en campos predefinidos con un tipo o una clase asociado de forma fija. Ejemplo: sistemas de bases de datos relacionales (RDBMS). Big Data I: Ingeniería de datos. Felipe Ortega 34/90

36 Modelo de datos Datos no estructurados No podemos predefinir de antemano su tipo, por lo que necesitamos un modelo de datos más flexible para su gestión. Relaciones complejas entre los diferentes elementos de datos. Ejemplo: Sistemas NoSQL (particionado por columnas, documentos, grafos, clave-valor, etc.). Big Data I: Ingeniería de datos. Felipe Ortega 35/90

37 Bases de datos relacionales Numerosas opciones en el mercado, propietarias o software libre. Larga trayectoria, tecnología muy madura y consolidada, permite predecir hasta cierto punto rendimientos esperados. Oracle, MySQL, MariaDB, PostgreSQL, SQLite, etc. Gran variabilidad en cuanto a soporte para big data. Tipos de datos nativos. Particionado de tablas. Clustering, alta disponibilidad. Object-Relational Mapping (ORM). Ejemplo: SQLAlchemy (Python). Big Data I: Ingeniería de datos. Felipe Ortega 36/90

38 NoSQL NoSQL = Not Only SQL. Escalabilidad y alto rendimiento para big data (en especial, tratamiento de tipos de datos muy heterogéneos o información textual). Esquemas clave-valor. Almacen de datos en pares clave-valor, no precisan esquema (Riak, Redis, Voldemort, etc.). Almacen de columnas. Particionan datos por columnas, de forma que podemos paralelizar consultas sobre subconjuntos de datos muy grandes (HBase, Cassandra). Big Data I: Ingeniería de datos. Felipe Ortega 37/90

39 Almacenamiento de datos: NoSQL Documentos. Cada clave está asociada a un documento, codificado según algún estándar de representación de datos (JSON, XML, YAML, etc.). Los documentos pueden contener muchos pares clave-valor, clave-array (para listas de datos) u otros documentos. Ejemplo: MongoDB. Grafos. Almacenan explícitamente información sobre nodos y sus relaciones, optimizando consultas que recorren los grafos (Neo4J). Big Data I: Ingeniería de datos. Felipe Ortega 38/90

40 Ventajas NoSQL Mejor escalado horizontal, permite procesamiento paralelo. Consideran la agregación de nuevos recursos de computación en caliente (autosharding, replicación). No es necesario definir esquemas (tipos de datos), se pueden mezclar dinámicamente nuevos datos con los ya existentes (con limitaciones). Mejor integración con metodologías ágiles de desarrollo de software. Sprints cortos, prototipado rápido (vs. esquemas predefinidos). Dificultad para establecer a priori esquemas fijos de estructuras de datos. Posibilidad de optimizar la recuperación de información mediante indexación (múltiple, dispersa, geoespacial, etc.). Big Data I: Ingeniería de datos. Felipe Ortega 39/90

41 Inconvenientes NoSQL Requieren importantes conocimentos técnicos para su instalación, correcta configuración y administración (recordemos importancia del rendimiento). Todavía escasa madurez en comparación con RDBMS. Múltiples estándares de programación y APIs, incompatibles entre sí en muchos casos (necesidad de soporte de comunicación). Big Data I: Ingeniería de datos. Felipe Ortega 40/90

42 Sistemas de ficheros distribuidos Adecuados para distribuir datos sobre clústers de máquinas/clouds. Fuertemente ligados a tecnologías específicas. HDFS (Apache Hadoop). Google File System (GFS). Amazon S3. Big Data I: Ingeniería de datos. Felipe Ortega 41/90

43 Google File System Big Data I: Ingeniería de datos. Felipe Ortega 42/90

44 Preparación y transformación de datos Limpieza de datos. Datos no disponibles. Gestión de valores vacíos. Imputación de datos no disponibles. Transformación de datos. Data munging o data wrangling. Pasar los datos a otro formato o dejarlos preparados para luego poder analizarlos más fácilmente. Big Data I: Ingeniería de datos. Felipe Ortega 43/90

45 Data Wrangler Ejemplo de este tipo de herramientas (UW Interactive Data Lab). Big Data I: Ingeniería de datos. Felipe Ortega 44/90

46 Cómputo de datos Multiprocesador. Una sola máquina con mucha memoria y múltiples CPUs (cores). Clúster. Conjunto de máquinas independientes funcionando de forma solidaria. Coordinación por mensajería (más frecuente) u otros medios. Sistemas distribuidos. Además, los nodos pueden estar en diferentes ubicaciones. Big Data I: Ingeniería de datos. Felipe Ortega 45/90

47 Paralelización Aproximación genérica paralelización de algoritmos. Big Data I: Ingeniería de datos. Felipe Ortega 46/90

48 Paralelización Paradigma MapReduce. Big Data I: Ingeniería de datos. Felipe Ortega 47/90

49 Ecosistema Apache Hadoop Big Data I: Ingeniería de datos. Felipe Ortega 48/90

50 Ecosistema Apache Hadoop Big Data I: Ingeniería de datos. Felipe Ortega 49/90

51 Proyectos Hadoop: Hadoop El núcleo de todo el ecosistema de aplicaciones. Hadoop Common Package (abstracciones) + HDFS (sistema de ficheros distribuido) + YARN (MapReduce engine). Se aplica el paradigma MapReduce a datos almacenados en múltiples nodos. Arquitectura Maestro-Esclavo. Big Data I: Ingeniería de datos. Felipe Ortega 50/90

52 Proyectos Hadoop: Hadoop Infraestructura para Hadoop. Big Data I: Ingeniería de datos. Felipe Ortega 51/90

53 Proyectos Hadoop: Hadoop Infraestructura para Hadoop. Big Data I: Ingeniería de datos. Felipe Ortega 52/90

54 Proyectos Hadoop: Hadoop Gestión de tareas MapReduce. El JobTracker mantiene en memoria del nodo maestro información sobre todas las tareas planificadas y en ejecución. Se gestionan tanto las tareas de tipo map como las de tipo reduce, asociadas a trabajos de alto nivel enviados por el cliente. Límites versión 1 (MapReduce/MR1) NODOS, tareas concurrentes. Fallos acaban con trabajos en ejecución y encolados (catastrófico). Big Data I: Ingeniería de datos. Felipe Ortega 53/90

55 Proyectos Hadoop: Hadoop YARN/MR2. Big Data I: Ingeniería de datos. Felipe Ortega 54/90

56 Proyectos Hadoop: Apache Hbase Base de datos NoSQL, diseñada a imagen de Google BigTable, escrita en Java. Orientada a partición por columnas. Tolerancia a fallos. Compresión de datos, operaciones en memoria, filtros Bloom. Funciona sobre HDFS. Big Data I: Ingeniería de datos. Felipe Ortega 55/90

57 Proyectos Hadoop: Apache Cassandra Base de datos NoSQL liberada por Facebook en Especialmente pensada para requisitos de alta disponibilidad. Replicación en múltiples nodos (incluso alejados geográficamente). Diferentes niveles de consistencia de datos entre réplicas (configurable). No admite operaciones como JOIN ni subconsultas. Big Data I: Ingeniería de datos. Felipe Ortega 56/90

58 Proyectos Hadoop: Apache Hive Sistema datawarehouse que ejecuta sobre Hadoop. Programar operaciones para análisis de datos directamente sobre Hadoop puede llegar a ser muy tedioso. Hive proporciona un lenguaje de abstracción similar a las consultas SQL. Procesado de logs (tráfico web, sistemas), minería de texto, indexación de documentos, inteligencia de negocio, predicciones y contraste de hipótesis. Big Data I: Ingeniería de datos. Felipe Ortega 57/90

59 Proyectos Hadoop: Apache Pig Creado por Yahoo. Resuelve el problema de evitar escribir flujos de análisis de datos en Java para Hadoop. Pig-Latin: Lenguaje declarativo para trabajar con flujos de datos. Estrategia diferente a Hive, que está más orientado a consultas tipo SQL [7]. Big Data I: Ingeniería de datos. Felipe Ortega 58/90

60 Proyectos Hadoop: Hive vs. Pig Cómo lo haríamos en Apache Pig [7]. INSERT INTO ValuableClicksPerDMA SELECT dma, COUNT(*) FROM geoinf JOIN ( SELECT name, ipaddr FROM users join clicks ON (users.name = clicks.user) WHERE value > 0;) USING ipaddr GROUP BY dma; Big Data I: Ingeniería de datos. Felipe Ortega 59/90

61 Proyectos Hadoop: Hive vs. Pig Cómo lo haríamos en Apache Pig [7]. Users = load users as (name, age, ipaddr); Clicks = load clicks as (user, url, value); ValuableClicks = filter Clicks by value > 0; UserClicks = join Users by name, ValuableClicks by user; Geoinfo = load geoinfo as (ipaddr, dma); UserGeo = join UserClicks by ipaddr, Geoinfo by ipaddr; ByDMA = group UserGeo by dma; ValuableClicksPerDMA = foreach ByDMA generate group, COUNT(UserGeo); store ValueClicksPerDMA into ValuableClicksPerDMA ; Big Data I: Ingeniería de datos. Felipe Ortega 60/90

62 Proyectos Hadoop: Apache Mahout Construcción de bibliotecas de machine learning sobre Hadoop. Clustering (K-means, K-means con lógica difusa). Sistemas de recomendación. Múltiples clasificadores: Regresión logística. Naive Bayes. Árboles de decisión. Random forest, etc. Big Data I: Ingeniería de datos. Felipe Ortega 61/90

63 Paralelización: otras alternativas Snow (R). Simple Network of Workstations. Interfaz simple para programación paralela en R utilizando un clúster. MPI (Message Passing Interface). Estándar para computación paralela mediante paso de mensajes. Implementaciones libres (OpenMPI). Interfaces con lenguajes (Rmpi). Big Data I: Ingeniería de datos. Felipe Ortega 62/90

64 Procesamiento offline vs. real-time Un gran problema de Hadoop es que, a pesar de distribuir tareas y datos entre muchos nodos, puede tardar mucho. Necesidad de sistemas que puedan realizar consultas a gran velocidad (interactivas) sobre grandes volúmenes de datos. Ejemplos Apache Spark. Presto (Facebook). Big Data I: Ingeniería de datos. Felipe Ortega 63/90

65 Apache Spark Framework para análisis de datos veloz. Utiliza HDFS, pero no está ligado al diseño en dos fases característico de MapReduce. Soporte para grafos de operaciones arbitrarios, computación en memoria (cuidado con requisitos del sistema). APIS: Scala, Java y Python, caché de datos en memoria, interfaces para exploración interactiva de datos. Shark: Interfaz SQL compatible con Hive, pero 100 veces más rápida. Spark Streaming: Procesado de flujos de datos en tiempo real. Big Data I: Ingeniería de datos. Felipe Ortega 64/90

66 Spark en Acción Regresión logística en Spark [8] con Python. points = spark.textfile(...).map(parsepoint).cache() w = numpy.random.ranf(size = D) # current separating plane for i in range(iterations): gradient = points.map( lambda p: (1 / (1 + exp(-p.y*(w.dot(p.x)))) - 1) * p.y * p.x ).reduce(lambda a, b: a + b) w -= gradient print "Final separating plane: %s" % w Big Data I: Ingeniería de datos. Felipe Ortega 65/90

67 Presto (Facebook) Facebook posee uno de los almacenes de datos de mayor tamaño del mundo (+300 Petabytes). Necesidades: Análisis de grafos, machine learning y análisis interactivo. Motor de consultas SQL interactivo, enfocado en minimizar el tiempo de respuesta. Big Data I: Ingeniería de datos. Felipe Ortega 66/90

68 Presto (Facebook) Pequeña demo en línea (vídeo) [9]. Big Data I: Ingeniería de datos. Felipe Ortega 67/90

69 Encuesta KDNuggets 2013 Programming languages for analytics / data mining / data science in R (60,9%). 2. Python (38,8%). 3. SQL (36.6%). 4. SAS (20,8%). 5. Java (16,5%). Todavía a mucha distancia (8,0%) Pig Latin, Hive y otras tecnologías basadas en el ecosistema Hadoop. Big Data I: Ingeniería de datos. Felipe Ortega 68/90

70 Lenguaje de programación: Python Por qué Python? Principalmente por una razón: Batteries included. Multitud de bibliotecas avanzadas para ciencia de datos. NumPy, SciPy, Matplotlib: bibliotecas báscias de programación científica. Pandas: Python Data Analysis Library. Scikit-learn: Machine learning (contribuciones de Google, entre otros). PyBrain: Machine learning. NLTK: Natural Language Toolkit. Django: Aplicaciones web, APIs REST (Tastypie). etc. Big Data I: Ingeniería de datos. Felipe Ortega 69/90

71 Lenguaje de programación: Python Está pensado para prototipado rápido y desarrollo ágil. Duck typing. Lenguaje dinámico. Multiplataforma. Código muy legible y claro (vs. por ejemplo Perl). Más accesible para programadores que R (curva aprendizaje más corta). Múltiples alternativas para documentación, control de calidad de código (PyLint, PyChecker, PyFlakes). Muy fácil instalar nuevas bibliotecas (PyPy). Big Data I: Ingeniería de datos. Felipe Ortega 70/90

72 Entorno y lenguaje estadístico: R Entorno de programación estadística que proporciona su propio lenguaje. Comunidad muy dinámica, crecimiento exponencial. Multitud de paquetes de extensión (+5.000), disponibles en CRAN. Muchos de los paquetes incluyen código (funciones), conjuntos de datos, documentación y tutoriales (vignettes). Automatización de labores de documentación y creación de informes, literate programming para integrar con LaTeX (Sweave, Knitr). Ejemplo: Paquete SixSigma (Emilio López, Javier M. Moguerza, Andrés Redchuk), para análisis estadístico en metodología Seis Sigma. Big Data I: Ingeniería de datos. Felipe Ortega 71/90

73 Entorno y lenguaje estadístico: R Paquetes especializados para gestión de bigdata. Modelos lineales: lm > biglm; bigmemory; speedglm; biglars. Datos en disco: ff, ffbase. Random forests: bigrf. Computación paralela con CUDA (GPUs): gputools. También versiones comerciales para big data (e.g. Revolution Analytics). Big Data I: Ingeniería de datos. Felipe Ortega 72/90

74 Entorno y lenguaje estadístico: R IDEs potentes, por ejemplo RStudio. Gestión de proyectos, depuración de código, inspección de valores, entorno de ejecución, gráficos etc. Posibilidad de ejecución remota (desde un servidor). RShiny: Desarrollo rápido de interfaces web (Apache, Gist). Big Data I: Ingeniería de datos. Felipe Ortega 73/90

75 Replicabilidad: elementos Conjuntos de datos que se han utilizado. Infraestructura equivalente (recursos computacionales). Software: Código para llevar a cabo el análisis. Dependencias satisfechas (otros programas, bibliotecas, S.O., etc.). Configuración original para el análisis. Metodología. Explicación detallada del proceso (limpieza y preparación de datos, análisis, resultados, conclusiones). Big Data I: Ingeniería de datos. Felipe Ortega 74/90

76 Replicabilidad: workflow Big Data I: Ingeniería de datos. Felipe Ortega 75/90

77 Espectro niveles de replicación Big Data I: Ingeniería de datos. Felipe Ortega 76/90

78 Ejemplos análisis no replicables Oncología [10]: Dpto. Biotecnología de la firma Amgen (Thousand Oaks) sólo confirmó 6 de un total de 53 artículos emblemáticos. Bayer HealthCare (Alemania) pudo validar un 25% de estudios. Psicología [11]: De un total de 249 artículos de la APA, el 73% de los autores no respondieron sobre sus datos en 6 meses. Economía y finanzas [12]: Diferentes paquetes software producen resultados muy distintos con técnicas estadísticas directas aplicadas sobre datos idénticos a los originales. Ing. software [13]: 171 artículos analizados, la mayoría sin software fuentes de datos u otros elementos que permitan replicación. Big Data I: Ingeniería de datos. Felipe Ortega 77/90

79 Control de versiones Herramientas avanzadas de gestión de código software. Ejemplos: Git, Mercurial. Desarrollo distribuido y altamente escalable. Control de cambios e historial. Orientación a micro-cambios. Desarrollo no lineal (ramas paralelas, mezcla de cambios, forks). Posibilidad de mantener múltiples repositorios remotos. Empaquetado eficiente para envío de cambios, resolución de conflictos avanzada. Pero lleva asociado cierto coste de aprendizaje. Integrados con IDEs populares (RStudio, Eclipse). Big Data I: Ingeniería de datos. Felipe Ortega 78/90

80 Documentando el proceso I believe that the time is ripe for significantly better documentation of programs, and that we can best achieve this by considering programs to be [interactive] works of literature. Donald Knuth, Literate Programming Big Data I: Ingeniería de datos. Felipe Ortega 79/90

81 IPython Entorno de programación interactiva (incluye creación de cuadernos). Big Data I: Ingeniería de datos. Felipe Ortega 80/90

82 Conclusiones La ciencia de datos es una mezcla de Matemáticas y Estadística, ingeniería y conocimiento del área de aplicación. Elevada influencia de los aspectos tecnológicos y de implementación pero los otros dos factores son igual de determinantes para un análisis de datos exitoso. Big Data I: Ingeniería de datos. Felipe Ortega 81/90

83 Conclusiones Data is the next Intel inside. Tim O Reilly, What is Web 2.0? Big Data I: Ingeniería de datos. Felipe Ortega 82/90

84 Conclusiones I never guess. It is a capital mistake to theorize before one has data. Insensibly one begins to twist facts to suit theories, instead of theories to suit facts. Sherlock Holmes (By Sir Arthur Conan Doyle). Big Data I: Ingeniería de datos. Felipe Ortega 83/90

85 Conclusiones If you don t know how to ask the right question, you discover nothing. W. Edward Deming. Big Data I: Ingeniería de datos. Felipe Ortega 84/90

86 Bibliografía 1. Provost, F., Fawcett, T. Data Science for Business. O Reilly Media Inc. Julio Cathy O Neil, Rachel Schutt. Doing Data Science: Straight Talk from the Frontline. O Reilly Media Inc. Octubre python-serialization-benchmark.html 5. Collette, A. Python and HDF5: Unlocking Scientific Data. O Reilly Media Inc. Noviembre hadoop-ecosystem-as-of-january-2013-now-an-app. html Big Data I: Ingeniería de datos. Felipe Ortega 85/90

87 Bibliografía 7. Alan Gates. Comparing Pig Latin and SQL for Constructing Data Processing Pipelines. comparing-pig-latin-sql-constructing-data-processinghtml Begley, C. Glenn, and Lee M. Ellis. "Drug development: Raise standards for preclinical cancer research." Nature (2012): Wicherts, Jelte M., et al. "The poor availability of psychological research data for reanalysis." American Psychologist 61.7 (2006): Burman, Leonard E., W. Robert Reed, and James Alm. "A call for replication studies." Public Finance Review 38.6 (2010): Big Data I: Ingeniería de datos. Felipe Ortega 86/90

88 Bibliografía 13. Robles, Gregorio. "Replicating MSR: A study of the potential replicability of papers published in the Mining Software Repositories proceedings." Mining Software Repositories (MSR), th IEEE Working Conference on. IEEE, Kambatla, K. et al. Trends in big data analytics. Journal of Parallel and Distributed Computing (in press). Elsevier. Enero Big Data I: Ingeniería de datos. Felipe Ortega 87/90

89 Créditos 1. Imagen Walmart-exterior.jpg por see. CC-BY-SA-3.0, via Wikimedia Commons. 2. Imagen inside-cern-lhc por Juhanson. CC-BY-SA-3.0, via Wikimedia Commons. 3. Imagen Internet map por The Opte Project. CC-BY-2.5, via Wikimedia Commons. 4. Imagen Boeing Emirates por Faisal Akram desde Dhaka, Bangladesh. CC-BY-SA-2.0, via Wikimedia Commons Big Data I: Ingeniería de datos. Felipe Ortega 88/90

Conectores Pentaho Big Data Community VS Enterprise

Conectores Pentaho Big Data Community VS Enterprise Conectores Pentaho Big Data Community VS Enterprise Agosto 2014 Stratebi Business Solutions www.stratebi.com info@stratebi.com Índice 1. Resumen... 3 2. Introducción... 4 3. Objetivo... 4 4. Pentaho Community

Más detalles

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo Big Data & Machine Learning MSc. Ing. Máximo Gurméndez Universidad de Montevideo Qué es Big Data? Qué es Machine Learning? Qué es Data Science? Ejemplo: Predecir origen de artículos QUÉ DIARIO LO ESCRIBIÓ?

Más detalles

BIG DATA. Jorge Mercado. Software Quality Engineer

BIG DATA. Jorge Mercado. Software Quality Engineer BIG DATA Jorge Mercado Software Quality Engineer Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A Big Data - Introducción Que es Big Data? Big data es el termino

Más detalles

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López APACHE HADOOP Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López Objetivos 1. Qué es Apache Hadoop? 2. Funcionalidad 2.1. Map/Reduce 2.2. HDFS 3. Casos prácticos 4. Hadoop

Más detalles

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql The H Hour: Hadoop The awakening of the BigData Antonio Soto SolidQ COO asoto@solidq.com @antoniosql Tendencias de la Industria El nuevo rol del operador El operador de ayer Sigue el proceso basado en

Más detalles

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Big Data: retos a nivel de desarrollo Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Cámara de Comercio de Bogotá Centro Empresarial Chapinero Agenda Introducción Bases de datos NoSQL Procesamiento

Más detalles

Big Data con nombres propios

Big Data con nombres propios Febrero 2014 Big Data con Al hablar de tecnología Big Data se está obligado, sin duda alguna, a hablar de programación paralela y procesamiento distribuido, ya que éstas serán las características que permitirán

Más detalles

Big data A través de una implementación

Big data A través de una implementación Big data A través de una implementación Lic. Diego Krauthamer Profesor Adjunto Interino del Área Base de Datos Universidad Abierta Interamericana Facultad de Tecnología Informática Buenos Aires. Argentina

Más detalles

Big Data y NO-SQL el futuro de la Arquitectura de Información

Big Data y NO-SQL el futuro de la Arquitectura de Información Big Data y NO-SQL el futuro de la Arquitectura de Información Jorge Mario Calvo L. EMPRENDEMICO = EMPRENdedor + academico http://jorgemariocalvo.net http://www.emprendemico.com Twitter: @Emprendemico Conocimiento

Más detalles

Big Data. Rodolfo Campos http://www.smartcamp.es/~camposer/tecnocom/bigdata

Big Data. Rodolfo Campos http://www.smartcamp.es/~camposer/tecnocom/bigdata Big Data Rodolfo Campos http://www.smartcamp.es/~camposer/tecnocom/bigdata Madrid, Mayo de 2013 Agenda 1. Introducción a Big Data. 1.1. Definición / Justificación 1.2. Casos de Uso 2. NoSQL 1.1. Orientadas

Más detalles

CURSOS DE VERANO 2014

CURSOS DE VERANO 2014 CURSOS DE VERANO 2014 CLOUD COMPUTING: LA INFORMÁTICA COMO SERVICIO EN INTERNET LA PLATAFORMA GOOGLE CLOUD PLATFORM. GOOGLE APP ENGINE Pedro A. Castillo Valdivieso Universidad de Granada http://bit.ly/unia2014

Más detalles

Qué significa Hadoop en el mundo del Big Data?

Qué significa Hadoop en el mundo del Big Data? Qué significa Hadoop en el mundo del Big Data? Un contenido para perfiles técnicos 2 ÍNDICE Qué significa Hadoop en el Universo Big Data?.... 3 El planteamiento: big data y data science.... 3 Los desafíos

Más detalles

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928 Alessandro Chacón 05-38019 Ernesto Level 05-38402 Ricardo Santana 05-38928 CONTENIDO Universo Digital Hadoop HDFS: Hadoop Distributed File System MapReduce UNIVERSO DIGITAL 161 EB 2006 Fuente: International

Más detalles

Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com

Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com Contenidos Clúster de Investigación Aplicada Proyectos HPC Clúster Hadoop para tecnologías de BI Una nube privada para la Administración

Más detalles

Software Libre para Aplicaciones de Big Data

Software Libre para Aplicaciones de Big Data Software Libre para Aplicaciones de Big Data Club de Investigación Tecnológica San José, Costa Rica 2014.07.16 Theodore Hope! hope@aceptus.com Big Data: Qué es?! Conjuntos de datos de: " Alto volumen (TBs

Más detalles

CURSO: DESARROLLADOR PARA APACHE HADOOP

CURSO: DESARROLLADOR PARA APACHE HADOOP CURSO: DESARROLLADOR PARA APACHE HADOOP CAPÍTULO 3: HADOOP CONCEPTOS BÁSICOS www.formacionhadoop.com Índice 1 Introducción a Hadoop 1.1 Proyecto Hadoop 1.2 Conceptos de Hadoop 2 Cluster Hadoop 2.1 Demonios

Más detalles

Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio?

Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio? Qué es Doopex? Big Data en la nube. Use los datos. Obtenga información. Seguramente, la pregunta clave no es Qué es Doopex?. La pregunta clave es: Qué puede hacer Doopex por mi negocio? El objetivo de

Más detalles

PREVIEW BIDOOP 2.0. Big Data Brunch

PREVIEW BIDOOP 2.0. Big Data Brunch PREVIEW BIDOOP 2.0 Big Data Brunch 08 de Julio 2014 Quién soy? Trabajando con Hadoop desde 2010 sluangsay@pragsis.com @sourygna CTO de Pragsis Responsable departamento sistemas Preventa Instructor de Hadoop

Más detalles

Cocinando con Big Data

Cocinando con Big Data Cocinando con Big Data Javier Sánchez BDM Big Data jsanchez@flytech.es 91.300.51.09 21/11/2013 Javier Sánchez 1 Agenda Qué es Big Data? Receta Punto de Partida Para qué Big Data? Conclusiones 21/11/2013

Más detalles

Estamos inmersos en la era de la información, donde. Big data. Procesando los datos en la sociedad digital

Estamos inmersos en la era de la información, donde. Big data. Procesando los datos en la sociedad digital Big data Procesando los datos en la sociedad digital Francisco Herrera Departamento de Ciencias de la Computación e Inteligencia Artificial de la Universidad de Granada Estamos inmersos en la era de la

Más detalles

Análisis de sentimientos de tweets.

Análisis de sentimientos de tweets. Análisis de sentimientos de tweets. JIT-CITA 2013 Resumen Un sensor de sentimientos de tweets para identificar los mensajes positivos, negativos y neutros sobre cualquier trend que se tome sobre esta red

Más detalles

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK. www.formacionhadoop.com

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK. www.formacionhadoop.com CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK www.formacionhadoop.com Índice 1 Qué es Big Data? 2 Problemas con los sistemas tradicionales 3 Qué es Spark? 3.1 Procesamiento de datos distribuido

Más detalles

Hadoop. Cómo vender un cluster Hadoop?

Hadoop. Cómo vender un cluster Hadoop? Hadoop Cómo vender un cluster Hadoop? ÍNDICE Problema Big Data Qué es Hadoop? Descripción HDSF Map Reduce Componentes de Hadoop Hardware Software 3 EL PROBLEMA BIG DATA ANTES Los datos los generaban las

Más detalles

Big Data Analytics: propuesta de una arquitectura

Big Data Analytics: propuesta de una arquitectura Big Data Analytics: propuesta de una arquitectura Jonathan Solano Rodriguez y Estefany Leiva Valverde Escuela de Ingeniería, Universidad Latinoamericana de Ciencia y Tecnología, ULACIT, Urbanización Tournón,

Más detalles

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE)

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data y Supercómputo Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data 2 Hasta qué cantidad de datos podemos procesar en nuestra

Más detalles

PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop

PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: SISTEMAS

Más detalles

acenswhitepapers Bases de datos NoSQL. Qué son y tipos que nos podemos encontrar

acenswhitepapers Bases de datos NoSQL. Qué son y tipos que nos podemos encontrar s Bases de datos NoSQL. Qué son y tipos que nos podemos encontrar Introducción Son muchas las aplicaciones web que utilizan algún tipo de bases de datos para funcionar. Hasta ahora estábamos acostumbrados

Más detalles

CURSOS DE VERANO 2014

CURSOS DE VERANO 2014 CURSOS DE VERANO 2014 CLOUD COMPUTING: LA INFORMÁTICA COMO SERVICIO EN INTERNET La plataforma Google Cloud Platform. Google App Engine Pedro A. Castillo Valdivieso Universidad de Granada La plataforma

Más detalles

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica Fundamentos Título de de Big la Data presentación utilizando MATLAB Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica 1 Agenda Qué es Big Data? Buenas prácticas en el manejo de memoria.

Más detalles

XII Encuentro Danysoft en Microsoft Abril 2015. Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código

XII Encuentro Danysoft en Microsoft Abril 2015. Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código Ana María Bisbé York Servicios Profesionales sp@danysoft.com 916 638683 www.danysoft.com Abril 2015 Sala 1 SQL Server

Más detalles

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS Introducción Los algoritmos utilizados para el procesamiento de imágenes son de complejidad computacional alta. Por esto

Más detalles

MÁSTER: MÁSTER EXPERTO BIG DATA

MÁSTER: MÁSTER EXPERTO BIG DATA MÁSTER: MÁSTER EXPERTO BIG DATA Información detallada del máster www.formacionhadoop.com Este máster online está enfocado a los ingenieros que quieran aprender el despliegue y configuración de un cluster

Más detalles

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1 ÍNDICE Introducción... XIII Capítulo 1. Conceptos de Big Data... 1 Definición, necesidad y características de Big Data... 1 Aplicaciones típicas de Big Data... 4 Patrones de detección del fraude... 4 Patrones

Más detalles

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Francisco Magaz Villaverde Consultor: Víctor Carceler Hontoria Junio 2012 Contenido Introducción Qué es Cloud Compu5ng?

Más detalles

INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer

INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer En los últimos años, el interés por la Computación en la Nube (Cloud Computing), tanto para uso personal como para negocios,

Más detalles

CLUSTER FING: PARALELISMO de MEMORIA DISTRIBUIDA

CLUSTER FING: PARALELISMO de MEMORIA DISTRIBUIDA CLUSTER FING: PARALELISMO de MEMORIA DISTRIBUIDA SERGIO NESMACHNOW Centro de Cálculo, Instituto de Computación FACULTAD DE INGENIERÍA, UNIVERSIDAD DE LA REPÚBLICA, URUGUAY CONTENIDO Introducción: arquitecturas

Más detalles

BIG DATA MARÍA PARRA AMAT. Almería, 5 junio 2015

BIG DATA MARÍA PARRA AMAT. Almería, 5 junio 2015 BIG DATA MARÍA PARRA AMAT Almería, 5 junio 2015 BIG DATA "Petróleo del XXI" Nuevo enfoque en el entendimiento y la toma de decisiones Conjunto de técnicas y herramientas ORIGEN Estadística Metodologías

Más detalles

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza IBM Software Information Management White Paper Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza Un enfoque de appliance simplifica el uso de la analítica avanzada Cómo aprovechar la

Más detalles

Google BigQuery. Luis Villalba 59191

Google BigQuery. Luis Villalba 59191 Google BigQuery Luis Villalba 59191 Universidad Católica de Asunción, Departamento de Ciencias y Tecnologías, Sede Santa Librada, Asunción, Paraguay villalba.luifer@gmail.com Abstract. En este paper estaremos

Más detalles

Diplomado en Big Data

Diplomado en Big Data 160 horas Diplomado en Big Data BROCHURE, 2015 Contenido Quienes somos?... 3 Presentación del Programa... 4 Perfíl del Facilitador. 5 Objetivos.. 6 Información General.. 7 Plan de Estudio... 8-9 Plan de

Más detalles

Petabytes de información: Repensando el modelamiento de base de datos. Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006 2008

Petabytes de información: Repensando el modelamiento de base de datos. Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006 2008 Petabytes de información: Repensando el modelamiento de base de datos Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006 2008 Modelos de bases de datos para todos los gustos (según la

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Conceptos básicos de Big Data

Conceptos básicos de Big Data Conceptos básicos de Big Data Este documento no podrá ser reproducido, total o parcialmente, sin el permiso expreso de TRC Informática, S.L. Correos electrónicos, mensajes de textos, datos en formularios

Más detalles

Informática y Programación Escuela de Ingenierías Industriales y Civiles Grado en Ingeniería en Ingeniería Química Curso 2010/2011

Informática y Programación Escuela de Ingenierías Industriales y Civiles Grado en Ingeniería en Ingeniería Química Curso 2010/2011 Módulo 1. Fundamentos de Computadores Informática y Programación Escuela de Ingenierías Industriales y Civiles Grado en Ingeniería en Ingeniería Química Curso 2010/2011 1 CONTENIDO Tema 1. Introducción

Más detalles

EXPERTO EN DATA SCIENCE

EXPERTO EN DATA SCIENCE POSTgrado Ingeniería EXPERTO EN DATA SCIENCE Machine Learning (Aprendizaje Automático) Data Analytics Data Science RStudio Caret Storm Spark Random Forest IPython NumPy Recall F-Measure A/B Testing Active

Más detalles

Desmitificando Big Data:

Desmitificando Big Data: Desmitificando Big Data: Data Mining y Business Intelligence 2.0 Ignacio Bustillo Ignacio.Bustillo@stratebi.com Twitter: @IgnacioBustillo Fecha presentación: 14 de Noviembre de 2014 'Hello world!' Creador

Más detalles

Web 3.0. & Big Data. Miguel A. Martínez Prieto migumar2@infor.uva.es. #bigdatacyl 2014. Web 3.0. Hacia donde vamos...

Web 3.0. & Big Data. Miguel A. Martínez Prieto migumar2@infor.uva.es. #bigdatacyl 2014. Web 3.0. Hacia donde vamos... & Big Data Miguel A. Martínez Prieto migumar2@infor.uva.es #bigdatacyl 2014 20 de Mayo de 2014 Miguel A. Martínez Prieto & Big Data 1 Índice La WWW es Big Data? Fundamentos de la Estándares y tecnologías

Más detalles

Soluciones Integrales en Inteligencia de Negocios

Soluciones Integrales en Inteligencia de Negocios Soluciones Integrales en Inteligencia de Negocios QUIENES SOMOS NUESTRA MISIÓN DATAWAREHOUSE MINERÍA DE DATOS MODELOS PREDICTIVOS REPORTERÍA Y DASHBOARD DESARROLLO DE APLICACIONES MODELOS DE SIMULACIÓN

Más detalles

UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA

UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA Historia del Arte: El Big Data o Datos Masivos se refieren a sistemas informáticos basados en la acumulación a gran escala de datos y

Más detalles

Universidad de Cantabria corcuerp@unican.es

Universidad de Cantabria corcuerp@unican.es Bases de Datos Pedro Corcuera Dpto. Matemática Aplicada y Ciencias de la Computación Universidad de Cantabria corcuerp@unican.es Objetivos Presentar los conceptos básicos y terminología de las bases de

Más detalles

WEBBER: USO DE COMPONENTES PARA LA ARMONIZACIÓN DE CONTENIDOS Y METADATOS

WEBBER: USO DE COMPONENTES PARA LA ARMONIZACIÓN DE CONTENIDOS Y METADATOS WEBBER: USO DE COMPONENTES PARA LA ARMONIZACIÓN DE CONTENIDOS Y METADATOS Autores: Introducción Diego R. López RedIRIS diego.lopez@rediris.es El trabajo necesario para mantener un servidor de información

Más detalles

PLATAFORMA SPARK: CATAPULTA MACHINE LEARNING

PLATAFORMA SPARK: CATAPULTA MACHINE LEARNING PLATAFORMA SPARK: CATAPULTA MACHINE LEARNING Dr. Gabriel Guerrero www.saxsa.com.mx 29 de julio de 2015 Introducción La catapulta de Leonardo, una herramienta genial. Permite con poco esfuerzo enviar un

Más detalles

1. Capítulo 1: Herramientas de Software para el sistema

1. Capítulo 1: Herramientas de Software para el sistema 1. Capítulo 1: Herramientas de Software para el sistema 1.1 Conceptos Generales 1.1.1 Joomla.- Es un sistema dinámico que gestiona y administra contenidos de código abierto, y permite desarrollar sitios

Más detalles

CLOUD & BIG DATA. Trabajando el CLOUD, explotando BIG DATA. Cómo pueden ayudarnos estas tecnologías?. Convivimos con ellas?.

CLOUD & BIG DATA. Trabajando el CLOUD, explotando BIG DATA. Cómo pueden ayudarnos estas tecnologías?. Convivimos con ellas?. CLOUD & BIG DATA Trabajando el CLOUD, explotando BIG DATA. Cómo pueden ayudarnos estas tecnologías?. Convivimos con ellas?. Índice. (I) Introducción. Qué es CLOUD. Tipos de CLOUD. Pública. Privada. Comunitaria.

Más detalles

ESCUELA POLITÉCNICA NACIONAL Ingeniería en Sistemas APLICACIONES EN AMBIENTES LIBRES

ESCUELA POLITÉCNICA NACIONAL Ingeniería en Sistemas APLICACIONES EN AMBIENTES LIBRES Integrantes: GRUPO: 4 - Marcela Balseca Fecha: 04/05/2012 - Patricia Gálvez - Lilian Guamán S. - Diego Hallo ALTERNATIVAS DE SOFTWARE LIBRE PARA PROYECTOS DE DESARROLLO La cantidad de alternativas libres

Más detalles

Contenido CAPÍTULO 2 FUENTES DE GRANDES VOLÚMENES DE DATOS... 23. Parte I. La era de Big Data CAPÍTULO 1 QUÉ ES BIG DATA?... 1

Contenido CAPÍTULO 2 FUENTES DE GRANDES VOLÚMENES DE DATOS... 23. Parte I. La era de Big Data CAPÍTULO 1 QUÉ ES BIG DATA?... 1 Contenido Parte I. La era de Big Data CAPÍTULO 1 QUÉ ES BIG DATA?... 1 Definición de Big Data... 2 Tipos de datos... 3 Datos estructurados... 4 Datos semiestructurados... 4 Datos no estructurados... 5

Más detalles

Jornadas INCATEC 2015

Jornadas INCATEC 2015 Jornadas INCATEC 2015 Dr. Pedro Nolasco Bonillo Ramos Ingeniero en Computación. USB Magíster en Ingeniería de Sistemas. USB Magíster en Gerencia de las Finanzas. UNY Doctor en Ciencias de la Computación.

Más detalles

Organizaciones Virtuales e Integración de Información. José Abásolo Prieto

Organizaciones Virtuales e Integración de Información. José Abásolo Prieto Organizaciones Virtuales e Integración de Información José Abásolo Prieto Universidad de los Andes Objetivo de la charla Mostrar que aunque la problemática de integración de información distribuida y heterogénea

Más detalles

PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop

PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: DESARROLLO 2.

Más detalles

Perspectivas de la Computación Científica. Clusters, Grids y Clouds. Desarrollos y retos Raúl Ramos Pollán Universidad Nacional de Colombia

Perspectivas de la Computación Científica. Clusters, Grids y Clouds. Desarrollos y retos Raúl Ramos Pollán Universidad Nacional de Colombia Perspectivas de la Computación Científica. Clusters, Grids y Clouds. Desarrollos y retos Raúl Ramos Pollán Universidad Nacional de Colombia 1 Computación Científica La Ciencia e Ingeniería Basada en la

Más detalles

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO PRESENTACIÓN ANTONIO GONZÁLEZ CASTRO IT SECURITY DIRECTOR EN PRAGSIS TECHNOLOGIES agcastro@pragsis.com antoniogonzalezcastro.es @agonzaca linkedin.com/in/agonzaca

Más detalles

BUSINESS INTELLIGENCE Y REDSHIFT

BUSINESS INTELLIGENCE Y REDSHIFT Whitepaper BUSINESS INTELLIGENCE Y REDSHIFT BEE PART OF THE CHANGE hablemos@beeva.com www.beeva.com LAS SOLUCIONES QUE TU BI NECESITA Con Amazon Web Services (AWS) es posible disponer con solo unos clics

Más detalles

Respaldo de EMC para SAP HANA listo para el centro de datos. EMC Data Domain con DD Boost

Respaldo de EMC para SAP HANA listo para el centro de datos. EMC Data Domain con DD Boost de EMC para SAP HANA listo para el centro de datos EMC Data Domain con DD Boost 1 Información empresarial: Big data Información de partner Información pública Información estructurada en bases de datos

Más detalles

alrededores alrededores Usando R en entornos colaborativos Carlos J. Gil Bellosta cgb@datanalytics.com Febrero 2010

alrededores alrededores Usando R en entornos colaborativos Carlos J. Gil Bellosta cgb@datanalytics.com Febrero 2010 alrededores Usando R en entornos colaborativos Carlos J. Gil Bellosta cgb@datanalytics.com Febrero 2010 Introducción Contenidos R y yo: lo que R tiene que ver conmigo Organizando la comunidad de usuarios

Más detalles

CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA

CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA CICLO SUPERIOR DESARROLLO DE APLICACIONES MULTIPLATAFORMA PROGRAMACIÓN DIDACTICA ANUAL Parte específica del módulo: 0485. Programación Departamento de Familia Profesional de Informática Curso: 2014-15

Más detalles

RECURSOS DE TI Aplicaciones - Bibliografía FUNDAMENTOS DE LA INTELIGENCIA DE NEGOCIOS

RECURSOS DE TI Aplicaciones - Bibliografía FUNDAMENTOS DE LA INTELIGENCIA DE NEGOCIOS Sistemas de Información para la Gestión UNIDAD 3: RECURSOS DE TECNOLOGÍA DE INFORMACIÓN Aplicaciones UNIDAD 2: RECURSOS DE TI Aplicaciones 1. Administración de bases de datos e información: Sistemas de

Más detalles

Facultad de Ingeniería ISSN: 0121-1129 revista.ingenieria@uptc.edu.co. Universidad Pedagógica y Tecnológica de Colombia. Colombia

Facultad de Ingeniería ISSN: 0121-1129 revista.ingenieria@uptc.edu.co. Universidad Pedagógica y Tecnológica de Colombia. Colombia Facultad de Ingeniería ISSN: 0121-1129 revista.ingenieria@uptc.edu.co Universidad Pedagógica y Tecnológica de Colombia Colombia Amézquita-Mesa, Diego Germán; Amézquita-Becerra, Germán; Galindo-Parra, Omaira

Más detalles

Módulo: Modelos de programación para Big Data

Módulo: Modelos de programación para Big Data Program. paralela/distribuida Módulo: Modelos de programación para Big Data (título original: Entornos de programación paralela basados en modelos/paradigmas) Fernando Pérez Costoya Introducción Big Data

Más detalles

Solución empresarial Hadoop de EMC. NAS de escalamiento horizontal Isilon y Greenplum HD

Solución empresarial Hadoop de EMC. NAS de escalamiento horizontal Isilon y Greenplum HD Informe técnico Solución empresarial Hadoop de EMC NAS de escalamiento horizontal Isilon y Greenplum HD Por Julie Lockner, analista ejecutivo, y Terri McClure, analista ejecutivo Febrero de 2012 Este Informe

Más detalles

Módulo Profesional 01: Bases de datos (código: 0484).

Módulo Profesional 01: Bases de datos (código: 0484). Módulo Profesional 01: Bases de datos (código: 0484). Actividades de enseñanza-aprendizaje que permiten alcanzar los objetivos del módulo. Interpretar diseños lógicos de bases de datos. Realizar el diseño

Más detalles

Ponente Dr. Gabriel Guerrero. 8 de Diciembre de 2014 Tecnológico de Estudios Superiores de Chalco TESCHA

Ponente Dr. Gabriel Guerrero. 8 de Diciembre de 2014 Tecnológico de Estudios Superiores de Chalco TESCHA Conferencia Magistral Paradigma por utilizar el software LIBRE respecto al software LICENCIADO en el marco de la productividad y/o riesgo de una empresa. 8 de Diciembre de 2014 Tecnológico de Estudios

Más detalles

Juan Carlos Olarte B Innovation and Business Development Management. BIG DATA & ANALYTICS: El Futuro es Ahora

Juan Carlos Olarte B Innovation and Business Development Management. BIG DATA & ANALYTICS: El Futuro es Ahora Juan Carlos Olarte B Innovation and Business Development Management BIG DATA & ANALYTICS: El Futuro es Ahora Temas a Tratar Evolución y Tendencias Big Data & Analytics Data Mining, Data Science y Big Data

Más detalles

CAPITULO 9. Diseño de una Base de Datos Relacional Distribuida

CAPITULO 9. Diseño de una Base de Datos Relacional Distribuida 9.1 Operaciones CAPITULO 9 Diseño de una Base de Datos Relacional Distribuida Las consultas distribuidas obtienen acceso a datos de varios orígenes de datos homogéneos o heterogéneos. Estos orígenes de

Más detalles

CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización

CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización Página 1 de 16 CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 3 Código IFC304_3 Versión 5 Situación RD 1201/2007 Actualización Competencia

Más detalles

INTRODUCCIÓN A APACHE SPARK CON PYTHON

INTRODUCCIÓN A APACHE SPARK CON PYTHON Ls INTRODUCCIÓN A APACHE SPARK CON PYTHON Introducción a Apache Spark Jortilles.com info@jortilles.com Índice de contenido 1.Descripción...3 2.Cual es su ventaja competitiva...3 3.Instalación...3 4.Conceptos

Más detalles

Drupal 7 Web Semántica al alcance de todos. Juan Antonio Pastor Sánchez (pastor@um.es) Universidad de Murcia

Drupal 7 Web Semántica al alcance de todos. Juan Antonio Pastor Sánchez (pastor@um.es) Universidad de Murcia Drupal 7 Web Semántica al alcance de todos Juan Antonio Pastor Sánchez (pastor@um.es) Universidad de Murcia Web Semántica Una idea... un camino... Para un ordenador, la Web es un mundo, plano, aburrido

Más detalles

INSTITUTO TECNOLÓGICO DE TIJUANA SUBDIRECCIÓN DEPARTAMENTO DE SISTEMAS Y COMPUTACIÓN SEMESTRE: ENERO-JUNIO 2014

INSTITUTO TECNOLÓGICO DE TIJUANA SUBDIRECCIÓN DEPARTAMENTO DE SISTEMAS Y COMPUTACIÓN SEMESTRE: ENERO-JUNIO 2014 INSTITUTO TECNOLÓGICO DE TIJUANA SUBDIRECCIÓN ACADÉMICA DEPARTAMENTO DE SISTEMAS Y COMPUTACIÓN SEMESTRE: ENERO-JUNIO 2014 CARRERA: Ingeniería en Tecnologías de la Información y Comunicaciones. MATERIA:

Más detalles

Bases de datos NoSQL. Hugo González Noviembre 17, 2011

Bases de datos NoSQL. Hugo González Noviembre 17, 2011 Bases de datos NoSQL Hugo González Noviembre 17, 2011 http://geekandpoke.typepad.com/.a/6a00d8341d3df553ef0148c80ac6ef970c-800wi Qué es una Base de Datos? Una base de datos o banco de datos es un conjunto

Más detalles

Neo4j Una guía rápida de Devniel.com Parte I

Neo4j Una guía rápida de Devniel.com Parte I Neo4j Una guía rápida de Devniel.com Parte I Por Daniel Flores Braph 1 Esta guía se base principalmente en el libro Graph Databases y otras fuentes presentadas en la bibliografía. 2 Introducción La teoría

Más detalles

Appliance IBM Netezza High Capacity

Appliance IBM Netezza High Capacity Appliance IBM Netezza High Capacity Archivado de datos con escala peta, análisis y recuperación de desastres Appliance de alta capacidad de IBM Netezza Puntos destacados: Permite la consulta y el análisis

Más detalles

TEMA 37: Arquitecturas Cliente / Servidor. Tipos de cliente. Tipos de Servidor. Clasificación del software.

TEMA 37: Arquitecturas Cliente / Servidor. Tipos de cliente. Tipos de Servidor. Clasificación del software. . TEMA 37: Arquitecturas Cliente / Servidor. Tipos de cliente. Tipos de Servidor. Clasificación del software. Índice 1 INTRODUCCIÓN 2 2 CARACTERÍSTICAS 2 2.1 Características del cliente...2 2.2 Características

Más detalles

APPLE: Compañía de informática que creó Macintosh. Fue fundada por Steve Jobs.

APPLE: Compañía de informática que creó Macintosh. Fue fundada por Steve Jobs. Gobierno Electrónico GLOSARIO DE TÉRMINOS 110 A APPLE: Compañía de informática que creó Macintosh. Fue fundada por Steve Jobs. Arquitectura de Sistemas: Es una descripción del diseño y contenido de un

Más detalles

INTRODUCCION A LAS BASES DE DATOS ESPACIALES

INTRODUCCION A LAS BASES DE DATOS ESPACIALES INTRODUCCION A LAS BASES DE DATOS ESPACIALES Índice Introducción Qué es un SIG? Arquitectura de un SIG La información n en un SIG Uso y aplicación n de los SIG Bases de datos Introducción Antecedentes:

Más detalles

Consultas de bases de datos potentes y fáciles de utilizar para DB2 en la plataforma IBM i. IBM DB2 Web Query para i

Consultas de bases de datos potentes y fáciles de utilizar para DB2 en la plataforma IBM i. IBM DB2 Web Query para i Consultas de bases de datos potentes y fáciles de utilizar para DB2 en la plataforma IBM i IBM DB2 Web Query para i Características principales Moderniza los informes de Query for IBM iseries (Query/400)

Más detalles

JBoss Enterprise Middleware. Gustavo N Yasue IT Architect Latinoamérica Red Hat Latinoamérica gyasue@redhat.com

JBoss Enterprise Middleware. Gustavo N Yasue IT Architect Latinoamérica Red Hat Latinoamérica gyasue@redhat.com JBoss Enterprise Middleware Gustavo N Yasue IT Architect Latinoamérica Red Hat Latinoamérica gyasue@redhat.com UN FUTURO TAN ABIERTO COMO SEA POSIBLE CODIGO ABIERTO ESTANDARES ABIERTOS CONTENIDO ABIERTO

Más detalles

Comparación de características entre las ediciones Estándar y Enterprise

Comparación de características entre las ediciones Estándar y Enterprise Comparación de características entre las ediciones Estándar y Enterprise Enterprise Enterprise es una plataforma completa de datos para ejecutar aplicaciones de misión crítica OLTP (Online Transaction

Más detalles

CURSOS DE VERANO 2014

CURSOS DE VERANO 2014 CURSOS DE VERANO 2014 APROXIMACIÓN PRÁCTICA A LA CIENCIA DE DATOS Y BIG DATA: HERRAMIENTAS KNIME, R, HADOOP Y MAHOUT. Entorno de Procesamiento Hadoop Sara Del Río García 1 Qué es Hadoop? Es un proyecto

Más detalles

:Arquitecturas Paralela basada en clusters.

:Arquitecturas Paralela basada en clusters. Computación de altas prestaciones: Arquitecturas basadas en clusters Sesión n 1 :Arquitecturas Paralela basada en clusters. Jose Luis Bosque 1 Introducción Computación de altas prestaciones: resolver problemas

Más detalles

Desarrollo de APPS Móviles en Menos Tiempo con MicroStrategy 10. Javier Delgado Sales Engineer

Desarrollo de APPS Móviles en Menos Tiempo con MicroStrategy 10. Javier Delgado Sales Engineer Desarrollo de APPS Móviles en Menos Tiempo con MicroStrategy 10 Javier Delgado Sales Engineer Programa Introducción Desarrollar con MicroStrategy Desplegar con MicroStrategy MicroStrategy 10 Preguntas

Más detalles

Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana Master Experto en Cloud Computing U-TAD

Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana Master Experto en Cloud Computing U-TAD Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana Master Experto en Cloud Computing U-TAD Proyecto Final Master Felix Rodriguez Araujo 1 DESCRIPCIÓN GLOBAL DEL PROYECTO 2 TECNOLOGÍAS USADAS 3 WORKFLOW

Más detalles

CURSO: DESARROLLADOR PARA APACHE HADOOP

CURSO: DESARROLLADOR PARA APACHE HADOOP CURSO: DESARROLLADOR PARA APACHE HADOOP CAPÍTULO 1: INTRODUCCIÓN www.formacionhadoop.com Índice 1 Por qué realizar el curso de desarrollador para Apache Hadoop? 2 Requisitos previos del curso 3 Bloques

Más detalles

Como extender la capacidad Analítica conectando fuentes de datos Big Data en ArcGIS

Como extender la capacidad Analítica conectando fuentes de datos Big Data en ArcGIS Como extender la capacidad Analítica conectando fuentes de datos Big Data en ArcGIS César Rodríguez Reinaldo Cartagena Agenda Fundamentos para Big Data La Analítica y Big Data generar conocimiento ArcGIS

Más detalles

Big Data y BAM con WSO2

Big Data y BAM con WSO2 Mayo 2014 Big Data y BAM con Leonardo Torres Centro Experto en SOA/BPM en atsistemas ofrece una completa suite de productos Open Source SOA y son contribuidores de muchos de los productos de Apache, como

Más detalles

Sybase IQ Servidor analítico con arquitectura basada en columnas

Sybase IQ Servidor analítico con arquitectura basada en columnas Sybase IQ Servidor analítico con arquitectura basada en columnas www.sybase.es Sybase IQ Descripción Tener acceso a toda la información de que dispone su organización, con el fin de analizarla no es hoy

Más detalles

From: REBIUN Workshop. Barcelona, 12 de abril 2002

From: REBIUN Workshop. Barcelona, 12 de abril 2002 From: REBIUN Workshop Barcelona, 12 de abril 2002 Safari IT Books Online Acceso exclusivo al mejor contenido técnico ofrecido por los editores y autores más prestigiosos en este área. Potente motor de

Más detalles

VISIÓN GENERAL HERRAMIENTAS COMERCIALES

VISIÓN GENERAL HERRAMIENTAS COMERCIALES VISIÓN GENERAL El servidor de MS SQL se ha convertido en un estándar en muchas partes de la América corporativa. Puede manejar volúmenes de datos grandes y se integra bien con otros productos de Microsoft.

Más detalles

SERVICIOS: EXPLORACIONES EN SOA y WEB.

SERVICIOS: EXPLORACIONES EN SOA y WEB. SERVICIOS: EXPLORACIONES EN SOA y WEB. López, G. 1 ; Jeder, I 1.; Echeverría, A 1.; Grossi, M.D. 2 ; Servetto, A 2.; Fierro, P. (PhD.) 3 1. Laboratorio de Informática de Gestión - Facultad de Ingeniería.

Más detalles

Notas técnicas del producto FUJITSU Software Enterprise Postgres

Notas técnicas del producto FUJITSU Software Enterprise Postgres Notas técnicas FUJITSU Software Enterprise Postgres Valor de código abierto, calidad empresarial Se espera que prosiga el fuerte crecimiento en Sistemas de gestión de bases de datos (DBMS), convirtiendo

Más detalles

Social Big Data. Ignacio Bustillo Ignacio.Bustillo@stratebi.com Twitter: @IgnacioBustillo Fecha presentación: 13 de Noviembre de 2014

Social Big Data. Ignacio Bustillo Ignacio.Bustillo@stratebi.com Twitter: @IgnacioBustillo Fecha presentación: 13 de Noviembre de 2014 Social Big Data Ignacio Bustillo Ignacio.Bustillo@stratebi.com Twitter: @IgnacioBustillo Fecha presentación: 13 de Noviembre de 2014 'Hello world!' Creador & Organizador Docente universitario El mundo

Más detalles

Sistemas de Datos. Rendimiento de la Base de datos. Procesamiento de consultas y administración del rendimiento

Sistemas de Datos. Rendimiento de la Base de datos. Procesamiento de consultas y administración del rendimiento Rendimiento de la Base de datos. Procesamiento de consultas y administración del rendimiento Esquema de la clase 1. Procesamiento de consultas 2. El optimizador del DBMS 3. Los Ajustes del Rendimiento

Más detalles