Finally exposes pertinent conclusions and recommendations.

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Finally exposes pertinent conclusions and recommendations."

Transcripción

1 1 SISTEMA DE GESTIÓN DE INFORMACIÓN EN LA INTRANET CON TECNOLOGÍA DISTRIBUIDA PARA LA TOMA DE DECISIONES DESDE UNA CONCEPCIÓN DE INTELIGENCIA DE NEGOCIOS. Armando Plasencia Salgueiro 1, Ileana Suárez Blanco 2, Elina Mylen Montero Puñales 3, Antonio Díaz Zamora 4, Omar Ochoa Rodríguez 5, Claudia Amelia Rodríguez Guerra 6 Resumen En las organizaciones modernas cada vez se requiere gestionar más cantidades de datos semi- o no estructurados, dígase textos, imágenes, páginas Web, etc., para que dentro de una concepción de Inteligencia de negocios se puedan definir relaciones o patrones que caractericen los procesos y permitan a los responsables tomar decisiones adecuadas. Una de las vías para darle solución a esta problemática es el empleo de la tecnología de cluster de computadoras o Grid, una estrategia MapReduce y el empleo de buscadores especializados y algoritmos de aprendizaje automático. Para validar esta concepción se realizó un experimento con un cluster y clientes ligeros de computadoras. Como soporte de software se utilizó una interrelación de herramientas de software libre distribuidas por Apache siendo evaluadas su comportamiento con una suite de evaluación. Como ejemplo se muestran los resultados a obtener de un algoritmo de agrupamiento. Palabras Clave GridIR Recuperación de Información, Inteligencia de Negocios, motores de búsqueda especializados, minería de datos, herramientas Apache. Abstract: In the modern organizations is a crescent requirement the management of semi and non structured data, texts, imagines, Web pages, etc. These, in the business intelligence conception, permits the characterization of relationship and patterns of process and make possible the decision making. One way to solution this problem is the use of clusters and Grid technology, a MapReduce strategy and the application of machine learning algorithms and vertical searches. To validate this conception was making an experiment which one cluster and two groups of independents PCs. The used software support was the Apache tools, evaluates by an evaluation suite. Like example shown the possible results of one cluster algorithm. Finally exposes pertinent conclusions and recommendations. Keywords: GridIR, Information Retrieval, Business Intelligence, specialized searches engines, data mining algorithms, Apache Tools. Código AMS: 68W40

2 2 I. INTRODUCCIÓN La gestión de información en la intranet de las organizaciones está regida en lo fundamental por el paradigma de la Recuperación de Información. La Recuperación de información (RI) en su concepción amplia es la ciencia de la búsqueda y la recuperación de información a partir de datos con formatos heterogéneos como pueden ser bases de datos estructuradas, grandes colecciones de documentos semi-estructurados o no estructurados. Los motores de búsqueda son ejemplos de sistemas de RI para los documentos semi o no estructurados. Un documento es un conjunto de palabras y un conjunto de documentos se denomina una colección o una colección de documentos. Los Sistemas de gestión de bases de datos relacionales (RDBMS) han sido el fundamento de la recuperación de información en la Intranet durante los últimos años y están consolidados, tanto en su concepción teórica como en su aplicación, sin embargo, las organizaciones se ven más necesitadas del manejo intensivo de datos semi o no estructurados que por su volumen y complejidad de análisis requieren de grandes capacidades de cómputo. Datos que pueden estar disponibles en un sistema distribuido (geográficamente o por hardware) y que no se adecuan satisfactoriamente en un modelo de datos relacional. Para la solución de esta problemática los científicos e ingenieros han planteado una nueva concepción en el diseño de software para enfrentar las demandas de las organizaciones. El término de NoSQL ( No solamente SQL ) fue introducido para describir los motores de gestión de datos modernos que contienen algunas de las cualidades de los RDBMS, pero van más allá de las fronteras que limitan comúnmente los sistemas tradicionales de bases de datos basados en SQL. Las bases de datos NoSQL pueden: - Servir como bases de datos de procesamiento en línea, así se convierten en la fuente de datos, operacional, primaria de almacenamiento para aplicaciones on-line, o lo que es llamado en ocasiones El sistema de registros - Utilizar los datos almacenados en las fuentes primarias de los sistemas en tiempo real, análisis por lotes y las operaciones de búsqueda empresariales. - Manipular grandes cantidades de datos con el uso de casos que se incluyen la velocidad de los datos, variedad, volumen, y complejidad. - Superar las bases de datos distribuidas y las operaciones de los centros multi-datos (algunos mejor que otros) - Ofrecer un esquema flexible de diseño que que puede ser cambiado sin tener tiempos de parada o interrupciones de servicio. - Dar cabida a los datos estructurados, semi-estructurados y no estructurados. - Fácil de operar en la nube y explota los beneficios de la computación en la nube. Bajo la cobertura de NoSQL han aparecido numerosos programas los cuales son de difícil adquisición y gestión por diversos motivos aunque su precio de adquisición y licencia son menores que los RDBMS más populares del mercado [1]. Otra filosofía para la solución de los problemas antes planteados es la concepción de desarrollar el papel

3 3 de los almacenes de datos empresariales (extracción, limpieza, integración y distribución de los datos para los decisores y por lo tanto incluye las funciones de extracción-transformación y carga (ETL) y de inteligencia de negocios (BI)) [2]. Estos incluyen una integración extrema, fuentes de datos semi y no estructurados, terabytes de almacenamiento de conductas e imágenes cuyos datos son accesados a través de MapReduce/Hadoop así como bases de datos relacionales masivamente paralelas. Es posible entonces estructurar el almacén de datos empresarial para permitir los métodos avanzados de análisis. Surge entonces la pregunta si se podrá desarrollar un sistema en software libre que sea capaz de recuperar y analizar la información residente en datos de formatos heterogéneos, definiendo entonces el objetivo de validar la misma a través de la concepción de un sistema de gestión de información en una intranet. Son tres los componentes principales de un sistema de recuperación de información. Estos son el Gestor de la colección (CM), el indizador y el buscador (Fig. 1). Figura 1. Modelo de un sistema de recuperación de información [3]. Los motores de búsqueda[3]. La última década ha sido testigo del diseño e implementación de varios motores de búsqueda. Hoy existen motores de búsqueda que tienen indexadas más de 4 miles de millones de páginas Web y son capaces de procesar millones de solicitudes por día en sus índices locales. Un motor de búsqueda tradicional está compuesto generalmente por tres componentes enlazados: un rastreador, un indizador y un procesador de solicitudes. El rastreador es responsable de la localización, búsqueda y almacenamiento de del contenido residente en la Web. El contenido descargado es frecuentemente seccionado por un indizador y transformado en índices invertidos, los cuales representan la colección descargada en una forma compacta y solicitable eficientemente. El procesador de solicitudes es el responsable del procesamiento de las solicitudes de los usuarios y el retorno a los usuarios de las páginas relevantes a la solicitud realizada. Pese a los muchos esfuerzos de investigación realizados, la efectividad y la eficiencia de los buscadores aún se mantienen como los dos principales retos a solucionar dentro de los problemas de la búsqueda en la Web. El problema de la efectividad es común para el rastreo de la Web y el procesamiento de las solicitudes. En el rastreo de la Web la efectividad está relacionada con el refrescamiento de las páginas indizadas, lo que está muy relacionado con la eficiencia de rastreo, o sea, si la página es descargada más frecuentemente

4 4 es más probable que las copias captadas de las páginas sean más frescas. En el proceso de solicitud la efectividad se refiere a las medidas de precisión y de índice de exhaustividad de la recuperación (recall measure), con los cuales se evalúa la exactitud y la cobertura de los resultados respectivamente. Adicionalmente al problema de efectividad, el rastreo de la Web y el procesamiento de las solicitudes tienen un problema de eficiencia. El problema de eficiencia del rastreo de la Web se debe al gran tamaño de la Web así como también la naturaleza en constante desarrollo de la misma, lo que requiere que las páginas sean descargadas e indizadas frecuentemente. De acuerdo con los resultados reportados por Google, este toma alrededor de un mes para volver a rastrear la misma página como promedio. El problema en el procesamiento de las solicitudes es resultado de la necesidad de evaluar rápidamente una solicitud partiendo de un indizado más bien grande, en presencia de muchas solicitudes de usuarios que son realizadas al mismo tiempo. Los motores de búsqueda actuales atacan este segundo problema utilizando algunos algoritmos de optimización que pueden negociar efectividad a cambio de mejorar eficiencia (ejemplo la evaluación de corto circuito) o mejorar la programación (por ejemplo tratar de mantener todo el indizado de la Web en una memoria volátil). Pero por lo general, el principal método para hacer frente a ambos problemas es el empleo de sistemas de computación paralelos/distribuidos los cuales ejecutan múltiples agentes rastreadores para rastrear la Web y múltiples motores de búsqueda para evaluar las solicitudes por todas las copias de los índices de la Web replicados/particionados incrementando ambos los por cientos de páginas descargadas y la capacidad de procesamiento de las solicitudes. 1.1 Fundamentos teóricos. Rastreo de la Web [3]. El rastreo de la Web es el proceso de localizar, buscar y almacenar las páginas Web. Un rastreador típico de la web, comenzando a partir de un conjunto de páginas preestablecidas, localiza nuevas páginas mediante la partición de las páginas descargadas y la extracción de los hipervínculos dentro de ellas. Los hipervínculos extraídos son almacenados en un a cola de búsquedas FIFO para la recuperación ulterior. El rastreo continua hasta que la cola de búsquedas se vacía o un número satisfactorio de páginas son descargadas. Usualmente, muchos buscadores enlazan las ejecuciones al unísono con el objetivo de solapar las operaciones de la red con el procesamiento del CPU y así incrementar el rendimiento. A pesar de que esto parece una tarea simple, están presentes muchos retos en el rastreo de la Web. Los dos problemas más importantes son la cobertura y el refrescamiento. La cobertura se refiere al tamaño del conjunto de páginas recuperadas dentro de un cierto período de tiempo. Un rastreador exitoso trata de maximizar su cobertura con el objetivo de proporcionar una colección grande localizable a los usuarios. De forma similar, el refrescamiento de la colección es importante con el objetivo de minimizar la diferencia entre las copias captadas de la Web y sus originales y así mantener la información del servidor actualizada. Otra problemática importante del rastreo de la Web es la necesidad de una gran cantidad de recursos computacionales. Primero, se necesita una gran potencia de cómputo para particionar las páginas rastreadas, extraer los hipervínculos y los índices del contenido de las páginas. Segundo, se necesita una gran cantidad de memoria volátil para almacenar y administrar las estructuras de datos que crecen rápida y continuadamente durante el rastreo. El último y más importante recurso necesario es un gran ancho de

5 5 banda. El ancho de banda de la red determina la proporción de páginas descargadas y afecta la cobertura de los rastreadores así como el refrescamiento de las páginas. De ahí que se estime que todos estos requerimientos computacionales hacen del rastreo de la Web un objetivo factible para la computación en la grid (o en clusters de computadoras estándares) si nos atenemos a una política de ahorro de recursos materiales y consideraciones ecológicas (por el uso óptimo de la energía) vs. La utilización de grandes sistemas de hipercómputo. En términos generales la grid puede definirse como un tipo de sistema de cómputo paralelo y distribuido que posibilita compartir, seleccionar y agregar recursos autónomos geográficamente distribuidos dinámicamente en tiempo de ejecución en dependencia de su disponibilidad, capacidad, funcionamiento, costo y usuarios, requisitos todos para la calidad del servicio. La grid contiene nodos computacionales potentes, que tienen los recursos computacionales para correr aplicaciones de rastreo de la Web. Además, en los casos donde la localización espacial de las páginas es importante, la naturaleza de distribución geográfica de la grid puede ser utilizada para incrementar la proporción de descargas. 1.2 Recuperación de información en la Grid (GridIR) GridIR es la aplicación de la RI en un medio de cómputo formado por una grid. La figura 2 muestra un modelo de un sistema GridIR. Las fuentes de datos son las colecciones de documentos indizados distribuidos en cualquier parte de la grid. Figura 2. Modelo de un sistema GridIR [3]. El punto de partida para la GRID IR es la disciplina científica Recuperación de Información (IR) En la IR, los sistemas de cómputo son utilizados para hacer coincidir las expresiones de las necesidades de información de los humanos (o sea las solicitudes) con los documentos. Las expresiones de las necesidades de información pueden ser cualquiera, desde unas pocas palabras (generalmente en los motores de búsqueda de la Web) a aquellas con lógica estructurada (ej. Las expresiones booleanas) para caracterizar al buscador de información con sus frases en documentos pasados. En la práctica, los IR rara vez dan respuesta a una pregunta, o a elementos de información específicos

6 6 (tales como una tabla de figuras, o una cita textual, o un pasaje en particular de un documento). Lo más frecuente es que los sistemas de IR presenten un listado ordenado de citas de documentos en la cual se espera que la información deseada sea hallada. Los sistemas de IR pueden definirse como aquellos sistemas de cómputo que toman un número de documentos (quizás en diferentes formatos) como entrada (input) y construyen estructuras de datos las cuales pueden ser rápidamente buscados para que coincidan con las solicitudes. Estos sistemas de IR son capaces entonces de tomar solicitudes (quizás con un formato especial o restricciones) como entrada y producir un listado de documentos en un orden establecido. Ventajas de la GRID IR sobre los motores de búsqueda tradicionales (motores de búsqueda monolíticos). 1. Las solicitudes correrán contra colecciones de documentos con probabilidad de contener los documentos relevantes, así se eliminan a priori aquellas colecciones con pocas probabilidades de tener documentos de interés. Por ejemplo, alguien interesado en información acerca de las botas de trabajo puede querer omitir las bases de datos acerca de botas de invierno. 2. Cada colección será personalizada por sus cualidades inherentes, de acuerdo con las intenciones del proveedor de la colección. La personalización puede abarcar el diapasón completo del procesamiento de la solicitud, el procesamiento de los documentos y las técnicas de IR, tales como los pesos de los documentos y de los términos, los modelos de recuperación de IR (Booleano, vector espacial, el Indizado Semántico Latente, etc.), la radicalización de términos, las listas de palabras vacías, etc. 3. En lugar de buscar tiempos de respuestas por debajo del segundo con relación a millones de millones de documentos como lo hacen los motores de búsqueda monolíticos, los sistemas de GRID IR pueden realizar tales acciones en colecciones mucho más pequeñas. Ello posibilitará un procesamiento de las solicitudes más complejo. 4. Las colecciones de las GRID IR, debido al pequeño tamaño y localización definida (por ejemplo el servidor Web de una organización), pueden ser actualizadas más rápidamente, eliminando así la demora de los motores de búsqueda entre corridas para llegar a una misma página (cosechas). 5. La computación en Grid ofrece un modelo de notificación en el cual los eventos (tales como la disponibilidad de un nuevo contenido) pueden disparar otros eventos (tales como la evaluación de una solicitud de acuerdo con el nuevo contenido). Este modelo abre las puertas a las solicitudes de importancia, el filtrado de la información, y los métodos de empuje (más que extracción) para la diseminación de la información. 1.3 Clasificación de Textos [3]. Informalmente, la clasificación textual es el problema de asignar una categoría a un documento a partir de un conjunto predefinido de categorías. En la literatura, varias técnicas de aprendizaje automático son empleadas para darle solución a este problema. La mayoría de estas técnicas están basadas en el método de aprendizaje supervisado, donde el clasificador es entrenado por un conjunto de documentos previamente etiquetados y a partir de ahí es utilizado para predecir las categorías de un conjunto de documentos no vistos de prueba. La precisión de la clasificación depende de la selección del algoritmo de aprendizaje automático subyacente así como la calidad de los documentos utilizados para el entrenamiento por el clasificador. La mayoría de los motores de búsqueda se basan en la búsqueda de palabras claves, donde la solicitud,

7 7 consistente en un número de palabras clave determinado es evaluado mediante un índice invertido, y los k documentos de la cima son retornados al usuario en orden decreciente de su similitud con la solicitud. Sin embargo, también existen métodos que emplean la clasificación de textos en la solicitud de colecciones de documentos y/o la presentación de los resultados. La utilización de la clasificación textual en los motores de búsqueda es principalmente en forma de pre-clasificación (ej. los motores a los que se les proporcionan directorios de tópicos de forma manual creados por expertos humanos) o de post-clasificación (ej. los motores a los que se les proporcionan clasificaciones automáticas de los resultados de las solicitudes. La primera de estas formas incrementa la precisión y la última mejora la presentación de los resultados Inteligencia de Negocios con datos semi y no estructurados. Aunque existen un sin número de definiciones de Inteligencia de negocios, combinándolas, la definición que más se ajusta a los objetivos de este trabajo es la siguiente: Inteligencia de negocios es el proceso de descubrir, a partir de los datos, información, mediante un conjunto de herramientas informáticas y algoritmos que capturan, almacenan, analizan, comparten y proporcionan acceso a los resultados para apoyar en la toma de decisiones A partir del incremento de la cantidad e importancia de los datos semi o no estructurados (informes, páginas Web, imágenes, etc.) en las organizaciones, conjugado con el desarrollo y abaratamiento de las herramientas informáticas la concepción inicial de está a partir de datos estructurados ha evolucionado para incluir los primeros. Lo anterior se evidencia en [2] al proponerse una modificación al modelo clásico de Kimball al cual se agrega entre otros componentes como fuentes al sistema estructuras complejas, textos no estructurados, imágenes, video, etc. Otra concepción, bajo la denominación común de Analizadores de grandes cantidades de datos (Big Data Analytics) es la de IBM con su plataforma Symphony [4], la de ParStream [5] o la de la suite de acceso libre Stratophere [5]. Todas tienen en común el procesamiento paralelo de los datos, su orientación a MapReduce (o versiones), las herramientas bajo licencia apache en general y su proyección es hacia una nueva generación de Inteligencia de Negocios (NGBI) la cual correlaciona los almacenes de datos con texto y otras modalidades de servicios web de los suministradores de información, intranets corporativas e Internet [5] Esta concepción no es para ser utilizada para Analizadores de datos de mediana o pequeñas dimensiones. Algunos casos de uso para los Analizadores de grandes cantidades de datos son el ordenamiento de los resultados de búsqueda de los motores de búsqueda, comprobación de la similitud del documento, análisis del genoma, el estado técnico de los aviones en vuelo, el análisis de los resultados de los sensores industriales, comparación de las imágenes de los satélites, en la ciencia (análisis del clima, telemetría espacial, etc), caracterizados todos ellos por el tener que manejar muy grandes cantidades de datos [2]. II. MATERIALES Y MÉTODOS Herramientas Apache para implementar la arquitectura de Recuperación de Información en la Grid (GridIR). Para implementar la arquitectura necesaria de un sistema GridIR se propone la utilización de las herramientas Apache en la capa de programas intermedios (Grid Middleware) entre las aplicaciones que requieren una gran capacidad de cómputo para su ejecución, Vigilancia tecnológica, Biblioteca digital,

8 8 Astrofísica, etc., y el hardware que soporta esta Grid. Así, para la gestión de recursos, eventos, políticas, etc. proponemos la utilización de Hadoop con su implemntación de MapReduce, para la búsqueda y rastreo en la Web proponemos la combinación de las herramientas Solr y Nutch, y para la realización de la determinación de patrones y relaciones en la información, mediante el empleo de la minería de textos, la bibliominería, etc., proponemos el empleo de Mahout con sus algoritmos de aprendizaje automático. Esta idea se representa en la figura 3, para la validación de la cual pasaremos a explicar las características de cada una de las herramientas señaladas. Figura 3. Arquitectura de recuperación de información en la Grid [6 modificado por los autores]. Solr [7]. Solr es un servidor de búsqueda empresarial de código abierto. Este es un producto ya probado que permite la búsqueda en sitios públicos como CNET, Zappos, y Netflix así como en un número considerable de sitios de intranets corporativas y gubernamentales. Está escrito en Java y ese lenguaje es utilizado para en lo sucesivo extender y modificar a Solr mediante interfaces de plugins simples. El servidor realiza la comunicación utilizando los estándares HTPP, XML y JSON. Adicionalmente a la habilidad estándar de retornar los resultados en una lista a una determinada solicitud, Solr tiene otras numerosas características como la de resalte, clasificación facetada (al igual que la mayoría de los sitios de e-comercio), la corrección de la escritura de las solicitudes, el finalizar las solicitudes no completadas y la característica de más parecido a para encontrar documentos similares. El motor de búsqueda subyacente de Solr es Lucene. Este es una biblioteca consistente en un motor de búsqueda textual de altas prestaciones. Al ser una biblioteca de código, Lucene no es un servidor ni tampoco un rastreador de la web. Incluso no tiene ficheros de configuración. Las características más importantes de Lucene son: - Un indizado invertido para la recuperación eficiente de los documentos por los términos indizados. La misma tecnología respalda a los datos numéricos al realizarse solicitudes de rango. - Un rico conjunto de componentes de análisis de textos encadenables, tales como señalizadores (tokenizers) y radicalizadores (stemmers) de lenguajes específicos que transforman una cadena textual en una serie de términos. - Una sintaxis de solicitud con un analizador sintáctico (parser) y una variedad de tipos de solicitud desde la consulta de un término simple hasta un pareo tipo fuzzy. - Un buen algoritmo de posicionamiento (scoring) basado en principios fundamentados en la

9 9 Recuperación de Información (IR) para generar primero el candidato más parecido, con significados flexibles para afectar el posicionamiento. - Mejoramiento de las características de búsqueda tales como: La característica de resaltado para mostrar las palabras de solicitud encontradas en el contexto. Un corrector ortográfico de las solicitudes basado en el contenido indizado o en el diccionario suministrado. La característica de más parecido a este para listar los documentos que son estadísticamente similares al texto proporcionado. Solr tiene características propias que van más allá del propio Lucene. Estas son: Un servidor que se comunica con http por intermedio de los formatos de datos XML y JSON. Ficheros de configuración, en particular por su esquema de índices, los cuales definen los campos y la configuración de sus análisis de textos. Varios caches para una respuesta más rápida del servidor. 1. Una interfase de administración en formato Web que incluye: Estadísticas del tiempo de corrida de la búsqueda y de la cache. 2. Una herramienta de diagnóstico para la corrección de errores del análisis de texto. Facetado (Faceting) de los resultados de la búsqueda. Un analizador sintáctico de la solicitud llamado dismax que es más utilizable para el análisis de las solicitudes del usuario final que el analizador sintáctico de solicitudes nativo de Lucene. Búsqueda geoespacial para el filtrado y el ordenamiento por la distancia. Una propiedad de búsqueda distribuida y de replicación del índice para la adaptación de Solr. Solritas: un ejemplo de buscador web genérico que muestra muchas de las característica de búsqueda de Solr. También, hay dos módulos contrib que se acarrean con Solr que realmente son destacables: El DataImportHandler (DIH): modulo con capacidad de rastreo e importación de datos de una base de datos, , y fichero. Solr Cell: Un adaptador al proyecto de código abierto Apache Tika, el cual puede extraer texto de numerosos tipos de ficheros. Se puede descargar Solr desde su sitio web: Nutch para el rastreo de las páginas web [8]. Una fuente de datos muy común a ser sometida a búsqueda es el contenido de las páginas web, ya sea de Internet como dentro del corta fuegos. Una solución para el rastreo y la búsqueda de páginas web es Nutch, inicialmente un subproyecto de Lucene. Nutch está enfocado a ejecutar el rastreo de la web a escala de internet de forma similar a Google e incluye componentes tales como el rastreador de la web, una base de datos gráfica de los hipervínculos y analizadores sintácticos para HTML y otros formatos comunes que se encuentran en Internet. Nutch está diseñado para escalar horizontalmente sobre múltiples máquinas durante el rastreo utilizando la plataforma Hadoop para gestionar su trabajo. Anteriormente Nutch utilizaba su propio interfase de búsqueda por el usuario basado en Lucene, pero

10 10 actualmente hace uso de Solr para la búsqueda. Esto le permite a Nutch enfocarse en el rastreo de la web mientras que Solr trabaja como una herramienta de búsqueda genérica con características tales como corrector ortográfico de solicitudes y el facetado que anteriormente Nutch no podía realizar. El Nutch de forma nativa comprende los conceptos de relevancia de la web tales como el valor de los hipervínculos para calcular el ordenamiento por page rank, y como tener en cuenta en que <title/> tag de HTML es, cuando se crea el modelo de ordenamiento para entregar los resultados. El Nutch trabaja separado de la lista original de las URLs que son utilizadas como fuente de páginas web a rastrear. Hadoop [9]. Las bibliotecas de programas de Apache Hadoop constituyen un marco de trabajo que permite el procesamiento distribuido de grandes conjuntos de datos a través de clusters de computadoras utilizando un modelo simple de programación. Este está diseñado para escalar desde un solo servidor hasta miles de máquinas, cada una ofreciendo cómputo y almacenamiento locales. En vez de depender del hardware para garantizar alta disponibilidad, la biblioteca en sí está diseñada para detectar y manipular los fallos en la capa de aplicación y así garantizar un servicio de alta disponibilidad sobre un cluster de computadoras, cada uno de cuyos elementos pueden ser propensos a fallos. Formalmente, Hadoop es un marco de trabajo de código abierto para la escritura y la corrida de aplicaciones distribuidas que procesan grandes cantidades de datos. La computación distribuida es un campo vasto y disímil, pero las distinciones fundamentales de Hadoop son: - Accesible: Hadoop corre en grandes clusters de máquinas disponibles (commodity) o en servicios de cómputo en la nube tales como el Amazon s Elastic Compute Cloud (EC2). - Robusto: debido a que está diseñado para correr en hardware disponible, el Hadoop está configurado asumiendo fallas frecuentes del hardware. Este puede manipular satisfactoriamente la mayoría de tales fallas. - Escalable: Hadoop escala linealmente para manipular grandes cantidades de datos adicionandomás nodos al cluster. - Simple: Hadoop le permite a los usuarios escribir rápidamente código paralelo eficiente. La accesibilidad y simplicida de Hadoop le da ventaja en la escritura y corrida de grandes programas distribuidos. Con relativamente pocos recursos se puede de forma rápida y barata crear cluster propio de Hadoop. Por otro lado, su robustez y escalabilidad lo hace disponible para la mayoría de los trabajos demandados por Yahoo y Facebook. Estas características hacen que Hadoop sea muy popular ya sea en la Academia como en la industria. La figura 4 ilustra como interactuar con un cluster Hadoop. Como puede verse, el cluster de Hadoop es una serie de máquinas conectadas en red juntas en una localización. Todo el almacenamiento de los datos y el procesamiento ocurre dentro de esta nube de máquinas. Usuarios diferentes pueden enviar trabajos de cómputo al Hadoop desde clientes individuales, las cuales pueden ser sus propias máquinas en

11 11 localizaciones remotas del cluster Hadoop. Fig. 4. Un cluster Hadoop tiene muchas máquinas en paralelo que almacenan y procesan grandes conjuntos de datos. Las computadoras clientes envían trabajos a esta nube de computadoras y obtienen los resultados [9]. La introducción al proyecto Hadoop en la web (http://hadoop.apache.org/) define: El proyecto Apache Hadoop desarrolla programas de código abierto para la computación distribuida fiable y escalable, incluyendo a: Hadoop Core, el subproyecto bandera, proporciona sistemas de ficheros distribuidos (HDFS) y soportado por la metáfora de computación distribuida Map Reduce- HBase construido sobre el Hadoop Core para proporcionar una base de datos escalable y distribuida. Pig es un lenguaje de alto nivel de data-flow y un marco de ejecución para la computación paralela. Está construido encina del Hadoop Core. ZooKeeper es un sistema de coordinación de alta disponibilidad y fiabilidad. Las aplicaciones distribuidas utilizan ZooKeeper para almacenar y facilitar las actualizaciones para estados compartidos críticos. Hive es una infraestructura de almacén de datos construida sobre Hadoop Core que proporciona una indización general de los datos, adhoc de las solicitudes y el análisis de los conjuntos de datos. El proyecto Hadoop Core proporciona los servicios básicos para la construcción de un entorno de cómputo en la nube (cloud computing) con hardware de uso general (commodity), y las API para el desarrollo de software que correrá en la nube. Las dos piezas fundamentales de Hadoop Core son el marco MapReduce, el entorno de cómputo en la nube y el Hadoop Distributed File System (HDFS). El modelo MapReduce Hadoop soporta el modelo MapReduce, el cual fue introducido por Google como un método de solución de clases de problemas de gran escala con clusters grandes de máquinas de comunes. El modelo está basado en dos pasos distintos para una aplicación:

12 12 - Map: Un paso inicial de ingestión y transformación, en el cual los registros individuales de entrada pueden ser procesados en paralelo. - Reduce: Un paso de agregación o resumen, en el cual todos los registros asociados tienen que ser procesados juntos por una sola entidad. El núcleo del concepto de MapReduce en Hadoop es que una entrada puede ser dividida en pedazos lógicos, y cada pedazo puede ser inicialmente procesado independientemente por un mapa de tareas. Los resultados de este procesamiento individual de los pedazos pueden ser particionados físicamente en distintos conjuntos, los cuales son entonces ordenados. Cada pedazo ordenado es pasado a una tarea de reducción. La figura 5 ilustra cómo trabaja el modelo MapReduce. Figura 5. El modelo de MapReduce [9] El mapa de tareas puede correr en cualquiera de los nodos de cómputo del cluster y múltiples mapas de tareas pueden correr en paralelo a través del cluster. El mapa de tarea es responsable en la transformación de los registros de entrada en pares llave/valor. La salida de todos los mapas será particionada y cada partición será ordenada. Habrá una partición para cada tarea de reducción. Cada llave ordenada de la partición y el valor asociado con las llaves son entonces procesados por una tarea de reducción. Pueden existir múltiples tareas de reducción corriendo en paralelo en el cluster. El desarrollador de la aplicación necesita proporcionar solamente 4 items al marco de desarrollo de Hadoop: la clase leerá los registros de entrada y los transforma en pares llave/valores por registro, un método de mapeo, un método de reducción y una clase que transforma los pares llave/valor que el método de reducción entrega en registros de salida. Apache Mahout [10] Mahout es una biblioteca de algoritmos de aprendizaje automático de Apache. Ello significa en particular para Mahout el disponer de motores de recomendación (filtrado colaborativo), agrupamiento y clasificación. Este es también escalable. Mahout tiene la finalidad de ser una herramienta de aprendizaje automático a seleccionar cuando la colección de datos a ser procesados es muy grande, (relativo a ser procesada por una sola máquina). En la actualidad, estas implementaciones de aprendizaje automático

13 13 escalables de Mahout están escritas en Java y algunas secciones se basan en el proyecto de Cómputo distribuido de Apache Hadoop. III. RESULTADOS Y DISCUSIÓN La integración en un módulo de GridIR de las herramientas relacionadas de acuerdo con la configuración de la Figura 3 fue realizada a un desarrollo previo realizado en ICIMAF de un software de gestión de información en la Intranet de una organización para darle capacidad de procesamiento en paralelo y características NoSQL dentro de la concepción de Inteligencia de Negocios a partir de datos semi o no estructurados. En el experimento se corrió dicho módulo en una configuración de máquinas como la que se da en la Figura 6 perteneciente geográficamente al centro de cómputo (cluster de 20 procesadores Celeron D), las dos aulas-laboratorios (con dos clientes ligeros de 10 terminales y dos servidores Intel Xeon a 2.13 GHz y 1 Giga de RAM. Figura 6. Sistemas de computadoras utilizadas en el experimento. Este está enlazado por una red de de 100 Mbps. Las computadoras del cluster de Linux están interconectadas por una red Ethernet de un Gigabit [elaboración propia]. Para comprobar el funcionamiento, el empleo y realizar la caracterización del sistema basado en Hadoop se seleccionó la suite HiBench [xx] de Intel la cual consiste en un conjunto de programas de Hadoop que incluyen micro-evaluadores y aplicaciones del mundo real (Figura 7) Figura 7. Componentes de la suite de evaluación HiBench. [11]

14 14 Ejemplos de aplicaciones a realizar por el sistema. Técnica de división en bloques para la correspondencia por referencia utilizando MapReduce. [9]. El agrupamiento de documentos tiene cada vez más importancia en el área de la minería de datos y la recuperación de información. Con el crecimiento de los volúmenes de datos, las técnicas de CPU y de eficiencia de la memoria para los algoritmos de agrupamiento está recibiendo una considerable atención por la comunidad de investigadores. Para tratar con enormes cantidades de datos (ej., los documentos de Wikipedia o CiteSeerX que tienen varios GB de tamaño), las técnicas de agrupamiento distribuido han sido diseñadas para proporcionar facilidades de escalabilidad y flexibilidad. Uno de los problemas a solucionar es el problema de agrupamiento de documentos en el área de correspondencia por entidad (Entity Matching) donde los documentos de varias fuentes de datos son seleccionados juntos. Más específicamente, se puede utilizar una técnica de optimización común denominada división por bloques que reduce el enorme espacio de búsqueda para el agrupamiento de las fuentes de datos en grupos más pequeños y el procesamiento de las comparaciones solo dentro de esos grupos. En el artículo [12], se aplica el marco de trabajo de MapReduce para gestionar el enorme conjunto de datos bibliográficos mediante una técnica de división en bloques flexible, escalable y fácil de utilizar para reducir el espacio de búsqueda para realizar la correspondencia por entidad. Para determinar la relación entre documentos se utiliza las co-citas. Estas son técnicas bibliométricas de medición de la similitud para determinar publicaciones relacionadas por tópicos de una colección de documentos. Esta puede ser utilizada en los agrupamientos para unir publicaciones de tópicos similares (Figura 8). Figura 8. Calculo de la matriz de citas L y la matriz de co-citas C basados en el grafo de citas G [12]. Agrupamiento jerárquico para la correspondencia por referencia. En recuperación de información, el agrupamiento jerárquico es un método para agrupar observaciones similares dentro de un mismo grupo y crear una jerarquía entre todos los grupos. La jerarquía es producida mediante la división en cada nivel de dos clusters a partir del próximo nivel inferior el cual tiene la menor disimilitud intergrupal. Las estrategias para el agrupamiento jerárquico pueden dividirse en dos paradigmas básicos, aglomerativos (bottom-up) y divisorios (top-down). Para calcular la proximidad entre los clusters, se requiere disponer de una matriz de medidas de proximidad inicial entre clusters únicos. Para ello puede utilizarse la medida de co-citas como como una medida de proximidad inicial (Fig. 9). Se define como dos publicaciones cercanas, cuando sus medidas de co-citas normalizadas alcanzan un

15 15 umbral definido por el usuario. Por ejemplo, considerar que dos publicaciones son similares a partir de que medida de co-citas es mayor que 0.2. Figura 9. Dendograma para 118 publicaciones creadas por una herramienta de agrupamiento [12] Cluster jerárquico paralelo en la nube. En los algoritmos de agrupamiento (clustering) del tipo de K-medias y en los clusters jerárquicos, el cálculo más intenso de la CPU se produce en el cálculo de la proximidad o la distancia entre las observaciones desde el conjunto de datos. El cálculo de la matriz de co-citas es realizado de forma de adición y puede realizarse también en paralelo debido a que el cálculo entre dos publicaciones es independiente de otros cálculos (Figura 10). Figura 10. Computación en paralelo de la medida de similitud entre publicaciones [12]. Después de realizados los cálculos de todas las co-citas entre publicaciones, se pueden utilizar los resultados como entrada a un cluster jerárquico en Mahout de Apache. Mahout proporciona los algoritmos para varias tareas de minería de datos tales como clasificación o agrupamiento utilizando en la corrida de estos con MapReduce y alimentar los cálculos con la matriz inicial de proximidad. IV. CONCLUSIONES En el artículo, a partir de definir la concepción de la recuperación de información en la Grid o GridIR y sus funcionalidades, la inteligencia de negocios con semi o no estructurados, se propone crear la estructura

16 16 de GridIR con herramientas Apache de código abierto. Esta concepción se valida a través de expresar las funcionalidades de las herramientas propuestas, compatibles con las funcionalidades necesarias en la estructura de recuperación, y la interrelación entre las mismas partiendo de una única concepción de diseño y un lenguaje de programación común (java) lo cual posibilita realizar las adecuaciones necesarias por software para su completa armonización en su implementación. Esta idea también se ilustra con el ejemplo de división en bloques para la correspondencia por referencia utilizando MapReduce el cual demuestra la factibilidad de ejecución práctica de la estructura de GridIR, en particular, el procesamiento de grandes bases de datos obtenidas con un buscador Web mediante el agrupamiento de los resultados de las búsquedas. AGRADECIMIENTOS Este trabajo se realizó en el marco del proyecto Algoritmos de Minería de datos para la toma de decisiones en procesos industriales con procesamiento paralelo (Cluster y Grid) y la búsqueda especializada de contenidos en la Web (Proyecto no asociado de la Agencia de Energía Nuclear y Tecnologías de Avanzada, Contrato PNA/8/25 NO./2012) REFERENCIAS [1] NoSQL in the Enterprise. A Guide for Technology Leaders and Decision-Makers. DataStax Corporation. March Pp 18. [2] Kimball. R., The Evolving Role of the Enterprise Data Warehouse in the Era of Big Data Analytics. Kimball Group [3] Suárez I., et al., Algoritmos de minería de datos para la toma de decisiones en procesos industriales con procesamiento paralelo (grid) y herramienta y metodología para la búsqueda especializada de contenidos en la web. Reporte de Investigación del ICIMAF. No. 641, Noviembre p. [4] Integration Guide for MapReduce Applications in IBM Platform Symphony Advanced Edition. IBM Platform Symphony. Version 5.2. May 2012 [5] Volker Markl. Big Data Analytics. Parallel Data Processing Beyond Map and Reduce. Database Systems and Information Management Lab. Technishe Universitat Berlin. [6] Larson R., Grid-based Digital Libraries and Cheshire3. UC Berkely School of information PPT. [7] Smiley D., Pugh E., Apache Solr 3 Enterprise Search Server.Copyright 2011 Packt Publishing [8] NutchTutorial. chtutorial%22. Descargado el 9 de marzo del [9] Lam Chuck., Hadoop in Action 2011 by Manning Publications Co. [10] Owen S., Mahout in Action by Manning Publications. [11] Dai J. Performance, Utilization and Power Characterization of Hadoop Clusters using HiBench. Intel [12] Paradies, M., An Efficient Blocking Technique for Reference Matching using MapReduce. Datenbank Spektrum (2011) 11: Springer-Verlag 2011.

BIG DATA. Jorge Mercado. Software Quality Engineer

BIG DATA. Jorge Mercado. Software Quality Engineer BIG DATA Jorge Mercado Software Quality Engineer Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A Big Data - Introducción Que es Big Data? Big data es el termino

Más detalles

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López APACHE HADOOP Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López Objetivos 1. Qué es Apache Hadoop? 2. Funcionalidad 2.1. Map/Reduce 2.2. HDFS 3. Casos prácticos 4. Hadoop

Más detalles

Conectores Pentaho Big Data Community VS Enterprise

Conectores Pentaho Big Data Community VS Enterprise Conectores Pentaho Big Data Community VS Enterprise Agosto 2014 Stratebi Business Solutions www.stratebi.com info@stratebi.com Índice 1. Resumen... 3 2. Introducción... 4 3. Objetivo... 4 4. Pentaho Community

Más detalles

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Big Data: retos a nivel de desarrollo Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Cámara de Comercio de Bogotá Centro Empresarial Chapinero Agenda Introducción Bases de datos NoSQL Procesamiento

Más detalles

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1 ÍNDICE Introducción... XIII Capítulo 1. Conceptos de Big Data... 1 Definición, necesidad y características de Big Data... 1 Aplicaciones típicas de Big Data... 4 Patrones de detección del fraude... 4 Patrones

Más detalles

INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer

INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer En los últimos años, el interés por la Computación en la Nube (Cloud Computing), tanto para uso personal como para negocios,

Más detalles

Presentación. 29/06/2005 Monografía de Adscripción 1

Presentación. 29/06/2005 Monografía de Adscripción 1 Presentación Alumno: Uribe, Valeria Emilce Profesor Director: Mgter. David Luis La Red Martínez. Asignatura: Diseño y Administración de Datos. Corrientes 2005. 29/06/2005 Monografía de Adscripción 1 MONOGRAFIA

Más detalles

Big data A través de una implementación

Big data A través de una implementación Big data A través de una implementación Lic. Diego Krauthamer Profesor Adjunto Interino del Área Base de Datos Universidad Abierta Interamericana Facultad de Tecnología Informática Buenos Aires. Argentina

Más detalles

White Paper Help Desk Intranet

White Paper Help Desk Intranet 2004 Koala Developers Versión del documento: 2.0.8 White Paper Help Desk Intranet Autor: Departamento de Comercialización Última modificación: Abril de 2004 1 Contenido 2 Quién debería leer este documento?...3

Más detalles

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza IBM Software Information Management White Paper Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza Un enfoque de appliance simplifica el uso de la analítica avanzada Cómo aprovechar la

Más detalles

TEMA 37: Arquitecturas Cliente / Servidor. Tipos de cliente. Tipos de Servidor. Clasificación del software.

TEMA 37: Arquitecturas Cliente / Servidor. Tipos de cliente. Tipos de Servidor. Clasificación del software. . TEMA 37: Arquitecturas Cliente / Servidor. Tipos de cliente. Tipos de Servidor. Clasificación del software. Índice 1 INTRODUCCIÓN 2 2 CARACTERÍSTICAS 2 2.1 Características del cliente...2 2.2 Características

Más detalles

Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com

Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com Contenidos Clúster de Investigación Aplicada Proyectos HPC Clúster Hadoop para tecnologías de BI Una nube privada para la Administración

Más detalles

Qué significa Hadoop en el mundo del Big Data?

Qué significa Hadoop en el mundo del Big Data? Qué significa Hadoop en el mundo del Big Data? Un contenido para perfiles técnicos 2 ÍNDICE Qué significa Hadoop en el Universo Big Data?.... 3 El planteamiento: big data y data science.... 3 Los desafíos

Más detalles

Software Libre para Aplicaciones de Big Data

Software Libre para Aplicaciones de Big Data Software Libre para Aplicaciones de Big Data Club de Investigación Tecnológica San José, Costa Rica 2014.07.16 Theodore Hope! hope@aceptus.com Big Data: Qué es?! Conjuntos de datos de: " Alto volumen (TBs

Más detalles

PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop

PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: DESARROLLO 2.

Más detalles

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS Introducción Los algoritmos utilizados para el procesamiento de imágenes son de complejidad computacional alta. Por esto

Más detalles

Solución empresarial Hadoop de EMC. NAS de escalamiento horizontal Isilon y Greenplum HD

Solución empresarial Hadoop de EMC. NAS de escalamiento horizontal Isilon y Greenplum HD Informe técnico Solución empresarial Hadoop de EMC NAS de escalamiento horizontal Isilon y Greenplum HD Por Julie Lockner, analista ejecutivo, y Terri McClure, analista ejecutivo Febrero de 2012 Este Informe

Más detalles

Big Data Analytics: propuesta de una arquitectura

Big Data Analytics: propuesta de una arquitectura Big Data Analytics: propuesta de una arquitectura Jonathan Solano Rodriguez y Estefany Leiva Valverde Escuela de Ingeniería, Universidad Latinoamericana de Ciencia y Tecnología, ULACIT, Urbanización Tournón,

Más detalles

CURSOS DE VERANO 2014

CURSOS DE VERANO 2014 CURSOS DE VERANO 2014 CLOUD COMPUTING: LA INFORMÁTICA COMO SERVICIO EN INTERNET LA PLATAFORMA GOOGLE CLOUD PLATFORM. GOOGLE APP ENGINE Pedro A. Castillo Valdivieso Universidad de Granada http://bit.ly/unia2014

Más detalles

VISIÓN GENERAL HERRAMIENTAS COMERCIALES

VISIÓN GENERAL HERRAMIENTAS COMERCIALES VISIÓN GENERAL El servidor de MS SQL se ha convertido en un estándar en muchas partes de la América corporativa. Puede manejar volúmenes de datos grandes y se integra bien con otros productos de Microsoft.

Más detalles

Cocinando con Big Data

Cocinando con Big Data Cocinando con Big Data Javier Sánchez BDM Big Data jsanchez@flytech.es 91.300.51.09 21/11/2013 Javier Sánchez 1 Agenda Qué es Big Data? Receta Punto de Partida Para qué Big Data? Conclusiones 21/11/2013

Más detalles

Servicios avanzados de supercomputación para la ciència y la ingeniería

Servicios avanzados de supercomputación para la ciència y la ingeniería Servicios avanzados de supercomputación para la ciència y la ingeniería Servicios avanzados de supercomputación para la ciència y la ingeniería HPCNow! provee a sus clientes de la tecnología y soluciones

Más detalles

Comparación del coste total de propiedad de MongoDB y Oracle. Informe de 10gen

Comparación del coste total de propiedad de MongoDB y Oracle. Informe de 10gen Comparación del coste total de propiedad de MongoDB y Oracle Informe de 10gen New York Palo Alto Washington, DC London Dublin Barcelona Sydney US 646.237.8815 INTL 650.440.4474 info@10gen.com Copyright

Más detalles

CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización

CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización Página 1 de 16 CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 3 Código IFC304_3 Versión 5 Situación RD 1201/2007 Actualización Competencia

Más detalles

IBM Power Systems con Saytel. El motor para obtener información de valor de la forma más rápida

IBM Power Systems con Saytel. El motor para obtener información de valor de la forma más rápida IBM Power Systems con Saytel El motor para obtener información de valor de la forma más rápida El motor para obtener información de valor de la forma más rápida Los nuevos requerimientos cloud, analítica,

Más detalles

Hadoop. Cómo vender un cluster Hadoop?

Hadoop. Cómo vender un cluster Hadoop? Hadoop Cómo vender un cluster Hadoop? ÍNDICE Problema Big Data Qué es Hadoop? Descripción HDSF Map Reduce Componentes de Hadoop Hardware Software 3 EL PROBLEMA BIG DATA ANTES Los datos los generaban las

Más detalles

Soluciones de virtualización de datos

Soluciones de virtualización de datos Soluciones de virtualización de datos Cómo obtener una ventaja competitiva gracias al uso de los datos El contexto de cambio vertiginoso en las diferentes actividades de negocio requiere en la actualidad

Más detalles

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql The H Hour: Hadoop The awakening of the BigData Antonio Soto SolidQ COO asoto@solidq.com @antoniosql Tendencias de la Industria El nuevo rol del operador El operador de ayer Sigue el proceso basado en

Más detalles

:Arquitecturas Paralela basada en clusters.

:Arquitecturas Paralela basada en clusters. Computación de altas prestaciones: Arquitecturas basadas en clusters Sesión n 1 :Arquitecturas Paralela basada en clusters. Jose Luis Bosque 1 Introducción Computación de altas prestaciones: resolver problemas

Más detalles

PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop

PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: SISTEMAS

Más detalles

Mejora de la Recuperación de Información en entorno Oracle: Aplicación práctica a Recursos Cartográficos

Mejora de la Recuperación de Información en entorno Oracle: Aplicación práctica a Recursos Cartográficos Mejora de la Recuperación de Información en entorno Oracle: Aplicación práctica a Recursos Cartográficos Víctor Dart 1, Juan Carlos Martínez 1, José V. Ballester 2, Francisco Rangel 1 1 Corex Soluciones

Más detalles

Diferenciadores entre ediciones de Bases de Datos Oracle Octubre de 2011. Standard Edition One. Express Edition. Standard Edition

Diferenciadores entre ediciones de Bases de Datos Oracle Octubre de 2011. Standard Edition One. Express Edition. Standard Edition Diferenciadores entre ediciones de Bases de Datos Oracle Octubre de 2011 Características Express Standard One Standard Enterprise Procesamiento Máximo 1 CPU 2 Sockets 4 Sockets Sin límite Memoria RAM Máxima

Más detalles

Sistema de Recuperación de Información Motor de Búsqueda: Innuendo

Sistema de Recuperación de Información Motor de Búsqueda: Innuendo Sistema de Recuperación de Información Motor de Búsqueda: Innuendo Epifanio Tula, Luis Gerónimo Medeot, Matías Daniel Universidad Tecnológica Nacional, Facultad Regional Córdoba Abstract El presente trabajo

Más detalles

Consultas de bases de datos potentes y fáciles de utilizar para DB2 en la plataforma IBM i. IBM DB2 Web Query para i

Consultas de bases de datos potentes y fáciles de utilizar para DB2 en la plataforma IBM i. IBM DB2 Web Query para i Consultas de bases de datos potentes y fáciles de utilizar para DB2 en la plataforma IBM i IBM DB2 Web Query para i Características principales Moderniza los informes de Query for IBM iseries (Query/400)

Más detalles

GRID COMPUTING MALLA DE ORDENADORES

GRID COMPUTING MALLA DE ORDENADORES GRID COMPUTING MALLA DE ORDENADORES Introducción Concepto Compartir potencia computacional; Aprovechamiento de ciclos de procesamiento; El Grid Computing se enmarca dentro de la tecnología de computación

Más detalles

CA Automation Suite for Data Centers

CA Automation Suite for Data Centers HOJA DEL PRODUCTO: CA Automation Suite for Data Centers CA Automation Suite for Data Centers agility made possible La tecnología ha aventajado a la gestión manual en todas las empresas grandes y en muchas

Más detalles

Una potencia informática excepcional. Prestación de almacenamiento extraordinaria. Flexibilidad de red definitiva. Experiencia integrada o compilada

Una potencia informática excepcional. Prestación de almacenamiento extraordinaria. Flexibilidad de red definitiva. Experiencia integrada o compilada Una potencia informática excepcional. Prestación de almacenamiento extraordinaria. Flexibilidad de red definitiva. Experiencia integrada o compilada a medida. Infraestructura de servidor preconfigurada

Más detalles

XII Encuentro Danysoft en Microsoft Abril 2015. Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código

XII Encuentro Danysoft en Microsoft Abril 2015. Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código Ana María Bisbé York Servicios Profesionales sp@danysoft.com 916 638683 www.danysoft.com Abril 2015 Sala 1 SQL Server

Más detalles

ADMINISTRACIÓN DE ENERGÍA INTELIGENTE. Administre consumo. Analice tarifas. Reduzca costos.

ADMINISTRACIÓN DE ENERGÍA INTELIGENTE. Administre consumo. Analice tarifas. Reduzca costos. ADMINISTRACIÓN DE ENERGÍA INTELIGENTE. Administre consumo. Analice tarifas. Reduzca costos. Los costos de energía en el siglo veintiuno representan un gran gasto para cualquier organización. Ahora más

Más detalles

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica Fundamentos Título de de Big la Data presentación utilizando MATLAB Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica 1 Agenda Qué es Big Data? Buenas prácticas en el manejo de memoria.

Más detalles

Diplomado en Big Data

Diplomado en Big Data 160 horas Diplomado en Big Data BROCHURE, 2015 Contenido Quienes somos?... 3 Presentación del Programa... 4 Perfíl del Facilitador. 5 Objetivos.. 6 Información General.. 7 Plan de Estudio... 8-9 Plan de

Más detalles

INGENIERÍA EN SISTEMAS COMPUTACIONALES

INGENIERÍA EN SISTEMAS COMPUTACIONALES INGENIERÍA EN SISTEMAS COMPUTACIONALES UNIDAD 1 Catedrático: JOSÉ RAMÓN VALDEZ GUTIÉRREZ Alumnos: AVILA VALLES JAIRO EDUARDO 08040265 Victoria de Durango, Dgo.Mex Fecha: 14/09/2012 Tabla de contenido INTRODUCCIÓN

Más detalles

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE)

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data y Supercómputo Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data 2 Hasta qué cantidad de datos podemos procesar en nuestra

Más detalles

Fernando Gutiérrez-Cabello. Data Discovery y visualizaciones en MicroStrategy 10

Fernando Gutiérrez-Cabello. Data Discovery y visualizaciones en MicroStrategy 10 Fernando Gutiérrez-Cabello Data Discovery y visualizaciones en MicroStrategy 10 Clientes Beta de MicroStrategy 10 Por primera vez, MicroStrategy 10 ofrece una plataforma de analítica que combina una experiencia

Más detalles

Plataforma Cloud con HP 3PAR y VMware vsphere

Plataforma Cloud con HP 3PAR y VMware vsphere Mayo 2011 Elaborado por nerion Todos los derechos reservados. Plataforma Cloud con HP 3PAR y VMware vsphere SOBRE NERION nerion es una de las principales Empresas españolas de registro de dominios, hosting

Más detalles

Valor de Licenciamiento de SQL Server 2012 frente a Oracle Database

Valor de Licenciamiento de SQL Server 2012 frente a Oracle Database Notas del Producto Publicación: enero de 2012 Se aplica a: SQL Server 2012 Valor de Licenciamiento de SQL Server 2012 frente a Oracle Database Resumen: Los cambios en el producto y las licencias que Microsoft

Más detalles

PREVIEW BIDOOP 2.0. Big Data Brunch

PREVIEW BIDOOP 2.0. Big Data Brunch PREVIEW BIDOOP 2.0 Big Data Brunch 08 de Julio 2014 Quién soy? Trabajando con Hadoop desde 2010 sluangsay@pragsis.com @sourygna CTO de Pragsis Responsable departamento sistemas Preventa Instructor de Hadoop

Más detalles

Comparación de características entre las ediciones Estándar y Enterprise

Comparación de características entre las ediciones Estándar y Enterprise Comparación de características entre las ediciones Estándar y Enterprise Enterprise Enterprise es una plataforma completa de datos para ejecutar aplicaciones de misión crítica OLTP (Online Transaction

Más detalles

Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011

Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011 Clusters Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011 Introducción Aplicaciones que requieren: Grandes capacidades de cómputo: Física de partículas, aerodinámica, genómica, etc. Tradicionalmente

Más detalles

Desmitificando Big Data:

Desmitificando Big Data: Desmitificando Big Data: Data Mining y Business Intelligence 2.0 Ignacio Bustillo Ignacio.Bustillo@stratebi.com Twitter: @IgnacioBustillo Fecha presentación: 14 de Noviembre de 2014 'Hello world!' Creador

Más detalles

El camino más rápido hacia cpdm

El camino más rápido hacia cpdm Teamcenter Express El camino más rápido hacia cpdm Siemens PLM Software www.siemens.com/velocity Las pequeñas y medianas empresas de fabricación tienen que hacer frente a la necesidad cada vez mayor de

Más detalles

REPORTE OFICIAL OCTUBRE DE 2014. CA Unified Infrastructure Management para servidores

REPORTE OFICIAL OCTUBRE DE 2014. CA Unified Infrastructure Management para servidores REPORTE OFICIAL OCTUBRE DE 2014 CA Unified Infrastructure Management para servidores 2 Reporte oficial: CA Unified Infrastructure Management para servidores Tabla de contenidos Descripción general de la

Más detalles

CURSOS DE VERANO 2014

CURSOS DE VERANO 2014 CURSOS DE VERANO 2014 CLOUD COMPUTING: LA INFORMÁTICA COMO SERVICIO EN INTERNET La plataforma Google Cloud Platform. Google App Engine Pedro A. Castillo Valdivieso Universidad de Granada La plataforma

Más detalles

CA Automation Suite for Hybrid Clouds

CA Automation Suite for Hybrid Clouds HOJA DEL PRODUCTO: For Hybrid Clouds for Hybrid Clouds for Hybrid Clouds está diseñada para aumentar la agilidad y la eficacia, de forma que pueda hacer lo siguiente: Sobrellevar las ráfagas de demanda

Más detalles

Syteline ERP el Ambiente de Trabajo Inteligente.

Syteline ERP el Ambiente de Trabajo Inteligente. Syteline ERP el Ambiente de Trabajo Inteligente. ERP SyteLine Cómo adaptar su sistema ERP para mantener sus negocios ágiles y su área de Tecnología de la Información pequeña. Prácticamente todos los fabricantes

Más detalles

Unicenter Asset Management versión 4.0

Unicenter Asset Management versión 4.0 D A T A S H E E T Unicenter Asset Management versión 4.0 Unicenter Asset Management es una completa solución para gestionar los activos TI de su entorno empresarial de forma activa. Proporciona funciones

Más detalles

Programación híbrida en arquitecturas cluster de multicore. Escalabilidad y comparación con memoria compartida y pasaje de mensajes.

Programación híbrida en arquitecturas cluster de multicore. Escalabilidad y comparación con memoria compartida y pasaje de mensajes. Programación híbrida en arquitecturas cluster de multicore. Escalabilidad y comparación con memoria compartida y pasaje de mensajes. Fabiana Leibovich, Armando De Giusti, Marcelo Naiouf, Laura De Giusti,

Más detalles

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928 Alessandro Chacón 05-38019 Ernesto Level 05-38402 Ricardo Santana 05-38928 CONTENIDO Universo Digital Hadoop HDFS: Hadoop Distributed File System MapReduce UNIVERSO DIGITAL 161 EB 2006 Fuente: International

Más detalles

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA

POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA POSIBLE APLICACIÓN DE LA MINERÍA DE TEXTOS A LOS TRABAJOS DE LA COMISIÓN MINISTERIAL DE INFORMÁTICA M.ª del Pilar Cantero Blanco Jefa de Servicio de Sistemas Informáticos. Subdirección General de Planificación

Más detalles

La Inteligencia de Negocios es ya una realidad para las empresas medianas

La Inteligencia de Negocios es ya una realidad para las empresas medianas Reuniones/Entrevistas La Inteligencia de Negocios es ya una realidad para las empresas medianas La Inteligencia de Negocios es el siguiente paso que las empresas deben dar para mejorar su toma de decisiones

Más detalles

Luis Reina Juliá luis_reina@es.ibm.com IBM Software Group Arquitecto de Datos. Data Warehousing: el reto de extraer el valor de los datos

Luis Reina Juliá luis_reina@es.ibm.com IBM Software Group Arquitecto de Datos. Data Warehousing: el reto de extraer el valor de los datos Luis Reina Juliá luis_reina@es.ibm.com IBM Software Group Arquitecto de Datos Data Warehousing: el reto de extraer el valor de los datos AGENDA Data Warehouses Problemáticas típicas de Data Warehouse Soluciones

Más detalles

Capítulo 1. Introducción

Capítulo 1. Introducción Capítulo 1. Introducción El WWW es la mayor fuente de imágenes que día a día se va incrementando. Según una encuesta realizada por el Centro de Bibliotecas de Cómputo en Línea (OCLC) en Enero de 2005,

Más detalles

BearSoft. SitodeCloud. Rafael Rios Bascón Web: http://www.bearsoft.com.bo Móvil: +591 77787631 Email: rafael.rios@bearsoft.com.bo

BearSoft. SitodeCloud. Rafael Rios Bascón Web: http://www.bearsoft.com.bo Móvil: +591 77787631 Email: rafael.rios@bearsoft.com.bo BearSoft Rafael Rios Bascón Web: http://www.bearsoft.com.bo Móvil: +591 77787631 Email: rafael.rios@bearsoft.com.bo CONTENIDO 1. Resumen. 3 2. Business Intelligence.. 4 3. Características del software.

Más detalles

Plataformas Tecnológicas y Requerimientos Técnicos de las Aplicaciones de

Plataformas Tecnológicas y Requerimientos Técnicos de las Aplicaciones de Plataformas Tecnológicas y Requerimientos Técnicos de las Aplicaciones de Departamento de Sistemas 2014 Página 1 INDICE Introducción 3 Requisitos Generales del Entorno 3 Requisitos Generales de las Aplicaciones

Más detalles

Appliance IBM Netezza High Capacity

Appliance IBM Netezza High Capacity Appliance IBM Netezza High Capacity Archivado de datos con escala peta, análisis y recuperación de desastres Appliance de alta capacidad de IBM Netezza Puntos destacados: Permite la consulta y el análisis

Más detalles

CAPITULO 9. Diseño de una Base de Datos Relacional Distribuida

CAPITULO 9. Diseño de una Base de Datos Relacional Distribuida 9.1 Operaciones CAPITULO 9 Diseño de una Base de Datos Relacional Distribuida Las consultas distribuidas obtienen acceso a datos de varios orígenes de datos homogéneos o heterogéneos. Estos orígenes de

Más detalles

Si está interesado en conocer más detalle de esta propuesta, quedo a su disposición

Si está interesado en conocer más detalle de esta propuesta, quedo a su disposición Estimado cliente: Como cliente de IBM, ya conoce la diferencia que puede marcar una infraestructura de TI eficiente y fiable, con capacidad de respuesta; que pueda soportar el negocio de su empresa y acompañar

Más detalles

Deep Learning y Big Data

Deep Learning y Big Data y Eduardo Morales, Enrique Sucar INAOE (INAOE) 1 / 40 Contenido 1 2 (INAOE) 2 / 40 El poder tener una computadora que modele el mundo lo suficientemente bien como para exhibir inteligencia ha sido el foco

Más detalles

Organizaciones Virtuales e Integración de Información. José Abásolo Prieto

Organizaciones Virtuales e Integración de Información. José Abásolo Prieto Organizaciones Virtuales e Integración de Información José Abásolo Prieto Universidad de los Andes Objetivo de la charla Mostrar que aunque la problemática de integración de información distribuida y heterogénea

Más detalles

Agrupación en clusters de las aplicaciones de bases de datos para reducir los costos de TI Introducción

Agrupación en clusters de las aplicaciones de bases de datos para reducir los costos de TI Introducción Enero 2010 Agrupación en clusters de las aplicaciones de bases de datos para reducir los costos de TI Reorganizarse para lograr eficiencia, rendimiento y alta disponibilidad Introducción La agrupación

Más detalles

Big Data con nombres propios

Big Data con nombres propios Febrero 2014 Big Data con Al hablar de tecnología Big Data se está obligado, sin duda alguna, a hablar de programación paralela y procesamiento distribuido, ya que éstas serán las características que permitirán

Más detalles

Soluciones Integrales en Inteligencia de Negocios

Soluciones Integrales en Inteligencia de Negocios Soluciones Integrales en Inteligencia de Negocios QUIENES SOMOS NUESTRA MISIÓN DATAWAREHOUSE MINERÍA DE DATOS MODELOS PREDICTIVOS REPORTERÍA Y DASHBOARD DESARROLLO DE APLICACIONES MODELOS DE SIMULACIÓN

Más detalles

SMART ENERGY. avanzados. de la medida. Más de 140 compañías de utilities en todo el mundo disponen de soluciones Indra. indracompany.

SMART ENERGY. avanzados. de la medida. Más de 140 compañías de utilities en todo el mundo disponen de soluciones Indra. indracompany. SMART ENERGY Soluciones y Dispositivos avanzados de gestión de la medida Más de 140 compañías de utilities en todo el mundo disponen de soluciones Indra indracompany.com SMARt ENERGY Soluciones y Dispositivos

Más detalles

CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL. Nivel 2. Versión 5 Situación RD 1201/2007 Actualización

CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL. Nivel 2. Versión 5 Situación RD 1201/2007 Actualización Página 1 de 18 CUALIFICACIÓN CONFECCIÓN Y PUBLICACIÓN DE PÁGINAS WEB PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 2 Código IFC297_2 Versión 5 Situación RD 1201/2007 Actualización

Más detalles

Soluciones Informáticas para gestionar su empresa Presentación de empresa la Compañía La Compañía NEO GRUP Management, es un proyecto definido y creado para proporcionar a nuestros clientes, trabajando

Más detalles

Uso de los Servicios Web en la nueva arquitectura de N-Capas del Sistema Económico Integral Rodas XXI.

Uso de los Servicios Web en la nueva arquitectura de N-Capas del Sistema Económico Integral Rodas XXI. Ponencia para Evento de Redes. Autor: Rubén Rivera Rodríguez, Citmatel Resumen Uso de los Servicios Web en la nueva arquitectura de N-Capas del Sistema Económico Integral Rodas XXI. Las nuevas tendencias

Más detalles

Proyecto Piloto sobre Viabilidad de Internet como Fuente de Datos. Resultados del Proyecto

Proyecto Piloto sobre Viabilidad de Internet como Fuente de Datos. Resultados del Proyecto Proyecto Piloto sobre Viabilidad de Internet como Fuente de Datos Resultados del Proyecto ÍNDICE 1. Detección automática de B2C 2. Análisis de demanda de profesionales TICC y programas formativos 3. Análisis

Más detalles

Conceptos básicos de Big Data

Conceptos básicos de Big Data Conceptos básicos de Big Data Este documento no podrá ser reproducido, total o parcialmente, sin el permiso expreso de TRC Informática, S.L. Correos electrónicos, mensajes de textos, datos en formularios

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

BUSINESS INTELLIGENCE Y REDSHIFT

BUSINESS INTELLIGENCE Y REDSHIFT Whitepaper BUSINESS INTELLIGENCE Y REDSHIFT BEE PART OF THE CHANGE hablemos@beeva.com www.beeva.com LAS SOLUCIONES QUE TU BI NECESITA Con Amazon Web Services (AWS) es posible disponer con solo unos clics

Más detalles

PROGRAMA FORMATIVO Administración de Business Intelligence y Datawarehousing

PROGRAMA FORMATIVO Administración de Business Intelligence y Datawarehousing PROGRAMA FORMATIVO Administración de Business Intelligence y Datawarehousing Julio 2014 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES Área Profesional: DESARROLLO

Más detalles

SERVICIO RECOMENDADOR DE RECURSOS DIGITALES PARA EL SISTEMA DSPACE

SERVICIO RECOMENDADOR DE RECURSOS DIGITALES PARA EL SISTEMA DSPACE DESARROLLO DE UN SERVICIO RECOMENDADOR DE RECURSOS DIGITALES PARA EL SISTEMA DSPACE 1. INTRODUCCIÓN Desde hace dos décadas, las bibliotecas han efectuado con éxito una serie de transformaciones en su filosofía,

Más detalles

MS_20331 Core Solutions of Microsoft SharePoint Server 2013

MS_20331 Core Solutions of Microsoft SharePoint Server 2013 Core Solutions of Microsoft SharePoint Server 2013 www.ked.com.mx Av. Revolución No. 374 Col. San Pedro de los Pinos, C.P. 03800, México, D.F. Tel/Fax: 52785560 Introducción Este curso le proporcionará

Más detalles

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO PRESENTACIÓN ANTONIO GONZÁLEZ CASTRO IT SECURITY DIRECTOR EN PRAGSIS TECHNOLOGIES agcastro@pragsis.com antoniogonzalezcastro.es @agonzaca linkedin.com/in/agonzaca

Más detalles

D.4.3.1 Definición de la infraestructura de soporte.

D.4.3.1 Definición de la infraestructura de soporte. D.4.3.1 Definición de la infraestructura de soporte. RESUMEN EJECUTIVO El proyecto CloudPYME ha analizado, desarrollado y probado tres servicios de valor añadido para las PYME de la Euroregión Galicia-Norte

Más detalles

Talend Integration Suite

Talend Integration Suite Talend Integration Suite Talend Integration Suite es un sistema que mejora considerablemente la eficiencia del trabajo de integración de datos a través de un entorno de desarrollo gráfico fácil de usar.

Más detalles

Clasificación de Áreas y Subáreas para las inscripciones al Doctorado en Ciencias Informáticas

Clasificación de Áreas y Subáreas para las inscripciones al Doctorado en Ciencias Informáticas Área Algoritmos y Estructuras de Datos Arquitectura de computadoras Subárea - Algoritmos - Análisis de algoritmos - Estructuras de Datos - Verificación y certificación de programas - Lógicas para el desarrollo

Más detalles

IBM PureFlex System. El sistema de infraestructura con experiencia integrada

IBM PureFlex System. El sistema de infraestructura con experiencia integrada IBM PureFlex System El sistema de infraestructura con experiencia integrada 2 IBM PureFlex System La TI ocupa un papel cada vez más central en la estrategia de las empresas Durante los últimos 100 años

Más detalles

WEBBER: USO DE COMPONENTES PARA LA ARMONIZACIÓN DE CONTENIDOS Y METADATOS

WEBBER: USO DE COMPONENTES PARA LA ARMONIZACIÓN DE CONTENIDOS Y METADATOS WEBBER: USO DE COMPONENTES PARA LA ARMONIZACIÓN DE CONTENIDOS Y METADATOS Autores: Introducción Diego R. López RedIRIS diego.lopez@rediris.es El trabajo necesario para mantener un servidor de información

Más detalles

BASES DE DATOS. 1.1 Funciones de un DBMS

BASES DE DATOS. 1.1 Funciones de un DBMS BASES DE DATOS Un DBMS, son programas denominados Sistemas Gestores de Base de Datos, abreviado SGBD, en inglés Data Base Management System (DBMS) que permiten almacenar y posteriormente acceder a los

Más detalles

Electrónica Digital II

Electrónica Digital II Electrónica Digital II M. C. Felipe Santiago Espinosa Aplicaciones de los FPLDs Octubre / 2014 Aplicaciones de los FPLDs Los primeros FPLDs se usaron para hacer partes de diseños que no correspondían a

Más detalles

Mgter. Alejandro Ramos

Mgter. Alejandro Ramos Mgter. Alejandro Ramos Servidores Centralizados de Ficheros. Sistemas de Base de Datos. Sistemas Distribuidos. Evolución de la Tecnología Cliente Servidor 1 2 3 4 5 1982 1986 1990 1995 1995 - actualmente

Más detalles

Máster en Instalación, Gestión y Mantenimiento de CRM: Gestión de Relaciones con Clientes

Máster en Instalación, Gestión y Mantenimiento de CRM: Gestión de Relaciones con Clientes Máster en Instalación, Gestión y Mantenimiento de CRM: Gestión de Relaciones con Clientes Titulación certificada por EUROINNOVA BUSINESS SCHOOL Máster en Instalación, Gestión y Mantenimiento de CRM: Gestión

Más detalles

CA Nimsoft Monitor para servidores

CA Nimsoft Monitor para servidores INFORME OFICIAL Septiembre de 2012 CA Nimsoft Monitor para servidores agility made possible CA Nimsoft for Server Monitoring tabla de contenido para servidores: 3 descripción general de la solución Monitoreo

Más detalles

ArcGIS. Catálogo de cursos

ArcGIS. Catálogo de cursos ArcGIS Catálogo de cursos 2015 ArcGIS Desktop ArcGIS Desktop ArcGIS 1: Introduction to GIS (10.2)... 2 ArcGIS 2: Essential Workflows (10.2)... 3 ArcGIS 3: Performing Analysis (10.2)... 3 Building Geodatabases

Más detalles

PROYECTO REALIZADO POR: ENTIDAD GESTORA: COFINANCIADO POR:

PROYECTO REALIZADO POR: ENTIDAD GESTORA: COFINANCIADO POR: CLOUD COMPUTING PROYECTO REALIZADO POR: ENTIDAD GESTORA: COFINANCIADO POR: 1. Introducción 1. Qué es el Cloud Computing? La computación en nube es un sistema informático basado en Internet y centros de

Más detalles

Especificación de la secuencia de mensajes que se han de intercambiar. Especificación del formato de los datos en los mensajes.

Especificación de la secuencia de mensajes que se han de intercambiar. Especificación del formato de los datos en los mensajes. SISTEMAS DISTRIBUIDOS DE REDES 2.- MODELOS ORIENTADOS A OBJETOS DISTRIBUIDOS 2.1. Tecnologías de sistemas distribuidos Para la implementación de sistemas distribuidos se requiere de tener bien identificados

Más detalles

serra Access y SQL Server Qué es mejor en cada caso? Valentín Playá, Serra GTS 22 de enero de 2009 Bases de datos 1

serra Access y SQL Server Qué es mejor en cada caso? Valentín Playá, Serra GTS 22 de enero de 2009 Bases de datos 1 Access y SQL Server Qué es mejor en cada caso? Valentín Playá, Serra GTS 22 de enero de 2009 Bases de datos 1 Bases de datos en una organización Distintas necesidades según el tipo de solución Ninguna

Más detalles

Enterprise Content Management

Enterprise Content Management Enterprise Content Management Una Solución Open Source Contenido Enfoque de la Solución El Core de la Solución: Alfresco Los Estándares detrás de Alfresco Requerimientos del Sector Gobierno Nuestros Antecedentes

Más detalles