TÉSIS DE MAESTRÍA. Emmanuel Barajas González

Tamaño: px
Comenzar la demostración a partir de la página:

Download "TÉSIS DE MAESTRÍA. Emmanuel Barajas González"

Transcripción

1 UNIVERSIDAD DE GUADALAJARA TECNOLOGÍAS DE INFORMACIÓN TÉSIS DE MAESTRÍA Defendida por Emmanuel Barajas González Diseño de una arquitectura para procesamiento paralelo y distribuido de conjuntos másivos de datos no estructurados para el proyecto de Smarter Trac de CUCEA e IBM Director de Tésis: Laura Torres Defendida en, 2013

2

3 0.1 Agradecimientos

4

5 Contenidos 0.1 Agradecimientos i 1 Abstract Abstract Introducción Objetivos Objetivos Particulares Motivación Justicación Enfoque Metodológico Estado del Arte Arquitectura para el procesamiento masivo Hardware Software Métodos de procesamiento Procesamiento Paralelo Procesamiento distribuído Diferencias entre sistemas paralelos y distribuídos Tecnologías de bases de datos Datos estructurados Datos no estructurados Big Data Tecnologías para trabajar con Big Data MapReduce Proyectos Relacionados IBM c Smarter Planet Smarter Cities Denición del problema Contexto Descripción del problema Hipótesis Objetivos Objetivo General Objetivos particulares Justicación Límites y alcances Preguntas de investigación

6 iv Contenidos 5 Materiales y Métodos 39 A Appendix Example 41 A.1 Appendix Example section Bibliografía 43

7 Capítulo 1 Abstract 1.1 Abstract En la actualidad las fuentes de datos y el ritmo al que trabajan sobrepasan la capacidad de procesamiento tradicional por lo que dicha información termina almacenada o pasa por u ltro de los sistemas estadísticos y solo una pequena parte se usa en la generación de conocimiento. Es por eso que la necesidad de la creación de herramientas las cuales permitan explotar de manera más eciente las fuentes de datos es importante sobre todo para proyectos que manejan dichos volúmenes masivos de datos. Para ello se describe el estudio e implementación de una arquitectura la cual es capaz de responder a esta necesidad generada por el proyecto de Smart Trac al usar el modelo de programación Map Reduce que desarrolló Google c mediante el cual es posible paralelizar y distribuir tareas a varios nodos interconectados que forman un cluster y así incrementa el poder de cómputo disponible. Dicho modelo es aplicable en ambientes en los cuales se tienen diversas y masivas fuentes de información heterogéneos como lo es el proyecto antes mencionado por lo que se describe la integración e implementación de la solución con el uso de un cluster destinado para dicho propósito. Nowadays the traditional processing power is not able to keep up with the rate at which the data sources are generating information and that's why such data ends up being stored or it is passed through a lter of an statistic system and just a small portion is used to generate new knowledge. That's why the need for the creation of tools that allow the ecient processing of such data sources grows in importance specially for projects that deal with massive volumes of data. In order to achieve that, the study and implementation of an architecture that is able to fulll this requirement is described in this document and it also describes its integration with the Smarter trac project by using the Map Reduce programming model created by Google c. This programming model allows the developer to parallelize and distribute tasks among several nodes connected to a cluster and this in turn increases the available overall processing power. Such model can be applied to environments with highly diversied, massive and heterogeneous data sources which we can nd in the previously mentioned trac project and this makes it suitable to be implemented this way. Palabras clave: big data, parallel, distributed, computing, hadoop, cluster, smarter cities, smarter trac, unstructured data, smarter trac, giraph

8

9 Capítulo 2 Introducción Contenidos 2.1 Objetivos Objetivos Particulares Motivación Justicación Enfoque Metodológico Objetivos Realizar un estudio, integración y desarrollo para la puesta a punto de una arquitectura la cual dé respuesta a la necesidad de procesamiento paralelo y distribuido de conjuntos masivos de datos no estructurados para ser utilizado como base del manejo de información del proyecto Smart Trac de CUCEA e IBM Objetivos Particulares 2.2 Motivación 2.3 Justicación 2.4 Enfoque Metodológico El método elegido para la realización de esta investigación es el llamado estudio de caso porque dada la naturaleza del proyecto mismo se requiere poner foco en los detalles del diseño y de la implementación así como obtener un profundo entendimiento de cada uno de los componentes y de las etapas necesarias para lograr una instalación exitosa. De forma adicional se requiere que la especicación de requerimientos sea realizada con detalle y que el entorno utilizado se describa de forma exhaustiva. Al tomar en cuenta las necesidades antes mencionadas podemos ir a la dención dada por [Stake, 1999] y observar que en efecto un estudio de caso se ajusta al tipo de proyecto que se pretende realizar y se pueden usar los resultados obtenidos de la profunda comprensión y análisis de los elementos que lo componen para proveer las respuestas a las preguntas que se plantean.

10 4 Capítulo 2. Introducción Plataforma de prueba: Utilizando la plataforma Elastic Cloud de Amazon c se creará un cluster compuesto de varios servidores virtuales los cuales se usarán para formar un cluster de Hadoop utilizando el Hadoop Distributed Filesystem como sistema de archivos distribuido. Una vez realizada la conguración inicial, se instalará Ganglia como sistema de monitoreo. KarmaSphere c se usará como entorno de trabajo para ejecutar y depurar el código que se usará para vericar la funcionalidad del cluster y tomar mediciones. (ver gura 6) Figura 2.1: Diagrama de procedimiento de implementación de la solución

11 Capítulo 3 Estado del Arte Contenidos 3.1 Arquitectura para el procesamiento masivo Hardware Software Métodos de procesamiento Procesamiento Paralelo Procesamiento distribuído Diferencias entre sistemas paralelos y distribuídos Tecnologías de bases de datos Datos estructurados Datos no estructurados Big Data Tecnologías para trabajar con Big Data MapReduce Proyectos Relacionados IBM c Smarter Planet Smarter Cities Figura 3.1: Mapa de la literatura

12 6 Capítulo 3. Estado del Arte A continuación se ponen en contexto las tecnologías involucradas en el desarrollo e implementación de soluciones las cuales tienen como objetivo el poner a disposición de los desarrolladores el poder combinado de muchas computadoras individuales trabajando juntas buscando un mismo resultado. Cada una de ellas juega un rol fundamental tanto en los principios teóricos que sirven como base de este trabajo como en las tendencias que se divisan en esta innovador enfoque en la implementación de clusters para el procesamiento de conjuntos masivos de datos no estructurados. 3.1 Arquitectura para el procesamiento masivo Uno de los enfoques que se le dá a las soluciones propuestas para el procesamiento de conjuntos masivos de datos no estructurados es el uso de clusters de sistemas los cuales pueden trabajar en conjunto aprovechando el poder de cómputo combinado de cada uno de los nodos miembros del cluster. Para comenzar a construir dichas soluciones se deben de tomar algunas medidas en cuanto a la conguración de hardware y software que será utilizado. A continuación se presentan dichas consideraciones enfocadas al problema que nos atañe Hardware La integración de múltiples equipos independientes en una sola entidad conocida como cluster es uno de las aproximaciones que se dá a la hora de construir soluciones para el procesamiento de conjuntos masivos de datos no estructurados. Al tenerse una arquitectura de tipo scale-out la cual puede crecer en poder de procesamiento al momento de requerirse y en respuesta a las necesidades de la aplicación y que puede hacerlo prácticamente de manera indenida ya que no está limitada a un sistema individual[bakshi, 2012] ciertas consideraciones y decisiones deben de tomarse referentes al tipo de hardware que se utilizará tanto para los servidores que tomarán el rol de nodo en el cluster así como del sistema operativo sobre el cual estará corriendo el software de Hadoop y los protocolos apropiados para la comunicación en red entre los nodos Detalles de los componentes de Hardware Al referirse especícamente del marco de trabajo estudiado en éste trabajo y que será abordado a detalle más adelante se debe mencionar que Hadoop es un marco de trabajo para ejecutar aplicaciones en clusters grandes (llegando a miles de nodos) conformados por nodos con hardware que se puede conseguir fácilmente [Apache, 2012]; en otras palabras, un cluster de Hadoop se puede formar con hardware sin características especiales y ésto es gracias a que Hadoop corre sobre Java c y las máquinas virtuales de Java c han sido escritas y adaptadas para una gran variedad de sistemas operativos y ambientes por lo que la capa de hardware sobre la cual están corriendo los programas se encuentra oculta para los desarrolladores a menos que éstos decidan acceder directamente a los servicios del sistema operativo (ésto por supuesto

13 3.1. Arquitectura para el procesamiento masivo 7 tiene como consecuencia que el programa se volverá dependiente de la plataforma sobre la cual fué escrito). De acuerdo con el equipo de soporte de Cloudera [Loddengaard, 2012] Hadoop y considerando los 4 posible tipos de nodos en un cluster de Hadoop (los cuales son descritos a detalle en la sección ), se tiene que para mantener un cluster balanceado las siguientes conguraciones se pueden tomar en cuenta: Para los datanodes/tasktrackers 4 discos de 1 TB en conguración JBOD [Rouse, 2005] 2 CPUs quad core de al menos GHz GB de RAM Ethernet gigabit Para los nodos con el rol de ( namenode/jobtracker) se el equipo de soporte de Cloudera Hadoop recomienda utilizar hardware que puede ser considerado superior al del resto de los nodos ya que la carga de trabajo que éste tipo de nodos debe soportar es mayor. Discos en conguración RAID de clase enterprise[rouse, 2007] 1 GB de RAM son por cada millon de bloques en el lesystem. 32 GB de RAM son sucientes para sostener 100 nodos con el rol de datanode. Es válido sin embargo construir un cluster de Hadoop utilizando hardware heterogéneo siempre y cuando éste sea capaz de ejecutar la máquina virtual de Java Oracle JDK 1.6 siendo mínima versión soportada la 1.6.0_8 [Cloudera, 2012a] Software Sistemas Operativos Al ser Hadoop un proyecto Open Source, es posible descargar los archivos fuente y compilarlos para se ejecutados prácticamente sobre cualquier plataforma basada en Unix sin embargo los paquetes pre-compilados y la documentación existente se han enfocado en unas cuantas plataformas de Linux las cuales son las más populares ya sea por su facilidad de uso ó por la estabilidad que proveé. La siguiente es una lista de los sistemas operativos soportados por la version 3 de Cloudera Hadoop [Cloudera, 2012b]: Red Hat Enterprise Linux 5 y CentOS 5 en sus versiones de 32 y 64 bits SUSE Linux Enterprise Server 11 Ubuntu y en sus versiones de 32 y 64 bits

14 8 Capítulo 3. Estado del Arte Aunque las plataformas de producción soportadas son sólo las mencionadas anteriormente, es posible encontrar instaladores de Hadoop para Windows y Mac OS X sin embargo cada distribución y versión de sistema operativo tiene su historial de estabilidad por lo que éste tambien es un factor a considerar cuando se está eligiendo la plataforma sobre la cual se instalará el cluster de Hadoop Protocolos que intervienen La interconección de los nodos que componen un cluster de Hadoop se dá mediante las tecnologías de redes existentes de Ethernet. Típicamente un cluster se compone Figura 3.2: Conguración típica de un cluster de Hadoop en dos Racks de nodos los cuales se encuentran relativamente cerca y en un datacenter dichos nodos se organizan en racks. Es una buena práctica que cada rack tenga un switch el cual sirve para interconectar todos los nodos contenidos en el y la comunicación entre un rack y otro se dá a través de un switch que sirve para centralizar todas las comunicaciones inter-rack. A nivel de sistema operativo la comunicación entre un nodo y otro se dá mediante el protocolo SSH, mientras que la comunicación propia de Hadoop se lleva a cabo usando protocolos propios del marco de trabajo. Todo ésto implementado sobre el protocolo de red TCP/IP Protocolo TCP/IP El protocolo TCP/IP es en realidad un compendio de muchos protocolos los cuales tienen como objetivo interconectar muchas redes en una red más grande y es por eso que se habla acerca de una red de redes. Dicho protocolo fue desarrollado por el departamento de la defensa de los Estados Unidos a nales de los 1970 y principios de 1980 y fue diseñado de tal manera que fuera robusto y capaz de auto-recuperarse ante la falla de cualquiera de los nodos que componen la red [Gilbert, 1995]. De todos los protocolos que forman parte la suite TCP/IP dos sobresalen por su importancia y son éstos los que le dan su nombre:

15 3.1. Arquitectura para el procesamiento masivo 9 IP (Internet Protocol) : Es el que permite mover los datos de un nodo a otro. En su versión IPv4, una secuencia de 4 octetos son usados para determinar el destino de los paquetes. TCP (Transfer Control Protocol) : Es responsable de asegurar que los paquetes se entreguen a su destino de manera correcta. Este protocolo implementa métodos de detección de error que permiten iniciar re-transmisiones en caso de que se detecte que un paquete no llegó a su destino hasta que se cumpla dicho objetivo. En su version 4, el protocolo TCP/IP tiene un espacio de direccionamiento de 32 bits; esto es que cada direccion asignada bajo éste protocolo es una cadena de 32 bits separada en 4 octetos que van del 0 al 255. Por ejemplo Al momento de su creación el protocolo en su version 4 fué más que suciente para proveer los servicios necesarios y considerando el tamaño de su cadena de direccionamiento un total de 2 32 sistemas pueden estar conectados al mismo tiempo en la red, sin embargo al aumentar el numero de dispositivos con capacidades de conexión y al acercarse al límite de direccionamientos se comenzaron a desarrollar alternativas para resolver el problema y un primer acercamiento se dió con la implementación de NAT (Network Address Translation) la cual permite ocultar una serie de direcciones IP privadas detrás de una única dirección pública, sin embargo más problemas se derivaron como resultado de ésta técnica al hacerse dicil poder acceder a un sistema en especíco detrás de una NAT. Con la introducción de la siguiente versión del protocolo IPv6 muchas de las limitaciones inherentes a su antecesor son superadas comenzando con el número teórico de sistemas conectados a la red el cual es gracias a que la cadena de direcciones tiene una longitud de 128 bits y lo cual permite que no solo los sistemas tradicionales sean considerados para ocupar una conexión si no también equipos móviles cómo teléfonos inteligentes y tables ó teléfonos IP. Dichas direcciones son expresadas en grupos de 16 bits escritos como cuatro dígitos hexadecimales y separados por dos puntos [Feyrer, 2001]. Por ejemplo fe70::1b0:c3ff:fda5:b9f4 Al momento de la realización de éste trabajo, la implementación de IPv6 sigue estando fuera del contexto de proyectos y de redes locales en las cuales IPv4 continúa siendo suciente para proveer de una dirección que permite alcanzar a un sistema en particular conectado a la red y que a su vez se ve beneciado por una de las características fundamentales de este protocolo de red : la capacidad de recuperarse en el caso de perder uno de los caminos para la transmisión de un paquete y la búsqueda de un nuevo camino para completar dicha transmisión [Gilbert, 1995] sin

16 10 Capítulo 3. Estado del Arte embargo los sistemas operativos que soportan Hadoop ya cuentan con soporte para IPv6 por lo que en un futuro será mas común observar direcciones IPv6 en los archivos de conguración de los mismos Protocolo Secure Shell (ssh) En un cluster compuesto por muchos nodos los cuales son sistemas independientes corriendo sus propios sistemas operativos y con recursos locales se requiere de mecanismos los cuales permitan cierto nivel de monitoreo del estado actual de cluster. Dichos mecanismos pueden ir desde lo más simple como lo es hacer pings periódicamente a cada una de las direcciones IP de los nodos para comprobar que los mismos continúan encendidos hasta sistemas más avanzados los cuales pueden ejecutar comandos directamente sobre cada uno de los nodos y colectar información relevante con mucho nivel de detalle del estado del sistema. En ambientes grandes de cientos o miles de nodos ésta tarea se encuentra automatizada y supervisada por uno o más nodos centrales los cuales requiren tener un mecanismo de acceso a cada uno de los nodos el cual le permita sin mayor dicultad la ejecución de comandos y la recolección de información. Una de las técnicas utilizadas para alcanzar dicho propósito es la utilización del protocolo SSH para la conexión inter-nodo. El protocolo SSH Secure Shell Protocol es un protocolo que permite el acceso remoto y otros servicios de red a través de una red insegura. Consiste de 3 componentes principales : El protocolo de la capa de transporte (SSH-TRANS) es el encargado de proveer la autenticación del servidor, condencialidad e integridad. Usualmente corre sobre el protocolo TCP/IP. El protocolo de autenticación de usuario (SSH-USERAUTH) se encarga de la autenticación de un sistema cliente con el servidor. Éste corre sobre la capa de transporte. El protocolo de conexión (SSH-CONNECT) multiplexa el túnel encripado en varios canales lógicos. Éste a su vez corre sobre el protocolo de autenticación. Para establecer una conexión segura entre un cliente y un servidor, éste último debe tener una llave de servidor o host key. Es posible que un servidor pueda tener múltiples llaves generadas con diferentes algoritmos. La llave es usada durante la etapa de intercambio de llaves para vericar que el cliente que está solicitando la conexión está hablando con el servidor correcto. Para poder lograr ésto, el cliente debe tener conocimiento previo de las llaves del servidor al cual desea conectarse [Ylonen, 2006]. La arquitectura basada en llaves permite la construcción de sistemas compuestos de muchos nodos individuales y habilita la intercomunicación segura entre ellos siempre y cuando todos los miembros del cluster conozcan las llaves de los demás miembros y así de ésta manera muchos otros servicios como la ejecución remota de comandos, la transferencia segura de archivos y la redirección de las salidas de servidores grácos como X11 son posibles.

17 3.2. Métodos de procesamiento 11 Servicio Demonio Puerto HDFS NameNode HDFS DataNode HDFS Secondary Namenode HDFS Checkpoint node MapReduce JobTracker MapReduce TaskTrackers Tabla 3.1: Puertos default de Hadoop Protocolos propios de Hadoop En un cluster de Hadoop hay que tener en cuenta que la comunicación entre los nodos se lleva a cabo sobre las conexiones de red exclusivamente tanto para realizar las operaciones de procesamiento de información como en las operaciones propias del sistema de archivos distribuidos HDFS. Los demonios de Hadoop abren puertos necesarios para sostener dichas comunicaciones y todos trabajan sobre el protocolo TCP. Sobre éste protocolo se exponen servicios tanto de comunicación interna de Hadoop (calendarización de trabajos de Hadoop, copia de bloques del sistema de archivos HDFS, etc..) como servicios de monitoreo a través del protocolo HTTP. La comunicación interna de los servicios de Hadoop los cuales están implementados en Java se lleva a cabo usando protocolos creados para dicho propósito. La mayor parte de la comunicación ocurre usando el protocolo Hadoop IPC InterProcess Protocol el cual requiere que el programador dena para cada clase que se desea que se comunique con otro proceso su propia rutina de serialización lo cual facilita el trabajo de búsqueda y resolución de defectos [Apache.org, 2009]. El protocolo HTTP es usado en la comunicación entre el secondarynamenode y el namenode así como con los tasktrackers enviando tareas de mapeado hacia los reducers. Finalmente para la transferencia de datos en HDFS se utiliza protocolo de sockets simple[zeyliger, 2009]. En la tabla 3.1 se muestran los puertos abiertos por los servicios principales de Hadoop. Todos los demonios de Hadoop exponen algo de información a través del protocolo HTTP. Los puntos arriba descritos son la base para la construcción de clusters de múltiples nodos para el procesamiento de conjuntos masivos de datos. Sobre dichos clusters se pueden implementar diversas estrategias para llevar a cabo el procesamiento como se describe a continuación. 3.2 Métodos de procesamiento Procesamiento Paralelo En los modelos de programación tradicionales un programa se compone de instrucciones de entrada/salida, modicadores de ujo de ejecución y operadores los cuales

18 12 Capítulo 3. Estado del Arte tienen diversos efectos sobre los tipos de datos que el lenguaje de programación que se seleccionó soporta. Los problemas que se pretenden resolver con un programa secuencial deben separarse en una serie discreta de instrucciones. Un factor común de este tipo de programas es que se tiene un sólo camino o serie de pasos los cuales se ejecutan uno después de otro y no se procede a la siguiente instrucción a menos que la anterior se complete por lo que se habla de computación secuencial.por otro lado, la computación en paralelo se describe como "la capacidad de utilizar multiples recursos computacionales de manera simultánea para la resolución de un problema"[barney, 2012]. En este modelo de programación se tiene la capacidad de ejecutar las instrucciones en múltiples CPU's. Dichas instrucciones resultan de la separación del problema en partes discretas las cuales tienen la característica de ejecutarse de forma concurrente. Figura 3.3: Flujos de ejecución En el año de 1958 se sentaron las bases para todo el trabajo futuro alrededor de la computación en paralelo con una discusión que se llevó a cabo por los investigadores de IBM c John Cocke y Daniel Slotnick acerca del uso del paralelismo en cálculos numéricos[wilson, 1994] y las investigaciones al respecto continuaron así como las implementaciones de sistemas basadas en este principio, tal y como el Multics, el cual lo desarrollaron los laboratorios Honeywell[Wilson, 1994] en 1969 y el cual es un sistema multiprocesador simétrico capaz de correr 8 procesos en paralelo. De manera similar la teoría acerca de la computación concurrente continuó gracias al trabajo de personas como Edsger Dijkstra cuyas contribuciones a la computación paralela sigue tomandose como la base necesaria para resolver la concurrencia y manejar las zonas críticas [Pacheco, 2011] de los programas diseñados para ser ejecutados en paralelo. En la actualidad aún a pesar de que los programas no se hacen de manera explícita con un modelo de ejecución en paralelo, existen implementaciones de bajo nivel agregadas a la construcción de los microprocesadores, las cuales le permiten reacomodar las instrucciones que van a ser ejecutadas de tal manera que se ordenan en grupos que se ejecutan en paralelo sin alterar el resultado nal del programa.

19 3.2. Métodos de procesamiento 13 Sistemas en tiempo real los cuales requieren reaccionar ante eventos del mundo físico que ocurren sin previo aviso y a velocidades altas y al mismo tiempo que otra variable que esté siendo monitoreada como los sensores que controlan la activación de las bolsas de aire de los automoviles se implementan con modelos de programación los cuales permiten procesar todas esas señales al mismo tiempo y reaccionar de forma adecuada cuando es necesario hacerlo. Al alcanzar el límite de miniaturización de los componentes de los microprocesadores debido a los efectos de la discipación de calor cuando se ronda la escala de 15-20nm la solución que presentan los fabricantes de semiconductores es cada vez una mayor cantidad de núcleos de procesamiento en un sólo chip. De esta manera aunque un procesador por sí mismo no es más rápido que uno anterior, éste procesa más instrucciones al mismo tiempo por lo que el efecto aparente es una mayor velocidad. Ésta tecnología está presente con regularidad en los nuevos dispositivos, lo que facilita el orecimiento de técnicas y lenguajes de programación paralela tales como CUDA de nvidia c al poner a disposición dichas capacidades a cada vez más personas. La técnica de ejecutar varias tareas al mismo tiempo permite acelerar la ejecución global de un programa, sin embargo el alcance de dicha técnica se ve limitado a las capacidades del sistema en el cual se lleva a cabo la parelelización por lo que para extender sus capacidades es necesario implementarlo en muchos sistemas individuales, cada uno con sus propios recursos pero de manera sincronizada y coordinada. La siguiente sección trata acerca de esta adición a la estrategia global presentada en este trabajo Procesamiento distribuído En un ambiente de computación distribuida, sistemas independientes se presentan al usuario como si fueran una sola computadora y se pone a su disposicion todos los recursos que son compartidos desde dichos sistemas. Los sistemas distribuidos surgieron como una forma de optimizar el poder de procesamiento de las computadoras individuales que comenzaron a ser más comunes y más poderosas a partir de la decada de los 80 cuando se volvió más barato tener dos computadoras que combinadas tenian una mejor relación precio/desempeño que un procesador el doble de rápido. Dicho de otra manera, una computadora personal no es rival para un Mainframe en terminos de poder de procesamiento, sin embargo en la actualidad se construyen clusters de decenas de miles de computadoras personales que combinadas logran velocidades de procesamiento medidas en millones de instrucciones por segundo que son físicamente inalcanzables por cualquier Mainframe. Existe una línea delgada entre la denición de un sistema distribuido y un sistema paralelo pero a grandes rasgos se dice que un sistema distribuido se forma cuando múltiples actores independientes interconectados por una red trabajan en conjunto [Tanenbaum and van Steen, 2002], mientras que en un sistema en paralelo se presentan procesos que se ejecutan de manera concurrente para la resolución de un problema[schreiner, 2006]. El desarrollo e implementación de dicho tipo de sis-

20 14 Capítulo 3. Estado del Arte temas está difundido en el ambiente tecnológico actual y se encuentran proyectos corriendo en cientos de miles de computadoras alrededor del mundo como es el caso de BOINC (The Berkeley Open Ingrastructure for Network Computing) el cual permite que usuarios alrededor del mundo donen de forma voluntaria tiempo y recursos de procesamiento de sus computadoras para realizar cálculos que se utilizan para diversos tipos de proyectos construidos sobre ésta plataforma. Dichos proyectos son variados en su área de aplicacion y van desde matemáticas, criptografía, salud, clima, astronomía y astrofísica pero todos con un factor en común: la necesidad de tiempo y poder de procesamiento es elevada y realizar los cálculos que se necesitan para obtener información útil de los datos generados en una sola computadora o incluso en un servidor grande no es una opción viable porque el tiempo necesario se eleva al orden de años; la solución que se presenta con el modelo de cómputo distribuido se basa en el principio de "divide y vencerás". Algunos de estos proyectos tienen fuentes de datos que los generan a un ritmo alto sólo quedan almacenados en espera de su turno para ser procesados. Dichos paquetes de datos se separan en paquetes más pequeños que se transmiten por una red con facilidad cuyo destino son las computadoras personales que se registran para formar parte de dicho proyecto. En las computadoras corre un pequeño programa que funciona como cliente y que tiene la conguración necesaria para enviar y recibir paquetes hacia y desde los servidores centrales del proyecto. Una vez que un cliente recibe un nuevo paquete, éste se encarga de procesarlo y de regresarlo al servidor una vez que está listo. El servidor como paso nal se encarga de juntar todos los resultados enviados desde todos sus clientes y es así como un paquete grande se procesa en poco tiempo. Todo lo anterior es posible gracias al desarrollo de redes y protocolos de comunicaciones cada vez más rápidas y conables así como a los avances en algoritmos que hacen posible compartir recursos que están sica y geográcamente separados pero que trabajan juntos en la búsqueda de un resultado. 3.3 Diferencias entre sistemas paralelos y distribuídos De acuerdo con Riesen [Riesen et al., 1998] se pueden denotar las diferencias entre sistemas paralelos y distribuidos si se clasican y caracterizan ciertos aspectos de los mismos: Recursos : En un sistema distribuido compuesto de estaciones de trabajo independientes se puede dar el caso en que algunas de ellas se encuentren en estado inactivo y por lo tanto sus recursos no se están utilizando, mientras que en un sistema paralelo todos los recursos del mismo son usados para la resolución de un problema. Mientras que en un sistema distribuido los recursos pueden ser compartidos con otras aplicaciones, en un sistema paralelo no existen los recursos sub-utilizados. Administración de recursos : En los sistemas distribuidos la asignación y administración de procesos se encuentra generalmente oculta al usuario nal,

BIG DATA. Jorge Mercado. Software Quality Engineer

BIG DATA. Jorge Mercado. Software Quality Engineer BIG DATA Jorge Mercado Software Quality Engineer Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A Big Data - Introducción Que es Big Data? Big data es el termino

Más detalles

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE)

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data y Supercómputo Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data 2 Hasta qué cantidad de datos podemos procesar en nuestra

Más detalles

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928 Alessandro Chacón 05-38019 Ernesto Level 05-38402 Ricardo Santana 05-38928 CONTENIDO Universo Digital Hadoop HDFS: Hadoop Distributed File System MapReduce UNIVERSO DIGITAL 161 EB 2006 Fuente: International

Más detalles

Informática y Programación Escuela de Ingenierías Industriales y Civiles Grado en Ingeniería en Ingeniería Química Curso 2010/2011

Informática y Programación Escuela de Ingenierías Industriales y Civiles Grado en Ingeniería en Ingeniería Química Curso 2010/2011 Módulo 1. Fundamentos de Computadores Informática y Programación Escuela de Ingenierías Industriales y Civiles Grado en Ingeniería en Ingeniería Química Curso 2010/2011 1 CONTENIDO Tema 1. Introducción

Más detalles

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López APACHE HADOOP Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López Objetivos 1. Qué es Apache Hadoop? 2. Funcionalidad 2.1. Map/Reduce 2.2. HDFS 3. Casos prácticos 4. Hadoop

Más detalles

CURSO: DESARROLLADOR PARA APACHE HADOOP

CURSO: DESARROLLADOR PARA APACHE HADOOP CURSO: DESARROLLADOR PARA APACHE HADOOP CAPÍTULO 3: HADOOP CONCEPTOS BÁSICOS www.formacionhadoop.com Índice 1 Introducción a Hadoop 1.1 Proyecto Hadoop 1.2 Conceptos de Hadoop 2 Cluster Hadoop 2.1 Demonios

Más detalles

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO PRESENTACIÓN ANTONIO GONZÁLEZ CASTRO IT SECURITY DIRECTOR EN PRAGSIS TECHNOLOGIES agcastro@pragsis.com antoniogonzalezcastro.es @agonzaca linkedin.com/in/agonzaca

Más detalles

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Francisco Magaz Villaverde Consultor: Víctor Carceler Hontoria Junio 2012 Contenido Introducción Qué es Cloud Compu5ng?

Más detalles

ViPoC - una alternativa virtual para el desarrollo de aplicaciones paralelas.

ViPoC - una alternativa virtual para el desarrollo de aplicaciones paralelas. ViPoC - una alternativa virtual para el desarrollo de aplicaciones paralelas. Omar Ochoa Rodríguez, Alberto Ochoa Rodríguez Abstract El presente trabajo reporta el diseño y construcción de un cluster portátil

Más detalles

Juan de Dios Murillo Morera e-mail: jmurillo@una.ac.cr Santiago Caamaño Polini e-mail: scaamano@costarricense.cr INTRODUCCIÓN

Juan de Dios Murillo Morera e-mail: jmurillo@una.ac.cr Santiago Caamaño Polini e-mail: scaamano@costarricense.cr INTRODUCCIÓN UNICIENCIA 24 pp. 83-89 2010 IMPLEMENTACIÓN DE UN SERVIDOR FTP UTILIZANDO EL MODELO CLIENTE/SERVIDOR MEDIANTE EL USO DE SOCKETS EN LENGUAJE C UNIX CON EL FIN DE MEJORAR LOS TIEMPOS DE RESPUESTA EN LA RED

Más detalles

Especificación de la secuencia de mensajes que se han de intercambiar. Especificación del formato de los datos en los mensajes.

Especificación de la secuencia de mensajes que se han de intercambiar. Especificación del formato de los datos en los mensajes. SISTEMAS DISTRIBUIDOS DE REDES 2.- MODELOS ORIENTADOS A OBJETOS DISTRIBUIDOS 2.1. Tecnologías de sistemas distribuidos Para la implementación de sistemas distribuidos se requiere de tener bien identificados

Más detalles

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql The H Hour: Hadoop The awakening of the BigData Antonio Soto SolidQ COO asoto@solidq.com @antoniosql Tendencias de la Industria El nuevo rol del operador El operador de ayer Sigue el proceso basado en

Más detalles

La Arquitectura de las Máquinas Virtuales.

La Arquitectura de las Máquinas Virtuales. La Arquitectura de las Máquinas Virtuales. La virtualización se ha convertido en una importante herramienta en el diseño de sistemas de computación, las máquinas virtuales (VMs) son usadas en varias subdiciplinas,

Más detalles

Solución empresarial Hadoop de EMC. NAS de escalamiento horizontal Isilon y Greenplum HD

Solución empresarial Hadoop de EMC. NAS de escalamiento horizontal Isilon y Greenplum HD Informe técnico Solución empresarial Hadoop de EMC NAS de escalamiento horizontal Isilon y Greenplum HD Por Julie Lockner, analista ejecutivo, y Terri McClure, analista ejecutivo Febrero de 2012 Este Informe

Más detalles

Presentación. 29/06/2005 Monografía de Adscripción 1

Presentación. 29/06/2005 Monografía de Adscripción 1 Presentación Alumno: Uribe, Valeria Emilce Profesor Director: Mgter. David Luis La Red Martínez. Asignatura: Diseño y Administración de Datos. Corrientes 2005. 29/06/2005 Monografía de Adscripción 1 MONOGRAFIA

Más detalles

TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIÓN PROFESOR: MSC. P. Norma Maya Pérez SISTEMAS OPERATIVOS

TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIÓN PROFESOR: MSC. P. Norma Maya Pérez SISTEMAS OPERATIVOS TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIÓN PROFESOR: MSC. P. Norma Maya Pérez SISTEMAS OPERATIVOS I. Fundamentos del sistema operativo. OBJETIVO: El alumno seleccionará un sistema operativo de acuerdo

Más detalles

Conectores Pentaho Big Data Community VS Enterprise

Conectores Pentaho Big Data Community VS Enterprise Conectores Pentaho Big Data Community VS Enterprise Agosto 2014 Stratebi Business Solutions www.stratebi.com info@stratebi.com Índice 1. Resumen... 3 2. Introducción... 4 3. Objetivo... 4 4. Pentaho Community

Más detalles

Big data A través de una implementación

Big data A través de una implementación Big data A través de una implementación Lic. Diego Krauthamer Profesor Adjunto Interino del Área Base de Datos Universidad Abierta Interamericana Facultad de Tecnología Informática Buenos Aires. Argentina

Más detalles

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK. www.formacionhadoop.com

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK. www.formacionhadoop.com CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK www.formacionhadoop.com Índice 1 Qué es Big Data? 2 Problemas con los sistemas tradicionales 3 Qué es Spark? 3.1 Procesamiento de datos distribuido

Más detalles

CLUSTER FING: ARQUITECTURA Y APLICACIONES

CLUSTER FING: ARQUITECTURA Y APLICACIONES CLUSTER FING: ARQUITECTURA Y APLICACIONES SERGIO NESMACHNOW Centro de Cálculo, Instituto de Computación FACULTAD DE INGENIERÍA, UNIVERSIDAD DE LA REPÚBLICA, URUGUAY CONTENIDO Introducción Clusters Cluster

Más detalles

BASES DE DATOS. 1.1 Funciones de un DBMS

BASES DE DATOS. 1.1 Funciones de un DBMS BASES DE DATOS Un DBMS, son programas denominados Sistemas Gestores de Base de Datos, abreviado SGBD, en inglés Data Base Management System (DBMS) que permiten almacenar y posteriormente acceder a los

Más detalles

Facultad de Ingeniería ISSN: 0121-1129 revista.ingenieria@uptc.edu.co. Universidad Pedagógica y Tecnológica de Colombia. Colombia

Facultad de Ingeniería ISSN: 0121-1129 revista.ingenieria@uptc.edu.co. Universidad Pedagógica y Tecnológica de Colombia. Colombia Facultad de Ingeniería ISSN: 0121-1129 revista.ingenieria@uptc.edu.co Universidad Pedagógica y Tecnológica de Colombia Colombia Amézquita-Mesa, Diego Germán; Amézquita-Becerra, Germán; Galindo-Parra, Omaira

Más detalles

TIPOS DE SISTEMAS OPERATIVOS

TIPOS DE SISTEMAS OPERATIVOS TIPOS DE SISTEMAS OPERATIVOS En esta sección se describirán las características que clasifican a los sistemas operativos, básicamente se cubrirán tres clasificaciones: sistemas operativos por su estructura

Más detalles

Contenidos. Sistemas operativos Tema 3: Estructura del sistema operativo. Componentes típicos de un SO. Gestión de procesos.

Contenidos. Sistemas operativos Tema 3: Estructura del sistema operativo. Componentes típicos de un SO. Gestión de procesos. Contenidos Sistemas operativos Tema 3: Estructura del sistema operativo Componentes típicos del SO Servicios del SO Llamadas al sistema Programas del sistema El núcleo o kernel Modelos de diseño del SO

Más detalles

:Arquitecturas Paralela basada en clusters.

:Arquitecturas Paralela basada en clusters. Computación de altas prestaciones: Arquitecturas basadas en clusters Sesión n 1 :Arquitecturas Paralela basada en clusters. Jose Luis Bosque 1 Introducción Computación de altas prestaciones: resolver problemas

Más detalles

ADMINISTRACIÓN DE LOS ACTIVOS DE HARDWARE Y SOFTWARE

ADMINISTRACIÓN DE LOS ACTIVOS DE HARDWARE Y SOFTWARE 5 TEMA ADMINISTRACIÓN DE LOS ACTIVOS DE HARDWARE Y SOFTWARE 5.1 OBJETIVOS Qué capacidad de procesamiento y de almacenamiento necesita nuestra organización para realizar sus transacciones de información

Más detalles

Unidad 1: Conceptos generales de Sistemas Operativos.

Unidad 1: Conceptos generales de Sistemas Operativos. Unidad 1: Conceptos generales de Sistemas Operativos. Tema 3: Estructura del sistema operativo. 3.1 Componentes del sistema. 3.2 Servicios del sistema operativo. 3.3 Llamadas al sistema. 3.4 Programas

Más detalles

O3 Requerimientos de Software y Hardware

O3 Requerimientos de Software y Hardware IdeaSoft Uruguay S.R.L. Phone: +598 (2) 710 4372 21 de Setiembre 2570 Fax: +598 (2) 710 4965 Montevideo http://www.ideasoft.com.uy Uruguay O3 Requerimientos de Software y Hardware Uso de memoria, espacio

Más detalles

Ingeniero en Informática

Ingeniero en Informática UNIVERSIDAD DE ALMERÍA Ingeniero en Informática CLÚSTER DE ALTO RENDIMIENTO EN UN CLOUD: EJEMPLO DE APLICACIÓN EN CRIPTOANÁLISIS DE FUNCIONES HASH Autor Directores ÍNDICE 1. Introducción 2. Elastic Cluster

Más detalles

Computación Tercer Año

Computación Tercer Año Colegio Bosque Del Plata Computación Tercer Año UNIDAD 3 Sistemas Operativos E-mail: garcia.fernando.j@gmail.com Profesor: Fernando J. Garcia Ingeniero en Sistemas de Información Sistemas Operativos Generaciones

Más detalles

Braulio Ricardo Alvarez Gonzaga INTERNET INFORMATION SERVER (IIS) WINDOWS SERVER 2003

Braulio Ricardo Alvarez Gonzaga INTERNET INFORMATION SERVER (IIS) WINDOWS SERVER 2003 INTERNET INFORMATION SERVER (IIS) WINDOWS SERVER 2003 1 INTRODUCCIÓN Cuando nosotros ingresamos a una página web, en busca de información no somos conscientes de los muchos procesos que se realizan entre

Más detalles

GLOSARIO DE TÉRMINOS CUALIFICACIÓN PROFESIONAL: OPERACIÓN DE REDES DEPARTAMENTALES. Código: IFC299_2 NIVEL: 2

GLOSARIO DE TÉRMINOS CUALIFICACIÓN PROFESIONAL: OPERACIÓN DE REDES DEPARTAMENTALES. Código: IFC299_2 NIVEL: 2 MINISTERIO DE EDUCACIÓN, CULTURA Y DEPORTE SECRETARÍA DE ESTADO DE EDUCACIÓN, FORMACIÓN PROFESIONAL Y UNIVERSIDADES DIRECCIÓN GENERAL DE FORMACIÓN PROFESIONAL INSTITUTO NACIONAL DE LAS CUALIFICACIONES

Más detalles

CURSOS DE VERANO 2014

CURSOS DE VERANO 2014 CURSOS DE VERANO 2014 CLOUD COMPUTING: LA INFORMÁTICA COMO SERVICIO EN INTERNET LA PLATAFORMA GOOGLE CLOUD PLATFORM. GOOGLE APP ENGINE Pedro A. Castillo Valdivieso Universidad de Granada http://bit.ly/unia2014

Más detalles

El tema de esta presentación es los conceptos básicos relacionados con Sistemas Operativos.

El tema de esta presentación es los conceptos básicos relacionados con Sistemas Operativos. 1 El tema de esta presentación es los conceptos básicos relacionados con Sistemas Operativos. 2 Qué es un sistema operativo Un sistema operativo es un programa que tiene encomendadas una serie de funciones

Más detalles

Diferencias entre Windows 2003 Server con Windows 2008 Server

Diferencias entre Windows 2003 Server con Windows 2008 Server Diferencias entre Windows 2003 Server con Windows 2008 Server WINDOWS SERVER 2003 Windows Server 2003 es un sistema operativo de propósitos múltiples capaz de manejar una gran gama de funsiones de servidor,

Más detalles

Tema 1. Conceptos básicos

Tema 1. Conceptos básicos Conceptos básicos Sistema de Gestión de Bases de Datos, SGBD (DBMS, Database Management System): software diseñado específicamente para el mantenimiento y la explotación de grandes conjuntos de datos 1

Más detalles

Análisis de desempeño y modelo de escalabilidad para SGP

Análisis de desempeño y modelo de escalabilidad para SGP Análisis de desempeño y modelo de escalabilidad para SGP Este documento es producto de la experiencia de Analítica en pruebas de stress sobre el software SGP. Estas pruebas se realizaron sobre un proceso

Más detalles

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica Fundamentos Título de de Big la Data presentación utilizando MATLAB Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica 1 Agenda Qué es Big Data? Buenas prácticas en el manejo de memoria.

Más detalles

Archivo de programa Es el que inicia una aplicación o un programa y tiene una extensión EXE, PIF, COM, BAT. Véase también Programa.

Archivo de programa Es el que inicia una aplicación o un programa y tiene una extensión EXE, PIF, COM, BAT. Véase también Programa. Glosario de términos Ancho de Banda El ancho de banda es la máxima cantidad de datos que pueden pasar por un camino de comunicación en un momento dado, normalmente medido en segundos. Cuanto mayor sea

Más detalles

Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011

Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011 Clusters Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011 Introducción Aplicaciones que requieren: Grandes capacidades de cómputo: Física de partículas, aerodinámica, genómica, etc. Tradicionalmente

Más detalles

Pruebas y Resultados PRUEBAS Y RESULTADOS AGNI GERMÁN ANDRACA GUTIERREZ

Pruebas y Resultados PRUEBAS Y RESULTADOS AGNI GERMÁN ANDRACA GUTIERREZ PRUEBAS Y RESULTADOS 57 58 Introducción. De la mano la modernización tecnológica que permitiera la agilización y simplificación de la administración de los recursos con los que actualmente se contaban

Más detalles

MÁSTER ONLINE EN ADMINISTRACIÓN LINUX

MÁSTER ONLINE EN ADMINISTRACIÓN LINUX MÁSTER ONLINE EN ADMINISTRACIÓN LINUX Módulo 1 Hardware & Arquitectura de sistemas - 20 horas Este módulo permite conocer y configurar los elementos básicos del hardware del sistema, como también otros

Más detalles

XII Encuentro Danysoft en Microsoft Abril 2015. Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código

XII Encuentro Danysoft en Microsoft Abril 2015. Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código Ana María Bisbé York Servicios Profesionales sp@danysoft.com 916 638683 www.danysoft.com Abril 2015 Sala 1 SQL Server

Más detalles

Programación en Capas.

Programación en Capas. Programación en Capas. Ricardo J. Vargas Del Valle Universidad de Costa Rica, Ciencias de Computación e Informática, San José, Costa Rica, 506 ricvargas@gmail.com Juan P. Maltés Granados Universidad de

Más detalles

TEMA 3: INTRODUCCIÓN A LOS SISTEMAS OPERATIVOS.

TEMA 3: INTRODUCCIÓN A LOS SISTEMAS OPERATIVOS. TEMA 3: INTRODUCCIÓN A LOS SISTEMAS OPERATIVOS. 1. DEFINICIÓN DE SISTEMA OPERATIVO.... 2 2. FUNCIONES DE LOS SISTEMAS OPERATIVOS.... 2 3. CLASIFICACIÓN DE LOS SISTEMAS OPERATIVOS.... 4 4. MODOS DE EXPLOTACIÓN

Más detalles

Laboratorio 4: Asignación de Direcciones IPv4.

Laboratorio 4: Asignación de Direcciones IPv4. Redes de Datos Laboratorio 4 - Instructivo. Laboratorio 4: Asignación de Direcciones IPv4. Instrucciones generales Para poder realizar exitosamente la práctica, deberá cumplir las siguientes etapas: Previo

Más detalles

2.1 Compuertas para Bases de Datos

2.1 Compuertas para Bases de Datos 1 Colección de Tesis Digitales Universidad de las Américas Puebla Romero Martínez, Modesto Uno de los aspectos mas importantes en un sistema multibase de datos es la forma en como llevar a cabo la comunicación

Más detalles

SERVICIOS: EXPLORACIONES EN SOA y WEB.

SERVICIOS: EXPLORACIONES EN SOA y WEB. SERVICIOS: EXPLORACIONES EN SOA y WEB. López, G. 1 ; Jeder, I 1.; Echeverría, A 1.; Grossi, M.D. 2 ; Servetto, A 2.; Fierro, P. (PhD.) 3 1. Laboratorio de Informática de Gestión - Facultad de Ingeniería.

Más detalles

Maquinas Virtuales. Prof.: Huerta Molina Samuel. Cuellar Sánchez Jesús. Pinto López Luis Tonatiuh. Hecho por Jesús y Luis. 1

Maquinas Virtuales. Prof.: Huerta Molina Samuel. Cuellar Sánchez Jesús. Pinto López Luis Tonatiuh. Hecho por Jesús y Luis. 1 ESTRUCTURA Y PROGRAMACIÓN DE COMPUTADORAS. Grupo: 08. Prof.: Huerta Molina Samuel. Maquinas Virtuales Cuellar Sánchez Jesús. Pinto López Luis Tonatiuh. Hecho por Jesús y Luis. 1 Conceptos Básicos Sobre

Más detalles

Anuncio de software ZP10-0030 de IBM Europe, Middle East and Africa, con fecha 16 de febrero de 2010

Anuncio de software ZP10-0030 de IBM Europe, Middle East and Africa, con fecha 16 de febrero de 2010 con fecha 16 de febrero de 2010 Los productos IBM Tivoli Storage Manager V6.2 cuentan con funciones adicionales de reducción de datos y compatibilidad mejorada con entornos virtualizados Índice 1 Visión

Más detalles

Las computadoras analógicas no computan directamente, sino que perciben constantemente valores, señales o magnitudes físicas variadas.

Las computadoras analógicas no computan directamente, sino que perciben constantemente valores, señales o magnitudes físicas variadas. Clasificación de las computadoras Análoga: Las computadoras analógicas no computan directamente, sino que perciben constantemente valores, señales o magnitudes físicas variadas. Características de las

Más detalles

EMC Forum 2014. EMC ViPR y ECS: Una vuelta por los servicios definidos por software

EMC Forum 2014. EMC ViPR y ECS: Una vuelta por los servicios definidos por software EMC Forum 2014 EMC ViPR y ECS: Una vuelta por los servicios definidos por software 1 Programa de la sesión Dinámica del mercado Descripción general de EMC ViPR Novedades en ViPR Controller Novedades en

Más detalles

UNIVERSIDAD DE LOS ANDES NÚCLEO UNIVERSITARIO RAFAEL RANGEL

UNIVERSIDAD DE LOS ANDES NÚCLEO UNIVERSITARIO RAFAEL RANGEL UNIVERSIDAD DE LOS ANDES NÚCLEO UNIVERSITARIO RAFAEL RANGEL CARRERAS: Comunicación Social - Contaduría Publica Administración -Educación MATERIA: Int. a la Computación - Computación I-Introducción a la

Más detalles

Desarrollo de una Aplicación Móvil para Revisar

Desarrollo de una Aplicación Móvil para Revisar Desarrollo de una Aplicación Móvil para Revisar Horarios de Atención de Tutores de la UNAD Development of a Movil Application for Check Over Office Hours of Tutors of the Unad Correa Rodríguez Arellys

Más detalles

GLOSARIO DE TÉRMINOS

GLOSARIO DE TÉRMINOS MINISTERIO DE EDUCACIÓN, CULTURA Y DEPORTE SECRETARÍA DE ESTADO DE EDUCACIÓN, FORMACIÓN PROFESIONAL Y UNIVERSIDADES DIRECCIÓN GENERAL DE FORMACIÓN PROFESIONAL INSTITUTO NACIONAL DE LAS CUALIFICACIONES

Más detalles

HA Clusters. Usualmente utilizan una red privada donde constantemente se monitorea el estatus de cada nodo, a esto se lo conoce como heartbeat.

HA Clusters. Usualmente utilizan una red privada donde constantemente se monitorea el estatus de cada nodo, a esto se lo conoce como heartbeat. Qué es un Clúster? Definición: Un conjunto de cosas similares que ocurren juntas http://www.merriam-webster.com/dictionary/cluster Un cluster de computadores es un conjunto de computadoras interconectadas

Más detalles

INDICE. Prefacio Parte 1: sistemas operativos tradicionales

INDICE. Prefacio Parte 1: sistemas operativos tradicionales INDICE Prefacio Parte 1: sistemas operativos tradicionales 1 1 Introducción 1.1 Qué es un sistema operativo? 1.1.1 El sistema operativo como una maquina extendida 3 1.1.2 El sistema operativo como controlador

Más detalles

IDS-Virtualiza. IDS-Virtualiza. es la solución que ofrece IDSénia para la optimización de sus servidores y estaciones.

IDS-Virtualiza. IDS-Virtualiza. es la solución que ofrece IDSénia para la optimización de sus servidores y estaciones. IDS-Virtualiza es la solución que ofrece IDSénia para la optimización de sus servidores y estaciones. Qué es la virtualización? La virtualización es una tecnología probada de software que está cambiando

Más detalles

Módulo Profesional 01: Bases de datos (código: 0484).

Módulo Profesional 01: Bases de datos (código: 0484). Módulo Profesional 01: Bases de datos (código: 0484). Actividades de enseñanza-aprendizaje que permiten alcanzar los objetivos del módulo. Interpretar diseños lógicos de bases de datos. Realizar el diseño

Más detalles

Análisis de sentimientos de tweets.

Análisis de sentimientos de tweets. Análisis de sentimientos de tweets. JIT-CITA 2013 Resumen Un sensor de sentimientos de tweets para identificar los mensajes positivos, negativos y neutros sobre cualquier trend que se tome sobre esta red

Más detalles

CLUSTERS. Antonio Antiñolo Navas ESI-UCLM. Antonio.Antinolo@uclm.es. Profesor: Serafín Benito Santos. Arquitectura e Ingeniería de Computadores

CLUSTERS. Antonio Antiñolo Navas ESI-UCLM. Antonio.Antinolo@uclm.es. Profesor: Serafín Benito Santos. Arquitectura e Ingeniería de Computadores CLUSTERS Antonio Antiñolo Navas Antonio.Antinolo@uclm.es 1 Arquitectura e Ingeniería de Computadores Profesor: Serafín Benito Santos ESI-UCLM Índice 1. Introducción. 2. Clasificación. 3. Ventajas y Desventajas.

Más detalles

REDES DE COMPUTADORES I INFORME ESCRITORIO REMOTO

REDES DE COMPUTADORES I INFORME ESCRITORIO REMOTO REDES DE COMPUTADORES I INFORME ESCRITORIO REMOTO Nombres: Diego Carvajal R. Sebastian Valdes M. Ayudante: Evandry Ramos Profesor: Agustín J. González Fecha: 6 / 09 / 2013 1. Resumen: Este informe, se

Más detalles

Global File System (GFS)...

Global File System (GFS)... Global File System (GFS)... Diferente a los sistemas de ficheros en red que hemos visto, ya que permite que todos los nodos tengan acceso concurrente a los bloques de almacenamiento compartido (a través

Más detalles

Hadoop. Cómo vender un cluster Hadoop?

Hadoop. Cómo vender un cluster Hadoop? Hadoop Cómo vender un cluster Hadoop? ÍNDICE Problema Big Data Qué es Hadoop? Descripción HDSF Map Reduce Componentes de Hadoop Hardware Software 3 EL PROBLEMA BIG DATA ANTES Los datos los generaban las

Más detalles

Se espera que resurjan las pésimas ventas de periféricos. Y por último encontramos al verdadero beneficiado, el

Se espera que resurjan las pésimas ventas de periféricos. Y por último encontramos al verdadero beneficiado, el Windows XP Professional proporciona herramientas de productividad avanzadas que su organización necesita y le ofrece el poder de administrar, implementar y soportar su ambiente de computación de una manera

Más detalles

Sistemas Operativos de Red

Sistemas Operativos de Red Sistemas Operativos de Red Como ya se sabe las computadoras están compuestas físicamente por diversos componentes que les permiten interactuar mas fácilmente con sus operarios y hasta comunicarse con otras

Más detalles

Bases de datos: Sistemas de bases de datos:

Bases de datos: Sistemas de bases de datos: Bases de datos: Sistemas de bases de datos: Un sistema de bases de datos es básicamente un sistema para archivar en computador, es decir, es un sistema computarizado cuyo propósito general es mantener

Más detalles

Sistemas de Archivos Distribuidos. Daniel Leones Andrea Salcedo

Sistemas de Archivos Distribuidos. Daniel Leones Andrea Salcedo Sistemas de Archivos Distribuidos Daniel Leones Andrea Salcedo Qué es un Sistema de Archivos Distribuido? Un sistema de archivos distribuido clásico es una aplicación cliente/servidor que permite a los

Más detalles

INDICE Prologo Capitulo 0. Guía del lector Primera parte: antecedentes Capitulo 1. Introducción a los computadores

INDICE Prologo Capitulo 0. Guía del lector Primera parte: antecedentes Capitulo 1. Introducción a los computadores INDICE Prologo XVII Capitulo 0. Guía del lector 1 0.1. organización del libro 2 0.2. orden de presentación de los temas 3 0.3. recursos en Internet y en la Web 4 Primera parte: antecedentes 7 Capitulo

Más detalles

CL_50466 Windows Azure Solutions with Microsoft Visual Studio 2010

CL_50466 Windows Azure Solutions with Microsoft Visual Studio 2010 Windows Azure Solutions with Microsoft Visual Studio 2010 www.ked.com.mx Av. Revolución No. 374 Col. San Pedro de los Pinos, C.P. 03800, México, D.F. Tel/Fax: 52785560 Introducción Este curso es una introducción

Más detalles

UNIVERSIDAD NACIONAL DE INGENIERÍA

UNIVERSIDAD NACIONAL DE INGENIERÍA UNIVERSIDAD NACIONAL DE INGENIERÍA Facultad de Ingeniería Industrial y de Sistemas Escuela Profesional de Ingeniería de Sistemas SÍLABO CURSO: SISTEMAS OPERATIVOS I. INFORMACIÓN GENERAL CODIGO : ST-324

Más detalles

UNIVERSIDAD ALBERT EINSTEIN FACULTAD DE INGENIERIA

UNIVERSIDAD ALBERT EINSTEIN FACULTAD DE INGENIERIA UNIVERSIDAD ALBERT EINSTEIN FACULTAD DE INGENIERIA Estudio de las herramientas TOAD y DBArtisan para la administración e integración de bases de datos relacionales. PREVIA OPCION AL TÍTULO DE: INGENIERO

Más detalles

Cómputo de Alto Desempeño en Intel: OSCAR, Solución en Software para Cómputo en Clusters

Cómputo de Alto Desempeño en Intel: OSCAR, Solución en Software para Cómputo en Clusters Cómputo de Alto Desempeño en Intel: OSCAR, Solución en Software para Cómputo en Clusters Jorge Figueroa Canales. jfigueroac@uxmcc2.iimas.unam.mx Maestría en Ciencia e Ingeniería de la Computación. Universidad

Más detalles

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Big Data: retos a nivel de desarrollo Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Cámara de Comercio de Bogotá Centro Empresarial Chapinero Agenda Introducción Bases de datos NoSQL Procesamiento

Más detalles

CONTENIDOS MÍNIMOS Y CRITERIOS DE EVALUACIÓN INFORMÁTICA 1º BACHILLERATO

CONTENIDOS MÍNIMOS Y CRITERIOS DE EVALUACIÓN INFORMÁTICA 1º BACHILLERATO CONTENIDOS MÍNIMOS Y CRITERIOS DE EVALUACIÓN INFORMÁTICA 1º BACHILLERATO Contenidos 1. Internet y redes sociales. -La información y la comunicación como fuentes de comprensión y transformación del entorno

Más detalles

CAPÍTULO 4 ANÁLISIS DE IMPLEMENTACIONES

CAPÍTULO 4 ANÁLISIS DE IMPLEMENTACIONES CAPÍTULO 4 ANÁLISIS DE IMPLEMENTACIONES En el anterior capítulo se realizaron implementaciones en una red de datos para los protocolos de autenticación Kerberos, Radius y LDAP bajo las plataformas Windows

Más detalles

Linux Week PUCP. Computación de Alto Rendimiento en Linux. rmiguel@senamhi.gob.pe

Linux Week PUCP. Computación de Alto Rendimiento en Linux. rmiguel@senamhi.gob.pe Linux Week PUCP 2006 Computación de Alto Rendimiento en Linux Richard Miguel San Martín rmiguel@senamhi.gob.pe Agenda Computación Científica Computación Paralela High Performance Computing Grid Computing

Más detalles

Utilizar los servicios de Index Service para buscar información de forma rápida y segura, ya sea localmente o en la red.

Utilizar los servicios de Index Service para buscar información de forma rápida y segura, ya sea localmente o en la red. Funciones de servidor La familia Windows Server 2003 ofrece varias funciones de servidor. Para configurar una función de servidor, instale dicha función mediante el Asistente para configurar su servidor;

Más detalles

Desarrollo de un cluster computacional para la compilación de. algoritmos en paralelo en el Observatorio Astronómico.

Desarrollo de un cluster computacional para la compilación de. algoritmos en paralelo en el Observatorio Astronómico. Desarrollo de un cluster computacional para la compilación de algoritmos en paralelo en el Observatorio Astronómico. John Jairo Parra Pérez Resumen Este artículo muestra cómo funciona la supercomputación

Más detalles

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1 ÍNDICE Introducción... XIII Capítulo 1. Conceptos de Big Data... 1 Definición, necesidad y características de Big Data... 1 Aplicaciones típicas de Big Data... 4 Patrones de detección del fraude... 4 Patrones

Más detalles

Qué significa Hadoop en el mundo del Big Data?

Qué significa Hadoop en el mundo del Big Data? Qué significa Hadoop en el mundo del Big Data? Un contenido para perfiles técnicos 2 ÍNDICE Qué significa Hadoop en el Universo Big Data?.... 3 El planteamiento: big data y data science.... 3 Los desafíos

Más detalles

APPLE: Compañía de informática que creó Macintosh. Fue fundada por Steve Jobs.

APPLE: Compañía de informática que creó Macintosh. Fue fundada por Steve Jobs. Gobierno Electrónico GLOSARIO DE TÉRMINOS 110 A APPLE: Compañía de informática que creó Macintosh. Fue fundada por Steve Jobs. Arquitectura de Sistemas: Es una descripción del diseño y contenido de un

Más detalles

LA ARQUITECTURA TCP/IP

LA ARQUITECTURA TCP/IP LA ARQUITECTURA TCP/IP Hemos visto ya como el Modelo de Referencia de Interconexión de Sistemas Abiertos, OSI-RM (Open System Interconection- Reference Model) proporcionó a los fabricantes un conjunto

Más detalles

Facultad de Ingeniería Informática. Informe de las Prácticas Profesionales

Facultad de Ingeniería Informática. Informe de las Prácticas Profesionales Facultad de Ingeniería Informática CEIS Informe de las Prácticas Profesionales Título: Informatización de los Procesos de Negocio Solicitud de Trabajo Extra laboral en el CITI, a través de la BPMS BizAgi

Más detalles

BUSINESS INTELLIGENCE Y REDSHIFT

BUSINESS INTELLIGENCE Y REDSHIFT Whitepaper BUSINESS INTELLIGENCE Y REDSHIFT BEE PART OF THE CHANGE hablemos@beeva.com www.beeva.com LAS SOLUCIONES QUE TU BI NECESITA Con Amazon Web Services (AWS) es posible disponer con solo unos clics

Más detalles

CAPITULO 1. Introducción a los Conceptos Generales de Bases de Datos Distribuidas

CAPITULO 1. Introducción a los Conceptos Generales de Bases de Datos Distribuidas CAPITULO 1 Introducción a los Conceptos Generales de 1.1 Preliminares Las empresas necesitan almacenar información. La información puede ser de todo tipo. Cada elemento informativo es lo que se conoce

Más detalles

DIPLOMADO EN SEGURIDAD INFORMATICA

DIPLOMADO EN SEGURIDAD INFORMATICA DIPLOMADO EN SEGURIDAD INFORMATICA Modulo 9: Soporte Computacional Clase 9_1:Instalación y configuración de redes Director Programa: César Torres A Profesor : Claudio Hormazábal Ocampo Contenidos del Módulo.

Más detalles

Capítulo 5. Sistemas operativos. Autor: Santiago Felici Fundamentos de Telemática (Ingeniería Telemática)

Capítulo 5. Sistemas operativos. Autor: Santiago Felici Fundamentos de Telemática (Ingeniería Telemática) Capítulo 5 Sistemas operativos Autor: Santiago Felici Fundamentos de Telemática (Ingeniería Telemática) 1 Sistemas operativos Definición de Sistema Operativo Partes de un Sistema Operativo Servicios proporcionados:

Más detalles

CLUSTER FING: PARALELISMO de MEMORIA DISTRIBUIDA

CLUSTER FING: PARALELISMO de MEMORIA DISTRIBUIDA CLUSTER FING: PARALELISMO de MEMORIA DISTRIBUIDA SERGIO NESMACHNOW Centro de Cálculo, Instituto de Computación FACULTAD DE INGENIERÍA, UNIVERSIDAD DE LA REPÚBLICA, URUGUAY CONTENIDO Introducción: arquitecturas

Más detalles

Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com

Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com Contenidos Clúster de Investigación Aplicada Proyectos HPC Clúster Hadoop para tecnologías de BI Una nube privada para la Administración

Más detalles

Supercómputo. Oscar Rafael García Regis Enrique Cruz Martínez

Supercómputo. Oscar Rafael García Regis Enrique Cruz Martínez Supercómputo Oscar Rafael García Regis Enrique Cruz Martínez 2003-I Oscar Rafael García Regis Laboratorio de Dinámica No Lineal Facultad de Ciencias, UNAM Enrique Cruz Martínez Dirección General de Servicios

Más detalles

Modernización del escritorio

Modernización del escritorio Modernización del escritorio Una guía para abordar los requisitos del usuario final y los desafíos de TI con la virtualización de escritorio de VMware Contenido Capítulo 1: El dilema de los escritorios

Más detalles

Módulos: Módulo 1. Hardware & Arquitectura de sistemas - 20 Horas

Módulos: Módulo 1. Hardware & Arquitectura de sistemas - 20 Horas Módulos: Módulo 1 Hardware & Arquitectura de sistemas - 20 Horas Este módulo permite conocer y configurar los elementos básicos del hardware del sistema, como también otros componentes adicionales como

Más detalles

Fundamentos de Sistemas Operativos

Fundamentos de Sistemas Operativos Fundamentos de Sistemas Operativos Sistemas Informáticos Fede Pérez Índice TEMA Fundamentos de Sistemas Operativos 1. - Introducción 2. - El Sistema Operativo como parte de un Sistema de Computación 2.1

Más detalles

Guía de determinación de tamaño y escalabilidad de Symantec Protection Center 2.1

Guía de determinación de tamaño y escalabilidad de Symantec Protection Center 2.1 Guía de determinación de tamaño y escalabilidad de Symantec Protection Center 2.1 Guía de determinación de tamaño y escalabilidad de Symantec Protection Center El software descrito en el presente manual

Más detalles

Denominación de la materia. N créditos ECTS = 36 carácter = MIXTA INGENIERIA DE COMPUTADORAS

Denominación de la materia. N créditos ECTS = 36 carácter = MIXTA INGENIERIA DE COMPUTADORAS Denominación de la materia INGENIERIA DE COMPUTADORAS N créditos ECTS = 36 carácter = MIXTA Ubicación dentro del plan de estudios y duración La materia Ingeniería de Computadoras está formada por 6 asignaturas

Más detalles

5. MODELOS DE CLIENTE Y SERVIDOR ORIENTADOS A AGENTES MÓVILES

5. MODELOS DE CLIENTE Y SERVIDOR ORIENTADOS A AGENTES MÓVILES SISTEMAS DISTRIBUIDOS DE REDES 5. MODELOS DE CLIENTE Y SERVIDOR ORIENTADOS A AGENTES MÓVILES Programación remota: Introducción y generalidades INTRODUCCIÓN Debido a la dificultad de la arquitectura actual

Más detalles

Innovación para su Contact Center. Business Rules. Personalice al máximo la experiencia del cliente, aplicando reglas de negocio

Innovación para su Contact Center. Business Rules. Personalice al máximo la experiencia del cliente, aplicando reglas de negocio Innovación para su Contact Center Business Rules Personalice al máximo la experiencia del cliente, aplicando reglas de negocio ÍNDICE DATA SHEET 1. Introducción... 4 2. Características principales... 4

Más detalles

REPORTE OFICIAL OCTUBRE DE 2014. CA Unified Infrastructure Management para servidores

REPORTE OFICIAL OCTUBRE DE 2014. CA Unified Infrastructure Management para servidores REPORTE OFICIAL OCTUBRE DE 2014 CA Unified Infrastructure Management para servidores 2 Reporte oficial: CA Unified Infrastructure Management para servidores Tabla de contenidos Descripción general de la

Más detalles

Redes de Altas Prestaciones

Redes de Altas Prestaciones Redes de Altas Prestaciones TEMA 3 Redes SAN -Alta disponibilidad -Sistemas Redundantes -Curso 2010 Redes de Altas Prestaciones - Indice Conceptos Componentes de un SAN Términos más utilizados Topología

Más detalles