TÉSIS DE MAESTRÍA. Emmanuel Barajas González

Tamaño: px
Comenzar la demostración a partir de la página:

Download "TÉSIS DE MAESTRÍA. Emmanuel Barajas González"

Transcripción

1 UNIVERSIDAD DE GUADALAJARA TECNOLOGÍAS DE INFORMACIÓN TÉSIS DE MAESTRÍA Defendida por Emmanuel Barajas González Diseño de una arquitectura para procesamiento paralelo y distribuido de conjuntos másivos de datos no estructurados para el proyecto de Smarter Trac de CUCEA e IBM Director de Tésis: Laura Torres Defendida en, 2013

2

3 0.1 Agradecimientos

4

5 Contenidos 0.1 Agradecimientos i 1 Abstract Abstract Introducción Objetivos Objetivos Particulares Motivación Justicación Enfoque Metodológico Estado del Arte Arquitectura para el procesamiento masivo Hardware Software Métodos de procesamiento Procesamiento Paralelo Procesamiento distribuído Diferencias entre sistemas paralelos y distribuídos Tecnologías de bases de datos Datos estructurados Datos no estructurados Big Data Tecnologías para trabajar con Big Data MapReduce Proyectos Relacionados IBM c Smarter Planet Smarter Cities Denición del problema Contexto Descripción del problema Hipótesis Objetivos Objetivo General Objetivos particulares Justicación Límites y alcances Preguntas de investigación

6 iv Contenidos 5 Materiales y Métodos 39 A Appendix Example 41 A.1 Appendix Example section Bibliografía 43

7 Capítulo 1 Abstract 1.1 Abstract En la actualidad las fuentes de datos y el ritmo al que trabajan sobrepasan la capacidad de procesamiento tradicional por lo que dicha información termina almacenada o pasa por u ltro de los sistemas estadísticos y solo una pequena parte se usa en la generación de conocimiento. Es por eso que la necesidad de la creación de herramientas las cuales permitan explotar de manera más eciente las fuentes de datos es importante sobre todo para proyectos que manejan dichos volúmenes masivos de datos. Para ello se describe el estudio e implementación de una arquitectura la cual es capaz de responder a esta necesidad generada por el proyecto de Smart Trac al usar el modelo de programación Map Reduce que desarrolló Google c mediante el cual es posible paralelizar y distribuir tareas a varios nodos interconectados que forman un cluster y así incrementa el poder de cómputo disponible. Dicho modelo es aplicable en ambientes en los cuales se tienen diversas y masivas fuentes de información heterogéneos como lo es el proyecto antes mencionado por lo que se describe la integración e implementación de la solución con el uso de un cluster destinado para dicho propósito. Nowadays the traditional processing power is not able to keep up with the rate at which the data sources are generating information and that's why such data ends up being stored or it is passed through a lter of an statistic system and just a small portion is used to generate new knowledge. That's why the need for the creation of tools that allow the ecient processing of such data sources grows in importance specially for projects that deal with massive volumes of data. In order to achieve that, the study and implementation of an architecture that is able to fulll this requirement is described in this document and it also describes its integration with the Smarter trac project by using the Map Reduce programming model created by Google c. This programming model allows the developer to parallelize and distribute tasks among several nodes connected to a cluster and this in turn increases the available overall processing power. Such model can be applied to environments with highly diversied, massive and heterogeneous data sources which we can nd in the previously mentioned trac project and this makes it suitable to be implemented this way. Palabras clave: big data, parallel, distributed, computing, hadoop, cluster, smarter cities, smarter trac, unstructured data, smarter trac, giraph

8

9 Capítulo 2 Introducción Contenidos 2.1 Objetivos Objetivos Particulares Motivación Justicación Enfoque Metodológico Objetivos Realizar un estudio, integración y desarrollo para la puesta a punto de una arquitectura la cual dé respuesta a la necesidad de procesamiento paralelo y distribuido de conjuntos masivos de datos no estructurados para ser utilizado como base del manejo de información del proyecto Smart Trac de CUCEA e IBM Objetivos Particulares 2.2 Motivación 2.3 Justicación 2.4 Enfoque Metodológico El método elegido para la realización de esta investigación es el llamado estudio de caso porque dada la naturaleza del proyecto mismo se requiere poner foco en los detalles del diseño y de la implementación así como obtener un profundo entendimiento de cada uno de los componentes y de las etapas necesarias para lograr una instalación exitosa. De forma adicional se requiere que la especicación de requerimientos sea realizada con detalle y que el entorno utilizado se describa de forma exhaustiva. Al tomar en cuenta las necesidades antes mencionadas podemos ir a la dención dada por [Stake, 1999] y observar que en efecto un estudio de caso se ajusta al tipo de proyecto que se pretende realizar y se pueden usar los resultados obtenidos de la profunda comprensión y análisis de los elementos que lo componen para proveer las respuestas a las preguntas que se plantean.

10 4 Capítulo 2. Introducción Plataforma de prueba: Utilizando la plataforma Elastic Cloud de Amazon c se creará un cluster compuesto de varios servidores virtuales los cuales se usarán para formar un cluster de Hadoop utilizando el Hadoop Distributed Filesystem como sistema de archivos distribuido. Una vez realizada la conguración inicial, se instalará Ganglia como sistema de monitoreo. KarmaSphere c se usará como entorno de trabajo para ejecutar y depurar el código que se usará para vericar la funcionalidad del cluster y tomar mediciones. (ver gura 6) Figura 2.1: Diagrama de procedimiento de implementación de la solución

11 Capítulo 3 Estado del Arte Contenidos 3.1 Arquitectura para el procesamiento masivo Hardware Software Métodos de procesamiento Procesamiento Paralelo Procesamiento distribuído Diferencias entre sistemas paralelos y distribuídos Tecnologías de bases de datos Datos estructurados Datos no estructurados Big Data Tecnologías para trabajar con Big Data MapReduce Proyectos Relacionados IBM c Smarter Planet Smarter Cities Figura 3.1: Mapa de la literatura

12 6 Capítulo 3. Estado del Arte A continuación se ponen en contexto las tecnologías involucradas en el desarrollo e implementación de soluciones las cuales tienen como objetivo el poner a disposición de los desarrolladores el poder combinado de muchas computadoras individuales trabajando juntas buscando un mismo resultado. Cada una de ellas juega un rol fundamental tanto en los principios teóricos que sirven como base de este trabajo como en las tendencias que se divisan en esta innovador enfoque en la implementación de clusters para el procesamiento de conjuntos masivos de datos no estructurados. 3.1 Arquitectura para el procesamiento masivo Uno de los enfoques que se le dá a las soluciones propuestas para el procesamiento de conjuntos masivos de datos no estructurados es el uso de clusters de sistemas los cuales pueden trabajar en conjunto aprovechando el poder de cómputo combinado de cada uno de los nodos miembros del cluster. Para comenzar a construir dichas soluciones se deben de tomar algunas medidas en cuanto a la conguración de hardware y software que será utilizado. A continuación se presentan dichas consideraciones enfocadas al problema que nos atañe Hardware La integración de múltiples equipos independientes en una sola entidad conocida como cluster es uno de las aproximaciones que se dá a la hora de construir soluciones para el procesamiento de conjuntos masivos de datos no estructurados. Al tenerse una arquitectura de tipo scale-out la cual puede crecer en poder de procesamiento al momento de requerirse y en respuesta a las necesidades de la aplicación y que puede hacerlo prácticamente de manera indenida ya que no está limitada a un sistema individual[bakshi, 2012] ciertas consideraciones y decisiones deben de tomarse referentes al tipo de hardware que se utilizará tanto para los servidores que tomarán el rol de nodo en el cluster así como del sistema operativo sobre el cual estará corriendo el software de Hadoop y los protocolos apropiados para la comunicación en red entre los nodos Detalles de los componentes de Hardware Al referirse especícamente del marco de trabajo estudiado en éste trabajo y que será abordado a detalle más adelante se debe mencionar que Hadoop es un marco de trabajo para ejecutar aplicaciones en clusters grandes (llegando a miles de nodos) conformados por nodos con hardware que se puede conseguir fácilmente [Apache, 2012]; en otras palabras, un cluster de Hadoop se puede formar con hardware sin características especiales y ésto es gracias a que Hadoop corre sobre Java c y las máquinas virtuales de Java c han sido escritas y adaptadas para una gran variedad de sistemas operativos y ambientes por lo que la capa de hardware sobre la cual están corriendo los programas se encuentra oculta para los desarrolladores a menos que éstos decidan acceder directamente a los servicios del sistema operativo (ésto por supuesto

13 3.1. Arquitectura para el procesamiento masivo 7 tiene como consecuencia que el programa se volverá dependiente de la plataforma sobre la cual fué escrito). De acuerdo con el equipo de soporte de Cloudera [Loddengaard, 2012] Hadoop y considerando los 4 posible tipos de nodos en un cluster de Hadoop (los cuales son descritos a detalle en la sección ), se tiene que para mantener un cluster balanceado las siguientes conguraciones se pueden tomar en cuenta: Para los datanodes/tasktrackers 4 discos de 1 TB en conguración JBOD [Rouse, 2005] 2 CPUs quad core de al menos GHz GB de RAM Ethernet gigabit Para los nodos con el rol de ( namenode/jobtracker) se el equipo de soporte de Cloudera Hadoop recomienda utilizar hardware que puede ser considerado superior al del resto de los nodos ya que la carga de trabajo que éste tipo de nodos debe soportar es mayor. Discos en conguración RAID de clase enterprise[rouse, 2007] 1 GB de RAM son por cada millon de bloques en el lesystem. 32 GB de RAM son sucientes para sostener 100 nodos con el rol de datanode. Es válido sin embargo construir un cluster de Hadoop utilizando hardware heterogéneo siempre y cuando éste sea capaz de ejecutar la máquina virtual de Java Oracle JDK 1.6 siendo mínima versión soportada la 1.6.0_8 [Cloudera, 2012a] Software Sistemas Operativos Al ser Hadoop un proyecto Open Source, es posible descargar los archivos fuente y compilarlos para se ejecutados prácticamente sobre cualquier plataforma basada en Unix sin embargo los paquetes pre-compilados y la documentación existente se han enfocado en unas cuantas plataformas de Linux las cuales son las más populares ya sea por su facilidad de uso ó por la estabilidad que proveé. La siguiente es una lista de los sistemas operativos soportados por la version 3 de Cloudera Hadoop [Cloudera, 2012b]: Red Hat Enterprise Linux 5 y CentOS 5 en sus versiones de 32 y 64 bits SUSE Linux Enterprise Server 11 Ubuntu y en sus versiones de 32 y 64 bits

14 8 Capítulo 3. Estado del Arte Aunque las plataformas de producción soportadas son sólo las mencionadas anteriormente, es posible encontrar instaladores de Hadoop para Windows y Mac OS X sin embargo cada distribución y versión de sistema operativo tiene su historial de estabilidad por lo que éste tambien es un factor a considerar cuando se está eligiendo la plataforma sobre la cual se instalará el cluster de Hadoop Protocolos que intervienen La interconección de los nodos que componen un cluster de Hadoop se dá mediante las tecnologías de redes existentes de Ethernet. Típicamente un cluster se compone Figura 3.2: Conguración típica de un cluster de Hadoop en dos Racks de nodos los cuales se encuentran relativamente cerca y en un datacenter dichos nodos se organizan en racks. Es una buena práctica que cada rack tenga un switch el cual sirve para interconectar todos los nodos contenidos en el y la comunicación entre un rack y otro se dá a través de un switch que sirve para centralizar todas las comunicaciones inter-rack. A nivel de sistema operativo la comunicación entre un nodo y otro se dá mediante el protocolo SSH, mientras que la comunicación propia de Hadoop se lleva a cabo usando protocolos propios del marco de trabajo. Todo ésto implementado sobre el protocolo de red TCP/IP Protocolo TCP/IP El protocolo TCP/IP es en realidad un compendio de muchos protocolos los cuales tienen como objetivo interconectar muchas redes en una red más grande y es por eso que se habla acerca de una red de redes. Dicho protocolo fue desarrollado por el departamento de la defensa de los Estados Unidos a nales de los 1970 y principios de 1980 y fue diseñado de tal manera que fuera robusto y capaz de auto-recuperarse ante la falla de cualquiera de los nodos que componen la red [Gilbert, 1995]. De todos los protocolos que forman parte la suite TCP/IP dos sobresalen por su importancia y son éstos los que le dan su nombre:

15 3.1. Arquitectura para el procesamiento masivo 9 IP (Internet Protocol) : Es el que permite mover los datos de un nodo a otro. En su versión IPv4, una secuencia de 4 octetos son usados para determinar el destino de los paquetes. TCP (Transfer Control Protocol) : Es responsable de asegurar que los paquetes se entreguen a su destino de manera correcta. Este protocolo implementa métodos de detección de error que permiten iniciar re-transmisiones en caso de que se detecte que un paquete no llegó a su destino hasta que se cumpla dicho objetivo. En su version 4, el protocolo TCP/IP tiene un espacio de direccionamiento de 32 bits; esto es que cada direccion asignada bajo éste protocolo es una cadena de 32 bits separada en 4 octetos que van del 0 al 255. Por ejemplo Al momento de su creación el protocolo en su version 4 fué más que suciente para proveer los servicios necesarios y considerando el tamaño de su cadena de direccionamiento un total de 2 32 sistemas pueden estar conectados al mismo tiempo en la red, sin embargo al aumentar el numero de dispositivos con capacidades de conexión y al acercarse al límite de direccionamientos se comenzaron a desarrollar alternativas para resolver el problema y un primer acercamiento se dió con la implementación de NAT (Network Address Translation) la cual permite ocultar una serie de direcciones IP privadas detrás de una única dirección pública, sin embargo más problemas se derivaron como resultado de ésta técnica al hacerse dicil poder acceder a un sistema en especíco detrás de una NAT. Con la introducción de la siguiente versión del protocolo IPv6 muchas de las limitaciones inherentes a su antecesor son superadas comenzando con el número teórico de sistemas conectados a la red el cual es gracias a que la cadena de direcciones tiene una longitud de 128 bits y lo cual permite que no solo los sistemas tradicionales sean considerados para ocupar una conexión si no también equipos móviles cómo teléfonos inteligentes y tables ó teléfonos IP. Dichas direcciones son expresadas en grupos de 16 bits escritos como cuatro dígitos hexadecimales y separados por dos puntos [Feyrer, 2001]. Por ejemplo fe70::1b0:c3ff:fda5:b9f4 Al momento de la realización de éste trabajo, la implementación de IPv6 sigue estando fuera del contexto de proyectos y de redes locales en las cuales IPv4 continúa siendo suciente para proveer de una dirección que permite alcanzar a un sistema en particular conectado a la red y que a su vez se ve beneciado por una de las características fundamentales de este protocolo de red : la capacidad de recuperarse en el caso de perder uno de los caminos para la transmisión de un paquete y la búsqueda de un nuevo camino para completar dicha transmisión [Gilbert, 1995] sin

16 10 Capítulo 3. Estado del Arte embargo los sistemas operativos que soportan Hadoop ya cuentan con soporte para IPv6 por lo que en un futuro será mas común observar direcciones IPv6 en los archivos de conguración de los mismos Protocolo Secure Shell (ssh) En un cluster compuesto por muchos nodos los cuales son sistemas independientes corriendo sus propios sistemas operativos y con recursos locales se requiere de mecanismos los cuales permitan cierto nivel de monitoreo del estado actual de cluster. Dichos mecanismos pueden ir desde lo más simple como lo es hacer pings periódicamente a cada una de las direcciones IP de los nodos para comprobar que los mismos continúan encendidos hasta sistemas más avanzados los cuales pueden ejecutar comandos directamente sobre cada uno de los nodos y colectar información relevante con mucho nivel de detalle del estado del sistema. En ambientes grandes de cientos o miles de nodos ésta tarea se encuentra automatizada y supervisada por uno o más nodos centrales los cuales requiren tener un mecanismo de acceso a cada uno de los nodos el cual le permita sin mayor dicultad la ejecución de comandos y la recolección de información. Una de las técnicas utilizadas para alcanzar dicho propósito es la utilización del protocolo SSH para la conexión inter-nodo. El protocolo SSH Secure Shell Protocol es un protocolo que permite el acceso remoto y otros servicios de red a través de una red insegura. Consiste de 3 componentes principales : El protocolo de la capa de transporte (SSH-TRANS) es el encargado de proveer la autenticación del servidor, condencialidad e integridad. Usualmente corre sobre el protocolo TCP/IP. El protocolo de autenticación de usuario (SSH-USERAUTH) se encarga de la autenticación de un sistema cliente con el servidor. Éste corre sobre la capa de transporte. El protocolo de conexión (SSH-CONNECT) multiplexa el túnel encripado en varios canales lógicos. Éste a su vez corre sobre el protocolo de autenticación. Para establecer una conexión segura entre un cliente y un servidor, éste último debe tener una llave de servidor o host key. Es posible que un servidor pueda tener múltiples llaves generadas con diferentes algoritmos. La llave es usada durante la etapa de intercambio de llaves para vericar que el cliente que está solicitando la conexión está hablando con el servidor correcto. Para poder lograr ésto, el cliente debe tener conocimiento previo de las llaves del servidor al cual desea conectarse [Ylonen, 2006]. La arquitectura basada en llaves permite la construcción de sistemas compuestos de muchos nodos individuales y habilita la intercomunicación segura entre ellos siempre y cuando todos los miembros del cluster conozcan las llaves de los demás miembros y así de ésta manera muchos otros servicios como la ejecución remota de comandos, la transferencia segura de archivos y la redirección de las salidas de servidores grácos como X11 son posibles.

17 3.2. Métodos de procesamiento 11 Servicio Demonio Puerto HDFS NameNode HDFS DataNode HDFS Secondary Namenode HDFS Checkpoint node MapReduce JobTracker MapReduce TaskTrackers Tabla 3.1: Puertos default de Hadoop Protocolos propios de Hadoop En un cluster de Hadoop hay que tener en cuenta que la comunicación entre los nodos se lleva a cabo sobre las conexiones de red exclusivamente tanto para realizar las operaciones de procesamiento de información como en las operaciones propias del sistema de archivos distribuidos HDFS. Los demonios de Hadoop abren puertos necesarios para sostener dichas comunicaciones y todos trabajan sobre el protocolo TCP. Sobre éste protocolo se exponen servicios tanto de comunicación interna de Hadoop (calendarización de trabajos de Hadoop, copia de bloques del sistema de archivos HDFS, etc..) como servicios de monitoreo a través del protocolo HTTP. La comunicación interna de los servicios de Hadoop los cuales están implementados en Java se lleva a cabo usando protocolos creados para dicho propósito. La mayor parte de la comunicación ocurre usando el protocolo Hadoop IPC InterProcess Protocol el cual requiere que el programador dena para cada clase que se desea que se comunique con otro proceso su propia rutina de serialización lo cual facilita el trabajo de búsqueda y resolución de defectos [Apache.org, 2009]. El protocolo HTTP es usado en la comunicación entre el secondarynamenode y el namenode así como con los tasktrackers enviando tareas de mapeado hacia los reducers. Finalmente para la transferencia de datos en HDFS se utiliza protocolo de sockets simple[zeyliger, 2009]. En la tabla 3.1 se muestran los puertos abiertos por los servicios principales de Hadoop. Todos los demonios de Hadoop exponen algo de información a través del protocolo HTTP. Los puntos arriba descritos son la base para la construcción de clusters de múltiples nodos para el procesamiento de conjuntos masivos de datos. Sobre dichos clusters se pueden implementar diversas estrategias para llevar a cabo el procesamiento como se describe a continuación. 3.2 Métodos de procesamiento Procesamiento Paralelo En los modelos de programación tradicionales un programa se compone de instrucciones de entrada/salida, modicadores de ujo de ejecución y operadores los cuales

18 12 Capítulo 3. Estado del Arte tienen diversos efectos sobre los tipos de datos que el lenguaje de programación que se seleccionó soporta. Los problemas que se pretenden resolver con un programa secuencial deben separarse en una serie discreta de instrucciones. Un factor común de este tipo de programas es que se tiene un sólo camino o serie de pasos los cuales se ejecutan uno después de otro y no se procede a la siguiente instrucción a menos que la anterior se complete por lo que se habla de computación secuencial.por otro lado, la computación en paralelo se describe como "la capacidad de utilizar multiples recursos computacionales de manera simultánea para la resolución de un problema"[barney, 2012]. En este modelo de programación se tiene la capacidad de ejecutar las instrucciones en múltiples CPU's. Dichas instrucciones resultan de la separación del problema en partes discretas las cuales tienen la característica de ejecutarse de forma concurrente. Figura 3.3: Flujos de ejecución En el año de 1958 se sentaron las bases para todo el trabajo futuro alrededor de la computación en paralelo con una discusión que se llevó a cabo por los investigadores de IBM c John Cocke y Daniel Slotnick acerca del uso del paralelismo en cálculos numéricos[wilson, 1994] y las investigaciones al respecto continuaron así como las implementaciones de sistemas basadas en este principio, tal y como el Multics, el cual lo desarrollaron los laboratorios Honeywell[Wilson, 1994] en 1969 y el cual es un sistema multiprocesador simétrico capaz de correr 8 procesos en paralelo. De manera similar la teoría acerca de la computación concurrente continuó gracias al trabajo de personas como Edsger Dijkstra cuyas contribuciones a la computación paralela sigue tomandose como la base necesaria para resolver la concurrencia y manejar las zonas críticas [Pacheco, 2011] de los programas diseñados para ser ejecutados en paralelo. En la actualidad aún a pesar de que los programas no se hacen de manera explícita con un modelo de ejecución en paralelo, existen implementaciones de bajo nivel agregadas a la construcción de los microprocesadores, las cuales le permiten reacomodar las instrucciones que van a ser ejecutadas de tal manera que se ordenan en grupos que se ejecutan en paralelo sin alterar el resultado nal del programa.

19 3.2. Métodos de procesamiento 13 Sistemas en tiempo real los cuales requieren reaccionar ante eventos del mundo físico que ocurren sin previo aviso y a velocidades altas y al mismo tiempo que otra variable que esté siendo monitoreada como los sensores que controlan la activación de las bolsas de aire de los automoviles se implementan con modelos de programación los cuales permiten procesar todas esas señales al mismo tiempo y reaccionar de forma adecuada cuando es necesario hacerlo. Al alcanzar el límite de miniaturización de los componentes de los microprocesadores debido a los efectos de la discipación de calor cuando se ronda la escala de 15-20nm la solución que presentan los fabricantes de semiconductores es cada vez una mayor cantidad de núcleos de procesamiento en un sólo chip. De esta manera aunque un procesador por sí mismo no es más rápido que uno anterior, éste procesa más instrucciones al mismo tiempo por lo que el efecto aparente es una mayor velocidad. Ésta tecnología está presente con regularidad en los nuevos dispositivos, lo que facilita el orecimiento de técnicas y lenguajes de programación paralela tales como CUDA de nvidia c al poner a disposición dichas capacidades a cada vez más personas. La técnica de ejecutar varias tareas al mismo tiempo permite acelerar la ejecución global de un programa, sin embargo el alcance de dicha técnica se ve limitado a las capacidades del sistema en el cual se lleva a cabo la parelelización por lo que para extender sus capacidades es necesario implementarlo en muchos sistemas individuales, cada uno con sus propios recursos pero de manera sincronizada y coordinada. La siguiente sección trata acerca de esta adición a la estrategia global presentada en este trabajo Procesamiento distribuído En un ambiente de computación distribuida, sistemas independientes se presentan al usuario como si fueran una sola computadora y se pone a su disposicion todos los recursos que son compartidos desde dichos sistemas. Los sistemas distribuidos surgieron como una forma de optimizar el poder de procesamiento de las computadoras individuales que comenzaron a ser más comunes y más poderosas a partir de la decada de los 80 cuando se volvió más barato tener dos computadoras que combinadas tenian una mejor relación precio/desempeño que un procesador el doble de rápido. Dicho de otra manera, una computadora personal no es rival para un Mainframe en terminos de poder de procesamiento, sin embargo en la actualidad se construyen clusters de decenas de miles de computadoras personales que combinadas logran velocidades de procesamiento medidas en millones de instrucciones por segundo que son físicamente inalcanzables por cualquier Mainframe. Existe una línea delgada entre la denición de un sistema distribuido y un sistema paralelo pero a grandes rasgos se dice que un sistema distribuido se forma cuando múltiples actores independientes interconectados por una red trabajan en conjunto [Tanenbaum and van Steen, 2002], mientras que en un sistema en paralelo se presentan procesos que se ejecutan de manera concurrente para la resolución de un problema[schreiner, 2006]. El desarrollo e implementación de dicho tipo de sis-

20 14 Capítulo 3. Estado del Arte temas está difundido en el ambiente tecnológico actual y se encuentran proyectos corriendo en cientos de miles de computadoras alrededor del mundo como es el caso de BOINC (The Berkeley Open Ingrastructure for Network Computing) el cual permite que usuarios alrededor del mundo donen de forma voluntaria tiempo y recursos de procesamiento de sus computadoras para realizar cálculos que se utilizan para diversos tipos de proyectos construidos sobre ésta plataforma. Dichos proyectos son variados en su área de aplicacion y van desde matemáticas, criptografía, salud, clima, astronomía y astrofísica pero todos con un factor en común: la necesidad de tiempo y poder de procesamiento es elevada y realizar los cálculos que se necesitan para obtener información útil de los datos generados en una sola computadora o incluso en un servidor grande no es una opción viable porque el tiempo necesario se eleva al orden de años; la solución que se presenta con el modelo de cómputo distribuido se basa en el principio de "divide y vencerás". Algunos de estos proyectos tienen fuentes de datos que los generan a un ritmo alto sólo quedan almacenados en espera de su turno para ser procesados. Dichos paquetes de datos se separan en paquetes más pequeños que se transmiten por una red con facilidad cuyo destino son las computadoras personales que se registran para formar parte de dicho proyecto. En las computadoras corre un pequeño programa que funciona como cliente y que tiene la conguración necesaria para enviar y recibir paquetes hacia y desde los servidores centrales del proyecto. Una vez que un cliente recibe un nuevo paquete, éste se encarga de procesarlo y de regresarlo al servidor una vez que está listo. El servidor como paso nal se encarga de juntar todos los resultados enviados desde todos sus clientes y es así como un paquete grande se procesa en poco tiempo. Todo lo anterior es posible gracias al desarrollo de redes y protocolos de comunicaciones cada vez más rápidas y conables así como a los avances en algoritmos que hacen posible compartir recursos que están sica y geográcamente separados pero que trabajan juntos en la búsqueda de un resultado. 3.3 Diferencias entre sistemas paralelos y distribuídos De acuerdo con Riesen [Riesen et al., 1998] se pueden denotar las diferencias entre sistemas paralelos y distribuidos si se clasican y caracterizan ciertos aspectos de los mismos: Recursos : En un sistema distribuido compuesto de estaciones de trabajo independientes se puede dar el caso en que algunas de ellas se encuentren en estado inactivo y por lo tanto sus recursos no se están utilizando, mientras que en un sistema paralelo todos los recursos del mismo son usados para la resolución de un problema. Mientras que en un sistema distribuido los recursos pueden ser compartidos con otras aplicaciones, en un sistema paralelo no existen los recursos sub-utilizados. Administración de recursos : En los sistemas distribuidos la asignación y administración de procesos se encuentra generalmente oculta al usuario nal,

BIG DATA. Jorge Mercado. Software Quality Engineer

BIG DATA. Jorge Mercado. Software Quality Engineer BIG DATA Jorge Mercado Software Quality Engineer Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A Big Data - Introducción Que es Big Data? Big data es el termino

Más detalles

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928 Alessandro Chacón 05-38019 Ernesto Level 05-38402 Ricardo Santana 05-38928 CONTENIDO Universo Digital Hadoop HDFS: Hadoop Distributed File System MapReduce UNIVERSO DIGITAL 161 EB 2006 Fuente: International

Más detalles

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López APACHE HADOOP Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López Objetivos 1. Qué es Apache Hadoop? 2. Funcionalidad 2.1. Map/Reduce 2.2. HDFS 3. Casos prácticos 4. Hadoop

Más detalles

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Francisco Magaz Villaverde Consultor: Víctor Carceler Hontoria Junio 2012 Contenido Introducción Qué es Cloud Compu5ng?

Más detalles

Informática y Programación Escuela de Ingenierías Industriales y Civiles Grado en Ingeniería en Ingeniería Química Curso 2010/2011

Informática y Programación Escuela de Ingenierías Industriales y Civiles Grado en Ingeniería en Ingeniería Química Curso 2010/2011 Módulo 1. Fundamentos de Computadores Informática y Programación Escuela de Ingenierías Industriales y Civiles Grado en Ingeniería en Ingeniería Química Curso 2010/2011 1 CONTENIDO Tema 1. Introducción

Más detalles

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO PRESENTACIÓN ANTONIO GONZÁLEZ CASTRO IT SECURITY DIRECTOR EN PRAGSIS TECHNOLOGIES agcastro@pragsis.com antoniogonzalezcastro.es @agonzaca linkedin.com/in/agonzaca

Más detalles

Especificación de la secuencia de mensajes que se han de intercambiar. Especificación del formato de los datos en los mensajes.

Especificación de la secuencia de mensajes que se han de intercambiar. Especificación del formato de los datos en los mensajes. SISTEMAS DISTRIBUIDOS DE REDES 2.- MODELOS ORIENTADOS A OBJETOS DISTRIBUIDOS 2.1. Tecnologías de sistemas distribuidos Para la implementación de sistemas distribuidos se requiere de tener bien identificados

Más detalles

Unidad 1: Conceptos generales de Sistemas Operativos.

Unidad 1: Conceptos generales de Sistemas Operativos. Unidad 1: Conceptos generales de Sistemas Operativos. Tema 3: Estructura del sistema operativo. 3.1 Componentes del sistema. 3.2 Servicios del sistema operativo. 3.3 Llamadas al sistema. 3.4 Programas

Más detalles

CAPÍTULO 1 Instrumentación Virtual

CAPÍTULO 1 Instrumentación Virtual CAPÍTULO 1 Instrumentación Virtual 1.1 Qué es Instrumentación Virtual? En las últimas décadas se han incrementado de manera considerable las aplicaciones que corren a través de redes debido al surgimiento

Más detalles

Presentación. 29/06/2005 Monografía de Adscripción 1

Presentación. 29/06/2005 Monografía de Adscripción 1 Presentación Alumno: Uribe, Valeria Emilce Profesor Director: Mgter. David Luis La Red Martínez. Asignatura: Diseño y Administración de Datos. Corrientes 2005. 29/06/2005 Monografía de Adscripción 1 MONOGRAFIA

Más detalles

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE)

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data y Supercómputo Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data 2 Hasta qué cantidad de datos podemos procesar en nuestra

Más detalles

Generalidades Computacionales

Generalidades Computacionales Capítulo 2 Generalidades Computacionales 2.1. Introducción a los Computadores Definición: Un computador es un dispositivo electrónico que puede transmitir, almacenar, recuperar y procesar información (datos).

Más detalles

Redes de Altas Prestaciones

Redes de Altas Prestaciones Redes de Altas Prestaciones TEMA 3 Redes SAN -Alta disponibilidad -Sistemas Redundantes -Curso 2010 Redes de Altas Prestaciones - Indice Conceptos Componentes de un SAN Términos más utilizados Topología

Más detalles

Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011

Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011 Clusters Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011 Introducción Aplicaciones que requieren: Grandes capacidades de cómputo: Física de partículas, aerodinámica, genómica, etc. Tradicionalmente

Más detalles

4. Programación Paralela

4. Programación Paralela 4. Programación Paralela La necesidad que surge para resolver problemas que requieren tiempo elevado de cómputo origina lo que hoy se conoce como computación paralela. Mediante el uso concurrente de varios

Más detalles

Análisis de sentimientos de tweets.

Análisis de sentimientos de tweets. Análisis de sentimientos de tweets. JIT-CITA 2013 Resumen Un sensor de sentimientos de tweets para identificar los mensajes positivos, negativos y neutros sobre cualquier trend que se tome sobre esta red

Más detalles

TIPOS DE SISTEMAS OPERATIVOS

TIPOS DE SISTEMAS OPERATIVOS TIPOS DE SISTEMAS OPERATIVOS En esta sección se describirán las características que clasifican a los sistemas operativos, básicamente se cubrirán tres clasificaciones: sistemas operativos por su estructura

Más detalles

Capítulo 5. Cliente-Servidor.

Capítulo 5. Cliente-Servidor. Capítulo 5. Cliente-Servidor. 5.1 Introducción En este capítulo hablaremos acerca de la arquitectura Cliente-Servidor, ya que para nuestra aplicación utilizamos ésta arquitectura al convertir en un servidor

Más detalles

La Arquitectura de las Máquinas Virtuales.

La Arquitectura de las Máquinas Virtuales. La Arquitectura de las Máquinas Virtuales. La virtualización se ha convertido en una importante herramienta en el diseño de sistemas de computación, las máquinas virtuales (VMs) son usadas en varias subdiciplinas,

Más detalles

Conectores Pentaho Big Data Community VS Enterprise

Conectores Pentaho Big Data Community VS Enterprise Conectores Pentaho Big Data Community VS Enterprise Agosto 2014 Stratebi Business Solutions www.stratebi.com info@stratebi.com Índice 1. Resumen... 3 2. Introducción... 4 3. Objetivo... 4 4. Pentaho Community

Más detalles

Guía de determinación de tamaño y escalabilidad de Symantec Protection Center 2.1

Guía de determinación de tamaño y escalabilidad de Symantec Protection Center 2.1 Guía de determinación de tamaño y escalabilidad de Symantec Protection Center 2.1 Guía de determinación de tamaño y escalabilidad de Symantec Protection Center El software descrito en el presente manual

Más detalles

UNIVERSIDAD ALBERT EINSTEIN FACULTAD DE INGENIERIA

UNIVERSIDAD ALBERT EINSTEIN FACULTAD DE INGENIERIA UNIVERSIDAD ALBERT EINSTEIN FACULTAD DE INGENIERIA Estudio de las herramientas TOAD y DBArtisan para la administración e integración de bases de datos relacionales. PREVIA OPCION AL TÍTULO DE: INGENIERO

Más detalles

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK. www.formacionhadoop.com

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK. www.formacionhadoop.com CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK www.formacionhadoop.com Índice 1 Qué es Big Data? 2 Problemas con los sistemas tradicionales 3 Qué es Spark? 3.1 Procesamiento de datos distribuido

Más detalles

Hadoop. Cómo vender un cluster Hadoop?

Hadoop. Cómo vender un cluster Hadoop? Hadoop Cómo vender un cluster Hadoop? ÍNDICE Problema Big Data Qué es Hadoop? Descripción HDSF Map Reduce Componentes de Hadoop Hardware Software 3 EL PROBLEMA BIG DATA ANTES Los datos los generaban las

Más detalles

Análisis de desempeño y modelo de escalabilidad para SGP

Análisis de desempeño y modelo de escalabilidad para SGP Análisis de desempeño y modelo de escalabilidad para SGP Este documento es producto de la experiencia de Analítica en pruebas de stress sobre el software SGP. Estas pruebas se realizaron sobre un proceso

Más detalles

INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer

INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer En los últimos años, el interés por la Computación en la Nube (Cloud Computing), tanto para uso personal como para negocios,

Más detalles

ViPoC - una alternativa virtual para el desarrollo de aplicaciones paralelas.

ViPoC - una alternativa virtual para el desarrollo de aplicaciones paralelas. ViPoC - una alternativa virtual para el desarrollo de aplicaciones paralelas. Omar Ochoa Rodríguez, Alberto Ochoa Rodríguez Abstract El presente trabajo reporta el diseño y construcción de un cluster portátil

Más detalles

Herramienta para la construcción de un cluster y la distribución de carga entre los nodos

Herramienta para la construcción de un cluster y la distribución de carga entre los nodos Herramienta para la construcción de un cluster y la distribución de carga entre los nodos Rubén A. González García 1, Gabriel Gerónimo Castillo 2 1 Universidad Juárez Autónoma de Tabasco, Av. Universidad

Más detalles

CLUSTER FING: ARQUITECTURA Y APLICACIONES

CLUSTER FING: ARQUITECTURA Y APLICACIONES CLUSTER FING: ARQUITECTURA Y APLICACIONES SERGIO NESMACHNOW Centro de Cálculo, Instituto de Computación FACULTAD DE INGENIERÍA, UNIVERSIDAD DE LA REPÚBLICA, URUGUAY CONTENIDO Introducción Clusters Cluster

Más detalles

El tema de esta presentación es los conceptos básicos relacionados con Sistemas Operativos.

El tema de esta presentación es los conceptos básicos relacionados con Sistemas Operativos. 1 El tema de esta presentación es los conceptos básicos relacionados con Sistemas Operativos. 2 Qué es un sistema operativo Un sistema operativo es un programa que tiene encomendadas una serie de funciones

Más detalles

Marco Teórico MARCO TEÓRICO. AGNI GERMÁN ANDRACA GUTIERREZ

Marco Teórico MARCO TEÓRICO. AGNI GERMÁN ANDRACA GUTIERREZ MARCO TEÓRICO. 13 14 Virtualización Hablar de virtualización es hablar de un concepto que describe la posibilidad de tener varios sistemas operativos funcionando al mismo tiempo en un mismo equipo físico.

Más detalles

Redes de Almacenamiento

Redes de Almacenamiento Redes de Almacenamiento Las redes de respaldo o backend se utilizan para interconectar grandes sistemas tales como computadores centrales y dispositivos de almacenamiento masivo, el requisito principal

Más detalles

La Pirámide de Solución de TriActive TRICENTER

La Pirámide de Solución de TriActive TRICENTER Información sobre el Producto de TriActive: Página 1 Documento Informativo La Administración de Sistemas Hecha Simple La Pirámide de Solución de TriActive TRICENTER Información sobre las Soluciones de

Más detalles

Facultad de Ingeniería ISSN: 0121-1129 revista.ingenieria@uptc.edu.co. Universidad Pedagógica y Tecnológica de Colombia. Colombia

Facultad de Ingeniería ISSN: 0121-1129 revista.ingenieria@uptc.edu.co. Universidad Pedagógica y Tecnológica de Colombia. Colombia Facultad de Ingeniería ISSN: 0121-1129 revista.ingenieria@uptc.edu.co Universidad Pedagógica y Tecnológica de Colombia Colombia Amézquita-Mesa, Diego Germán; Amézquita-Becerra, Germán; Galindo-Parra, Omaira

Más detalles

Las computadoras analógicas no computan directamente, sino que perciben constantemente valores, señales o magnitudes físicas variadas.

Las computadoras analógicas no computan directamente, sino que perciben constantemente valores, señales o magnitudes físicas variadas. Clasificación de las computadoras Análoga: Las computadoras analógicas no computan directamente, sino que perciben constantemente valores, señales o magnitudes físicas variadas. Características de las

Más detalles

TEMA: PROTOCOLOS TCP/IP

TEMA: PROTOCOLOS TCP/IP TEMA: PROTOCOLOS TCP/IP HISTORIA: El Protocolo de Internet (IP) y el Protocolo de Transmisión (TCP), fueron desarrollados inicialmente en 1973 por el informático estadounidense Vinton Cerf como parte de

Más detalles

Los mayores cambios se dieron en las décadas de los setenta, atribuidos principalmente a dos causas:

Los mayores cambios se dieron en las décadas de los setenta, atribuidos principalmente a dos causas: SISTEMAS DISTRIBUIDOS DE REDES 1. SISTEMAS DISTRIBUIDOS Introducción y generalidades La computación desde sus inicios ha sufrido muchos cambios, desde los grandes equipos que permitían realizar tareas

Más detalles

Computación Tercer Año

Computación Tercer Año Colegio Bosque Del Plata Computación Tercer Año UNIDAD 3 Sistemas Operativos E-mail: garcia.fernando.j@gmail.com Profesor: Fernando J. Garcia Ingeniero en Sistemas de Información Sistemas Operativos Generaciones

Más detalles

Estructura de Bases de datos. Leonardo Víquez Acuña

Estructura de Bases de datos. Leonardo Víquez Acuña Estructura de Bases de datos Leonardo Víquez Acuña Lenguajes de Bases de Datos Un sistema de bases de datos proporciona Un lenguaje de definición de datos para especificar el esquema de la base de datos

Más detalles

CLUSTER FING: PARALELISMO de MEMORIA DISTRIBUIDA

CLUSTER FING: PARALELISMO de MEMORIA DISTRIBUIDA CLUSTER FING: PARALELISMO de MEMORIA DISTRIBUIDA SERGIO NESMACHNOW Centro de Cálculo, Instituto de Computación FACULTAD DE INGENIERÍA, UNIVERSIDAD DE LA REPÚBLICA, URUGUAY CONTENIDO Introducción: arquitecturas

Más detalles

Se podía cambiar o expandir una red como fuera necesario, simplemente conectando otra computadora u otro concentrador.

Se podía cambiar o expandir una red como fuera necesario, simplemente conectando otra computadora u otro concentrador. CAPÍTULO 4. DISEÑO FÍSICO Y LÓGICO 4.1 Equipo de telecomunicaciones La implementación del equipo de telecomunicaciones en el CENAM, inició en el año de 1995. Los concentradores se establecieron como el

Más detalles

Big data A través de una implementación

Big data A través de una implementación Big data A través de una implementación Lic. Diego Krauthamer Profesor Adjunto Interino del Área Base de Datos Universidad Abierta Interamericana Facultad de Tecnología Informática Buenos Aires. Argentina

Más detalles

TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIÓN PROFESOR: MSC. P. Norma Maya Pérez SISTEMAS OPERATIVOS

TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIÓN PROFESOR: MSC. P. Norma Maya Pérez SISTEMAS OPERATIVOS TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIÓN PROFESOR: MSC. P. Norma Maya Pérez SISTEMAS OPERATIVOS I. Fundamentos del sistema operativo. OBJETIVO: El alumno seleccionará un sistema operativo de acuerdo

Más detalles

Juan de Dios Murillo Morera e-mail: jmurillo@una.ac.cr Santiago Caamaño Polini e-mail: scaamano@costarricense.cr INTRODUCCIÓN

Juan de Dios Murillo Morera e-mail: jmurillo@una.ac.cr Santiago Caamaño Polini e-mail: scaamano@costarricense.cr INTRODUCCIÓN UNICIENCIA 24 pp. 83-89 2010 IMPLEMENTACIÓN DE UN SERVIDOR FTP UTILIZANDO EL MODELO CLIENTE/SERVIDOR MEDIANTE EL USO DE SOCKETS EN LENGUAJE C UNIX CON EL FIN DE MEJORAR LOS TIEMPOS DE RESPUESTA EN LA RED

Más detalles

MÁSTER ONLINE EN ADMINISTRACIÓN LINUX

MÁSTER ONLINE EN ADMINISTRACIÓN LINUX MÁSTER ONLINE EN ADMINISTRACIÓN LINUX Módulo 1 Hardware & Arquitectura de sistemas - 20 horas Este módulo permite conocer y configurar los elementos básicos del hardware del sistema, como también otros

Más detalles

Redes de Altas Prestaciones

Redes de Altas Prestaciones Redes de Altas Prestaciones TEMA 3 Tecnologías Soporte tolerante a fallos -Curso 2010 Redes de Altas Prestaciones - Indice Conceptos Topología en Alta Disponibilidad Tecnologías disponibles Tecnología

Más detalles

VISIÓN GENERAL HERRAMIENTAS COMERCIALES

VISIÓN GENERAL HERRAMIENTAS COMERCIALES VISIÓN GENERAL El servidor de MS SQL se ha convertido en un estándar en muchas partes de la América corporativa. Puede manejar volúmenes de datos grandes y se integra bien con otros productos de Microsoft.

Más detalles

computadoras que tienen este servicio instalado se pueden publicar páginas web tanto local como remotamente.

computadoras que tienen este servicio instalado se pueden publicar páginas web tanto local como remotamente. Investigar Qué es un IIS? Internet Information Services o IIS es un servidor web y un conjunto de servicios para el sistema operativo Microsoft Windows. Originalmente era parte del Option Pack para Windows

Más detalles

No se requiere que los discos sean del mismo tamaño ya que el objetivo es solamente adjuntar discos.

No se requiere que los discos sean del mismo tamaño ya que el objetivo es solamente adjuntar discos. RAIDS MODO LINEAL Es un tipo de raid que muestra lógicamente un disco pero se compone de 2 o más discos. Solamente llena el disco 0 y cuando este está lleno sigue con el disco 1 y así sucesivamente. Este

Más detalles

CAPÍTULO 3 3 DISEÑO DE UN MECANISMO DE DETECCIÓN DE TRÁFICO MALICIOSO PARA REDUNAM

CAPÍTULO 3 3 DISEÑO DE UN MECANISMO DE DETECCIÓN DE TRÁFICO MALICIOSO PARA REDUNAM CAPÍTULO 3 3 DISEÑO DE UN MECANISMO DE DETECCIÓN DE TRÁFICO MALICIOSO PARA REDUNAM 59 En este tercer capítulo se presenta el diseño de un mecanismo de detección de tráfico malicioso para RedUNAM. Abarca

Más detalles

Básico de Arquitectura del Computador. Ing. Irvin Cuervo

Básico de Arquitectura del Computador. Ing. Irvin Cuervo Básico de Arquitectura del Computador El Computador Hardware Software El Computador Qué es y qué hace un computador? Un computador es básicamente una máquina cuya función principal es procesar información.

Más detalles

Aranda 360 ENDPOINT SECURITY

Aranda 360 ENDPOINT SECURITY Tabla de contenido Product Architecture Product Architecture Introducción Ambiente Redesdetrabajo Configuraciones Políticas Servidores Componentes Agente Servidor Base de datos Consola Comunicación Consola

Más detalles

Sistemas de Operación II

Sistemas de Operación II Sistemas de Operación II Procesos en Sistemas Distribuidos Prof. Carlos Figueira Basado en material de Yudith Cardinale, Mariela Curiel (USB) Andrew Tanembaum y Marteen van Steen Contenido Clientes Servidores

Más detalles

FAMILIA EMC VPLEX. Disponibilidad continua y movilidad de datos en los centro de datos y entre ellos

FAMILIA EMC VPLEX. Disponibilidad continua y movilidad de datos en los centro de datos y entre ellos FAMILIA EMC VPLEX Disponibilidad continua y movilidad de datos en los centro de datos y entre ellos MOVILIDAD DE DATOS Y DISPONIBILIDAD CONTINUAS PARA APLICACIONES DE MISIÓN CRÍTICA La infraestructura

Más detalles

Utilizar los servicios de Index Service para buscar información de forma rápida y segura, ya sea localmente o en la red.

Utilizar los servicios de Index Service para buscar información de forma rápida y segura, ya sea localmente o en la red. Funciones de servidor La familia Windows Server 2003 ofrece varias funciones de servidor. Para configurar una función de servidor, instale dicha función mediante el Asistente para configurar su servidor;

Más detalles

Capítulo 1: Introducción

Capítulo 1: Introducción Capítulo 1: Introducción El presente trabajo se ubica en el área de administración de redes inalámbricas de computadoras y tiene como objetivo crear una propuesta de solución para permitir un manejo más

Más detalles

Que es el CopV? Todo esto y mucho más es posible si utiliza nuestro sistema CopV en la red de su empresa o negocio!!

Que es el CopV? Todo esto y mucho más es posible si utiliza nuestro sistema CopV en la red de su empresa o negocio!! Que es el CopV? El CopV es un software de monitoreo en Redes producido por nuestra empresa, usted puede monitorear desde cualquier PC las actividades de todas las demás computadoras de la red de su empresa

Más detalles

REDES DE COMPUTADORES I INFORME ESCRITORIO REMOTO

REDES DE COMPUTADORES I INFORME ESCRITORIO REMOTO REDES DE COMPUTADORES I INFORME ESCRITORIO REMOTO Nombres: Diego Carvajal R. Sebastian Valdes M. Ayudante: Evandry Ramos Profesor: Agustín J. González Fecha: 6 / 09 / 2013 1. Resumen: Este informe, se

Más detalles

CURSO: DESARROLLADOR PARA APACHE HADOOP

CURSO: DESARROLLADOR PARA APACHE HADOOP CURSO: DESARROLLADOR PARA APACHE HADOOP CAPÍTULO 3: HADOOP CONCEPTOS BÁSICOS www.formacionhadoop.com Índice 1 Introducción a Hadoop 1.1 Proyecto Hadoop 1.2 Conceptos de Hadoop 2 Cluster Hadoop 2.1 Demonios

Más detalles

Unidad 1 Discos Rígidos Sistemas de Archivos y Particiones.

Unidad 1 Discos Rígidos Sistemas de Archivos y Particiones. Unidad 1 Discos Rígidos Sistemas de Archivos y Particiones. Una unidad de disco rígido puede tener uno o más discos de aluminio llamados platos, que tienen sus dos lados recubiertos por una capa de cromo

Más detalles

Windows Server 2003. Windows Server 2003

Windows Server 2003. Windows Server 2003 Windows Server 2003 Windows Server 2003 Es un sistema operativo de la familia Windows de la marca Microsoft para servidores que salió al mercado en el año 2003. Está basada en tecnología NT y su versión

Más detalles

Arquitectura y seguridad

Arquitectura y seguridad En el desarrollo del SIGOB nos hemos enfrentado a diversos problemas que nos han llevado a investigar y desarrollar nuestras propias tecnologías. En este documento presentamos cada uno de los desarrollos

Más detalles

INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2

INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2 Programa de Capacitación y Certificación. INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2 Contenido PERFIL DE UN ESPECIALISTA EN BASES DE DATOS.... 3 6231. MANTENIENDO UNA BASE DE DATOS DE SQL SERVER 2008

Más detalles

desarrollo. Dentro del desarrollo de la tesis el proceso de modelado del sistema fue hecho con el

desarrollo. Dentro del desarrollo de la tesis el proceso de modelado del sistema fue hecho con el Capitulo II. Análisis de herramientas y tecnologías de desarrollo. Dentro del desarrollo de la tesis el proceso de modelado del sistema fue hecho con el lenguaje de Modelo de Objetos llamado UML (Unified

Más detalles

RODRIGO TAPIA SANTIS (rtapiasantis@gmail com) has a. non-transferable license to use this Student Guide

RODRIGO TAPIA SANTIS (rtapiasantis@gmail com) has a. non-transferable license to use this Student Guide Introducción Objetivos del Curso Al finalizar este curso, debería estar capacitado para: Instalar, crear y administrar Oracle Database 11g Versión 2 Configurar la base de datos para una aplicación Utilizar

Más detalles

Pruebas y Resultados PRUEBAS Y RESULTADOS AGNI GERMÁN ANDRACA GUTIERREZ

Pruebas y Resultados PRUEBAS Y RESULTADOS AGNI GERMÁN ANDRACA GUTIERREZ PRUEBAS Y RESULTADOS 57 58 Introducción. De la mano la modernización tecnológica que permitiera la agilización y simplificación de la administración de los recursos con los que actualmente se contaban

Más detalles

Petabytes de información: Repensando el modelamiento de base de datos. Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006 2008

Petabytes de información: Repensando el modelamiento de base de datos. Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006 2008 Petabytes de información: Repensando el modelamiento de base de datos Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006 2008 Modelos de bases de datos para todos los gustos (según la

Más detalles

Desarrollo Informático del SIGOB

Desarrollo Informático del SIGOB Desarrollo Informático del SIGOB Los soportes informáticos del Sistema de Información y Gestión para la Gobernabilidad (SIGOB) utilizan productos de tecnología avanzada, que permite la rápida incorporación

Más detalles

TEMA 1: VISIÓN GENERAL DE LOS SISTEMAS OPERATIVOS

TEMA 1: VISIÓN GENERAL DE LOS SISTEMAS OPERATIVOS TEMA 1: VISIÓN GENERAL DE LOS SISTEMAS OPERATIVOS 1. Concepto de Sistema Operativo. Funciones Un sistema operativo (S.O.) es un programa o conjunto de programas de control que tiene por objeto facilitar

Más detalles

SISTEMAS DE INFORMACIÓN II TEORÍA

SISTEMAS DE INFORMACIÓN II TEORÍA CONTENIDO: EL PROCESO DE DISEÑO DE SISTEMAS DISTRIBUIDOS MANEJANDO LOS DATOS EN LOS SISTEMAS DISTRIBUIDOS DISEÑANDO SISTEMAS PARA REDES DE ÁREA LOCAL DISEÑANDO SISTEMAS PARA ARQUITECTURAS CLIENTE/SERVIDOR

Más detalles

Evaluación de la Plataforma de Almacenamiento de Información de Múltiples Protocolos Celerra NS20 de EMC

Evaluación de la Plataforma de Almacenamiento de Información de Múltiples Protocolos Celerra NS20 de EMC Evaluación de la Plataforma de Almacenamiento de Información de Múltiples Protocolos Celerra NS20 de EMC Informe elaborado bajo contrato con EMC Corporation Introducción EMC Corporation contrató a Demartek

Más detalles

INFRAESTRUCTURA DE SERVIDORES MICROSOFT

INFRAESTRUCTURA DE SERVIDORES MICROSOFT INFRAESTRUCTURA DE SERVIDORES MICROSOFT TABLA DE CONTENIDO INTRODUCCION... 3 ESTRUCTURA PROGRAMATICA... 4 TEMA 1: ADMINISTRACION, SOPORTE Y MANTENIMIENTO DE WINDOWS SERVER 2008... 4 Preparar la administración

Más detalles

Familia de Windows Server 2003

Familia de Windows Server 2003 Familia de Windows Server 2003 Windows Server 2003 está disponible en cuatro ediciones. Cada edición se ha desarrollado para una función de servidor específica, como se describe en la tabla siguiente:

Más detalles

CAPÍTULO 4 ANÁLISIS DE IMPLEMENTACIONES

CAPÍTULO 4 ANÁLISIS DE IMPLEMENTACIONES CAPÍTULO 4 ANÁLISIS DE IMPLEMENTACIONES En el anterior capítulo se realizaron implementaciones en una red de datos para los protocolos de autenticación Kerberos, Radius y LDAP bajo las plataformas Windows

Más detalles

CAPÍTULO I. INTRODUCCIÓN

CAPÍTULO I. INTRODUCCIÓN CAPÍTULO I. INTRODUCCIÓN 1.1 Estado del arte del monitoreo de redes de computadoras. La palabra monitoreo no tiene una definición exacta, pero en el contexto computacional ha adquirido un auge muy grande,

Más detalles

Definición arquitectura cliente servidor

Definición arquitectura cliente servidor www.monografias.com Definición arquitectura cliente servidor 1. Introducción 2. Elementos principales 3. En resumen 4. Algunos antecedentes, Por qué fue creado? 5. Evolución de la arquitectura cliente

Más detalles

TCP/IP. IRI 2 do cuatrimestre 2015

TCP/IP. IRI 2 do cuatrimestre 2015 TCP/IP IRI 2 do cuatrimestre 2015 Redes y Protocolos Una red es un conjunto de computadoras o dispositivos que pueden comunicarse a través de un medio de transmisión en una red. Los pedidos y datos de

Más detalles

XII Encuentro Danysoft en Microsoft Abril 2015. Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código

XII Encuentro Danysoft en Microsoft Abril 2015. Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código Ana María Bisbé York Servicios Profesionales sp@danysoft.com 916 638683 www.danysoft.com Abril 2015 Sala 1 SQL Server

Más detalles

Tema 1. Conceptos básicos

Tema 1. Conceptos básicos Conceptos básicos Sistema de Gestión de Bases de Datos, SGBD (DBMS, Database Management System): software diseñado específicamente para el mantenimiento y la explotación de grandes conjuntos de datos 1

Más detalles

- Telnet, Rlogin, SSH - X-Terminal - Escritorio remoto VNC - Terminal Server - Acceso remoto mediante interfaz web

- Telnet, Rlogin, SSH - X-Terminal - Escritorio remoto VNC - Terminal Server - Acceso remoto mediante interfaz web - Telnet, Rlogin, SSH - X-Terminal - Escritorio remoto VNC - Terminal Server - Acceso remoto mediante interfaz web Los Servicios de Escritorio Remoto (del inglés Remote Desktop Services), antiguamente

Más detalles

Concepto de Procesamiento Distribuido y Centralizado

Concepto de Procesamiento Distribuido y Centralizado Concepto de Procesamiento Distribuido y Centralizado Procesamiento Centralizado: En la década de los años 50 s las computadoras eran máquinas del tamaño de todo un cuarto con las siguientes características:

Más detalles

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica Fundamentos Título de de Big la Data presentación utilizando MATLAB Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica 1 Agenda Qué es Big Data? Buenas prácticas en el manejo de memoria.

Más detalles

Unidad didáctica 2: Metodologías de desarrollo de Bases de Datos. Unidad didáctica 1: Fase de análisis de requisitos Modelo E/R

Unidad didáctica 2: Metodologías de desarrollo de Bases de Datos. Unidad didáctica 1: Fase de análisis de requisitos Modelo E/R índice Módulo A Unidad didáctica 1: Introducción a las Bases de Datos Unidad didáctica 2: Metodologías de desarrollo de Bases de Datos 3 19 Módulo B Unidad didáctica 1: Fase de análisis de requisitos Modelo

Más detalles

Sistemas Operativos de Red

Sistemas Operativos de Red Sistemas Operativos de Red Como ya se sabe las computadoras están compuestas físicamente por diversos componentes que les permiten interactuar mas fácilmente con sus operarios y hasta comunicarse con otras

Más detalles

Modelo TCP/IP. Página 1. Modelo TCP/IP

Modelo TCP/IP. Página 1. Modelo TCP/IP Modelo TCP/IP Página 1 Índice: Página 1.-Introducción 3 2.-Arquitectura TCP/IP 3 3.-Protocolo IP 8 4.-Direccionamiento IP 9 5.-Otros Protocolos de la capa de Red. 12 6.-Ejercicios 13 7.-Protocolos de resolución

Más detalles

Soluciones innovadoras para optimizar su infraestructura TI. Virtualización con el sistema operativo i, PowerVM y Power Systems de IBM

Soluciones innovadoras para optimizar su infraestructura TI. Virtualización con el sistema operativo i, PowerVM y Power Systems de IBM Soluciones innovadoras para optimizar su infraestructura TI Virtualización con el sistema operativo i, PowerVM y Power Systems de IBM Características principales Tenga éxito en su negocio simplemente con

Más detalles

MineSight y la Tecnología Informática de última Generación

MineSight y la Tecnología Informática de última Generación MineSight y la Tecnología Informática de última Generación Así como se ha modificado la tecnología en el escritorio y en las estaciones de trabajo de los últimos años, del mismo modo ha ido variando el

Más detalles

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE PRUEBAS DE SOFTWARE La prueba del software es un elemento crítico para la garantía de la calidad del software. El objetivo de la etapa de pruebas es garantizar la calidad del producto desarrollado. Además,

Más detalles

DIPLOMADO DE INFRAESTRUCTURA DE SERVIDORES MICROSOFT

DIPLOMADO DE INFRAESTRUCTURA DE SERVIDORES MICROSOFT DIPLOMADO DE INFRAESTRUCTURA DE SERVIDORES MICROSOFT TABLA DE CONTENIDO INTRODUCCION... 3 ESTRUCTURA DEL DIPLOMADO... 4 TEMA 1: ADMINISTRACION, SOPORTE Y MANTENIMIENTO DE WINDOWS SERVER 2012... 4 Preparar

Más detalles

Entidad Formadora: Plan Local De Formación Convocatoria 2010

Entidad Formadora: Plan Local De Formación Convocatoria 2010 Entidad Formadora: Enterprise Architect Comenzando Puede iniciar Enterprise Architect desde el ícono que se creó en su escritorio de Windows durante la instalación, o alternativamente: 1. Abrir el menú

Más detalles

Técnico Profesional en Informática (IT Professional )

Técnico Profesional en Informática (IT Professional ) Técnico Profesional en Informática (IT Professional ) Objetivo : Introducir los estudiantes en las tecnologías de la información, y los prepara para construir y administrar una red de comunicación local

Más detalles

Gestión de energía Solución integrada basada en la Web para el control de aplicaciones de energía convencional distribuida Modelo Em 2 -Server

Gestión de energía Solución integrada basada en la Web para el control de aplicaciones de energía convencional distribuida Modelo Em 2 -Server Gestión de energía Solución integrada basada en la Web para el control de aplicaciones de energía convencional distribuida Modelo Em 2 -Server Solución software con base de datos incorporada y servidor

Más detalles

Global File System (GFS)...

Global File System (GFS)... Global File System (GFS)... Diferente a los sistemas de ficheros en red que hemos visto, ya que permite que todos los nodos tengan acceso concurrente a los bloques de almacenamiento compartido (a través

Más detalles

ENCUENTA - CONTABILIDAD Net. Definiciones generales

ENCUENTA - CONTABILIDAD Net. Definiciones generales ENCUENTA - CONTABILIDAD Net Definiciones generales 2013 ENCUENTA - CONTABILIDAD Net Definiciones generales Contenido 1 GENERALIDADES... 3 2 DISTRIBUCIÓN GENERAL DE LOS ELEMENTOS DEL SISTEMA... 3 3 REQUERIMIENTOS...

Más detalles

SISTEMAS DE ARCHIVOS DISTRIBUIDOS

SISTEMAS DE ARCHIVOS DISTRIBUIDOS SISTEMAS DE ARCHIVOS DISTRIBUIDOS Tema # VII Sistemas de operación II Abril-Julio 2008 Yudith Cardinale Introducción Requisitos Aspectos de Diseño Servicios de archivos Servicios de directorios Módulo

Más detalles

Modulo I. Introducción a la Programación Web. 1.1 Servidor Web.

Modulo I. Introducción a la Programación Web. 1.1 Servidor Web. Modulo I. Introducción a la Programación Web. 1.1 Servidor Web. Antes de analizar lo que es un servidor Web y llevara a cabo su instalación, es muy importante identificar diferentes elementos involucrados

Más detalles

Solución empresarial Hadoop de EMC. NAS de escalamiento horizontal Isilon y Greenplum HD

Solución empresarial Hadoop de EMC. NAS de escalamiento horizontal Isilon y Greenplum HD Informe técnico Solución empresarial Hadoop de EMC NAS de escalamiento horizontal Isilon y Greenplum HD Por Julie Lockner, analista ejecutivo, y Terri McClure, analista ejecutivo Febrero de 2012 Este Informe

Más detalles

UNIVERSIDAD DE LOS ANDES FACULTAD DE CIENCIAS ECONOMICAS Y SOCIALES. PROF. ISRAEL J. RAMIREZ israel@ula.ve

UNIVERSIDAD DE LOS ANDES FACULTAD DE CIENCIAS ECONOMICAS Y SOCIALES. PROF. ISRAEL J. RAMIREZ israel@ula.ve UNIVERSIDAD DE LOS ANDES FACULTAD DE CIENCIAS ECONOMICAS Y SOCIALES PROF. ISRAEL J. RAMIREZ israel@ula.ve UNIVERSIDAD DE LOS ANDES FACULTAD DE CIENCIAS ECONOMICAS Y SOCIALES LOS SISTEMAS OPERATIVOS 1.-

Más detalles

4.1. Introducción. 4.2.1. Servicios de Dominio del Directorio Activo

4.1. Introducción. 4.2.1. Servicios de Dominio del Directorio Activo 4.1. Introducción 4.1. Introducción Este capítulo introduce los conceptos fundamentales sobre dominios Windows Server 2008, que permiten unificar y centralizar la administración de conjuntos de sistemas

Más detalles

APPLE: Compañía de informática que creó Macintosh. Fue fundada por Steve Jobs.

APPLE: Compañía de informática que creó Macintosh. Fue fundada por Steve Jobs. Gobierno Electrónico GLOSARIO DE TÉRMINOS 110 A APPLE: Compañía de informática que creó Macintosh. Fue fundada por Steve Jobs. Arquitectura de Sistemas: Es una descripción del diseño y contenido de un

Más detalles