Sistemas Paralelos y Distribuidos

Sistemas Paralelos y Distribuidos Facultad de Cs. de la Computación Juan Carlos Conde Ramírez Distributed Computing

Contenido 1 Características 2 Buenas prácticas 3 Procesos y Tareas 4 Procesos en UNIX 1 / 34

Introducción Como se recordará, el uso de memoria compartida es la base para distinguir un sistema paralelo de un sistema distribuido. Es decir, un sistema distribuidor se caracteriza por la ausencia de memoria compartida. Por lo tanto, en un sistema distribuido es imposible conocer el estado global del sistema (para cualquier procesador). En consecuencia es complicado observar cualquier propiedad global del sistema. 3 / 34

Acoplamiento I Tanto un sistema distribuido como un sistema paralelo pueden ser fuertemente acoplado o débilmente acoplado. Esto depende de la manera en que colaboran los múltiples procesadores. 4 / 34

Acoplamiento II Esto hace importante tener que hacer las siguientes consideraciones: La ausencia de un reloj compartido deriva en un sistema débilmente acoplado. Lógicamente para un sistema geográcamente distribuido es mucho más difícil, por no decir imposible, sincronizar los relojes de diferentes procesadores. 5 / 34

Acoplamiento III El retraso o delay de la comunicación entre procesadores es la razón principal de que sea imposible sincronizar los relojes de los procesadores que integran un sistema distribuido. En base a lo anterior, es comprensible que se tenga que prescindir del uso de relojes físicos para la sincronización de sistemas distribuidos. Pese a que en un sistema paralelo es posible simular un reloj compartido, rara vez es buena idea diseñar un sistema basado en una arquitectura fuertemente acoplada. 6 / 34

Acoplamiento IV Debido a la perdida de rendimiento durante la sincronización, elegir una arquitectura débilmente acoplada es una mejor opción. Por lo tanto, asumiremos que los sistemas con los que trataremos a partir de ahora son débilmente acoplados. 7 / 34

Sincronización Def. Sincronización (del griego (syn) -> unido y (chrónos) -> tiempo), describe el ajuste temporal de eventos. Se habla de sincronización cuando determinados fenómenos ocurran en un orden predenido o a la vez. 8 / 34

Clasicación Los sistemas distribuidos pueden ser clasicados como: Sistemas Síncronos Sistemas Asíncronos 9 / 34

Sistemas Asíncronos I Un sistema distribuido es asíncrono si no existe límite superior en el tiempo de comunicación de los mensajes. La asincronía conduce hacía las soluciones más generales para varios problemas. Sin embargo, las cosas se tornan difíciles en sistemas asíncronos cuando los procesadores o las conexiones fallan. 10 / 34

Sistemas Asíncronos II En un sistema distribuido asíncrono es imposible distinguir entre un procesador lento y uno que ha fallado. Esto conduce a complicaciones en el desarrollo de algoritmos para consenso, elección y otros problemas importantes del cómputo distribuido. 11 / 34

Conceptos Los resultados de muchos sistemas paralelos y distribuidos han demostrado que su diseño debe considerar principalmente cuatro propiedades: 1. Tolerancia a fallos 2. Transparencia 3. Flexibilidad 4. Escalabilidad 13 / 34

Tolerancia a fallos El software debe de enmascara uno o más componentes del sistema incluyendo: - procesadores - memoria - conexiones de red. Generalmente esto requiere redundancia, la cual puede ser costosa dependiendo del grado de tolerancia. Por lo tanto, se requiere de un análisis costo-benecio para determinar un nivel apropiado de tolerancia a fallos. 14 / 34

Transparencia I Para que un sistema sea tan amigable como sea posible, se requiere que el usuario no tenga que tratar con detalles innecesarios. Por ejemplo: en un sistema distribuido heterogéneo, la diferencia en la representación interna de los datos se oculta para el usuario, esto corresponde a transparencia de acceso. 15 / 34

Transparencia II Para que un usuario pueda utilizar un recurso: No se requiere que el usuario sepa donde está localizado -Transparencia de localización. No se requiere que el usuario sepa si está replicado -Transparencia de replicación. No se requiere que el usuario sepa si está compartido -Transparencia de concurrencia. No se requiere que el usuario sepa si está almacenado en memoria volátil o en disco duro -Transparencia de persistencia. 16 / 34

Flexibilidad La Flexibilidad de un sistema radica en la facilidad para interactuar con otros servicios y sistemas. Para lograr una una buena interacción se requiere que el sistema adopte un conjunto jo de reglas, preferiblemente un estándar. Esto se puede facilitar a través de: 1. Una Lenguaje de Denición de Interfaz (IDL) que especica los servicios proporcionados por el sistema. 2. Separar la conguración (o política) del mecanismo. 17 / 34

IDL: Interface Description Language También llamado lenguaje de denición de interfaz es un lenguaje informático utilizado para describir la interfaz de componentes del software. Describe una interfaz en un lenguaje neutral, que permite la comunicación entre componentes de software desarrollados en diferentes lenguajes de programación y para diferentes plataformas, como por ejemplo entre componentes escritos en C++ y otros escritas en Java. Son utilizadas con frecuencia en software con llamadas a procedimientos remotos (RPC, Remote Procedure Call). IDL ofrece un puente entre dos sistemas diferentes. Algunos lenguajes de descripción o de denición de interfaz son: IDL specication language, el IDL original. Microsoft Interface Denition Language (MIDL). Open Service Interface Denitions. Platform-Independent Component Modeling Language. WSDL, lenguaje de descripción de servicios web. 18 / 34

Escalabilidad La Escalabilidad es una propiedad importante si se piensa en rendimiento del sistema cuando el número de usuarios o recursos se incremente. Por lo general, un sistema puede ser completamente descentralizado; usando algoritmos distribuidos, como parcialmente descentralizado; usando una jerarquía de servidores. 19 / 34

Origenes Se puede decir que los problemas de Concurrencia surgen incluso en computadoras con un sólo CPU, ya que el sistema puede estar organizado como una colección de procesos que cooperan entre sí. De hecho, los tópicos de Sincronización e Interbloqueo (deadlock) tienen sus raíces en el desarrollo de los primeros Sistemas Operativos. No obstante, antes de profundizar en la construcción de la programación concurrente es necesario comprender la diferencia entre programa y proceso. 21 / 34

Procesos I Programa de computadora.- Se trata de un conjunto de instrucciones escritas en un lenguaje de alto nivel o en lenguaje de máquina. Proceso.- Se obtiene al ejecutar un programa y es entonces que es posible obtener uno o más procesos. programa secuencial = un proceso programa concurrente = múltiples procesos 22 / 34

Procesos II Un proceso consiste de tres segmentos en memoria: 1. Código 2. Datos 3. Pila de ejecución. El CÓDIGO es la máquina de instrucciones. Los DATOS corresponden a la memoria ocupada por variables globales y memoria asignada en tiempo de ejecución (heap) usada por el programa. La PILA se compone de variables locales y registros de activación para las llamadas a función. 23 / 34

Procesos III Dado que cada proceso tiene su propia pila, cuando varios procesos comparten el espacio de direcciones (memoria), o sea código y datos, se conocen como procesos ligeros o hilos. 24 / 34

Procesos IV Cuando varios procesos tienen su propio código y sus propios datos se conocen como procesos pesados o simplemente procesos. En este caso, los procesos pesados pueden compartir datos a través de archivos o enviando mensajes explícitos a cada otro. Lenguaje Cualquier lenguaje de programación que soporte concurrencia debe tener una forma de especicar: La estructura de un proceso. La comunicación entre varios procesos. La sincronización de cada proceso. 25 / 34

Organización Durante el curso se estudiaran las formas más populares para que un programa especique la estructura de un proceso o la creación de nuevos procesos. Un caso fundamental es la creación de procesos en sistemas basados en UNIX. Los procesos son organizados en forma de un árbol de procesos donde cada proceso se identica con un Identicador de Proceso que es único (PID). UNIX proporciona llamadas a sistema de tipo: bifurcación (fork) para la creación de procesos ligeros. de espera (wait) para la sincronización de procesos ligeros. 27 / 34

Llamada a sistema fork Cuando un proceso realiza un llamado de tipo fork se crea un proceso hijo con una copia del espacio de direcciones del proceso padre. La única diferencia entre el proceso padre y el hijo es el valor de retorno que se obtiene a partir del código para el fork. El proceso padre obtiene el PID del proceso hijo así como el código de retorno, y el proceso hijo se identica con el valor 0 como se muestra en el siguiente código. 28 / 34

Llamadas a sistema fork ejemplo pid = fork(); if( pid == 0 ) { // child process cout child process; } else { // parent process cout parent process; } 29 / 34

Llamada a sistema wait La llamada a wait es usada por el proceso padre para esperar la nalización del proceso hijo. Un proceso termina cuando se ejecuta la última instrucción del código o cuando se hace una llamada explícita a la función exit perteneciente al sistema. Cuando un proceso hijo termina, el proceso padre despierta si estaba esperando, y el PID del proceso hijo es retornado por la llamada wait. De esta forma el proceso padre puede determinar cuál de sus hijos ha terminado. 30 / 34

Lanzamiento paralelo de procesos I Otro tipo de programación para lanzar tareas paralelas es posible a través de la sentencias cobegin-coend (también llamadas parbegin-parend). Su sintaxis es como sigue: cobegin S 1 S 2 coend Esta tipo de construcción signica que S 1 y S 2 deben ejecutarse en paralelo. Además si alguno de los procesos termina antes, este debe esperar a que termine el otro. 31 / 34

Lanzamiento paralelo de procesos II Combinando las sentencias cobegin-coend con la secuenciación u operador de series ';' es posible crear cualquier cantidad de tareas con estructura en serieparalela. S 0; cobegin S 1 S 2 coend; S 3 se comienza con un proceso que ejecuta S 0. Cuando S 0 termina se tienen dos procesos (o hilos) S 1 y S 2 que se ejecutan en paralelo. Cuando ambos procesos terminan, sólo resta ejecutar S 3. 32 / 34

ACTIVIDAD: Ejercicios 1. Dar las ventajas y desventajas de un modelo de programación paralela contra un modelo de sistema distribuido (basado en mensajes). 2. Codica una clase en Java que permita la búsqueda paralela en un arreglo de enteros. Se proporciona el siguiente método estático: public static int parallelsearch( int x, int A[], int numthreads ) {... } Éste método crea tantos hilos como especiqué el parámetro numthreads, divide el arreglo A entre el número de hilos, se le asigna una parte del arreglo a cada hilo para que busque x de forma secuencial. Si algún hilo encuentra x, entonces éste retorna un índice i tal que A[i] = x. En otro caso, el método retorna -1. * Presentar tarea escrita a mano en la libreta y en limpio. ** La comprobación del código en JAVA deberá presentarse en computadora. 33 / 34

El único lugar en el que Éxito viene antes que Trabajo es en el diccionario [Vidal Sassoon] Juan Carlos Conde Ramírez juanc.conde@cs.buap.mx 34 / 34