MÉTODO DE CLÚSTER HÍBRIDO PARA LA SINTETIZACIÓN DE DATOS EN LA INDUSTRIA AUTOMOTRIZ UTILIZANDO

Transcripción

1 MÉTODO DE CLÚSTER HÍBRIDO PARA LA SINTETIZACIÓN DE DATOS EN LA INDUSTRIA AUTOMOTRIZ UTILIZANDO GPU S EN UNA DISERTACIÓN DE LA UNIVERSIDAD DE GUADALAJARA COMPLECIÓN PARCIAL DE LOS REQUERIMIENTOS PARA EL GRADO DE MAESTRO EN CIENCIAS Edgar León Sandoval Noviembre 2012

2 Abstracto El avance de la tecnología supone un aumento en la cantidad de información a tratar. Particularmente, en el proyecto Smarter Cities de IBM c, es necesario el procesado de grandes cantidades de información. Con esta necesidad, también surge la necesidad de contar con algoritmos capaces de tomar tal tamaño de datos, así como ser capaces de aprovechar las tecnologías existentes y sacarles el máximo provecho a las mismas. Este trabajo explora uno de estos algoritmos, los árboles de decisiones, y la forma de optimizarlo para obtener un alto rendimiento en el manejo de datos. iv

3 Índice general Abstracto IV 1. Introducción Planteamiento del problema Objetivos Hipótesis Alcance Estado del arte Aprendizaje de maquina Árboles de decisión Entropía de Shannon Paralelización con CPUs Paralelismo Implícito Modelo de comunicación de plataformas paralelas Redes de interconexión para computadores paralelos Topologías de red Arreglos lineales, mallas y mallas k-dimensionales Redes basadas en árboles Paralelización con GPUs El modelo CPU / GPU simplificado GPUs integrados Multiples GPUs v

4 Espacio de direcciones en CUDA Interacciones entre el CPU y el GPU La interfaz del anfitrión y sincronización intra-gpu Arquitectura de los GPUs Panorama Multiprocesadores de flujo (SMs) Memoria El modelo de programación CUDA Metodología Arquitectura Descripción del algoritmo Alcance de la implementación Descripción del algoritmo Descripción del prototipo Código original Optimizaciones realizadas Código fuente optimizado Resultados Conclusiones 58 Bibliografía 59 vi

5 Índice de cuadros vii

6 Índice de figuras 2.1. Árbol de decisión para clasificar frutas [26] Ejemplo de Pipeline con dos tareas [14] Arquitectura SIMD (a) y MIMD (b) típica[14] Clasificación de redes de interconexión [14] Interconexión de bus con (a)sin cache local y (b) con cache local[14] Red cruzada conectando p nodos de procesamiento con b bancos de memoria [14] Red de interconexión multietapas[14] Barajeo perfecto para ocho entradas y salidas[14] Red omega completa conectando ocho entradas y salidas[14] Diagrama de flujo del recorrido de una red omega (a)red completamente conectada de ocho nodos, (b)red de conexióm en estrella de nueve nodos[14] (a)arreglo lineal simple, (b)conexión en anillo[14] (a)malla bidimensional, (b)malla bidimensional en anillo, (c) malla tridimensional[14] Ejemplo de hipercubos[16] Red completa de árbol binario, (a) estática y (b) dinámica [14] Árbol gordo con 16 nodos de procesamiento[14] Arquitectura CPU GPU sencilla GPU Integrado GPU integrado con GPUs discretos GPUs en diferentes ranuras viii

7 2.21. Espacio de direcciones sencillo de 16 bits[31] Espacio de direcciones virtual.[31] Memoria del anfitrión clavada Buffer de comandos Arquitectura CPU GPU sencilla Multiprocesador de flujo de la familia Tesla[14] Multiprocesador de flujo de la familia Fermi[14] Interfaz física de CUDA[9] Modelo de programación de CUDA[9] ix

8 Capítulo 1 Introducción El proyecto Smarter Cities de IBM c, supone un reto desde diferentes puntos de vista. Por una parte esta el problema de la obtención de datos, por otra, el procesado de esos datos, y por otra, las decisiones que se toman a partir de dicho procesado. En este trabajo nos concentraremos en una parte del procesado de datos. El procesado de datos puede realizarse de muchas maneras diferentes, con muchos algoritmos y muchas técnicas de división de datos, por lo que en este trabajo solamente nos concentraremos en uno de estos algoritmos, los árboles de decisión. Los árboles de decisión son un algoritmo clasificador supervisado de datos, es decir, nosotros le damos un conjunto de datos con cierta clasificación hecha, y a partir de esta, el algoritmo. a prende. a clasificar nuevas observaciones. La manera de hacer esto es mediante la construcción de un árbol binario de decisiones, con el cual es posible apreciar las relaciones causales que nos llevan a cierta clasificación. Hacer esto una tarea intensiva en cuanto a recursos computacionales, puesto que para la construcción de estos árboles se analizan diferentes combinaciones de datos, para después obtener la combinación que mejor se ajusta o, mejor dicho, que mejor separa tu conjunto de datos. Como este proceso es similar, cambiando únicamente la combinación de datos, podemos paralelizarlo fácilmente utilizando GPUs (Graphics Processor Units). Una ventaja de este algoritmo es que es posible hacer análisis parciales, es decir, podemos dividir nuestros datos en diferentes subconjuntos para después analizar sus 1

9 CAPÍTULO 1. INTRODUCCIÓN 2 resultados. Además de esta división, una ves que obtenemos el árbol de decisión podemos realizar clasificaciones de manera sencilla dado que esto se reduce a una simple navegación en un árbol binario Planteamiento del problema Cuando se cuenta con una gran cantidad de datos sobre algún tema en particular, se vuelve difícil el tratamiento y análisis de los mismos. Técnicas convencionales para el tratamiento de datos muestran ser insuficientes, sobre todo si se considera el tiempo de cómputo que toma procesar los datos. Entonces es necesario algún método para el tratamiento de datos que reúna las características siguientes: Entregar resultados en un tiempo razonable, Ser capaz de manejar grandes cantidades de datos, Ser capaz de realizar clasificaciones, es decir, aprender de los datos almacenados, Actualizar su aprendizaje con el nuevo conocimiento recopilado Objetivos El objetivo principal es mejorar un clasificador de datos utilizando GPUs (Graphics Processor Unit), para su utilización en el análisis de datos sobre el trafico. Para alcanzar este objetivo se proponen los siguientes objetivos particulares. Evaluar y analizar un método de clasificación de datos, el árbol de decisión. Optimizar dicho método utilizando GPUs, mejorando así su tiempo de computo y minimizando los recursos necesarios. Evaluar y analizar el método optimizado, para comparar sus rendimientos y ganancias.

10 CAPÍTULO 1. INTRODUCCIÓN Hipótesis Es posible mejorar el rendimiento de los clasificadores de datos, comparado con una implementación clásica usando simplemente CPUs, si utilizamos GPUs en algunas funciones de tratamientos de datos, tanto en recursos de computación como en tiempo de procesado Alcance

11 Capítulo 2 Estado del arte En este capitulo se introducen los conocimientos teóricos necesarios para el entendimiento de este trabajo. Primero se comienza hablando del algoritmo a tratar, es decir, de los árboles de decisión y de aprendizaje de maquina en general. Después se pasa a trabajar con algo de la teoría de la información, en particular de la entropía, y se finaliza con la paralelización, tanto en GPUs (Graphics Processor Units) como con CPUs (Central Processor Unit). Dentro de los GPUs también se toca una metodología de desarrollo que combina la flexibilidad de la programación de alto nivel con la capacidad de lenguajes de bajo nivel Aprendizaje de maquina En la mayoría de los casos, el conocimiento no es obvio mirando simplemente a los datos crudos. El aprendizaje de maquina es convertir esos datos en información [10]. El aprendizaje de maquina se encuentra en una intersección entre la ciencia computacional, la ingeniería, y la estadística, aunque muchas veces aparece también dentro de otras disciplinas. Esta es una herramienta que puede ser aplicada a una enorme cantidad de problemas y aplicaciones. Cualquier campo que necesite interpretar datos, y tomar decisiones en base a ello, se puede beneficiar del aprendizaje de maquina. El aprendizaje de maquina usa estadística. Se utiliza la estadística porque el aprendizaje de maquina ataca problemas no deterministas, y estos inherentemente 4

12 CAPÍTULO 2. ESTADO DEL ARTE 5 aceptan un porcentaje de error, es decir, no es necesario estar en lo correcto todo el tiempo. Por ejemplo, en las ciencias sociales, estar correcto el 60 % del tiempo es considerado exitoso. El aprendizaje de maquina toma diferentes tareas. Una de esas tareas es la clasificación. En la clasificación, nuestro trabajo es decidir a que clase pertenece una observación [10]. Otra tarea es la regresión. La regresión es la predicción de un valor numérico. Ambas tareas perteneces al aprendizaje supervisado, y es llamado así porque le estamos diciendo al algoritmo que predecir. Así como tenemos tareas en el aprendizaje supervisado, también existe el aprendizaje no supervisado. En este aprendizaje, no hay etiquetas o valores objetivos para nuestros datos. Una tarea donde agrupamos datos similares es conocida como clusterización. También puede que queramos encontrar valores numéricos que describan nuestros datos, esta tarea es llamada estimación de densidad. Otra tarea puede ser la reducción de datos a un número reducido de variables, para que pueda ser visualizada apropiadamente en dos o tres dimensiones [10]. Los árboles de decisión, que serán estudiados a continuación, pertenecen al aprendizaje no supervisado. Son un algoritmo para encontrar clusters de datos Árboles de decisión Los arboles de decisión son un algoritmo perteneciente a la rama de aprendizaje de máquina supervisado. El objetivo de estos es descubrir relaciones causales dentro de un conjunto de datos. Los arboles de decisión son altamente utilizados porque son unos de los métodos de aprendizaje de máquina más sencillos de implementar. Son un método completamente transparente para clasificar observaciones, que, después de ser entrenados, parecen ser una serie de sentencias si-entonces mostradas en forma de grafó dirigido, también concido como un árbol (figura 2.1). Una vez que cuentas con el árbol de decisión, es fácil observar como se realizan las decisiones, simplemente debes de seguir los caminos que te guíen a las respuestas y preguntas hechas, de esta forma llegaras a una respuesta. Es importante notar que para el uso de estos algoritmos, se debe de tener ya una base de datos llena, un cuerpo

13 CAPÍTULO 2. ESTADO DEL ARTE 6 Figura 2.1: Árbol de decisión para clasificar frutas [26]. de entrenamiento a partir del cual se analizaran sus relaciones causales. Debido a esto, los resultados dependen enormemente del cuerpo dado, por lo que este debe de ser homogéneo, equiprobable y representativo de la población a estudiar. El algoritmo a utilizar es llamado CART (Classification and Regression Trees). Para construir el árbol de decisión, primero el algoritmo construye un elemento raííz. Se considera el cuerpo de entrenamiento, se escoge la mejor variable para dividir los datos. Para hacer esto, se ven todas las variables y se decide cual de ellas separa los resultados de forma que explique mejor el comportamiento del sistema. Para seleccionar con cual variable se va a separar el cuerpo de entrenamiento, se puede ver a la función Impuridad Gini. Esta impuridad se refiere a la probabilidad de que algún elemento insertado al azar sea erróneamente categorizado. Otra forma de tomar esta decisión es la Entropía de Shannon. La entropía de Shannon es la cantidad de desorden de una colección, o que tan revuelto esta; si todos los elementos son iguales, entonces la entropía es cero. El objetivo al dividir los datos en dos grupos consiste en de reducir su entropía, de manera que los datos queden lo menos desordenados posibles. Después de dividir el cuerpo de entrenamiento, sin importar el método elegido para realizar esta separación, se procede a retirar estos datos del cuerpo y se repite nuevamente el proceso, hasta

14 CAPÍTULO 2. ESTADO DEL ARTE 7 que no queden datos disponibles. Un problema con los arboles de decisión es que estos pueden crecer mucho, es decir, son construidos de forma específica a su cuerpo de entrenamiento. En algunas ocasiones se desea que el árbol de decisión funcione relativamente bien para otros datos, que quizás no tengan la misma distribución que el cuerpo de entrenamiento original. Si este es el caso, los arboles de decisión resultantes son sometidos a un podado, para quitar ramas que sean muy especificas y reducir así el tamaño del árbol. Este podado se realiza mediante el análisis del árbol de manera que para dos hojas con el mismo padre, al ser unidas, la entropía no aumenta de cierto valor previamente establecido. Cabe mencionar que las nuevas observaciones clasificadas no se introducen al cuerpo de entrenamiento, debido a los problemas que pueden ser causados. Entre estos problemas se encuentra el hecho de que existe la probabilidad de que un elemento sea erróneamente clasificado y si se introduce al cuerpo de entrenamiento, entonces aumenta la probabilidad de clasificar de manera errónea futuras observaciones. Otro problema radica en que no es posible garantizar que se mantendrá la distribución del cuerpo de entrenamiento, al insertar nuevas observaciones estas pueden tender hacía alguna clasificación en especial, inclinando también el árbol de decisión hacía ese camino; si se desean incluir nuevas observaciones, se debe construir un nuevo árbol de decisión. Como se observa, los árboles de decisión no solo son buenos para clasificar elementos, sino para ver que variables influyen, y de que manera, en el proceso de clasificación. Pero como cualquier algoritmo, tiene sus desventajas. Entre estas se incluyen la simpleza de las decisiones que realiza, limitándose a igualdades o a mayor que, y si se topan con cuerpos de datos con muchas variables numéricas, o con relaciones complejas, el árbol resultante será grande e ilegible Entropía de Shannon La medida de entropía a utilizar es la llama entropía de Shannon, la cual se describe a continuación, pero antes se expone las bases de la teoría de la información,

15 CAPÍTULO 2. ESTADO DEL ARTE 8 puesto que es la ciencia a la cual pertenece la entropía. Un paso importante que tomó Claude Shannon fue el preguntarse Qué tan probable es que veamos una cierta información? Esto es importante porqué nos permite carcterizar que tanta información en realidad ganamos. Si un mensaje tiene una alta probabilidad de ocurrencia, entonces no ganaremos mucha información al recibir dicho mensaje. Por otro lado, si un mensaje tiene una baja probabilidad de ocurrencia, cuando veamos ese mensaje ganaremos una cantidad significativa de información [27]. Shannon cuantificó esto usando el logaritmo base 2 de la probabilidad de ocurrencia de cierto mensaje [27]. Esto es, si denotamos la cantidad de información de un mensaje con I, y la probabilidad de su ocurrencia con p, entonces I = log 2 (p) (2.1) El signo negativo asegura que el contenido de información en el mensaje seá positivo, y que mientras sea menos probable el mensaje, mayor es el contenido de información. Entonces podemos resumir el uso de logaritmos para caracterizar el contenido de información de un mensaje diciendo: Un mensaje con poca probabilidad de ocurrencia tiene un alto contenido de información. Un mensaje con alta probabilidad de ocurrencia tiene un bajo contenido de información. Ahora pasemos a la definición formal. Sea X una variable aleatoria caracterizada por la distribución de probabilidad p, y asumiendo los valores x 1, x 2,..., x n con probabilidades p 1, p 2,..., p n. Las probabilidades satisfacen 0 p 1 y Σ i p i = 1. La entropía de Shannon de X es definida como [27] H(X) = Σ i p i log 2 p i (2.2) Si la probabilidad de una x j es cero, entonces 0log 2 0 = 0. Si el logaritmo de la probabilidad de x nos da el contenido de información, entonces podemos ver la

16 CAPÍTULO 2. ESTADO DEL ARTE 9 función de entropía de Shannon como una medida de la cantidad de incertidumbre o de aleatoridad de un mensaje, esto es: Si estamos seguros de cual es el mensaje, la entropía es cero. Entre menos seguros estemos de que vamos a obtener, es más alta la entropía. Entonces, resumiendo la función de entropía de Shannon [4] Si decrementa la incertidumbre entonces incrementa la información. Si incrementa la incertidumbre entonces incrementa la entropía Paralelización con CPUs Por treinta años, uno de los métodos para aumentar el desempeño de los equipos de computo ha sido incrementar la frecuencia de operación del reloj con el que opera el procesador. Iniciando con las primeras computadoras personales de inicios de los ochentas, cuyas unidades centrales de procesamiento (CPUs) operaban con relojes internos de alrededor de 1MHz, y, casi 30 años más tarde, la mayoría de los procesadores de uso personal operan entre 1GHz y 4 GHz [14]. Aunque este ha sido un método seguro para aumentar el desempeño de computo, ya es necesario buscar formas adicionales para lograr estas mejoras de desempeño. Esto se debe a las limitantes en la tecnología de fabricación de circuitos integrados, y a las restricciones de potencia y de calor. Por el lado de las supercomputadoras, estas han logrado obtener mejoras de desempeño masivas utilizando medios similares. Pero, ademas de ello, también se han obtenido mejoras de desempeño incrementando el número de procesadores. Por eso, se ha optado también usar esta técnica en los computadores personales, teniendo así una alternativa para el tradicional aumento de frecuencia de operación. En el año 2005, teniendo pocas alternativas, comenzaron a aparecer en el mercado procesadores con dos núcleos de procesamiento en lugar de uno [13]. En los siguientes años, esta tendencia se ha mantenido, con la aparición de procesadores con 3, 4, 6 y 8 núcleos de procesamiento. Además de el aumento de núcleos de procesamiento,

17 CAPÍTULO 2. ESTADO DEL ARTE 10 Figura 2.2: Ejemplo de Pipeline con dos tareas [14]. también se ha aumentado el número de instrucciones que un procesador puede ejecutar en un ciclo de maquina [14]. A continuación se muestran algunas de las técnicas de paralelización más comunes Paralelismo Implícito La tecnología en microprocesadores ha entregado mejoras significativas en cuanto a velocidades de reloj se refieren, pero también ha mostrado varios cuellos de botella. Entre estas limitaciones se encuentran las limitantes en tecnología de memorias, y en que los altos niveles de integración resultan en un número alto de transistores, poniendo en evidencia el problema de como utilizarlos eficientemente. Consecuentemente, se han hecho popular las maneras que habilitan la ejecución de multiples instrucciones en un solo ciclo de reloj, Una de las técnicas para lograr este objetivo es el Pipeline [8]. Si sobreponemos diferentes etapas de la ejecución de una instrucción (como obtener, leer, decodificar, ejecutar, guardar, etc.), obtenemos una ejecución más rápida de diferentes tareas. Esta distribución de tareas se realizan dependiendo de la arquitectura interna del microprocesador. Esta ganancia puede llegar más lejos si se pueden realizar multiples unidades funcionales al mismo tiempo. Por ejemplo, suponga que tenemos un procesador con la capacidad de atender simultáneamente dos tareas. Entonces podemos dividir estas tareas como se muestra en la figura 2.2. Como se puede apreciar, se obtiene una ganancia significativa

18 CAPÍTULO 2. ESTADO DEL ARTE 11 comparada con la ejecución de tareas secuenciales [8]. Aunque esta técnica parece simple y efectiva, presenta algunos problemas por resolver. Primero, las instrucciones en un programa pueden estar relacionadas unas con otras. A esto se le conoce como dependencia de datos [14]. Estas dependencias deven de ser resueltas antes de la ejecución simultanea de instrucciones. Esto implica que, como esta resolución debe realizarse en tiempo de ejecución, debe de ser soportada por el hardware, y que la cantidad de paralelismo alcanzado con esta técnica esta limitado de la codificación. Algunas veces el paralelismo es máximizado reordenando las instrucciones y alterando el código fuente. También existe otra fuente de dependencias entre instrucciones debidas por los recursos finitos compartidos. Además, el control de flujo de un programa agrega otra dependencia, puesto que si tenemos un condicional en el flujo, y el destino de esta condición solo es conocido en tiempo de ejecución, planificar instrucciones a priori puede conducir a errores. Estos errores son típicamente manejados planificando especulativamente (en promedio 5 o 6 instrucciones [14]) y hacer un rollback. en caso de errores. Estructura de control de plataformas paralelas Las tareas paralelas pueden ser especificadas en diferentes niveles de granularidad. En un extremo, cada programa puede ser visto como una tarea paralela. En otro extremo, instrucciones individuales dentro de un programa pueden ser vistos como tareas paralelas. Las unidades de procesamiento de un computador en paralelo operan con un control centralizado bajo una sola unidad de control, o trabajan independientemente. En arquitecturas conocidas como instrucciones sencillas, multiples datos (SIMD por sus siglas en inglés) [7], una misma unidad de control manda instrucciones a cada unidad de procesamiento. Entonces, la misma instrucción es ejecutada de manera sincrona por todas las unidades de procesamiento, cambiando únicamente los datos a trabajar. Este concepto funciona bien para computación estructurada en estructuras de datos en paralelo, como los arreglos. Y a sido necesario trabajar con mascaras para

19 CAPÍTULO 2. ESTADO DEL ARTE 12 Figura 2.3: Arquitectura SIMD (a) y MIMD (b) típica[14]. estos datos, proveyendo la capacidad de seleccionar ciertos elementos a los cuales no les será aplicadas las instrucciones mandadas. Estas primitivas son conocidas como máscaras de actividad. En contraste con las arquitecturas SIMD, existen computadores en los cuales cada unidad de procesamiento es capaz de ejecutar un programa diferente e independiente de las demás unidades de procesamiento. Esta arquitectura es conocida como multiples instrucciones, multiples datos (MIMD por sus siglas en inglés) [7]. La figura 2.3 muestra un ejemplo de la arquitectura SIMD así como de la arquitectura MIMD Modelo de comunicación de plataformas paralelas Hay dos maneras de intercambio de datos entre tareas paralelas: accesando un espacio de datos compartidos e intercambiando mensajes. El espacio de datos compartidos de una plataforma paralela soporta un lugar común de datos, que es accesible a todas las unidades de procesamiento. Estas unidades de procesamiento interactuan las unas con las otras modificando datos almacenados en este espacio compartido. La

20 CAPÍTULO 2. ESTADO DEL ARTE 13 memoria en estas plataformas puede ser local (exclusiva de una unidad de procesamiento) o global (compartida por todas las unidades de procesamiento)[18]. Si el tiempo que le toma a una unidad de procesamiento en accesar algún dato en el sistema, ya sea local o global, es idéntica, la plataforma es clasificada como acceso a memoria uniforme (UMA por sus siglas en inglés). Si no es así, se le llama a la plataforma acceso a memoria no uniforme (NUMA por sus siglas en inglés). La presencia de un espacio de memoria global hace la programación de estas plataformas una tarea mucho más sencilla. Todas las interacciones de solo lectura son invisibles para el programador, por lo que se codifican de la misma manera que en un programa serial. Las interacciones de lectura / escritura son más difíciles de programar ya que requieren mecanismos de exclusión mutua para accesos concurrentes [18]. La presencia de çaches. en las unidades de procesamiento presentan la dificultad de múltiples copias de un mismo dato siendo manipuladas por dos o mas unidades de procesamiento al mismo tiempo. Entonces, proporcionar un espacio compartido de memoria en este contexto presenta dos tareas importantes: proveer un mecanismo de traducción de direcciones para localizar un dato en el sistema, y asegurar que las operaciones concurrentes sobre múltiples copias de un mismo dato tengan semánticas bien definidas. Este mecanismo es conocido como coherencia de la caché [18]. La vista lógica de mandar mensajes de una maquina consiste en p nodos de procesamiento, cada uno con su espacio de direcciones exclusivo. Cada uno de estos nodos de procesamiento puede ser una sola unidad de procesamiento o un multiprocesador de espacio de memoria compartida. En estas plataformas, las interacciones entre nodos de procesamiento se realiza enviando mensajes [3]. Este intercambio de mensajes es utilizado para transferir datos, tareas, o para sincronizar acciones entre los procesos. Esta arquitectura soporta la ejecución de diferentes programas en cada uno de sus p nodos de procesamiento. Dado que estas interacciones se realizan cambiando mensajes, las operaciones básicas son send y receive. Estas operaciones deben de especificar la dirección destino, por lo que debe de existir un mecanismo que asigne un identificador único a cada programa [3].

21 CAPÍTULO 2. ESTADO DEL ARTE 14 Arquitectura de un computador paralelo ideal Un procesador paralelo consiste de p procesadores y una memoria global sin restricciones de tamaño que es uniformemente accesible a todos los procesadores [14]. Todos los procesadores acceden el mismo espacio de direcciones. Los procesadores comparten un reloj común, pero pueden ejecutar diferentes instrucciones en cada ciclo. A este modelo ideal se le conoce como maquina paralela de acceso aleatorio (PRAM por sus siglas en inglés). Dependiendo de cuantos accesos a memoria simultáneos son manejados, los PRAMs pueden ser clasificados en 4 clases [30]. Lectura exclusiva, Escritura exclusiva (EREW). El acceso a una dirección de memoria es exclusiva, es decir, no son permitidas las operaciones de lectura o escritura concurrentes. Lectura concurrente, Escritura exclusiva (CREW). Múltiples accesos de lectura a una dirección de memoria son permitidos, mientras que múltiples accesos de escritura son serializados. Lectura exclusiva, Escritura concurrente (ERCW). Múltiples accesos de escritura a una dirección de memoria son permitidos, pero múltiples accesos de lectura son serializados. Lectura concurrente, Escritura concurrente (CRCW). Son permitidos los accesos concurrentes de lectura o escritura a una dirección común de memoria. Los accesos concurrentes a memoria requieren arbitraje. Se utilizan muchos protocolos para resolver las escrituras concurrentes [24]: Común, donde la escritura concurrente es permitida si todos los valores que se intentan escribir son idénticos. Arbitraria, donde un a procesador aleatorio es permitido la operación de escritura y el resto falla.

22 CAPÍTULO 2. ESTADO DEL ARTE 15 Figura 2.4: Clasificación de redes de interconexión [14]. Prioridad, donde todos los procesadores son organizados por una lista predefinida de prioridades, y al procesador con la prioridad mas alta le es permitido la operación y el resto falla. Suma, donde la suma de todas las cantidades es escrita Redes de interconexión para computadores paralelos Las redes de interconexión proveen medios de transferencia de datos entre nodos de procesamiento o entre procesadores y los módulos de memoria. Esta red consiste de n entradas y m salidas. Las redes de interconexión pueden ser clasificadas como estaticas o dinamicas [6]. Las redes estáticas consisten de enlaces de comunicación punto a punto entre nodos de procesamiento y también son conocidas como redes directas. Las redes dinámicas consisten de enlaces y de switches, los enlaces son conectados entre si dinámicamente por estos switches (figura 2.4) [6] Topologías de red Una gran variedad de topologías de red han sido usadas en las redes de interconexión, las cuales son diferentes balances entre costo, escalabilidad y rendimiento.

23 CAPÍTULO 2. ESTADO DEL ARTE 16 Redes basadas en bus compartido Una red basada en buses es la más simple, dado que simplemente consiste en un medio compartido por todos los p nodos de procesamiento [18]. Una propiedad deseable es que este bus tenga un costo que escala linearmente conforme el número de nodos de procesamiento p. Este costo esta asociado con las interfaces del bus. Además, deseamos que la distancia física entre estos nodos de procesamiento sea constante. Los buses son ideales para transmitir información a todos los nodos, esta acción es conocida como broadcast [11]. Como el medio de transmisión es compartido, la comunicación es más eficiente que aquella en un medio punto a punto. Sin embargo, el ancho de banda de este bus compartido limita el número de nodos de procesamiento soportados por esta arquitectura [11]. En este tipo de arquitecturas se utiliza la cache de cada nodo de procesamiento para reducir el problema del ancho de banda. Esto funciona bien porque en programas típicos, la mayoría de los accesos a memoria son locales al nodo de procesamiento [11]. En la figura 2.5 se muestra un ejemplo de esta arquitectura. Redes cruzadas Otra manera de conectar p procesadores a b bancos de memoria es con una red cruzada [1]. La red cruzada emplea una matriz de switches como se muestra en la figura 2.6. El número de switches necesarios es p b, y podemos asumir que el número de bancos b es al menos p, puesto que de lo contrario van a existir algunos nodos de procesamiento que no pueden accesar ningún banco de memoria. Entonces, mientras p se incrementa, la complejidad de la red aumenta en p 2 [1]. Redes multietapas Las redes de interconexión cruzadas son escalables en términos de rendimiento, pero no lo son en términos de costos. Las redes de bus compartido son escalables en términos de costo, pero no en términos de rendimiento. Una arquitectura intermedia es la red de interconexión multietapas [15]. El esquema general de una red multietapas de p nodos de procesamiento y b bancos de memoria se muestra en la figura 2.7.

24 CAPÍTULO 2. ESTADO DEL ARTE 17 Figura 2.5: Interconexión de bus con (a)sin cache local y (b) con cache local[14]. Figura 2.6: Red cruzada conectando p nodos de procesamiento con b bancos de memoria [14].

25 CAPÍTULO 2. ESTADO DEL ARTE 18 Figura 2.7: Red de interconexión multietapas[14]. Un uso común de las redes multietapas es la red omega [15]. Esta red consiste en log p etapas, donde p = b, es decir, el número de nodos de procesamiento es similar al número de bancos de memorias [15]. Cada etapa de la red omega consiste en un patrón de interconexión que conecta p entradas con p salidas. Un enlace existe entre la entrada i y la salida j si se cumple lo siguiente: { 2i, 0 i p/2 1 j = (2.3) 2i + 1 p, p/2 i p 1 La ecuación 2.3 representa la operación de rotación a la izquierda de la representación binaria de i para obtener j. Este patrón de interconexión es conocido como barajeo perfecto [29]. La figura 2.8 muestra un patrón de interconexión con barajeo perfecto para ocho entradas y salidas. En cada etapa de una red omega, un patrón de interconexión perfecta conecta un conjunto de p/2 switches [29]. Cada switch se encuentra en uno de dos modos de conexión. En un modo, las entradas se conectan directamente con las salidas. En el otro modo, las entradas se conectan de manera cruzada con las salidas. Entonces una red omega tiene p/2 log p switches, y el costo de crecimiento de la red crece con una proporción de p log p. La figura 2.9 muestra una red omega que conecta ocho nodos de procesamiento con ocho bancos de memoria [15]. Rutear datos se realiza utilizando un esquema sencillo. Sea s la representación binaria de

26 CAPÍTULO 2. ESTADO DEL ARTE 19 Figura 2.8: Barajeo perfecto para ocho entradas y salidas[14]. Figura 2.9: Red omega completa conectando ocho entradas y salidas[14]. un nodo de procesamiento que necesita escribir datos en un banco de memoria t. El dato atraviesa el enlace al primer switch. Si los bits más significativos de s y de t son iguales, entonces el dato es ruteado de manera directa por el switch. En caso contrario, el dato es ruteado de manera cruzada. Esta regla es repetida hasta alcanzar la salida usando los bits más significativos siguientes. Entonces recorrer las log p etapas usa todos los log p bits en la representación binaria de s y de t [15]. La figura 2.10 muestra el diagrama de flujo de este proceso.

27 CAPÍTULO 2. ESTADO DEL ARTE 20 Figura 2.10: Diagrama de flujo del recorrido de una red omega. Redes completamente conectadas y en estrella En una red completamente conectada cada nodo de procesamiento tiene una comunicación directa con cada otro nodo de procesamiento de la red [28]. Esta red es ideal en el sentido en que cada nodo de procesamiento puede mandar un mensaje a algún otro nodo de procesamiento en un solo paso, ya que existe un enlace de comunicación entre ellos. Estas redes tienen la desventaja de tener una implementación costosa, y su crecimiento es de p! [28]. En una red de conexión de estrella un nodo de procesamiento actúa como el nodo central. Cada otro nodo de procesamiento tiene un enlace de comunicación con este nodo. La red de conexión en estrella es similar a las redes basadas en buses. La comunicación entre cualquier par de nodos de procesamiento es enrutada a travez del nodo principal [28]. El cuello de botella en esta topología es el nodo central. La figura 2.11 muestra una red completamente conectada de ocho nodos y una red de estrella de 9 nodos.

28 CAPÍTULO 2. ESTADO DEL ARTE 21 Figura 2.11: (a)red completamente conectada de ocho nodos, (b)red de conexióm en estrella de nueve nodos[14]. Figura 2.12: (a)arreglo lineal simple, (b)conexión en anillo[14] Arreglos lineales, mallas y mallas k-dimensionales Dado el gran número de enlaces en redes completamente conectadas, redes más dispersas son usadas para construir computadoras paralelas. Un ejemplo de estas redes son los arreglos lineales y los hipercubos. Un arreglo lineal es una red estatica donde cada nodo de procesamiento tiene dos vecinos, exceptuando el primero y el ultimo. Una extensión simple de estos es la topología en anillo, en donde todos los nodos de procesamiento tienen dos vecinos, uno a su izquierda y otro a su derecha. La figura 2.12 ilustra estas dos topologías de red. Conexión en malla Una malla es la extensión de un arreglo lineal a dos dimensiones. Cada dimensión tiene p nodos de procesamiento identificados con una tupla de la forma (i, j). Cada nodo de procesamiento, exceptuando los de la periferia, esta conectado a otros cuatro nodos cuyos indices difieren en una dimensión cualquiera en uno. Como es una red de dos dimensiones, es fácil de cablear, ademas de que muchas estructuras de datos computacionales se ajustan fácilmente a estas mallas [16]. Esta red puede ser fácilmente aumentada a una topología de anillo. Una malla de tres dimensiones es

29 CAPÍTULO 2. ESTADO DEL ARTE 22 Figura 2.13: (a)malla bidimensional, (b)malla bidimensional en anillo, (c) malla tridimensional[14]. una generalización de la malla de dos dimensiones. La figura 2.13 muestra una malla bidimensional, una malla con topología de anillo, y una malla tridimensional. Mallas k-dimensionales Las mallas k-dimensionales (k d) se refieren a una clase de topologías que están compuestas de d dimensiones con k nodos de procesamiento por cada dimensión. Esta topología también es llamada hipercubo. Esta topología tiene dos nodos de procesamiento por cada dimensión, y log p dimensiones [16]. Un hipercubo de cero dimensiones consiste de 2 0 = 1 nodos de procesamiento. Un hipercubo de una dimensión esta formado por dos hipercubos de dimensión cero conectados entre ellos. En general, un hipercubo de dimensión d esta compuesto de dos hipercubos de dimensión (d 1) conectados entre ellos. La figura 2.14 muestra hipercubos hasta la dimensión cuatro. Como se muestra en la figura 2.14, si tenemos dos subcubos de p/2 nodos, podemos derivar su numeración para el cubo de p nodos anteponiendo las etiquetas de uno de los subcubos con un 0 2 la etiqueta del otro subcubo con un 1. Esta enumeración tiene la propiedad de que la distancia mínima entre dos nodos esta dada por el número de bits diferentes entre las etiquetas de ambos [16] Redes basadas en árboles Una red de árbol es aquella en donde solo existe un único camino entre un par de nodos de procesamiento. Tanto los arreglos lineales como las redes en estrella son casos

30 CAPÍTULO 2. ESTADO DEL ARTE 23 Figura 2.14: Ejemplo de hipercubos[16].

31 CAPÍTULO 2. ESTADO DEL ARTE 24 Figura 2.15: Red completa de árbol binario, (a) estática y (b) dinámica [14]. Figura 2.16: Árbol gordo con 16 nodos de procesamiento[14]. especiales de las redes de árbol. La figura 2.15 muestra redes de árbol completamente binarias [16]. Las redes estáticas tienen un elemento de procesamiento en cada nodo de la red. Las redes dinámicas tienen nodos intermedios de switcheo, dejando únicamente a las hojas con elementos de procesamiento. Para enrutar un mensaje en un árbol, el nodo de origen envía el mensaje hacia niveles superiores del árbol, hasta que se alcanza un nodo que sea la raíz del sub-árbol mas pequeño que contenga tanto el nodo origen como al nodo destino. Entonces el mensaje es ruteado hacia el destino. Las redes de árbol sufren de un cuello de botella en los niveles superiores del árbol, puesto que estos deben de manejar una cantidad mayor de mensajes [17]. Esto se puede minimizar si aumentamos el número de enlaces que tienen los nodos más cercanos a la raíz. Esta red, llamada árbol gordo [17] se ilustra en la figura 2.16.

32 CAPÍTULO 2. ESTADO DEL ARTE 25 Figura 2.17: Arquitectura CPU GPU sencilla Paralelización con GPUs Esta sección hablará de la arquitectura de GPUs, de CUDA y su modelo de software. También se toca el tema del desarrollo de aplicaciones utilizando PyCUDA, lo que nos permite unir el desarrollo de prototipos rápidos de Python con el rendimiento y uso eficiente del equipo que nos entrega CUDA El modelo CPU / GPU simplificado La figura 2.17 muestra un modelo simple y abstracto, en el cual se basa la programación de CUDA. El CPU ejecuta la mayor parte del software de la aplicación, el sistema operativo, y el controlador de CUDA que opera el GPU. El GPU es un periférico que puede ejecutar ciertos programas paralelos, llamados kernels. Generalmente, el GPU cuenta con su propio banco de memoria, también conocido como memoria del dispositivo; los datos de entrada deben de ser copiados a la memoria del dispositivo para que el GPU pueda procesarla, y de igual forma, los resultados del GPU deben de ser copiados desde la memoria del dispositivo. Estas copias generalmente ocurren utilizando el bus PCI express[23] GPUs integrados Estos GPUs están integrados dentro del chipset principal. La figura 2.18 muestra un banco de memoria que previamente solo pertenecía al CPU y ahora comparte con un GPU [31].

33 CAPÍTULO 2. ESTADO DEL ARTE 26 Figura 2.18: GPU Integrado. La API ( Application Programming Interface ) de CUDA para el direccionamiento de memoria tiene una funcionalidad especial en GPUs integrados. Estas APIs también son conocidas como copia zero, porque la memoria es compartida y no es necesaria la copia a través del bus central. Por esta razón, en aplicaciones que limitadas por el ancho de banda, los GPUs integrados tienen un mayor rendimiento que muchos GPUs discretos[23]. En sistemas donde encontramos tanto GPUs integrados como GPUs discretos, CUDA intentará lanzar los kernels en los GPUs discretos, puesto que la mayoría de las aplicaciones CUDA son diseñadas de esa manera[31]. Por supuesto, este comportamiento puede ser cambiado, y si la aplicación esta diseñada para ejecutarse en un solo GPU, CUDA va a seleccionar el GPU integrado. La figura 2.19 muestra una arquitectura con un GPU integrado, y uno discreto Multiples GPUs En el 2004 NVIDIA introdujo su tecnología llamada SLI (Scalable Link Interface) que habilita a múltiples GPUs trabajar en paralelo, aumentando así el poder de procesamiento de gráficos[20]. Con tarjetas madres que hacen posible conectar múltiples

34 CAPÍTULO 2. ESTADO DEL ARTE 27 Figura 2.19: GPU integrado con GPUs discretos. Figura 2.20: GPUs en diferentes ranuras. GPUs, los usuarios pueden fácilmente aumentar el rendimiento instalando dos o más GPUs en su sistema. La figura 2.20 muestra un ejemplo de esta arquitectura. Por defecto, el controlador de NVIDIA configura estas tarjetas para que se comporten como si solamente fueran una. Esta funcionalidad también esta disponible para CUDA a partir de la versión 4.0. También es posible construir tarjetas GPUs que soporten múltiples GPUs. En estos casos, el único recurso que comparten los GPUs es un chip de puente que les permite comunicarse usando PCI Express[31]. No tienen memoria compartida; cada GPU tiene su propio controlador de memoria que le permite aprovechar su ancho

35 CAPÍTULO 2. ESTADO DEL ARTE 28 Figura 2.21: Espacio de direcciones sencillo de 16 bits[31]. de banda al máximo. Los GPUs en la misma tarjeta pueden comunicarse entre ellos con copias de memoria de punto a punto, que utilizara el chip puente dejando fuera a PCIe. Además, si son GPU de clase Fermi, estos pueden mapear su espacio de memoria al espacio de memoria global, facilitando así el desarrollo[20] Espacio de direcciones en CUDA Los espacios de direcciones del CPU y de los GPUs están separados, por lo que el CPU no puede leer o escribir en una localidad de memoria del GPU y a su vez, el GPU no puede leer o escribir en una localidad de memoria del CPU. Como resultado, la aplicación debe de explícitamente copiar datos de y desde el GPU para procesarlos correctamente[31]. Direccionamiento virtual El direccionamiento virtual es una extensión de la idea de que es útil asignar números consecutivos a las localidades de memoria de una computadora. La unidad de medida estándar es el byte, por ejemplo, una computadora con 64K de memoria tiene las localidades 1, 2,..., Los valores utilizados para leer y escribir en estas localidades de memoria se llaman direcciones, y a la acción de leer, escribir y en general el manejo de las direcciones de memoria se le llama direccionamiento[31].

36 CAPÍTULO 2. ESTADO DEL ARTE 29 Figura 2.22: Espacio de direcciones virtual.[31] Los primeros computadores utilizaban el direccionamiento físico, es decir, estos computaban una localidad de memoria y después se leía o escribía esta localidad de memoria directamente. La figura 2.21 muestra un direccionamiento sencillo de 16 bits. Mientras el software fue haciéndose más completo y las computadoras comenzaron a soportar múltiples usuarios o ejecutar diferentes trabajos fue haciéndose más común, se hizo claro que permitirle a un programa leer o escribir cualquier localidad de memoria es inaceptable, un programa podría corromper otro al escribir en la localidad de memoria equivocada. Además de la preocupación por la robustez de las aplicaciones, existe la preocupación de la seguridad: un programa puede espiar a otro simplemente leyendo localidades de memoria que no le pertenecen[23]. Como resultado, las computadoras modernas implementas los espacios virtuales de memoria, es decir, cada programa tiene direcciones de memoria similares, pero cada programa cuenta con un espacio de direcciones distinto. Un programa no puede leer o escribir en localidades de memoria que le pertenecen a otros programas, a no ser que cuenten con permiso especial del sistema operativo. En lugar de especificar la dirección física, la instrucción de maquina especifica una dirección virtual, que debe de ser traducida a una dirección física por el sistema operativo[31]. En la mayoría de los sistemas, el espacio virtual de direcciones esta dividido en

37 CAPÍTULO 2. ESTADO DEL ARTE 30 páginas, que son unidades de direcciones de al menos 4096 bytes. En lugar de referenciar memoria física directamente de las direcciones, el sistema busca en las tablas de paginación (PTE por sus siglas en inglés) que especifica la dirección física donde reside la memoria de la página. Esta técnica habilita el direccionamiento continuo virtual de memoria, aunque en memoria física esta se encuentre en páginas discontinuas. La figura 2.22 muestra un espacio virtual de memoria. Además de este direccionamiento físico, las PTEs tienen bits de configuración que el equipo puede validar mientras se realiza la traducción de direcciones. Por ejemplo, el sistema operativo puede hacer que ciertas páginas de solo lectura, entonces el equipo mandará una señal de falla si alguna aplicación intenta escribir en esas páginas. Los sistemas operativos utilizan el equipo físico para implementar estas propiedades: Posicionamiento perezoso: Cantidades grandes de memoria pueden ser asignadas por configuraciones además de las PTEs si contar con memoria física. Si la aplicación solicita una localidad de estas memorias, el sistema operativo asigna una página física en ese momento. Paginación bajo demanda: La memoria puede ser copiada al disco y la página marcada como no residente. Si la memoria es referenciada nuevamente, el sistema operativo copia los contenidos de vuelta a memoria, actualiza las PTEs y reanuda la ejecución de la aplicación. Copiar en escritura: La memoria virtual puede ser çopiadaçreando otro conjunto de PTEs que referencian a las mismas páginas, y después haciendo ambos conjuntos de solo lectura. Si una escritura es intentada en alguna de esas páginas, entonces el sistema operativo copia esa página, marca ambas como de escritura, y reanuda la ejecución de la aplicación. Mapeo de IOs de archivos: Archivos pueden ser mapeados al espacio de direcciones. Es importante denotar que la traducción de direcciones se realiza en cada acceso a memoria por el CPU. Entonces, para hacer esta operación rápida, el CPU tiene implementado mucho equipo especializado para resolver esta operación[23].

38 CAPÍTULO 2. ESTADO DEL ARTE 31 Figura 2.23: Memoria del anfitrión clavada Interacciones entre el CPU y el GPU Esta sección describe los elementos claves de la interacción entre el CPU y el GPU[33]: Memoria del anfitrión clavada: memoria del CPU que el GPU puede acceder directamente, Buffers de comandos: buffers escritos por el controlador CUDA que puede leer el GPU y controlar su ejecución, y Sincronización: como el progreso del GPU es monitoreado por el CPU. Memoria del anfitrión clavada y buffers de comandos Ambos, el CPU y el GPU acceden mejor su propio espacio de memoria; pero el GPU puede acceder directamente memoria del CPU sin paginar a través del acceso directo a memoria (DMA por sus siglas en inglés). Los periféricos pueden acceder esta memoria puesto que están programadas sus direcciones de manera directa, es decir, utilizan sus direcciones físicas. Dado que el GPU es un dispositivo distinto al CPU, DMA le permite al GPU leer o escribir memoria del CPU independientemente de este, y por lo tanto en paralelo al mismo. Se deben de tomar precauciones para sincronizar el CPU y el GPU para evitar condiciones de competencia, que si se hacen de manera adecuada, las mejoras de rendimientos son sustanciosas[33]. La figura 2.23 muestra memoria clavada para que el GPU tenga acceso a ella. Una de las principales aplicaciones para este espacio de memoria compartido es para

39 CAPÍTULO 2. ESTADO DEL ARTE 32 Figura 2.24: Buffer de comandos. mandarle comandos al GPU, el CPU escribe los comandos en un buffer de comandos que el GPU puede consumir, y el GPU simultáneamente lee y ejecuta comandos escritos previamente. La figura 2.24 muestra un GPU y un CPU que comparten uno de estos buffers de comandos. Típicamente, el controlador de CUDA re-usa la memoria del buffer de comandos, porque una vez que el GPU a terminado la ejecución de un comando esa memoria se hace elegible para ser escrita nuevamente por el CPU[31]. Dado que toma varios ciclos de reloj del CPU lanzar un núcleo de CUDA, un caso de uso para la concurrencia entre CPU y GPU es preparar más comandos para el GPU mientras este esta ejecutando una aplicación. Claro que si esto no es adecuadamente balanceado, pueden ser tanto el GPU o el CPU los cuellos de botella de la aplicación. Todos los lanzamientos de núcleos de CUDA son asíncronos: el CPU solicita el inicio de ejecución escribiendo comandos en el buffer de comandos, y después regresa sin verificar el progreso del GPU. Las copias de memoria también pueden ser asíncronas, habilitando la concurrencia entre el GPU y el CPU. La ley de Amdahl Cuando una aplicación de CUDA es escrita correctamente, el CPU y el GPU pueden operar completamente en paralelo. Pero si la carga de trabajo no esta balanceada, el CPU o el GPU limitara el rendimiento incluso si el otro dispositivo trabaja en paralelo. Esta observación es explicada por la ley de Amdahl [2]: