Modelo de programación MapReduce

Transcripción

1 Sistemas Distribuidos Modelo de programación

2 Tecnologías procesado masivo de datos Modelo de programación Alm. lógico Alm. físico Serv. genéricos Pregel... BigTable GFS Serv. genéricos 2

3 Vamos a contar palabras Entrada: Conjunto de ficheros de texto Cada fichero: colección de registros Cada registro representa un documento: ID_documento y Contenido de documento Salida Secuencia ordenada de parejas: (palabra, nº apariciones) Cómo lo programarías en un entorno distribuido? Maestro-trabajador: Maestro particiona entrada: nº particiones >> nº trabajadores Maestro va asignando particiones a trabajadores Trabajador procesa partición extrayendo cada palabra Cómo se realiza el recuento? Quién lo hace? 3

4 Contando... Fichero1 Fichero2 DocID X Hola Mundo... DocID Y Adiós Mundo Cruel... DocID 1 El País, El Mundo, ABC DocID 2 Hola Y Adiós ABC 1 Adiós 2 Cruel 1 El 2 Hola 2 Mundo 3 País 1 Y 1 4

5 Posible solución 2 tipos de trabajadores (futuros Map y Reduce): Extractor: Obtiene palabras de su partición Acumulador: Recuento de apariciones de un subconjunto de palabras Modo de operación: Maestro despliega extractores y acumuladores Extractor obtiene palabras y las envía a acumulador correspondiente Función hash: palabra nº acumulador Acumulador recibe palabras que le corresponden Las va ordenando Realiza el recuento generando el resultado Optimización: Extractor con acumulación parcial de su partición (futuro Combiner) Envía a acumulador correspondiente parejas: (palabra, cuenta parcial) 5

6 Trabajo sucio Programador tiene que ocuparse de aspectos tales como: Partición de datos de entrada Despliegue de maestro y trabajadores Esquema de asignación de trabajos a trabajadores Comunicación y sincronización entre procesos Tratamiento de caídas de procesos Además, parte de ese trabajo se repite en problemas afines Se podría automatizar ese trabajo dejando que el programador se ocupará sólo de la funcionalidad deseada? Eso pretende el modelo de programación (MR) Otra solución de Google basada en especialización Nuevamente con éxito: numerosos clones de libre distribución 6

7 Modelo de programación Basado en funciones Map y Reduce Map: (k1,v1) list(k2,v2) Reduce: (k2,list(v2)) list(v2) Programador sólo desarrolla funciones Map y Reduce Entorno de ejecución se encarga de todo lo demás Inspirado en ops. map y fold de programación funcional Salida de un MR puede ser entrada de otro MR (pipeline) 2003: MR con 8 etapas para indexación en servicio de búsqueda Programa externo repite operación MR hasta convergencia P.e. en algoritmo PageRank Además de modelo prog., MR se refiere a una implementación MR Google, MR Hadoop,... 7

8 Map y Fold Map/Fold sin efectos laterales Map/Reduce?: a discreción del programador Data-Intensive Text Processing with 8 Jimmy Lin and Chris Dyer. University of Maryland

9 Visión lógica de ejecución de MR Data-Intensive Text Processing with 9 Jimmy Lin and Chris Dyer. University of Maryland

10 Contando palabras con Map: (docid, contenido) list(palabra, 1 ) Reduce: (palabra, list( 1,...)) nº apariciones de palabra : Simplified data processing on large clusters Jeff Dean y Sanjay Ghemawat; OSDI 04 10

11 Contando palabras con MR-Hadoop Data-Intensive Text Processing with 11 Jimmy Lin and Chris Dyer. University of Maryland

12 (Des)ventajas de m. programación MR Ventajas Automatiza aspectos de paralelismo y tolerancia a fallos Permite que programador se ocupe sólo de funcionalidad requerida Factorización de código Mejora biblioteca MR beneficia automáticamente a todas aplicaciones Desventajas Modelo forzado para cierto tipo de aplicaciones que obliga a Crear etapas adicionales MR para ajustar aplicación a modelo Emitir valores intermedios extraños Crear funciones Map y/o Reduce de tipo identidad (sort paralelo) Sólo adecuado para operaciones de tipo batch MR vs. BB.DD. paralelas: MR a major step backwards Réplica de creadores de MR : A flexible Data Processing Tool. J. Dean y S. Ghemawat. CACM, enero

13 Combiners Optimización: agregación local antes de shuffle & sort Operación de agregación debe ser conmutativa y asociativa Combiner Mini-Reducer: Map»»» Combine»»» Reduce Map: (k1,v1) list(k2,v2) Combine:(k2,list(v2)) list(k2,v2) Reduce: (k2,list(v2)) list(v2) class COMBINER method COMBINE(term t; counts [c1; c2; : : :]) sum 0 for all count c counts [c1; c2; : : :] do sum sum + c EMIT(term t, count sum) 13

14 Control de particiones Por defecto reparto de valores intermedios entre reducers: reducer = hash(key2) mod nº total de reducers Programador puede especificar función de partición alternativa Puede usarse para mejorar equilibrado de carga en reducers Cada reducer recibe valores que le corresponden ordenados Programador puede definir orden alternativo P.ej. que tenga en cuenta sólo cierta parte de la clave 14

15 Visión lógica completa de ejecución MR 15 Data-Intensive Text Processing with. Lin & Dyer.

16 Formato y soporte de E/S Programador especifica formato registros entrada y salida En Google MR usa Protocol Buffers Formato binario eficiente Programador puede usar diversos soportes de entrada y salida GFS BigTable Base de datos SQL,... Programador puede desarrollar sus propios Reader y Writer 16

17 Ejemplos adicionales 1. Entrada: (término, número); Calcular media/término 2. Cálculo matriz de aparición conjunta de palabras M M ij : nº veces que palabra i aparece en mismo contexto que palabra j Frase, párrafo, documento o en ventana de K palabras a) Solución basada en pares b) Solución basada en tiras 2 consideraciones sobres estas soluciones: Ambas pueden usar combiners; más efectivos para solución de tiras Potencial problema de escalabilidad en solución de tiras IMPORTANTE: Map/combine/reduce puede guardar datos en memoria antes emitir Mejora eficiencia pero potencial problema de escalabilidad Extraídos de Data-Intensive Text Processing with de Jimmy Lin and Chris Dyer 17

18 Ejemplo 1 18

19 Ejemplo 2a 19

20 Ejemplo 2b 20

21 Más ejemplos (OSDI 04) Recuento de accesos a páginas web Entrada: colección de logs con URLs Obtención de grafo web inverso (qué URLs apuntan a otra) Entrada: páginas web Obtención de vector con recuento de palabras por host Entrada: colección de documentos con URL como ID del documento Salida: (host, vector con frecuencia de cada término) NOTA: De URL se extrae el host Índice invertido de términos Entrada: colección de documentos Salida: en qué documentos aparece cada término 21

22 Un punto débil de MR: Join Hasta ahora un único conjunto de datos de entrada Join implica múltiples conjuntos que hay que cruzar No encaja bien con naturaleza de MR Ejemplo con relación 1-N: Cjto. 1: datos de usuarios UID, edad, profesión, estado civil,... Cjto. 2: datos de compras OPID, ID_usuario, fecha, precio,... Objetivo: Precio medio de compras/profesión Supuesto: Mapper único que puede conocer a qué cjto. sus datos Alternativa: especificar un Mapper para cada tipo de cjto. de entrada Solución basada en 2 etapas MR 2 versiones de la 1ª etapa para analizar problemas de escalabilidad 2ª etapa igual que Ejemplo 1 22

23 1ª versión de 1ª etapa de Join M1 recibe una especie de union (rg. usuario rg. compra) Si entrada rg. usuario Emite(UID, profesión) Si entrada rg. compra Emite(UID, precio) R1 recibe (UID, [profesión precio]) ordenados por UID Debe emitir(profesión, precio) por cada compra Pero no puede hacerlo hasta que llegue profesión Mientras debe guardar compras de ese UID Potencial problema de escalabilidad UID UID UID UID101 enfermero Emite(enfermero, 101), Emite(enfermero, 57), Emite(enfermero, 72) UID Emite(enfermero, 111) UID

24 2ª versión de 1ª etapa de Join M1 recibe (rg. usuario rg. compra) Si entrada rg. usuario Emite([UID, tipo1], profesión) Si entrada rg. compra Emite([UID, tipo2], precio) Partición1: Usar sólo UID de la clave Orden1: Usar UID y tipo Reducer recibirá primero la profesión y luego las compras R1 recibe (UID, [profesión precio]) ordenados por UID y tipo Si tipo1 aux = profesión Si tipo2 Emite(aux, precio) UID101 tipo1 enfermero aux = enfermero UID101 tipo2 101 Emite(aux, 101) UID101 tipo2 57 Emite(aux, 57),... 24

25 Ejecución MR-Google Maestro-trabajador con nº trabajadores T configurable Entrada dividida en M partes: M tareas Map Tamaño de partición TP configurable: típico 64MB (no sorprende...) Resultados Map divididos en R particiones: R tareas Reduce Valor configurable por programa Maestro reparte tareas M y R entre trabajadores (M + R) >> T Ejemplo: TP = 64MB, M = ; R = 5.000, T = Aspecto clave en el rendimiento de MR sobre GFS Tarea M trabajador en nodo que contiene réplica de datos Si no posible, lo más cercano posible 25

26 Visión física de ejecución Google-MR 26

27 Sincronización implícita en MR 27 Extraído presentación Jeff Dean (Google)

28 Tolerancia a fallos en MR-Google Caída de un trabajador Se vuelven a ejecutar en otros nodos las tareas no completadas También las tareas Map completadas por ese trabajador Sus resultados no están accesibles por almacenarse en disco local Caída de maestro Versión original: abortar computación Alternativa: log de ejecución del maestro en GFS Tareas de reserva: ejecución especulativa (NOTA: aspecto relacionado con rendimiento no t. a fallos) Máquina lenta puede arruinar eficiencia de ejecución (straggler) Cuando op. MR cerca de final se activan tareas de reserva Misma tarea ejecutada en otro nodo Se usa resultado de primera que termina 28

29 Percolator Requisitos de Google Caffeine no factibles con Su motor de búsqueda requiere actualización continua de índices Requiere modelo incremental de procesar repositorio de datos Frente a modelo batch de Percolator: Nueva infraestructura de procesamiento masivo GFS + BigTable + Concepto de observador Observador: código ejecutado ante cambios en datos Puede causar una ejecución en cadena de otros observadores Large-scale Incremental Processing Using Distributed Transactions and Notifications. D. Peng, F. Dabek, OSDI 10 29