Comprimiendo Grafos de la Web

Transcripción

1 Mapa Comprimiendo Grafos de la Web Gonzalo Navarro Centro de Investigación de la Web Departamento de Ciencias de la Computación Universidad de Chile En colaboración con los estudiantes Francisco Claude y Rodrigo González

2 Mapa Mapa Motivación Entropía Grafos y Compresión Rank, Select, y Autoíndices : Autoindexamiento I: Rank/Select de Símbolos

7 I Motivación Estructuras de Datos Compactas Modificadas para ocupar poco espacio. Y eso no es compresión? Deben retener su funcionalidad y acceso directo. Para qué, si la memoria es tan barata? Mejora el rendimiento debido a la jerarquía de memoria. Cada vez más populares por motivos tecnológicos.

13 I Motivación Compresión de Grafos Util para ejecutar, en memoria principal, algoritmos sobre grafos grandes. Algoritmos como qué? Descubrir comunidades, calcular PageRank, minería de grafos,... (más ejemplos en la charla de Claudio) Consideraremos las operaciones más básicas: Obtener los vecinos de un nodo u: v, (u, v) E. Obtener los vecinos reversos de un nodo u: v, (v, u) E. Calcular el grado interior/exterior de un nodo u. Verificar la existencia de arista (u, v) in E.

21 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Mapa Motivación Entropía Grafos y Compresión Rank, Select, y Autoíndices : Autoindexamiento I: Rank/Select de Símbolos

22 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Entropía (Empírica) Entropía binaria: si hay n 0 ceros y n 1 unos en B (n 0 + n 1 = n = B ) H 0 (B) = n 0 n log n n 0 + n 1 n log n n 1 Entropía de orden cero: si hay n a ocurrencias de a en S, H 0 (S) = a Σ n a n log n n a Cota inferior a cualquier codificación de Σ que asigne siempre el mismo código al mismo símbolo.

25 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Entropía (Empírica) Entropía de orden k: si S A son los caracteres que siguen a las ocurrencias de A en S, H k (S) = 1 n A Σ k S A H 0 (S A ) Cota inferior a codificaciones que consideran los k símbolos precedentes.

26 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Entropía (Empírica) Entropía de orden k: si S A son los caracteres que siguen a las ocurrencias de A en S, H k (S) = 1 n A Σ k S A H 0 (S A ) Cota inferior a codificaciones que consideran los k símbolos precedentes.

28 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Representación de Grafos Matriz de Incidencia a b c a b c d e a b c d e d e

29 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Representación de Grafos Matriz de Incidencia Con n nodos y e aristas, ocupa n 2 bits. Responde existencia en tiempo O(1). Encuentra todos los vecinos directos/reversos en O(n). Calcula grado interior/exterior en O(n).

33 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Representación de Grafos Lista de Adyacencia b a: d,c,b a: b a b: c: d,c,a d b: c: a a,b,e c d: d: a,b,c,e e: d,c e: d e

34 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Representación de Grafos Lista de Adyacencia Con n nodos y e aristas, ocupa n log e + e log n bits. Encuentra cada vecino en tiempo O(1). Calcula grado exterior en tiempo O(1). Responde existencia en tiempo O(n). Necesita otro tanto para los reversos.

39 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Representación de Grafos Relaciones Binarias Con técnicas muy novedosas de estructuras sucintas para relaciones binarias se puede conseguir e log(n 2 /e) (1 + o(1)) bits y responder todo en tiempo O(log log n). Obtiene lo mejor de los dos mundos pero aún no es demasiado bueno para la Web.

44 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Representación de Grafos Algunos ejemplos de bpe s (crawls reales) Grafo n e Matriz Lista 2 x Lista Rel. Bin UK 18.5M 298M 1.15M EU 860K 19M 39K Arabic 23M 640M 827K Indochina 7M 194M 253K

45 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Compresión de Grafos Grafos Planares y Variantes Con n nodos, tienen O(n) aristas. Distintas técnicas para comprimirlos a O(n) bits. Algunas permiten acceso directo. Hay algunos resultados para tipos especiales de grafos. Es improbable que tengan algún impacto en grafos Web.

50 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Compresión de Grafos Separadores de Grafos Mejor exponente: Blandford [PhD Thesis, 2006] Encontrar zonas que se pueden desconectar cortando unas pocas aristas. Renumerar los nodos y comprimirlos separadamente. Pueden obtener bits por arista (bpe) y ser más rápidos que la versión descomprimida (por efectos de caché). Para vecinos reversos necesitan el grafo traspuesto.

55 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Compresión de Grafos Los Grafos Web son Muy Compresibles Distribución sesgada de grados interior/exterior (power laws). Una lista de adyacencia tiene baja entropía. Localidad de referencia: la mayoría de los links apuntan al mismo site. Listar los nodos en orden lexicográfico de URL. Usar técnicas de codificación de gaps para comprimir las listas. Modelo de copia: los links que salen se parecen a los de alguna otra página. Encontrar una página similar y codificar diferencialmente.

62 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Compresión de Grafos Los Grafos Web son Muy Compresibles Mejor exponente: Boldi y Vigna [WWW 2006]. 3 bpe para compresión pura 6 bpe para recuperar cada vecino directo o reverso dentro del microsegundo Esto considera el grafo y su traspuesto

67 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Rank y Select Rank y Select Binarios Sea B[1, n] un array de bits. rank b (B, i) = número de b s en B[1, i]. select b (B, i) = posición del i-ésimo b en B. b = 1 por defecto, rank 1 (B, i) = i rank 0 (B, i). Ambos se pueden resolver en tiempo constante usando o( B ) bits además de B. E incluso con nh 0 (B) + o(n) bits en total. Existen implementaciones prácticas.

74 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Rank y Select Rank y Select de Símbolos Sea S[1, n] una secuencia sobre el alfabeto Σ de tamaño σ. rank a (S, i) = número de a s en S[1, i]. select a (S, i) = posición del i-ésimo a en S. Además, obtener S[i] si la estructura reemplaza S. Wavelet trees (generalizados): nh 0 (S) + o(n log σ) bits, tiempo O(1 + log σ log log n ). Más rápido: n log σ + o(n log σ) bits, O(log log σ) rank y acceso, O(1) select.

80 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Autoíndices Comprimidos para Texto Funcionalidad Estructuras de datos comprimidas para un texto T = t 1... t n. Sobre un alfabeto Σ de tamaño σ. Operaciones básicas soportadas: Dadas posiciones l, r, mostrar el área de texto tl... t r. Dado un patrón P = p 1... p m, contar las ocurrencias de P en T. Ubicar cada una de esas occ ocurrencias.

86 I Entropía Grafos y Compresión Rank, Select, y Autoíndices Autoíndices Reemplazan el texto y además lo indexan. Es posible hacerlo usando nh k (T ) bits sin el texto. Existen muchos autoíndices comprimidos para texto. Ej. contar en tiempo O(m log σ), ubicar cada ocurrencia en tiempo O(log n), mostrar en tiempo O(log n + l log σ).

90 I : Idea General Concatenar las listas de adyacencia en un texto. Construir un autoíndice comprimido sobre ese texto. Mostrar: vecinos de un nodo Ubicar: vecinos reversos de un nodo Contar: grado interior de un nodo La entropía de orden k de este texto captura el modelo de copia. La entropía de orden cero captura la distribución sesgada de grado interior.

97 I Comparación Experimental Usando el Compressed Suffix Array de Sadakane como autoíndice. Contra los resultados de Boldi y Vigna. Sobre el mismo crawl UK, 18.5 Mnodos, 292 Mlinks. Vecinos: resultados comparables. Reversos: perdemos por 10X

102 I time per neighbor (ms) Retrieving neighbors space (bpe) ours BV BV (fwd)

103 I time per neighbor (ms) Retrieving reverse neighbors space (bpe) ours BV

104 I Usando Rank y Select de Símbolos Consideremos de nuevo la secuencia T de listas de adyacencia. Guardamos bitmap H[1, e] marcando los comienzos de listas. Precalculamos rank y select para las secuencias T y H.

107 I a b c a: b: c: d: e: d,c,b d,c,a d d,c d e T = d c b d c a d d c H =

108 I Usando Rank y Select de Símbolos Es fácil traducir todas las operaciones: grado interior (v): rankv (T, e). grado exterior (v): select(h, v + 1) select(h, v). vecinos(v): mostrar T [select(h, v)...] hasta que H[i + 1] = 1. vecinos reversos(v): rank(h, selectv (T, i)), para i s sucesivos. existe(u, v): rank v (T, select(h, u + 1) 1) rank v (T, select(h, u)) = 1. Podemos obtener el grafo traspuesto con espacio extra sublineal (por ejemplo con tiempo O(log log n)). O lo podemos comprimir a orden cero (Wavelet tree, tiempo O(log n/ log log n)). La compresión no es gran cosa (σ es demasiado grande!).

117 I Dónde Estamos? Estructuras prácticas (Blandford) con bpe, sin penalidad aparente. Necesitarían unos 30 bpe para reversos. Estructuras prácticas (Boldi & Vigna) con 3 6 bpe, tiempos razonables, incluye reversos. Estructura teórica (relaciones binarias) con n log(n 2 /e) bits para todo, tiempos O(log log n), bpe como mínimo. Inventamos otra (rank/select) con e log n bits para todo, tiempos O(log log n), bpe como mínimo. Para qué seguir escuchando esta charla?

123 I Vuelta a Compresión Pura Hay una forma elegante y efectiva de comprimir T? Re-Pair: encontrar el par más repetido en T y reemplazarlo por un nuevo símbolo, hasta que todos los pares sean únicos.

124 I Vuelta a Compresión Pura Hay una forma elegante y efectiva de comprimir T? Re-Pair: encontrar el par más repetido en T y reemplazarlo por un nuevo símbolo, hasta que todos los pares sean únicos.

125 I Re-Pair a a a b c a a b a a a b c a b d a b d a a 4 A a b a b b c c a b d d a a a A c a A a a A c A d A d

126 I Re-Pair a a A c a A a a A c A d A d a a 2 a A 3 A c 2 c a 1 A d 2 c A 1 d A 1 A B a b a A a B c B a B c A d A d

127 I Re-Pair a B c B a B c A d A d a B 2 B c 2 c B 1 B a 1 c A 1 A d 2 d A 1 A B C a b a A A d a B c B a B c C C

128 I Re-Pair a B c B a B c C C a B 2 B c 2 c B 1 B a 1 c C 1 C C 1 A B C D a b a A A d B c a DB a DC C

129 I Re-Pair a DB a DC C a D 2 DB 1 B a 1 DC 1 C C 1 A B C D E a b a A A d B c a D E B E C C diccionario secuencia comprimida

130 I Re-Pair Comprime bien, descomprime rápido. Aprovecha la propiedad de copia. Comprime mejor si se codifica T diferencialmente. Mejoramos Re-Pair mismo. Estructura de datos sucinta para el diccionario. Método aproximado para secuencias muy grandes.

136 I Mejorando Re-Pair con Estructuras de Datos Sucintas

139 I Re-Pair El Re-Pair original corre en tiempo lineal, pero necesita 20e bytes! Si se usa menos espacio es lentísimo. Diseñamos una versión aproximada para grafos muy grandes. Los resultados son bastante cercanos al método exacto. La técnica se adapta bien a memoria secundaria.

144 I Re-Pair El espacio que sobre en memoria principal se usa para una tabla hash. Se recorre la secuencia y se almacenan los pares y frecuencias. Cuando la tabla se llena se dejan de insertar pares nuevos. Al final se recorre la tabla y se eligen los K más frecuentes para reemplazar de una sóla vez. A la siguiente iteración tenemos más espacio para la tabla