La importancia de las factorizaciones matriciales no negativas en la minería de datos y el procesamiento de imágenes Humberto Madrid, Irma García, Federico Garza Centro de Investigación en Matemáticas Aplicadas Universidad Autónoma de Coahuila II Encuentro México-Cuba de Métodos Numéricos y Optimización Enero 2013 Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 1 / 33
Matrices Actualmente en diversas aplicaciones se manejan grandes cantidades de datos que son almacenados en forma matricial. Algunos ejemplos: Datos de censos poblaciones de INEGI Imágenes digitales Matrices término-documento para realizar búsquedas en internet Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 2 / 33
Ejemplos Madrid, García, Garza (UAdeC) Figura: FMNN minería Caption datos y procesamiento for datosinegi imag. Enero 2013 3 / 33
Ejemplos 252 255 245 255 246 255 255 255 255 255 254 46 52 242 251 252 239 255 29 141 125 42 255 255 255 17 149 131 147 157 20 249 34 39 39 50 23 42 28 54 255 101 80 90 100 81 106 249 240 89 255 81 108 49 80 255 255 95 96 94 88 43 82 255 Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 4 / 33
Introducción Con los datos en su representación matricial, es posible emplear técnicas de Algebra Lineal para extraer información relevante. Se utilizan en muchas ocasiones factorizaciones matriciales. Sin embargo, debido a la gran cantidad de información en las bases de datos actuales, las factorizaciones clásicas no son adecuadas para trabajar con matrices de grandes dimensiones. Es necesario trabajar con nuevas factorizaciones: Factorizaciones matriciales no negativas. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 5 / 33
Factorizaciones clásicas Factorización LU: La matriz A se descompone en el producto de dos matrices triangulares. A = LU Es quizás la factorización matricial más conocida y utilizada en la resolución de sistemas de ecuaciones lineales. Si Ax = b entonces LUx = b El sistema original se transforma en la solución de dos sistemas triangulares Ly = b, Ux = y Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 6 / 33
LU Si A = LU, entonces de donde (a 1, a 2,, a n ) = (Lu 1, Lu 2,, Lu n ) a i = Lu i = u i1 l 1 + u i2 l 2 + u in l n Podemos pensar que las columnas de L forman una base del espacio columna de A. Las coordenadas de cada columna de A en la base L son los elementos de la correspondiente columna de U. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 7 / 33
QR Pero si hablamos de bases del espacio columna... son mejores las bases ortogonales. Factorización QR. A = QR Q ortonormal, R triangular superior. Las columnas de Q forman una base ortogonal del espacio columna de A. Aplicación más común: mínimos cuadrados. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 8 / 33
QR Aplicaciones de la factorización QR: Motores de búsqueda. Ejemplo: Documentos Términos 1. Club Monarcas Morelia en el fútbol de México 1. monarca 2. Ecología de la mariposa monarca 2. Morelia 3. Lista de monarcas de España 3. fútbol 4. Fundación santuario de la mariposa monarca 4. España 5. El equipo de la fuerza Monarcas Morelia 5. mariposa 6. Federación Mexicana de fútbol asociación 6. ecología 7. Instituto Nacional de Ecología Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 9 / 33
QR La matriz término documento asociada es D 1 D 2 D 3 D 4 D 5 D 6 D 7 T 1 1 1 1 1 1 0 0 T 2 1 0 0 0 1 0 0 T 3 1 0 0 0 0 1 0, T 4 0 0 1 0 0 0 0 T 5 0 1 0 1 0 0 0 T 6 0 1 0 0 0 0 1 Términos 1.monarca 2.Morelia 3.fútbol 4.España 5.mariposa 6.ecología Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 10 / 33
QR Una petición de búsqueda se representa como un vector de m 1 de la forma q = (q 1 q 2... q m ) t donde { 1 si el término Ti aparece en la petición q i = 0 en otro caso Por ejemplo si queremos buscar documentos conteniendo las palabras clave mariposa y monarca, la petición se representa como el vector q = (1 0 0 0 1 0) t Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 11 / 33
QR Una forma de realizar la búsqueda es formando el producto del vector petición con la matriz término documento, esto es, calcular p t = q t A en el ejemplo p t = (1, 2, 1, 2, 1, 0, 0) Si A es la matriz término-documento de Internet, el cómputo de q t A resulta prohibitivo en operaciones. Conviene economizar la búsqueda, una forma de hacerlo es utilizar la factorización QR. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 12 / 33
QR Si A tiene rango r, entonces Q es m r y R es r n. El total de multiplicaciones para el producto q t A es de mn. q t A = q t QR el número de multiplicaciones que se requieren para formar este producto: q t Q (q t Q)R TOTAL Multiplicaciones mr r(r+1) 2 + r(n r 1) mr + r(r+1) 2 + r(n r 1) Ejemplo, si m = 100, n = 1000 y r = 10, tenemos que mr + r(r + 1) 2 + r(n r 1) = 10045 y mn = 100000 úú Ahorro de casi el 90 % de multiplicaciones.!! Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 13 / 33
SVD Factorización SVD (Singular Value Decomposition) A = UΣV t U base ortonormal del espacio columna V base ortonormal del espacio renglón σ 1 σ 2... Σ = σr σ 1 σ 2 σ r 0, r es el rango de A. 0 0 Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 14 / 33
SVD Se tiene que A r = U r Σ r V t r = A Donde considera las primeras r columnas de cada matriz. A se puede aproximar por A k, k < r. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 15 / 33
SVD Aplicación: Compresión de imágenes. Imagen original A de 359 371 k = 10 Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 16 / 33
SVD Aplicación: Compresión de imágenes. k = 50 k = 100 Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 17 / 33
Reducción de dimensión En lugar de A r se trabaja con A k, k < r, con esto se trabaja en un espacio de dimensión menor. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 18 / 33
Ventajas de las factorizaciones matriciales Sean A m n, W m r, H r n, con r =rango(a) y A = WH Figura: A = WH Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 19 / 33
Ventajas de las factorizaciones matriciales Ax = W (Hx) Figura: Ax = W (Hx) El lado derecho requiere menos multiplicaciones. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 20 / 33
Ventajas de las factorizaciones matriciales Supongamos r =rango(a) a j = Wh j = h j1 w 1 + h j2 w 2 + + h jr w r Esto nos dice que las columnas de W son una base para el espacio columna de A. Ax = W (Hx) nos dice que Hx son las coordenadas de Ax en la base W. En el fondo estamos trabajando en un subespacio de dimensión menor. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 21 / 33
Al trabajar con bases ortogonales se tienen elementos positivos y negativos. En muchas aplicaciones los elementos negativos no tienen una representación en el contexto del problema. Sería conveniente contar con factorizaciones matriciales donde todos los elementos sean no-negativos. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 22 / 33
Factorizaciones matriciales no negativas Con A 0, W 0, H 0. Ejemplo matriz término-documento A = A = WH 1 1 1 1 1 0 0 1 0 0 0 1 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 1 Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 23 / 33
Factorizaciones matriciales no negativas 0.0000 0.6441 0.6836 0.0000 0.3688 0 0.6441 0 0.0000 0 W = 0 0.0000 0 0.4312 0 0 0 0 0 0.3688 0.0000 0 0.6836 0 0 0.5600 0 0.0000 0 0 0 1.7858 0 0 0 0 1.7858 1.5527 0.0000 0.0000 0.0000 1.5527 0 0 H = 0.0000 1.4629 0.0000 1.4629 0.0000 0 0 2.3191 0 0 0 0 2.3191 0 0.0000 0.0000 2.7113 0.0000 0.0000 0 0 Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 24 / 33
Factorizaciones matriciales no negativas 0 1.5527 a 1 = W h 1 = W 0.0000 2.3191 = 1.5527w 2 + 2.3191w 4 0.0000 Como podemos observar la primera columna de H que corresponde al primer documento depende de los vectores base dos y cuatro de W, la segunda columna de W tiene las entradas uno y dos distintas de cero, es decir está relacionado con los términos monarca y Morelia. El vector cuatro de W está relacionado únicamente con el término futbol, ya que solo su entrada tres es distinta de cero, estos son precisamente los términos que se encuentran originalmente en el documento uno. De forma análoga para los otros vectores documento. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 25 / 33
Factorizaciones matriciales no negativas Componentes 0 de H Columnas de H Terminos Tema Grupo 1 2 o 4 1, 5 y 6 Futbol, Monarcas y Morelia. Deporte. Grupo 2 1 o 3 2, 4 y 7 Ecologia, Mariposa y Monarca. Preservacion de la fauna. Grupo 3 5 3 España y Monarcas. Monarquía. Nos podemos dar cuenta que las factorizaciones no negativas de matrices también pueden funcionar como una herramienta de agrupamiento de documentos. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 26 / 33
Factorizaciones matriciales no negativas Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 27 / 33
Factorización Matricial No Negativa. Dada una matriz A m n, encontrar W, H tales que: o A = W H mín W 0,H 0 A W H F F representa la norma de Frobenius. Donde, W m k, H k n W 0, H 0 k min(m, n) Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 28 / 33
Algunas Aplicaciones Restauración de imagenes. Agrupamiento de datos. Minería de textos. Inspección de correo electrónico. Reconocimiento de rostros. Reconocimiento de escritura a mano. Clasificación de texturas. Bioinformática (Expresión de genes, microarreglos de ADN) Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 29 / 33
Algunos Algoritmos para FMNN Mínimos Cuadrados Alternantes No Negativos. Regla de Actualización Multiplicativa. Métodos de Gradiente descendiente. Mínimos Cuadrados Jerárquicos. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 30 / 33
Restauración de imágenes Imagen Original 252 255 245 255 246 255 255 255 255 255 254 46 52 242 251 252 239 255 29 141 125 42 255 255 255 17 149 131 147 157 20 249 34 39 39 50 23 42 28 54 255 101 80 90 100 81 106 249 240 89 255 81 108 49 80 255 255 95 96 94 88 43 82 255 252 255 245 255 246 255 255 254 46 52 239 255 29 141 125 255 17 149 131 147 157 20 249 34 39 39 50 23 42 28 54 255 101 80 90 100 81 106 249 240 89 255 81 108 49 80 255 Datos ausentes. 255 95 96 94 88 43 82 255 Imagen Restaurada Matriz Restaurada Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 31 / 33
Restauración de imágenes Imagen Original Datos ausentes Imagen restaurada Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 32 / 33
Bibliografía Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 33 / 33