La importancia de las factorizaciones matriciales no negativas en la minería de datos y el procesamiento de

Documentos relacionados
Valores singulares. Producto escalar y ortogonalidad. Proposición. Curso < x, y >= si F = C. Si x C n x i=1

Gustavo Rodríguez Gómez. Agosto Dicembre 2011

6.8. Descomposición mediante valores singulares. v 2 =

Prácticas de Matemáticas II: Álgebra lineal

Algebra lineal de dimensión finita

Clase No. 13: Factorización QR MAT 251. Joaquín Peña (CIMAT) Métodos Numéricos (MAT 251) / 16

Uso de LS. Esta matriz de 3x3 simétrica y definida positiva es un tensor de difusión de hidrógeno. , con gi en R 3. i S 0 exp bgt i Dg i i

Clase 7 Herramientas de Álgebra Lineal

Sistemas de Ecuaciones. Lineales II

Prerrequisitos de la asignatura Álgebra Lineal Numérica

Resolución de Sistema de Ecuaciones Lineales

Matriz inversa generalizada y descomposición del valor singular

Sistema de Ecuaciones Lineales

ALN - SVD. In. Co. Facultad de Ingeniería Universidad de la República

Factorización de matrices

INSTITUTO TECNOLÓGICO METROPOLITANO DECANATURA DE CIENCIAS BÁSICAS CRONOGRAMA DEL CURSO ALGEBRA LINEAL ALX04 SEMESTRE

Matrices y Sistemas de Ecuaciones lineales

Matrices, Determinantes y Sistemas Lineales.

Álgebra Lineal Ma1010

RESOLUCIÓN DE SISTEMAS LINEALES

Métodos de factorización para resolver sistemas de ecuaciones lineales. 22 de agosto, 2012

Tema 4: Matrices y Determinantes. Algunas Notas sobre Matrices y Determinantes. Álgebra Lineal. Curso

Álgebra y Matemática Discreta

Algoritmo de factorización LU

Rango de una matriz. Jana Rodriguez Hertz GAL 1. 2 de abril de 2013 IMERL

Descomposición en Valores singulares(svd)

Algebra Lineal * Working draft: México, D.F., a 17 de noviembre de 2010.

Instituto Tecnológico Autónomo de México. 1. At =..

Tema 4: Sistemas de ecuaciones lineales.

Álgebra lineal Prof: Leonid Fridman

Resolución de Sistema de Ecuaciones Lineales

Algoritmo de la factorización LU

3. Sistemas inconsistentes y sistemas indeterminados

Álgebra de compresión A = U S V T. σ 1 σ 2... A =Σ σ i u i v i. UADE / M. Martins F. Acero / 2004

f(x, y, z, t) = (x + y t, x + 2y z 3t, 3x + 5y 2z 7t).

!MATRICES INVERTIBLES

Ejercicios tipo test de las lecciones 1 y El vector e = ( 1, 0, λ) está en el plano generado por los vectores u = (1, 2, 1) y

Proyecciones Ortogonales y Proceso de Gram-Schmidt

Matrices de Proyección

Tema 3.- Sistemas de ecuaciones lineales incompatibles. Sistemas compatibles e indeterminados.

2. Álgebra matricial. Inversa de una matriz O B 1 O B 1. Depto. de Álgebra, curso

x, y = x 0 y 0 + x 1 y 1 + x 2 y 2 + x 3 y 3. Es fácil ver que verifica 1. Es simétrica. x, y = y, x para todo x, y R 4.

Algunos objetivos de la signatura 2. Sean x 1,x 2,...,x n números reales distintos y sean y 1,y 2,...,y n números reales.

ALN. Repaso matrices. In. Co. Facultad de Ingeniería Universidad de la República

Descomposición en valores singulares Notas para los cursos 21 y 22 (J.L. Mancilla Aguilar)

Definición (matriz): Definición (dimensión de una matriz): Si una matriz tiene m renglones y n columnas se dice que es de dimensión m n.

Asignatura: Horas: Total (horas): Obligatoria X Teóricas 4.5 Semana 4.5 Optativa Prácticas Semanas 72.0

TEMA 1 Álgebra de matrices 4 sesiones. TEMA 2 Determinantes 4 sesiones. TEMA 3 Sistemas de ecuaciones 4 sesiones

Factorización de rango completo y aplicaciones

Matemáticas Discretas TC1003

Sistemas de Ecuaciones. Lineales I

2. Sistemas de ecuaciones lineales

SILABO DE ALGEBRA LINEAL

PROGRAMA DE CURSO. Resultados de Aprendizaje

Gustavo Rodríguez Gómez. Agosto Dicembre 2011

MODULARIDAD Y ESTRUCTURA DE COMUNIDADES EN REDES MATI

Una forma fácil de recordar esta suma (regla de Sarrus): Primero vamos a estudiar algunas propiedades de los determinantes.

Matemática II Tema 3: resolución de sistemas de ecuaciones lineales

Lección 8. Matrices y Sistemas de Ecuaciones Lineales

Resolución de sistemas de ecuaciones lineales


SEL - Métodos Directos

Solución de sistemas lineales

1ER TRABAJO DE ALGEBRA LINEAL Y GEOMETRÍA PEDRO JAVIER CARMONA LUNA PRESENTADO A: HUGO R. PÉREZ CARRASCAL LIC. EN MATEMÁTICAS UNIVERSIDAD DE CÓRDOBA

DOCENTE: JESÚS E. BARRIOS P.

Mínimos Cuadrados. Departamento de Matemáticas, CCIR/ITESM. 30 de junio de 2011

EJERCICIOS DE ÁLGEBRA LINEAL TEMA 1 ESPACIOS VECTORIALES

Curso cero Matemáticas en informática : Sistemas de ecuaciones lineales

2.5 Ejercicios... 59

Cálculo de autovalores

Aproximación discreta de mínimos cuadrados con lapack

SISTEMAS DE ECUACIONES LINEALES

Matemáticas. Álgebra lineal (parte final ampliada)

Espacios de una Matriz

Cálculo numérico. Sistemas de ecuaciones lineales.

Espacios vectoriales reales.

Clase 8 Matrices Álgebra Lineal

ALGEBRA 1- GRUPO CIENCIAS- TURNO TARDE- Espacios vectoriales

Independencia lineal y rango Ejemplos. Rango. Rango y matriz inversa Teorema de Rouché-Frobenius revisitado

SEL Métodos Directos

Espacios Vectoriales, Valores y Vectores Propios

Álgebra Lineal Ma843

c-inversa o inversa generalizada de Rao

Universidad Nacional de Ingeniería Facultad de Ciencias. Física Computacional CC063. Algebra Lineal. Prof: J. Solano 2012-I

Álgebra Lineal Ma843

Matrices Invertibles y Elementos de Álgebra Matricial

TEMA 4: Sistemas de ecuaciones lineales II

Tema 1. Espacios Vectoriales. Sistemas de ecuaciones.

Descomposición SVD. Luciano A. Perez. 10 de septiembre de 2015

UNIVERSIDAD TECNICA LUIS VARGAS TORRES DE ESMERALDAS FACULTAD DE INGENIERÍAS Y TECNOLOGÍAS SILABO DE ALGEBRA LINEAL

Dos matrices son iguales cuando tienen la misma dimensión y los elementos que ocupan el mismo lugar en ambas son iguales

UNIVERSIDAD DEL VALLE DE MÉXICO PROGRAMA DE ESTUDIO DE LICENCIATURA PRAXIS MES XXI

6.6. Diagonalización de matrices simétricas o hermitianas. Ejemplo de una diagonalización de una matriz simétrica

PROGRAMA INSTRUCCIONAL

PROGRAMA DE EXAMEN. Unidad Nº1: Matrices y Función Determinante

PROGRAMA ANALÍTICO. I. Objetivos El alumno deberá: II. Contenidos del Programa Analítico. Año 2017

I. Métodos directos para resolución de SEL. Se dice que una matriz A admite una factorización LU indirecta A = LU

SISTEMAS DE ECUACIONES LINEALES Y MATRICES

Eigenvalores y eigenvectores

MATRICES OPERACIONES BÁSICAS CON MATRICES

Transcripción:

La importancia de las factorizaciones matriciales no negativas en la minería de datos y el procesamiento de imágenes Humberto Madrid, Irma García, Federico Garza Centro de Investigación en Matemáticas Aplicadas Universidad Autónoma de Coahuila II Encuentro México-Cuba de Métodos Numéricos y Optimización Enero 2013 Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 1 / 33

Matrices Actualmente en diversas aplicaciones se manejan grandes cantidades de datos que son almacenados en forma matricial. Algunos ejemplos: Datos de censos poblaciones de INEGI Imágenes digitales Matrices término-documento para realizar búsquedas en internet Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 2 / 33

Ejemplos Madrid, García, Garza (UAdeC) Figura: FMNN minería Caption datos y procesamiento for datosinegi imag. Enero 2013 3 / 33

Ejemplos 252 255 245 255 246 255 255 255 255 255 254 46 52 242 251 252 239 255 29 141 125 42 255 255 255 17 149 131 147 157 20 249 34 39 39 50 23 42 28 54 255 101 80 90 100 81 106 249 240 89 255 81 108 49 80 255 255 95 96 94 88 43 82 255 Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 4 / 33

Introducción Con los datos en su representación matricial, es posible emplear técnicas de Algebra Lineal para extraer información relevante. Se utilizan en muchas ocasiones factorizaciones matriciales. Sin embargo, debido a la gran cantidad de información en las bases de datos actuales, las factorizaciones clásicas no son adecuadas para trabajar con matrices de grandes dimensiones. Es necesario trabajar con nuevas factorizaciones: Factorizaciones matriciales no negativas. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 5 / 33

Factorizaciones clásicas Factorización LU: La matriz A se descompone en el producto de dos matrices triangulares. A = LU Es quizás la factorización matricial más conocida y utilizada en la resolución de sistemas de ecuaciones lineales. Si Ax = b entonces LUx = b El sistema original se transforma en la solución de dos sistemas triangulares Ly = b, Ux = y Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 6 / 33

LU Si A = LU, entonces de donde (a 1, a 2,, a n ) = (Lu 1, Lu 2,, Lu n ) a i = Lu i = u i1 l 1 + u i2 l 2 + u in l n Podemos pensar que las columnas de L forman una base del espacio columna de A. Las coordenadas de cada columna de A en la base L son los elementos de la correspondiente columna de U. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 7 / 33

QR Pero si hablamos de bases del espacio columna... son mejores las bases ortogonales. Factorización QR. A = QR Q ortonormal, R triangular superior. Las columnas de Q forman una base ortogonal del espacio columna de A. Aplicación más común: mínimos cuadrados. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 8 / 33

QR Aplicaciones de la factorización QR: Motores de búsqueda. Ejemplo: Documentos Términos 1. Club Monarcas Morelia en el fútbol de México 1. monarca 2. Ecología de la mariposa monarca 2. Morelia 3. Lista de monarcas de España 3. fútbol 4. Fundación santuario de la mariposa monarca 4. España 5. El equipo de la fuerza Monarcas Morelia 5. mariposa 6. Federación Mexicana de fútbol asociación 6. ecología 7. Instituto Nacional de Ecología Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 9 / 33

QR La matriz término documento asociada es D 1 D 2 D 3 D 4 D 5 D 6 D 7 T 1 1 1 1 1 1 0 0 T 2 1 0 0 0 1 0 0 T 3 1 0 0 0 0 1 0, T 4 0 0 1 0 0 0 0 T 5 0 1 0 1 0 0 0 T 6 0 1 0 0 0 0 1 Términos 1.monarca 2.Morelia 3.fútbol 4.España 5.mariposa 6.ecología Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 10 / 33

QR Una petición de búsqueda se representa como un vector de m 1 de la forma q = (q 1 q 2... q m ) t donde { 1 si el término Ti aparece en la petición q i = 0 en otro caso Por ejemplo si queremos buscar documentos conteniendo las palabras clave mariposa y monarca, la petición se representa como el vector q = (1 0 0 0 1 0) t Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 11 / 33

QR Una forma de realizar la búsqueda es formando el producto del vector petición con la matriz término documento, esto es, calcular p t = q t A en el ejemplo p t = (1, 2, 1, 2, 1, 0, 0) Si A es la matriz término-documento de Internet, el cómputo de q t A resulta prohibitivo en operaciones. Conviene economizar la búsqueda, una forma de hacerlo es utilizar la factorización QR. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 12 / 33

QR Si A tiene rango r, entonces Q es m r y R es r n. El total de multiplicaciones para el producto q t A es de mn. q t A = q t QR el número de multiplicaciones que se requieren para formar este producto: q t Q (q t Q)R TOTAL Multiplicaciones mr r(r+1) 2 + r(n r 1) mr + r(r+1) 2 + r(n r 1) Ejemplo, si m = 100, n = 1000 y r = 10, tenemos que mr + r(r + 1) 2 + r(n r 1) = 10045 y mn = 100000 úú Ahorro de casi el 90 % de multiplicaciones.!! Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 13 / 33

SVD Factorización SVD (Singular Value Decomposition) A = UΣV t U base ortonormal del espacio columna V base ortonormal del espacio renglón σ 1 σ 2... Σ = σr σ 1 σ 2 σ r 0, r es el rango de A. 0 0 Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 14 / 33

SVD Se tiene que A r = U r Σ r V t r = A Donde considera las primeras r columnas de cada matriz. A se puede aproximar por A k, k < r. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 15 / 33

SVD Aplicación: Compresión de imágenes. Imagen original A de 359 371 k = 10 Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 16 / 33

SVD Aplicación: Compresión de imágenes. k = 50 k = 100 Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 17 / 33

Reducción de dimensión En lugar de A r se trabaja con A k, k < r, con esto se trabaja en un espacio de dimensión menor. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 18 / 33

Ventajas de las factorizaciones matriciales Sean A m n, W m r, H r n, con r =rango(a) y A = WH Figura: A = WH Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 19 / 33

Ventajas de las factorizaciones matriciales Ax = W (Hx) Figura: Ax = W (Hx) El lado derecho requiere menos multiplicaciones. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 20 / 33

Ventajas de las factorizaciones matriciales Supongamos r =rango(a) a j = Wh j = h j1 w 1 + h j2 w 2 + + h jr w r Esto nos dice que las columnas de W son una base para el espacio columna de A. Ax = W (Hx) nos dice que Hx son las coordenadas de Ax en la base W. En el fondo estamos trabajando en un subespacio de dimensión menor. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 21 / 33

Al trabajar con bases ortogonales se tienen elementos positivos y negativos. En muchas aplicaciones los elementos negativos no tienen una representación en el contexto del problema. Sería conveniente contar con factorizaciones matriciales donde todos los elementos sean no-negativos. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 22 / 33

Factorizaciones matriciales no negativas Con A 0, W 0, H 0. Ejemplo matriz término-documento A = A = WH 1 1 1 1 1 0 0 1 0 0 0 1 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 1 Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 23 / 33

Factorizaciones matriciales no negativas 0.0000 0.6441 0.6836 0.0000 0.3688 0 0.6441 0 0.0000 0 W = 0 0.0000 0 0.4312 0 0 0 0 0 0.3688 0.0000 0 0.6836 0 0 0.5600 0 0.0000 0 0 0 1.7858 0 0 0 0 1.7858 1.5527 0.0000 0.0000 0.0000 1.5527 0 0 H = 0.0000 1.4629 0.0000 1.4629 0.0000 0 0 2.3191 0 0 0 0 2.3191 0 0.0000 0.0000 2.7113 0.0000 0.0000 0 0 Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 24 / 33

Factorizaciones matriciales no negativas 0 1.5527 a 1 = W h 1 = W 0.0000 2.3191 = 1.5527w 2 + 2.3191w 4 0.0000 Como podemos observar la primera columna de H que corresponde al primer documento depende de los vectores base dos y cuatro de W, la segunda columna de W tiene las entradas uno y dos distintas de cero, es decir está relacionado con los términos monarca y Morelia. El vector cuatro de W está relacionado únicamente con el término futbol, ya que solo su entrada tres es distinta de cero, estos son precisamente los términos que se encuentran originalmente en el documento uno. De forma análoga para los otros vectores documento. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 25 / 33

Factorizaciones matriciales no negativas Componentes 0 de H Columnas de H Terminos Tema Grupo 1 2 o 4 1, 5 y 6 Futbol, Monarcas y Morelia. Deporte. Grupo 2 1 o 3 2, 4 y 7 Ecologia, Mariposa y Monarca. Preservacion de la fauna. Grupo 3 5 3 España y Monarcas. Monarquía. Nos podemos dar cuenta que las factorizaciones no negativas de matrices también pueden funcionar como una herramienta de agrupamiento de documentos. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 26 / 33

Factorizaciones matriciales no negativas Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 27 / 33

Factorización Matricial No Negativa. Dada una matriz A m n, encontrar W, H tales que: o A = W H mín W 0,H 0 A W H F F representa la norma de Frobenius. Donde, W m k, H k n W 0, H 0 k min(m, n) Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 28 / 33

Algunas Aplicaciones Restauración de imagenes. Agrupamiento de datos. Minería de textos. Inspección de correo electrónico. Reconocimiento de rostros. Reconocimiento de escritura a mano. Clasificación de texturas. Bioinformática (Expresión de genes, microarreglos de ADN) Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 29 / 33

Algunos Algoritmos para FMNN Mínimos Cuadrados Alternantes No Negativos. Regla de Actualización Multiplicativa. Métodos de Gradiente descendiente. Mínimos Cuadrados Jerárquicos. Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 30 / 33

Restauración de imágenes Imagen Original 252 255 245 255 246 255 255 255 255 255 254 46 52 242 251 252 239 255 29 141 125 42 255 255 255 17 149 131 147 157 20 249 34 39 39 50 23 42 28 54 255 101 80 90 100 81 106 249 240 89 255 81 108 49 80 255 255 95 96 94 88 43 82 255 252 255 245 255 246 255 255 254 46 52 239 255 29 141 125 255 17 149 131 147 157 20 249 34 39 39 50 23 42 28 54 255 101 80 90 100 81 106 249 240 89 255 81 108 49 80 255 Datos ausentes. 255 95 96 94 88 43 82 255 Imagen Restaurada Matriz Restaurada Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 31 / 33

Restauración de imágenes Imagen Original Datos ausentes Imagen restaurada Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 32 / 33

Bibliografía Madrid, García, Garza (UAdeC) FMNN minería datos y procesamiento imag. Enero 2013 33 / 33