68 Descomposición mediante valores singulares Los valores singulares de una matriz m n Supongamos que A es una matriz real cualquiera Los autovalores de A T A tienen la siguiente propiedad A T Ax = λx implica x T A T Ax = λx T x y por tanto Ax 2 = λ x 2 Por tanto, si v es un vector propio de A T A, su autovalor es: λ = Av 2 v 2 = ( ) 2 Av (1) v Esto es, el autovalor de un vector propio de A T A es igual al cuadrado del factor por el que la matriz A multiplica la longitud de v Esto se cumple siempre, independientementa de que la matriz A sea cuadrada o rectangular Esto nos motiva la siguiente definición: Definición Se llaman valores singulares de una matriz real cualquiera A a los factores por los valores singulares que A multiplica la longitud de los vectores propios de A T A Esto es, para cada vector propio de A T A, v, el correspondiente valor singular de A es el cociente σ = Av v Además, los cálculos anteriores nos muestran que: Los valores singulares de A son las raíces cuadradas de los autovalores de A T A Si A es una matriz de m filas y n columnas, entonces A T A es una matriz cuadrada con n columnas y es una matriz real simétrica, por lo que tiene n autovalores reales, los cuales, de acuerdo con (1), son todos no negativos Ordenaremos dichos autovalores de la siguiente manera: λ 1 λ 2 λ n (2) Sea r el rango de la matriz A Esto significa que r es también el rango de la matriz A T A y es también el número de autovalores no nulos de A T A, es decir: Entonces, los valores singulares de A son λ 1 λ r >, y λ r+1 = = λ n = σ 1 = λ 1,, σ r = λ r 1 Versión de 11 de diciembre de 216, 11:6 h
Supongamos ahora que {v 1,, v n } es una base ortonormal de R n formada por autovectores de A T A correspondientes a los autovalores (2), de forma que determinan una diagonalización ortogonal de A T A: A T A = VΛV T donde V = [v 1 v n ] y Λ = diag (λ 1,, λ n ) Entonces para cualesquiera i, j {1,, n}, y en consecuencia: (Av i ) (Av j ) = (Av j ) T Av i = v T j AT Av i = v T j λ iv i = λ i (v i v j ) (Av i ) (Av j ) = si i = j Es decir: {Av 1,, Av n } es un conjunto ortogonal de vectores de R m Los vectores no nulos de este conjunto forman una base ortogonal del subespacio que generan; esos vectores son Av 1,, Av r porque son los que tienen norma distinta de cero Finalmente, para cualquier vector y = Ax de Col A, expresando x como combinación lineal de los vectores de la base {v 1,, v n } de R n, x = c 1 v 1 + + c n v n, obtenemos: y = Ax = c 1 Av 1 + + c n Av n = c 1 Av 1 + + c r Av r + c r+1 Av r+1 + + c n Av n = c 1 Av 1 + + c r Av r + + + = c 1 Av 1 + + c r Av r lo que nos dice que todo vector de Col A es combinación lineal de los vectores Av 1,, Av r Como cada uno de estos vectores pertenece a Col A, llegamos a la conclusión de que el espacio generado por ellos es Col A y, según lo dicho antes: Los vectores Av 1,, Av r forman una base ortogonal del espacio columna de A, Col A, y sus normas son los valores singulares de A Esto implica: Los vectores u 1 = 1 σ 1 Av 1,, u r = 1 σ r Av r forman una base ortonormal del espacio columna de A La descomposición de una matriz mediante los valores singulares Vamos ahora a ver que es posible hallar una factorización de A de la siguiente forma: A = UΣV T (3) Donde V = [v 1 v n ] es la matriz ortogonal de autovectores de A T A dada más arriba y Σ es una especie de matriz diagonal con el mismo número de filas y columnas que A pero cuyos elementos son todos excepto los de las posiciones diagonales (1, 1) a (r, r), que son los valores singulares de A Por ejemplo, dado que la siguiente matriz A tiene rango 2 (ya que el doble de la fila 2 sumado a la fila 3 es igual a la fila 1), la matriz Σ correspondiente sería como se indica: A = 2 7 5 8 1 3 1, Σ = σ 1 σ 2 1 5 6 (Por supuesto, si r = (o sea, A = ) entonces Σ = A = ) Dependiendo de si r es igual al número de filas (m) de A o al número de columnas (n) o a ambos (matriz cuadrada inversible) o a ninguno de los dos, la matriz Σ tendrá la forma correspondiente entre las siguientes: Σ = ( D ) ( ) ( ) D D, Σ =, Σ = D, Σ = 2
Donde D = Λ Entonces es fácil demostrar que existe una matriz ortogonal U tal que se cumple (3) Una factorización de A de esa forma se llama una descomposición mediante valores singulares de A Para obtener la factorización (3) de A sólo nos falta saber cómo hallar la matriz ortogonal U En realidad, de la propia ecuación (3) se deduce cómo construir la matriz U Multiplicando los dos miembros de (3) por la derecha por V, obtenemos: En el miembro de la izquierda, AV = [Av 1 Av n ] = [Av 1 Av r ] y en el miembro de la derecha, puesto que por ser V una matriz ortogonal, V T V = I, σ 1 UΣV T V = UΣ = [u 1 u m ] σ r = [σ 1u 1 σ r u r ] (4) Por tanto, la ecuación (3) determina las primeras r columnas de U como los vectores de la base ortonormal de Col A hallados antes: u 1 = 1 σ 1 Av 1,, u r = 1 σ r Av r Si r = m hemos terminado En cambio, si r < m podemos completar el sistema ortonormal de vectores {u 1,, u r } hasta formar una base ortonormal de R m {u 1,, u m } y tomar U = [u 1,, u m ] Para ello basta tomar como vectores u r+1,, u m una base del subespacio de R m ortogonal a Col A, el cual es, como sabemos, Nul A T, el spacio nulo de la traspuesta de A 1 Los subespacios fundamentales asociados con una matriz real m n Si A es una matriz m n entonces A define una aplicación lineal T A : R n R m mediante T A (x) = Ax El espacio nulo de A es el núcleo de T A, un subespacio de R n y el espacio columna de A es la imagen de T A, un subespacio de R m : Nul A = ker T A R n y Col A = Im T A R m Análogamente, A T define una aplicación lineal T A T : R m R n El espacio nulo de A T es el núcleo de T A T, un subespacio de R m y el espacio columna de A T, que es justamente el espacio fila de A es la imagen de T A T, un subespacio de R n : Nul A T = ker T A T R m y Fil A = Col A T = Im T A T R n Estos subespacios de R n y de R m son los espacios fundamentales asociados con la matriz A y el teorema de la descomposición en valores singulares nos permite obtener importantes relaciones entre ellos que resumen la estructura general de las aplicaciones lineales Sean U = [u 1,, u m ] y V = [v 1,, v n ] las matrices ortogonales de una descomposición mediante valores singulares de una matriz A de rango r cuyos valores singulares no nulos son σ 1,, σ r Sabemos que {u 1,, u r } es una base ortonormal del espacio columna de A Consideremos ahora un vector v del subespacio nulo de A T, de forma que A T v = Tomando traspuestas en esta ecuación vemos que el producto de v T por cada columna de A da cero, lo que significa que v es ortogonal a todas las columnas de A y por tanto es ortogonal a todo el subespacio Col A Así, llegamos a: 1 Es un hecho trivial que para toda matriz A todo vector de Nul A es ortogonal a cada fila de A y por tanto a todo Fil A y que todo vector ortogonal a cada fila de A pertenece a Nul A En consecuencia Nul A = (Fil A) y también, por simetría, Nul A T = (Col A) 3
El espacio nulo de A T es el subespacio ortogonal al espacio columna de A Intercambiando los papeles de A y A T se llega a: Para cualquier matriz, su espacio nulo es el subespacio ortogonal a su espacio fila De lo anterior también se deduce que, dado que Col A = Gen{u 1,, u r }, tenemos que {u r+1,, u m } es una base ortonormal del espacio nulo de A T Esto nos da un método para completar las columnas de la matriz U más allá de los vectores u 1,, u r : Para obtener los vectores u r+1,, u m de U basta aplicar el proceso de Gram-Schmidt a una base cualquiera del espacio nulo de A T Finalmente, la dimensión del espacio nulo de A es n r y por tanto, el conjunto {v r+1,, v n } es una base ortonormal de Nul A (además de ser una base ortonormal de Nul(A T A), según su definición original) Observaciones sobre las descomposiciones en valores singulares La descomposición en valores singulares de la matriz traspuesta Si conocemos la descomposición en valores singulares de A, A = UΣV T, entonces también conocemos la descomposición de A T ya que, tomando traspuestas: y ahora es fácil ver que la diagonalización ortogonal de AA T es A T = VΣ T U T (5) AA T = UΣV T (UΣV T ) T = UΣV T VΣ T U T = UΣΣ T U T La conclusión es que los papeles de U y V se intercambian al pasar de la descomposición de A a la de A T Por tanto (5) es la descomposición en valores singulares de A T Cuando calculamos la descomposición en valores singulares de una matriz, estamos calculando también la descomposición de su traspuesta Dado que cualquiera de las dos descomposiciones implica la otra, en la práctica esto se puede aprovechar para disponer los cálculos de la mamera más conveniente Por ejemplo, hallando la diagonalización ortogonal de la más pequeña de las matrices A T A y AA T La descomposición en valores singulares de una matriz con columnas ortogonales Si A es una matriz m n cuyas columnas (n vectores v 1,, v n de R m ) son ortogonales dos a dos entonces A T A es una matriz diagonal cuyos elementos diagonales son los cuadrados de las normas de las columnas de A: v 1 2,, v n 2 En ese caso Λ = diag( v 1 2,, v n 2 ), V = I n y podemos decir: Los valores singulares no nulos de una matriz con columnas (filas) ortogonales dos a dos son las normas de sus columnas (filas) no nulas Suponiendo que A no tiene columnas de ceros (y que las columnas están ordenadas con normas decrecientes), v 1 Σ = v n 4
y la matriz U se puede obtener uniendo al conjunto { 1 v 1 v 1,, 1 v n v n} el resultado de aplicar el proceso de Gram-Schmidt a una base del espacio nulo de A T La aproximación de una matriz mediante matrices de menor rango Sean U = [u 1,, u m ] y V = [v 1,, v n ] las matrices ortogonales de una descomposición mediante valores singulares de una matriz A de rango r cuyos valores singulares no nulos son σ 1,, σ r Entonces, usando (4): A = UΣV T = [σ 1 u 1 σ r u r ]V T = [σ 1 u 1 σ r u r ] = σ 1 u 1 v T 1 + + σ ru r v T r + v T r+1 + vt n por tanto llegamos a la siguiente expresión en la cual A aparece expresada como suma de matrices de rango 1: A = σ 1 u 1 v T 1 + + σ ru r v T r v T 1 v T n Además: Para todo k r la matriz A k = σ 1 u 1 v T 1 + + σ ku k v T k obtenida de los k mayores valores singulares no nulos tiene rango k y se conoce como la aproximación de rango k de A Para obtener los sumandos de la aproximación de rango k conviene recordar que aproximación de rango k de A σ i u i v T i = Av i v T i Así, la aproximación de rango 1 de A es: A 1 = σ 1 u 1 v T 1 = Av 1v T 1, la aproximación de rango 2 es: A 2 = σ 1 u 1 v T 1 + σ 2u 2 v T 2 = Av 1v T 1 + Av 2v T 2 = A(v 1v T 1 + v 2v T 2 ), y así sucesivamente hasta la aproximación de rango r, que es la propia A 5