COMPONENTES PRINCIPALES

Documentos relacionados
Tema 2 Datos multivariantes

Formulación del problema de la ruta más corta en programación lineal

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Repaso de conceptos de álgebra lineal

Esta expresión polinómica puede expresarse como una expresión matricial de la forma; a 11 a 12 a 1n x 1 x 2 q(x 1, x 2,, x n ) = (x 1, x 2,, x n )

Sistemas de Ecuaciones Lineales y Matrices

Matrices y determinantes

como el número real que resulta del producto matricial y se nota por:

TEMA 1. MATRICES, DETERMINANTES Y APLICACIÓN DE LOS DETERMINANTES. CONCEPTO DE MATRIZ. LA MATRIZ COMO EXPRESIÓN DE TABLAS Y GRAFOS.

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Algebra lineal y conjuntos convexos

Tema 3: Espacios vectoriales

Definición: Dos matrices A y B son iguales si tienen el mismo orden y coinciden los elementos que ocupan el mismo lugar.

Conceptos básicos de Geometría

de la forma ), i =1,..., m, j =1,..., n, o simplemente por (a i j ).

Tema 1: Matrices. El concepto de matriz alcanza múltiples aplicaciones tanto en la representación y manipulación de datos como en el cálculo numérico.

RESOLUCIÓN DE SISTEMAS MEDIANTE DETERMINANTES

TEMA 8. GEOMETRÍA ANALÍTICA.

un conjunto cuyos elementos denominaremos vectores y denotaremos por es un espacio vectorial si verifica las siguientes propiedades:

Sistemas de Ecuaciones Lineales

APUNTES DE ÁLGEBRA LINEAL TEMA 2. SISTEMAS DE ECUACIONES LINEALES

Análisis de componentes principales

NOTACIÓN Y REPRESENTACIÓN

Clase 8 Matrices Álgebra Lineal

DEFINICIONES TIPOS DE MATRICES DETERMINANTES Y PROPIEDADES OPERACIONES MATRICIALES INVERSA DE UNA MATRIZ SISTEMAS DE ECUACIONES

1 SISTEMAS DE ECUACIONES LINEALES. MÉTODO DE GAUSS

Dos matrices son iguales cuando tienen la misma dimensión y los elementos que ocupan el mismo lugar en ambas son iguales

Tema 5. Muestreo y distribuciones muestrales

Sistemas de ecuaciones lineales

UNIDAD 10: ECUACIONES DE SEGUNDO GRADO.

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

Tema 2.- Formas Cuadráticas.

Sistemas de ecuaciones lineales dependientes de un parámetro

MENORES, COFACTORES Y DETERMINANTES

Materia: Matemática de 5to Tema: Método de Cramer. Marco Teórico

Espacios Vectoriales

ECUACIÓN DE OSCILACIONES. Tomado del texto de Ecuaciones Diferenciales de los Profesores. Norman Mercado. Luis Ignacio Ordoñéz

Unidad V. 5.1 Recta tangente y recta normal a una curva en un punto. Curvas ortogonales.

MATRICES. Se simboliza tal matriz por y se le llamará una matriz x o matriz de orden x (que se lee por ).

Unidad 2: Ecuaciones, inecuaciones y sistemas.

VECTORES. también con letras sobre las cuales se coloca una flechita ( a ). A = módulo de A. modulo o magnitud, dirección y sentido. vector.

Sistemas de ecuaciones lineales

Espacios Vectoriales. AMD Grado en Ingeniería Informática. AMD Grado en Ingeniería Informática (UM) Espacios Vectoriales 1 / 21

May 4, 2012 CAPÍTULO 5: OPTIMIZACIÓN

ECUACIONES POLINÓMICAS CON UNA INCÓGNITA

RESOLUCIÓN DE SISTEMAS MEDIANTE DETERMINANTES

Distribuciones de probabilidad bidimensionales o conjuntas

Factorización de matrices

Matrices, Determinantes y Sistemas Lineales.

Matemáticas 2.º Bachillerato. Matemáticas 2.º Bachillerato. Matemáticas 2.º Bachillerato. Ejemplo:

Máximos y mínimos. Mínimo global Máximo global máximo relativo mínimo relativo

1. dejar a una lado de la igualdad la expresión que contenga una raíz.

Tema 2: Teorema de estructura de los grupos abelianos finitamente generados.

DERIVADAS PARCIALES Y APLICACIONES

ECUACIÓN DE LA RECTA

Jesús Eduardo Pulido Guatire, marzo Diagrama de Dispersión y Correlación Lineal Simple

Transformada de Laplace - Conceptos Básicos. e -st f(t)dt. L { f (t) } = F(s) =

Derivadas Parciales (parte 2)

INTRODUCCIÓN. FUNCIONES. LÍMITES.

Tema 4: Matrices y Determinantes. Algunas Notas sobre Matrices y Determinantes. Álgebra Lineal. Curso

Tema 3: El Método Simplex. Algoritmo de las Dos Fases.

Tema 11.- Autovalores y Autovectores.

Sistemas de ecuaciones

Una ecuación puede tener ninguna, una o varias soluciones. Por ejemplo: 5x 9 = 1 es una ecuación con una incógnita con una solución, x = 2

TEMA 0: REPASO DE FUNCIONES

Matrices: repaso. Denotaremos con M m n el conjunto de matrices de tamaño m n, o sea, de m filas y n columnas. Una matriz A M m n es de la forma A =

La representación gráfica de una función cuadrática es una parábola.

UNIDAD I: SISTEMAS DE DOS ECUACIONES CON DOS INCÓGNITAS

CURSO BÁSICO DE MATEMÁTICAS PARA ESTUDIANTES DE ECONÓMICAS Y EMPRESARIALES

15. Regresión lineal. Te recomiendo visitar su página de apuntes y vídeos:

Solución de Sistemas de Ecuaciones Diferenciales Lineales

Tema 5: Sistemas de ecuaciones lineales.

2 = 1 0,5 + = 0,5 c) 3 + = = 2

ALGEBRA. Escuela Politécnica Superior de Málaga

Tema Contenido Contenidos Mínimos

Ecuaciones e inecuaciones. Sistemas de ecuaciones e inecuaciones

Álgebra y Trigonometría Clase 7 Sistemas de ecuaciones, Matrices y Determinantes

CALCULO DE MEDIDAS DE RESUMEN CON DATOS TABULADOS

CURSO CERO DE MATEMATICAS. Apuntes elaborados por Domingo Pestana Galván. y José Manuel Rodríguez García

Instituto Tecnológico Autónomo de México. 1. At =..

GEOMETRÍA EN EL ESPACIO.

EJERCICIOS DE ÁLGEBRA LINEAL TEMA 1 ESPACIOS VECTORIALES

Una matriz es una tabla ordenada (por filas y columnas) de escalares a i j de la forma: a

Teoría Tema 6 Ecuaciones de la recta

Un subconjunto no vacío H de un espacio vectorial V es un subespacio de V si se cumplen las dos reglas de cerradura:

PRÁCTICA No. 2 FORMA POLAR DE UN NUMERO COMPLEJO. Otra forma de expresar un número complejo es la forma polar o forma módulo-argumento,

Matemáticas Aplicadas a los Negocios

TRA NSFORMACIO N ES LIN EA LES

1. (F, +) es un grupo abeliano, denominado el grupo aditivo del campo.

Conjuntos y matrices. Sistemas de ecuaciones lineales

Mapa Curricular: Funciones y Modelos

Nombre y Apellidos:... EXAMEN ECONOMETRÍA II (Enero 2010)

Capítulo 8. Análisis Discriminante

SISTEMAS DE ECUACIONES LINEALES

El Algoritmo E-M. José Antonio Camarena Ibarrola

CORRELACIÓN Y REGRESIÓN. Raúl David Katz

1 ÁLGEBRA DE MATRICES

PROBLEMAS RESUELTOS ÁLGEBRA LINEAL Tema 3. Transformaciones Lineales

SESIÓN 14 DERIVADAS SUCESIVAS DE UNA FUNCION, DE MÁXIMOS Y MÍNIMOS Y LA CONCAVIDAD DE UNA CURVA APLICANDO EL CRITERIO DE LA SEGUNDA DERIVADA

ECUACIONES DE PRIMER GRADO CON UNA INCÓGNITA

Transcripción:

COMPONENTES PRINCIPALES Jorge Galbiati R. El método de Componentes Principales tiene por objeto reducir la dimensionalidad de un problema de múltiples variables, aplicando una sucesión de transformaciones lineales a las variables, de modo que un subconjunto de ellas concentre la mayor parte de la variabilidad contenida en las variables originales. Supongamos que se tiene un vector aleatorio de dimensión p, x =[x x... x p ], que su vector de medias es µ y su matriz de varianzas covarianzas es Σ. Sea y la variable aleatoria definida por la fórmula y = γ (x µ) () γ es un vector constante tal que la varianza de y sea máxima,sujetoalacondición de que la norma γ es. γ de Es decir, [ ]} Var ( y )=máx γ {var γ (X µ) sujetoalacondición γ =. Pero [ ] var γ (X µ) = γ var(x µ)γ = γ γ y γ = γ γ Luego, equivalentemente, γ se obtiene resolviendo el problema: Maximizar γ γ con respecto de γ sujeto a la condición γ γ = Por multiplicadores de lagrange, esto se logra minimizando la función

Ψ(γ,λ)=γ γ λ(γ γ ) Esta es una función polinómica, luego se deriva con respecto de γ y λ, se igualan a cero las derivadas, y se resuelve es sistema resultante para obtener el mínimo: γ γ = γ λγ =0 p ecuaciones (p dimensión del vector aleatorio) γ λ = γ γ = 0 ecuación De la ecuación, γ= λγ, loquesignificaqueλ es un valor propio de y su respectivo vector propio es γ, que está estandarizado a norma (estandarizado). La varianza resulta ser γ γ = λγ γ = λ, luegoγ es el vector propio normalizado asociado al mayor valor propio λ,de, y que denominaremos γ. Recordar que es semidefinida positiva, luego todos sus valores propios son mayores o iguales a cero. Además, por ser simétrica, sus vectores propios son ortogonales entre si. DEFINICION: El vector aleatorio y = γ (x µ) de la transformación () se denomina Primera Componente Principalde x. La dirección definida por el vector γ se denomina Primer Eje Principal. La segunda componente principal es la variable aleatoria y = γ (x µ), en que γ es el vector propio asociado al segundo valor propio λ, etc. hasta la p-ésima componente principal. PROPIEDADES:.- E(y i )=0.- Var(y i )=λ i i-ésimo valor propio de.- Cov(y i,y j )=0 para i j 4.- Var(y ) Var(y )... (y p ) 0.-.- 5.- 6.- p i= var(y i)=traza( ) p i= var(y i)=det( ) Las transformaciones y i se pueden escribir todas juntas en forma condensada

y =Γ (x µ) en que y es el vector de componentes principales y =[y,y,..., y p ] y Γ la matriz ortogonal p p tal que sus columnas son los vectores propios de, en orden descendentede sus valores propios. Observar que Γ es ortogonal, luego ΓΓ =Γ Γ=I. Esto significa que la transformación de componentes principales, y = γ (x µ), consiste en un centrado del vector de observaciones, al restar µ, para luego efectuar una rotación (la multiplicación de un vector por una matriz ortogonal corresponde a una rotación del vector en el espacio). Esta rotación busca ver el vector desde el punto en que aparece con mayor variabilidad, por lo tanto, más informativo. También se observa que Γ y Γ son matrices mutuamente inversas. Entonces la transformación inversa, que convierte las componentes principales en las observaciones originales, es : x =Γy + µ pues que Γ y Γ son matrices mutuamente inversas. Los registros γ ij de Γ se denominan cargas (loadings) Las propiedades, y dadas anteriormente, se pueden expresar en términos matriciales:. E(y) =0. y. Var(y)=, con =diag{λ,..., λ p } También se puede agregar que la matriz de covarianzas entre x e y es Cov( x, y )=Γ Entonces la covarianzas entre la variable x i está dadaporγ ij λ j (la coordenada i-ésima de x )ylaj-ésima componente principal La matriz de correlaciones entre x e y está dadapord Γ en que = diag { λ, λ,..., } { λ p y D = diag σ, σ,..., σpp }

en que σ ii es la varianza de la variable original x i. Recordar que λ j es la varianza de la j-ésima componenete principal y j. Desarrolando la expresión matricial para la matriz de correlaciones obtenemos las correlaciones individuales: COMPONENTES PRINCIPALES MUESTRALES corr(x i,y j )=γ ij λj σ ii Si se tiene una matriz de datos X nxp, las componentes principales se obtienen a partir de la matriz de varianzas - covarianzas muestral S = X (I n )X,enqueI es la matriz identidad p-dimensional diag {,,..., } y es un vector p-dimensional en que todos sus elementos son unos. O bien se pueden obtener las componentes principales a partir de la matriz d correlaciones muestral R = D SD en que { } D = diag s, s,..., spp siendo los s ii las varianzas muestrales. La matriz H =(I n ) se denomina Matriz de Centrado, porque lo que hace es quitarle a cada elemento de la matriz de datos X, el promedio muestral de la variable respectiva (el promedio de la columna). Las componentes principales no son invariantes con respecto de cambios de escala de las variables. Por lo tanto si se usa S oseusar, los resultados obtenidos serán diferentes. Cuándo se usa una u otra matriz? Si la escala de medida de todas las variables es la misma, basta con S. En cambio, si las escalas de medida son muy diferentes dominarán las variables con magnitudes mayores. Por lo tanto, en estos casos, conviene usar la matriz de correlaciones R. ALGORITMO DE CALCULO De forma análoga al caso de las Componentes Principales poblacionales, visto arriba, dada una matriz de datos, para obtener las componentes principales (muestrales) se deben calcular los valores y vectores propios de S o de R. Los valores propios son las varianzas de las Componentes Principales. Los vectores propios son los ejes principales. Las coordenadas del i-ésimo vector propio son las cargas o coeficientes de la i-ésima componente principal. Los valores de las componentes principales (también llamados Scores) se obtienen multiplicando las variables centradas por los vectores propios: La j-ésima componente principal es el vector n-dimensional dado por y j = HXγ j en que γ j es el j-ésimo vector propio, H es la matriz de centrado 4

H =(I n ) Expícitamente, la observación i-ésima de la j-ésima variable se expresa como función lineal de las p variables originales de la i-ésima observación: y ij = γ ij (x i x )+γ i (x i x )+... + γ ip (x ip x p ) La covarianza muestral entre x i y la componente principal y j está dada por el producto cov(x i,y j )=γ ij λ j, el producto de la coordenada i-ésima de la j-ésima componente principal γ ij por el j-ésimo valor propio λ j si se usa S,ó γ ij λj s ii en el caso en que se usa R. La correlación muestral entre x i e y j está dadapor si se usa S,ó γ ij λj en el caso en que se usa R. corr(x i,y j )=γ ij λj s ii Reducción de dimensionalidad Las componentes principales tienen un orden descendente de importancia, debido a que la varianza que contienen va también en orden descendente, y las variables que tienen poca varianza, tienen poca información acerca de los sujetos observados. En las aplicaciones, se suele conservar las primeras componentes y descartar las últimas, con el objeto de reducir la dimensionalidad del problema. Las que se descartan constituyen información que se pierde. Según la forma que tienen las cargas en las fórmulas de transformación de las observaciones en las componentes, se les puede dar interpretaciones a las componentes principales. Por ejemplo, si las cargas son todas positivas, es un promedio ponderado entre las variables cuyas cargas sean significativamente grandes. Si hay positivas y negativas, es un contraste o comparación (entre las variables que tienen cargas postivas y las que tienen cargas negativas, con magnitudes significativas). Para decidir cuántas conservar se debe llegar a un compromiso entre el grado de simplificación del problema y la cantidad de información perdida. Existen algunos criterios para decidir cuántas componentes principales conservar, y cuántas descartar: ) Observar el gráfico de barras que muestra las magnitudes de las varianzas de las componentes, en orden descendente (scree plot). Este puede sugerir si hay un punto que separe las grandes de las pequeñas. Este se denomina criterio de Cattell. 5

) Incluir las componentes que expliquen hasta un 90 % de la varianza acumulada. Este criterio tiende a incluir muchas componentes. ) Excluir aquellas componentes cuyas varianzas sean menos que el promedio. Este es el llamado criterio de Kayser, y tiende a incluir muy pocas variables. En cada caso se verá cuál criterio será más apropiado, o si se aplicará un criterio de compromiso entre ellos. EJEMPLO Supongamos que se tiene una matriz de datos de n observaciones de dimensión, es decir, tres variables. X = 4 8 7 4 8 5 9 0 8 0 7 9... 8 Se calculan el vector de medias y la matriz de varianzas-covarianzasque supondremos dan los siguientes resultados: x =,, 4 S = 0 9, 0 Los valores propios son λ =4, λ =,λ = y sus respectivos vectores propios son v =, v = 0, v = 6 Los valores que aparecen como factores, en términos decimales (aproximado a tres decimales) son =0, 577 =0, 707 6 =0, 408 Los ejes principales son v, v y v, en ese orden. Los porcentajes de varianza respectivos de las componentes principales son 50 %, 7, 5% y, 5 %. Las varianzas acumuladas son 50 % para la primera, 87,5% para las primeras dos y 00 % para las tres. Se puede observar que la suma de las varianzas de las tres componentes principales es igual a la suma de las varianzas de las observaciones originales. 6

Figura : Scree plot. Las transformaciones de componentes principales y i = γ (x µ) expresadas de manera explícita son: i y =0, 577x +0, 577x +0, 577x 4,696 y =0, 707x 0, 707x 9,050 y =0, 408x 0, 86x +0, 408x,509 El término constante 4, 696 corresponde a γ x =0, 577, +0, 577, 4+0, 577 9, Los otros se obtienen en forma análoga. La primera componente se puede interpretar como un promedio entre las tres variables x, x y x. La segunda como una comparación entre la primera variable, x, y la tercera, x. La tercera componente principal como una comparación entre la segunda variable, x, y el promedio de las otras dos. El siguiente gráfico (screeplot) exhibe las tres varianzas, mostrando que la primera componente contiene más del doble de la varianza de cada una de las restantes. Tambien se muestran las varianzas acumuladas : Según los criterios presentados para la eliminación de componentes, claramente se puede eliminar la última sin gran pérdida de información, quedándonos con las dos primeras. Los escores de las 6 observaciones que se observan en la matriz de datos, correspondientes a las dos primeras componenetes principales, se calculan utilizando las fórmulas de cálculo de las componentes. para la primera observación son y =0, 577 4 + 0, 577 8+0, 577 7 4,696 =, 9 7

y =0, 707 4 0, 707 7 9,050 =, 97 Calculando los dos escores para las demás observaciones, se obtienen los siguientes resultados, expresados como matriz de datos: Y =, 9, 97 9,,68 4, 7 6, 50, 7 5, 80 0, 69 0, 85.., 6 0, 4 Estos pares se pueden graficar en un plano formado por las dos primeras componenet prioncipales (Primer Plano Principal), que muestra las proyecciones de los puntos sobre este plano, que es aquel en que se observa la mayor dispersión.el gráfico se denomina Biplot. Las proyecciones de los ejes originales x, x vectores elementales y x sobre el primer plano principal se obtienen multiplicando los e =[, 0, 0] e =[0,, 0] e =[0, 0, ] por γ ypor γ,obteniéndose así los extremos de los vectores elementales. Los resultados son [0, 577; 0, 707], [0, 577; 0] y [0, 577; 0, 707] para cada uno de las proyecciones de los ejes originales, los que se muestran en el biplot. Se observa una mayor dispersión de las observaciones que vemos en la matriz de datos, en el sentido del eje de la primera componente. Las observaciones aparecen numeradas, según el orden en que se ven en la matriz de datos. Los tres vectores rotulados x, x y x son las proyecciones de los vectores unitarios que siguen la dirección de los tres ejes correspondientes a las variables originales, sobre el primer plano principal. Cálculo de las correlaciones de las variables originales x λj fórmula corr(x i,y j )=γ ij : s ii con las componentes principales y, utilizando la Recordar que la matriz de transformación, cuyas columnas son los vectores priopios normalizados de la matriz de varianzas-covarianzas S, y cuyos elementos son las cargas, es Γ= 6 0 6 6 Los valores propios λ son λ =4,λ =,yλ =. Las varianzas de las variables originales son σ =,σ =,y σ =. 8

Figura : Biplot. Con estos valores obtenemos la matriz de correlaciones siguiente, en que el elemento corr(x i,y j ): (i, j) es la correlación Corr(x,y)= 0 = 0,667 0,707 0,6 0,86 0 0,577 0,667 0,866 0,6 Se puede observar que la primera variable x está correlacionada positivamente con las dos primeras componentes principales, lo que se refleja en el gráfico Byplot, en que aparece aproximadamente diagonal en el primer cuadrante. La segunda variable está correlacionada con la primera componente, y tiene cero correlación cion la segunda. Por eso en el gráfico aparece paralela al eje de la primera componente. La tercera variable parece correlacionada positivamente con la primera componente, y negativamente con la segunda. De ahí que aparezca casi diagonal, pero en el cuadrante 4, en que la segunda componente es negativa. 9