ANALISIS DE COMPONENTES PRINCIPALES



Documentos relacionados
Análisis de componentes principales

Covarianza y coeficiente de correlación

3.1 DEFINICIÓN. Figura Nº 1. Vector

Definición de vectores

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

Un ejemplo de ACP paso a paso

PROGRAMACIÓN LINEAL Introducción Inecuaciones lineales con 2 variables

Tema 2. Espacios Vectoriales Introducción

ANÁLISIS DE DATOS NO NUMERICOS

_ Antología de Física I. Unidad II Vectores. Elaboró: Ing. Víctor H. Alcalá-Octaviano

Tema 1. VECTORES (EN EL PLANO Y EN EL ESPACIO)

CORRELACIÓN Y PREDICIÓN

Estructuras algebraicas

4 APLICACIONES LINEALES. DIAGONALIZACIÓN

Los métodos Biplot. LOS METODOS BIPLOT (Teoría) José Luis Vicente Villardón Departamento de Estadística Universidad de Salamanca

ANALISIS MULTIVARIANTE

Anexo 1: Demostraciones

Aula Banca Privada. La importancia de la diversificación

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases.

E 1 E 2 E 2 E 3 E 4 E 5 2E 4

Aplicaciones Lineales

Estadística con Excel Informática 4º ESO ESTADÍSTICA CON EXCEL

VECTORES EN EL ESPACIO. 1. Determina el valor de t para que los vectores de coordenadas sean linealmente dependientes.

Geometría Tridimensional

Matrices equivalentes. El método de Gauss

REGRESION simple. Correlación Lineal:

Vectores en el espacio

Profr. Efraín Soto Apolinar. La función lineal. y = a 0 + a 1 x. y = m x + b

ASOCIACIÓN LINEAL ENTRE VARIABLES CUANTITATIVAS: la correlación de Pearson

UNIDAD 4: PLANO CARTESIANO, RELACIONES Y FUNCIONES. OBJETIVO DE APRENDIZAJE: Representar gráficamente relaciones y funciones en el plano cartesiano.

1. Producto escalar, métrica y norma asociada

1. Dominio, simetría, puntos de corte y periodicidad

Tema 3. Medidas de tendencia central Introducción. Contenido

TIPOS DE RESTRICCIONES

Apoyo para la preparación de los estudios de Ingeniería y Arquitectura Física (Preparación a la Universidad) Unidad 4: Vectores

Tema 3. Espacios vectoriales

Vectores: Producto escalar y vectorial

1 v 1 v 2. = u 1v 1 + u 2 v u n v n. v n. y v = u u = u u u2 n.

1 Espacios y subespacios vectoriales.

De acuerdo con sus características podemos considerar tres tipos de vectores:

Dibujamos estos puntos en el espacio, y no cerramos la figura

2 VARIABLES ESTADÍSTICAS BIDIMENSIONALES

Aproximación local. Plano tangente. Derivadas parciales.

COORDENADAS CURVILINEAS

Control Estadístico de Procesos

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68.

x y 8000 x + y a) La región factible asociada a las restricciones anteriores es la siguiente: Pedro Castro Ortega lasmatematicas.

ESTIMACIÓN. puntual y por intervalo

Te damos los elementos básicos de los vectores para que puedas entender las operaciones básicas.

Análisis de medidas conjuntas (conjoint analysis)

FUNCIONES CUADRÁTICAS Y RACIONALES

a < b y se lee "a es menor que b" (desigualdad estricta) a > b y se lee "a es mayor que b" (desigualdad estricta)

FISICA I Escuela Politécnica de Ingeniería de Minas y Energía AJUSTE POR MÍNIMOS CUADRADOS

PARÁBOLA. 1) para la parte positiva: 2) para la parte negativa: 3) para la parte positiva: 4) para la parte negativa:

Espacios vectoriales. Bases. Coordenadas

INTRODUCCIÓN A VECTORES Y MAGNITUDES

Diagonalización de matrices

Seminario Universitario Material para estudiantes. Física. Unidad 2. Vectores en el plano. Lic. Fabiana Prodanoff

Lecturas previas Cuando llegue a su primera sesión de laboratorio debe haber estudiado el contenido de la lectura que aparece a continuación.

A continuación voy a colocar las fuerzas que intervienen en nuestro problema.

LÍMITES Y CONTINUIDAD DE FUNCIONES

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

Definición Dados dos números naturales m y n, una matriz de orden o dimensión m n es una tabla numérica rectangular con m filas y n columnas.

TEMA 7: Análisis de la Capacidad del Proceso

BREVE MANUAL DE SOLVER

Tema 10. Estimación Puntual.

VECTORES EN EL PLANO

QUÉ ES LA RENTABILIDAD Y CÓMO MEDIRLA. La rentabilidad mide la eficiencia con la cual una empresa utiliza sus recursos financieros.

REPASO CONCEPTOS BÁSICOS DE ESTADÍSTICA. DISTRIBUCIÓN NORMAL.

Subespacios vectoriales en R n

VECTORES. Abel Moreno Lorente. February 3, 2015

Segundo de Bachillerato Geometría en el espacio

ESTATICA: TIPOS DE MAGNITUDES: CARACTERÍSTICAS DE UN VECTOR. Rama de la física que estudia el equilibrio de los cuerpos.

Indicaciones específicas para los análisis estadísticos.

1. Vectores 1.1. Definición de un vector en R2, R3 (Interpretación geométrica), y su generalización en Rn.

GEOMETRÍA ANALÍTICA 2º Curso de Bachillerato 22 de mayo de 2008

Clasificación de métricas.

Aplicaciones de Estadística Descriptiva

SISTEMAS DE COORDENADAS SISTEMA COORDENADO UNIDIMENSIONAL

CAPÍTULO II. 2 El espacio vectorial R n

Medidas de tendencia central o de posición: situación de los valores alrededor

Fundamentos de Investigación de Operaciones Investigación de Operaciones 1

Espacios vectoriales y aplicaciones lineales.

Transformación de gráfica de funciones

Funciones, x, y, gráficos

Tema 3: Producto escalar

15 ESTADÍSTICA BIDIMENSIONAL

Muchas veces hemos visto un juego de billar y no nos percatamos de los movimientos de las bolas (ver gráfico 8). Gráfico 8

Curso de Procesamiento Digital de Imágenes

ANÁLISIS DE CORRELACIÓN EMPLEANDO EXCEL Y GRAPH

Uso del Programa Gantt Project

El programa Minitab: breve introducción a su funcionamiento. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos

Semana de dieta (X) Peso en Kg (Y)

Estadística. Conceptos de Estadística. Un individuo o unidad estadística es cada uno de los elementos que componen la población.

MEDIDAS DE DISPERSIÓN EMPLEANDO EXCEL

Selectividad Septiembre 2009 SEPTIEMBRE Opción A

Introducción. Estadística Introducción

La práctica del análisis de correspondencias

CÁLCULO PARA LA INGENIERÍA 1

Transcripción:

1 X 2 F 1 F 2 e 2 v 2 v 1 e 1 X 1 ANALISIS DE COMPONENTES PRINCIPALES José Luis Vicente Villardón Departamento de Estadística

2 1.- EJEMPLO INICIAL...3 2.- DEFINICIONES BASICAS...13 3.- OBTENCION DE LA COMPONENTES PRINCIPALES...15 3.1.- OBTENCIÓN DE LAS CP MEDIANTE LA MAXIMIZACIÓN DE LA VARIABILIDAD....15 3.2.- OBTENCIÓN A PARTIR DEL SUBESPACIO DE MEJOR AJUSTE...20 3.2.1.- Ajuste por un subespacio vectorial en R p....21 3.2.2.- Cálculo del máximo....23 3.3.- COORDENADAS PRINCIPALES...25 4.- MEDIDAS DE LA BONDAD DEL AJUSTE...26 5.- PROPIEDADES...27 6.- NÚMERO DE EJES A RETENER...27 7.- ESCALAS DE MEDIDA...28 8.- INTERPRETACIÓN DE RESULTADOS...28 9.- CORRELACIONES DE LAS COMPONENTES Y LAS VARIABLES...29 10.- EJEMPLO...30 10.1.- DATOS...30 10.2.- REPRESENTACIÓN DE LOS INDIVIDUOS SOBRE EL PRIMER PLANO PRINCIPAL...31 10.3.- SALIDA TIPICA DE ORDENADOR...32

3 1.- EJEMPLO INICIAL Supongamos que deseamos conocer cuales son los factores relacionados con el riesgo de enfermedad coronaria. Del conoocimiento previo sabemos que el riesgo la presión arterial, la edad, la obesidad, el tiempo que se ha sido hipertenso, el pulso, y el stress. Para la investigación seleccionamos al azar 20 pacientes hipertensos en los que medimos las siguientes variables: X 1 : Presión arterial media (mm Hg) X 2 : Edad (años) X 3 : Peso (Kg). X 4 : Superficie corporal (m 2 ) X 5 : Duración de la Hipertensión (años) X 7 : Medida del stress. X 6 : Pulso (pussaciones/minuto) Tratamos de estudiar la situación del grupo de pecientes en relación a los factores de riesgo y las posibles interrelacions entre las distintas variables. Iniicialmente queremos describir el conjunto de pacientes utilizando simultáneamente todas las variables Los datos obtenidos se muestran en la tabla siguiente: X 1 X 2 X 3 X 4 X 5 X 6 X 7 1 105 47 85,4 1,75 5,1 63 33 2 115 49 94,2 2,10 3,8 70 14 3 116 49 95,3 1,98 8,2 72 10 4 117 50 94,7 2,01 5,8 73 99 5 112 51 89,4 1,89 7,0 72 95 6 121 48 99,5 2,25 9,3 71 10 7 121 49 99,8 2,25 2,5 69 42 8 110 47 90,9 1,90 6,2 66 8 9 110 49 89,2 1,83 7,1 69 62 10 114 48 92,7 2,07 5,6 64 35 11 114 47 94,4 2,07 5,3 74 90 12 115 49 94,1 1,98 5,6 71 21 13 114 50 91,6 2,05 10,2 68 47 14 106 45 87,1 1,92 5,6 67 80 15 125 52 101,3 2,19 10,0 76 98 16 114 46 94,5 1,98 7,4 69 95 17 106 46 87,0 1,87 3,6 62 18 18 113 46 94,5 1,90 4,3 70 12 19 110 48 90,5 1,88 9,0 71 99 20 122 56 95,7 2,09 7,0 75 99 La dimensión inicial es 7, pero Será posible describir el conjunto de datos utilizando un número menor de dimnsiones, aprovechando las interrelaciones

4 entre las variables? Es posible definir un índice general que cuantifique la situación de riesgo? Si consideramos solamente dos variables, los resultados se pueden presentar mediante un diagrama de dispersión como el que aparece en la figura siguiente. Sobre el diagrama se han incluidos los números de orden de cada uno de los pacientes. edad By presion 57,5 55,0 20 52,5 15 5 edad 50,0 9 13 4 23 12 7 47,5 1 19 8 10 11 6 17 1816 45,0 14 42,5 100 105 110 115 120 125 130 presion Sobre la figura es posible interpretar la posible relación entre las variables, pero también las similitudes entre los individuos. Dos individuos próximos en el gráfico tendrán características similares, mientras que dos individuos alejados tendrán características diferentes. Se pueden buscar también grupos de puntos cercanos con características similares.

5 Si consideramos las tres primras variables, aun es posible representarlas en tres dimensiones sobre el papel como se muestra en la figura siguiente. Las representaciones tridimensionales sobre el papel son difíciles de interpretar ya que no se tiene una referencia visual clara. La interpretación puede realizarse mediante un programa de ordenador que permita el movimiento de la figura para ver las posiciones relativas de los puntos. Components X presion Y edad Z peso y 20 5 1 17 14 9 19 8 13 4 212 3 10 11 z 18 16 7 6 15 x Representación tridimensional de las variables presión, edad y peso. Si movemos la figura resultante, observaremos que los puntos están prácticamente sobre un plano. Esto se pone de manifiesto en la figura siguiente en la que se ha conseguido un punto de vista desde el que los puntos parecen estar sobre una línea recta. Este hecho pone de manifiesto que no son necesarias tres dimensiones para describir el conjunto de datos, sino solamente dos.

6 y 20 z 5 15 13 94 19 3 21 12 10 78 17 11 6 14 18 16 x Rotación de la representación tridimensional que muestra que los puntos se encuentran aproximadamente en un plano. Tenemos entonces que buscar un sistema de referencia para el plano (subespacio) más cercano a la nube de puntos de forma que, al proyectarlos todos sobre dicho plano, la pérdida de información sea mínima. La pérdida de información puede entenderse en términos de variabilidad del conjunto de puntos o en términos de la similitud entre las interdistancias entre los puntos, calculadas en el espacio original y las calculadas en la proyección del subespacio. El subespacio quedará definido mediante un sistema de referencia para el mismo, es decir, mediante dos vectores perpendiculares dentro del subespacio. El primero lo situaremos en la dirección en la que más varían los datos, el

7 segundo, perpendicular al primero recogiendo la mayor parte de la variabilidad restante y así sucesivamente. Los vectores del sistema de referencia definen nuevas variables, que son combinaciones lineales de las variables de partida y se denominan componentes principales. De esta forma, podemos reducir la dimensión seleccionando solamente las primeras componentes. La reducción de la dimensión se deriva del hecho de que las variables están relacionadas entre si y, por tanto, tienen información común, de alguna manera, la información común a todas ellas se extrae en las componentes principales. La representación de las dos primeras componentes, para los datos anteriores y con sólo tres variables aparece en la figura siguiente. Las dos primeras componentes absorben el 99% de la variabilidad de los datos. 2,5 20 2,0 5 1,5 Prin Comp 2 1,0 0,5 0,0 1 17 9 19 13 12 2 4 14 8 10 3 15-0,5-1,0 18 16 11-1,5 6-2,0-1,5-1,0-0,5 0,0 0,5 1,0 1,5 2,0 2,5 Prin Comp 1 7 Espacio de las componentes con las tres primeras variables Sobre el diagrama de dispersión es posible interpretar las distancias entre los puntos en términos de similitud, buscar conjuntos de individuos similares, etc, con la garantía de que la pérdida de información es mínima y de que hemos recogido las fuentes de variabilidad más importantes en el conjunto de datos.

8 Cuando el número de variables es mayor, ya no es posible la representación directa de las variables en más de tres dimensiones, pero aun sigue siendo posible la reducción de la dimensión, teniendo en cuenta las iterrelaciones entre las variables. La figura siguiente muestra las dos primeras componentes principales para el conjunto de las 7 variables. Las componentes se denotan con x e y. Se han superpuesto sobre el gráfico vectores que representan a las variables originales y que interpretaremos más tarde. También se han suprimido las escalas ya que, en este contexto son menos importantes. y 19 5 stress 9 duracio 20 1 14 16 z edad pulso 13 4 11 x 17 8 18 10 12 3 presion peso superfi 2 6 7 Espacio de las componentes con todas las variables. En este caso, las dos primeras componentes recogen aproximadamente el 77% de la variabilidad, más aun recogen las fuentes de variabilidad más importantes de los datos.

9 Si prescindimos, por el momento, de los vectores que representan a las variables, podemos interpretar las distancias entre puntos y buscar grupos, tal y como hacíamos en el diagrama de dispersión inicial. Como las componentes son variables compuestas calculadas a partir de las originales, solamente queda por determinar cual es la información que han recogido las componentes, es decir, que variables explican la similitud de los individuos en el subespacio de representación final. La interpretación se hace a partir de las correlaciones entre las variables observadas y las componentes. Dichas correlaciones se muestran en la tabla siguiente. (las componentes se denominan factores en la tabla). Unrotated Factors presion edad peso supcorp Durac. pulso stress Factor 1 Factor 2,965 -,230,723,304,884 -,403,804 -,473,434,525,844,284,355,764 Correlaciones entre las componentes principales y las variables observadas Observamos como la primera componente está altamente correlacionada con todas las variables salvo Duración y Stress, es decir, la primera componente muestra, fundamentalmente aspectos relacionados con el aumento de la presión arterial y de las variables determinantes del riesgo de enfermedad coronaria, por tanto la primera componente sería un índice del riesgo de enfermedad de forma que, los individuos que se sitúen a la derecha en la proyección sobre el eje del gráfico serán los que tienen riesgo más alto de enfermedad y los que se sitúan a la izquierda, riesgo más bajo. La segunda componente está más correlacionada con el stress y algo menos con la duración, por lo que mostrará las diferencias en el índice de stress. Sobre el gráfico habíamos superpuesto también vectores que representaban a cada una de las variables originales. Los vectores representan la dirección de mejor ajuste para cada una de las variables, en el sentido de que, si proyectamos los puntos que representan a los individuos sobre uno de los vectores, las puntuaciones obtenidas estarían más correlacionadas con la variable original

10 que las proyecciones en cualquier otra dirección. El coseno del ángulo que forma cada vector con el eje, mide aproximadamente la correlación con el mismo y los cosenos de los ángulos entre dos vectores aproximan la correlación entre las variables a las que representan, es decir, a menor ángulo menor correlación. La representación con las variables añadidas se denomina representación biplot. A las correlaciones al cuadrado entre la variable y el eje se le denomina tambien contribución relativa del factor al elemento, y mide la parte de la variabilidad de la variable que explica cada uno de los ejes. Las variables con contribuciones altas en uno de los ejes y bajas en los demás son las que han de interpretarse para cada eje ya que son características exclusivas del mismo. Como las componentes son incorreladas, tienen información independiente por lo que la suma de las correlaciones al cuadrado es 1. La parte explicada por un plano, se calcula simplemente sumando la parte explicada (contribución) por los ejes que lo componen, a esta cantidad se la denomina también calidad de la representación. La calidad de representación puede interpretarse tambien como la correlación al cuadrado entre los valores de la variable original y las proyecciones de los puntos sobre la dirección que representa a la variable. De la misma manera que hemos hecho para las variables es posible definir calidades de representación para los individuos. Veamos una interpretación diferente de la misma más adecuada para el estudio de los individuos. La figura siguiente muestra la proyección de uno de los puntos de la nube en un espacio bidimensional. Supongamos que se trata de la proyección de uno de los vectores que representa a una variable.

11 Vector real en el espacio tridimensional Vector proyección en el espacio bidimensional Si observamos el espacio tridimensional que aparece en la figura, la variable representada y el eje horizontal forman un ángulo de casi 90 por lo que pueden considerarse independientes; sin embargo en la proyección sobre el espacio bidimensional, el ángulo es muy pequeño, hecho que se podría traducir en una fuerte relación. Esto es debido a que la calidad de la representación del vector sobre el plano es baja. La figura siguiente muestra la situación esquematizada. El coseno al cuadrado del ángulo se puede tomar como medida de la relación entre la variable y el eje. i ángulo C proy(i, 1) eje 1 cos 2 (θ) = C, proy(i, 1) / C, i A esta medida la denominaremos CALIDAD DE LA REPRESENTACION del punto i sobre el eje factorial. (CLR il ). Esta cantidad puede calcularse tambien a partir del producto escalar entre el

12 vector i y un vector cualquiera en la dirección del eje. La calidad de la representación es una medida relativa, ya que la suma de las calidades de la representación de cada elemento sobre todos los ejes factoriales es 1. El gráfico siguiente muestra una representación sobre tres ejes factoriales, donde se especifican los cosenos de los ángulos con los tres ejes que, como es sabido, su suma de cuadrados es la unidad. eje 3 θ 3 θ 2 θ 1 θ eje 1 eje 2 2 2 2 cos θ + cos θ + cos θ = 1 1 2 3 2 2 2 cos θ = cos θ + cos θ 1 2 La calidad de la representación con respecto a un plano se mide de la misma manera, es decir, como el coseno al cuadrado del ángulo que forman el vector y el plano. Este coseno al cuadrado es la suma de los cosenos al cuadrado de los ángulos con los ejes que forman el plano. cos 2 (θ lk ) = cos 2 (θ l ) + cos 2 (θ k ) Por tanto, la calidad de la representación del elemento es una medida aditiva que puede calcularse para la proyección en cualquier plano factorial, sin más que sumar las calidades de representación con respecto a los ejes factoriales que lo forman.

13 2.- DEFINICIONES BASICAS DATOS Disponemos de una matriz X nxp que contiene las medidas de p variables tomadas sobre n individuos. Para simplificar el resto de la exposición supondremos, sin pérdida de generalidad, que las columnas de X tienen media cero, es decir que se le ha restado la media. Todas las variables tienen el mismo papel, es decir, el conjunto no se divide en variables dependientes e independientes como en el caso de la regresión. DEFINICION El Análisis de Componentes principales consiste en encontrar transformaciones ortogonales de las variables originales para conseguir un nuevo conjunto de variables incorreladas, denominadas Componentes Principales, que se obtienen en orden decreciente de importancia. Las componentes son combinaciones lineales de las variables originales y se espera que, solo unas pocas (las primeras) recojan la mayor parte de la variabilidad de los datos, obteniéndose una reducción de la dimensión en los mismos. Luego el propósito fundamental de la técnica consiste en la reducción de la dimensión de los datos con el fin de simplificar el problema en estudio. Se trata de una técnica orientada a las variables, suponemos que las p columnas de X generan un espacio p dimensional, de forma que los n individuos pueden representarse en dicho espacio en lo que llamaremos una hipernube. La transformación es, de hecho, una rotación en el espacio p-dimensional. El espacio generado por las primeras q componentes es entonces, un subespacio vectorial q-dimensional del espacio p-dimensonal original.

14 Cuando el valor de q es pequeño, por ejemplo 2, es posible una representación gráfica directa de los individuos que nos ayudará ainterpretar las similitudes entre los mismos. El ACP puede entenderse también como la búsqueda del subespacio de mejor ajuste. Una de las diferencias fundamentales con el Análisis Factorial es que el ACP explica variabilidad en lugar de correlaciones, aunque para obtener una reducción efectiva de la dimensión es necesario que las variables estén correlacionadas. En otras palabras, si las variables están altamente correlacionadas, tienen información común y la dimensión real de los datos es menor que p. En muchas ocasiones es difícil encontrar el significado de las componentes, como variables compuestas, por lo que el uso principal de la técnica es la reducción de la dimensión como paso previo a la aplicación de otros análisis posteriores, por ejemplo, un diagrama de dispersión de las primeras componentes con el objeto de encontrar clusters en los datos o con el objeto de contrastar similitudes o diferencias entre los individuos. El ACP es una técnica que no necesita que se especifique un modelos concreto para explicar el error, en particular, no se hace ninguna suposición sobre la distribución de probabilidad de las variables originales, aunque si se supone que es normal multivariante es posible obtener algunos resultados inferenciales adicionales. En algunos textos se hacen diferencias entre las CP poblacionales y muestrales, aquí entenderemos la técnica como un método descriptivo, libre de distribución, y trabajaremos directamente con los datos muestrales.

15 3.- OBTENCION DE LA COMPONENTES PRINCIPALES La obtención de las CP puede realizarse por varios métodos alternativos: 1.- Buscando aquella combinación lineal de las variables que maximiza la variabilidad. (Hottelling). 2.- Buscando el subespacio de mejor ajuste por el método de los mínimos cuadrados. (Minimizando la suma de cuadrados de las distancias de cada punto al subespacio). (Pearson). 3.- Minimizando la discrepancia entre las distancias euclídeas entre los puntos calculadas en el espacio original y en el subespacio de baja dimensión. (Coordenadas principales, Gower). 4.- Mediante regresiones alternadas (métodos Biplot) 3.1.- OBTENCIÓN DE LAS CP MEDIANTE LA MAXIMIZACIÓN DE LA VARIABILIDAD. Denotaremos con X 1,, X p las variables originales y con Y 1,, Y p las componentes. En principio, podemos obtener tantas componentes como variables originales. X denotará el vector de variables originales e Y el de componentes. X es la matriz de datos originales, que supondremos centrada por columnas, y S es la matriz de covarianzas entre las variables. S = 1 n 1 X X

16 Buscamos combinaciones lineales de las variables observadas que sean incorreladas y con varianzas progresivamente decrecientes Y j = v 1j X 1 +K+ v pj X p Y j = Xv j y j = Xv j Y = XV Donde Y es la matriz que contiene las puntuaciones de cada uno de los individuos sobre las componentes y V es la matriz que contiene los coeficientes de las combinaciones lineales en columnas. Y 1 será aquella componente que explique la mayor parte de la variabilidad, Y 2 será ortogonal a Y 1 y explicará la mayor parte de la variabilidad restante y así sucesivamente. En las ecuaciones tenemos un factor de escala arbitraria por lo que imponemos la restricción P v kj k =1 2 = 1 v jvj = 1 V V = I Buscamos Y 1 que haga máxima la varianza Var(Y1) = Var(Xv1) = v 1Sv1 Utilizando el método de los multiplicadores de Lagrange para tener en cuenta la restricción, podemos escribir L(v1 ) = v 1Sv1 λ( v 1v1 1) Derivando e igualando a cero L(v1 ) v 1 = 2Sv1 2λv1

17 es decir Sv1 = λv1 lo que quiere decir que v 1 debe ser un vector propio de S de valor propio λ, pero S tiene p valores propios λ 1, λ p que supondremos distintos y ordenados en orden decreciente λ 1 λ p 0. Teniendo en cuenta que Var(Xv1 ) = v 1Sv1 = v 1 λ v1 = λ λ debe ser λ 1 el primer valor propio y v 1 el vector propio asociado. La segunda componente principal Y 2 = Xv 2, se obtiene con un procedimiento análogo pero añadiendo la restricción adicional de que Y 1 e Y 2 son incorreladas. cov(y1, Y2 ) = v 2Sv1 = 0 o una condición equivalente más simple v 2v1 = 0 ya que Sv1 = λv1 Utilizando de nuevo el método de los multiplicadores de Lagrange, podemos escribir L(v2 ) = v 2Sv 2 λ( v 2v2 1) δ v 2v1 Derivando e igualando a cero se obtiene L(v2 ) v 2 = 2Sv2 2λv2 δv1=0 premultiplicando por v 1,

18 2 v 1Sv2 2λ v 1v2 δ v 1v1 = 0 2 v 1Sv2 δ=0 como v 1Sv2 = 0, entonces δ = 0 en el punto estacionario, de forma que, Sv2 = λv 2 con lo que λ es el segundo valor propio λ 2 y v 2 es el segundo vector propio. Siguiendo con el mismo argumento, podemos obtener las sucesivas componentes principales a partir de los correspondientes valores y vectores propios. Entonces, si S = V ΛV Λ = diag(λ 1,K, λ p ) V V = I es la descomposición espectral de la matriz de covarianzas S, los coeficientes de las combinaciones lineales que definen las componentes principales son las columnas de V, es decir los vectores propios de la matriz de covarianzas. Seleccionando q componentes, las puntuaciones de los individuos en las componentes están dadas por Yq = XVq donde V q está formada por las q primeras columnas de V, y suponiendo X centrada. Ahora p Var(Yj ) = λ j = traza(λ) j=1 p j=1 y

19 traza( Λ) = traza( V SV) = traza(s V V) = traza(s) = Var(X j ) p j=1 Este resultado nos permite calcular la proporción de varianza absorbida por cada componente como λj p λ i i=1 o acumulada para un subespacio de dimensión q q λ j j=1 p λ i i=1 - Nota: las componentes principales pueden calcularse también a partir de X'X con X centrada ya que S = 1 n 1 X X se obtienen los mismos vectores propios aunque los correspondientes valores propios aparecieran multiplicados por n-1, lo cual no influye en la variabilidad absorbida.

20 Obtención a partir del subespacio de mejor ajuste Una aproximación diferente que produce los mismos resultados es la que trata de minimizar la suma de cuadrados de las distancias de cada punto a la componente, entendiendo que buscamos el subespacio, en dimensión reducida, que mejor se ajusta a la nube de puntos. El procedimiento de ajuste se basa en el método de los mínimos cuadrados. Sea X una matriz rectangular de datos con n filas y p columnas y con término general x ij. Abordaremos el siguiente problema: es posible reconstruir los np valores x ij, y por tanto las interdistancias entre individuos, a partir de un número mas pequeño de valores numéricos? Trataremos ahora la solución relacionada con los métodos factoriales. Supongamos que existe un vector columna y de n componentes y un vector 1 columna v 1 de p componentes de modo que X = y 1 v t 1. Se habrán reconstruido los np valores de X con n + p valores únicamente (en este caso la matriz es de rango 1). En general no es posible obtener una descomposición tan simple. Buscaremos una aproximación de rango q para X, es decir X = y v t 1 1 + y v t 2 2 +... + y v t q q + E E es una matriz residual con términos muy pequeños para que la reconstrucción sea satisfactoria. Reconstruimos X entonces, con q(n+p) valores de los vectores u v t i i. Resolveremos el problema mediante representaciones geométricas vinculadas a los métodos factoriales. X dará lugar a dos representaciones; las n filas pueden considerarse como n puntos en un espacio de p dimensiones R p ; y las p columnas pueden representar las coordenadas de p puntos en un espacio de n dimensiones R n

21 Ajuste por un subespacio vectorial en R p. Si la nube de n puntos que representan a las filas de la matriz X está contenida en un subespacio de dimensión q < p será posible reconstruir las posiciones de los n puntos a partir de las coordenadas de q nuevos ejes y de las componentes de estos nuevos ejes. Por lo tanto vamos a intentar ajustar la nube de n puntos por un subespacio vectorial de R p dotado de la distancia euclídea ordinaria. Buscaremos la recta F l que pasa por el origen y se ajusta lo mejor posible a nube. Sea v un vector unitario de esa recta, es decir, v t v = 1 Como cada fila de X representa un punto de R p,las n filas de vector Xv son las n longitudes de las proyecciones de los puntos de la nube sobre F 1. Para cada punto, el cuadrado de la distancia a origen se descompone en el cuadrado de su proyección sobre F1 y el cuadrado de su distancia a F1. Como las distancias al origen están fijadas, minimizar la suma de cuadrados de las distancias a F 1 es equivalente a maximizar la suma de cuadrados de las proyecciones. P d d 1 F 1 p d 2 = p 2 + d 2 1

22 X 2 F 1 F 2 e 2 v 2 v 1 e 1 X 1 Buscamos v que haga máxima la cantidad (Xv) t Xv = v t X t X v con la restricción v t v = 1. El subespacio resultante se designará por v 1. El subespacio vectorial de dos dimensiones que mejor se ajusta a la nube de puntos contendrá a v 1. Se hallará buscando el vector unitario v 2 ortogonal respecto a v 1 que haga máxima la forma cuadrática v 2 t X t X v2 con las restricciones v 2 t v1 = 0; v 2 t v2 = 1. Así sucesivamente buscamos el subespacio engendrado por q vectores v 1, v 2,..., v q (ortogonales dos a dos) que mejor se ajustan a la nube de puntos.

23 Cálculo del máximo. Sea λ un multiplicador de Lagrange. Derivamos la cantidad v t X t X v - λ (v t v - 1) con respecto a las componentes de v y obtenemos 2 X t X v - 2 λ v = 0 es decir, X t X v = λ v Entonces, v l es un vector propio de la matiz X t X de valor propio λ. Concretamente el mayor valor propio. Puede verse que, v 1, v 2,..., v q son vectores propios de X t X asociados a valores propios λ 1, λ 2,..., λ q respectivamente y que λ 1 λ 2... λ q. La matriz X t X es semidefinida positiva por lo que todos los valores propios son mayores que cero Es posible otra interpretación en términos de la variablidad. Como es bien sabido, si los datos están centrados, la matriz X t X es, salvo un factor de escala dependiente del tamaño muestral, coincide con la matriz de varianzascovarianzas entre las variables. S = (1/n) X t X Dado un vector v en R p, la varianza de las proyecciones sobre Xv dicho vector, es v t S v. Si buscamos el vector v unitario en aquella dirección con máxima varianza se trata de hacer máxima la cantidad v t S v con la restricción v t v = 1. El subespacio resultante se designará por v. 1 Sea µ un multiplicador de Lagrange.

24 Derivamos la cantidad v t S v - µ (v t v - 1) con respecto a las componentes de u y obtenemos es decir, 2 S v - 2 µ v = 0 S v = µ v Entonces, v l es un vector propio de la matiz X t X de valor propio µ = λ / n. Luego la dirección buscada es la que maximiza la varianza y es, por tanto, la dirección en la que pueden examinarse las diferencias entre los individuo con pérdida de información mínima. Los vectores directores de los q nuevos ejes se obtienen a partir de la descomposición en valores y vectores propios de S (o X t X) en la forma S = V D V t y se corresponden con las q primeras columnas de la matriz de vectores propios V. Las coordenadas de los individuos en el espacio generado por las q primeras componentes principales, es decir, las proyecciones de los puntos en el espacio original sobre el subespacio de las componentes principales, son Y = X V (q) donde el subíndice (q) significa "las q primeras columnas". Las componentes principales son nuevas variables, combinación lineal de las variables originales, con varianza progresivamente decreciente.

25 3.2.- COORDENADAS PRINCIPALES El tercer procedimiento de obtención se basa en hacer minima la discrepancia entre las distancias observadas en el espacio original y las distancias estimadas en el espacio de la aproximación. δ ij P j P i P' i δij ˆ P' j L Min ij p (δ ij ˆ δ ij ) 2 δij = (xik x jk ) 2 k=1 q δ ˆ ij = (y ik y jk ) 2 k=1 (Coordenadas principales)

4.- MEDIDAS DE LA BONDAD DEL AJUSTE 26 Como se trata de una aproximación en dimensión reducida es necesario decidir si la aproximación es satisfactoria. - Las coordenadas de las proyecciones sobre el subespacio de las componentes en el sistema de referencia original son X* = Y V t (q) = X V (q) Vt (q) La discrepancia con los valores originales en X con los valores esperados en el subespacio se puede medir como la suma de cuadrados de (X - X*), es decir, como traza[(x - X*) t (X - X*)] o en forma relativa traza[(x - X*) t (X - X*)] / traza[x t X] luego, una medida de la bondad del ajuste puede ser (1 - (traza[(x - X*) t (X - X*)] / traza[x t X])) x 100 que puede interpretarse como el porcentaje de la variabilidad de los datos explicado por las componentes principales. Teniendo en cuenta las propiedades de la traza, la bondad del ajuste puede escribirse también como q λi i=1 q λ i i=1 x100

27 5.- PROPIEDADES - La matriz de vectores propios V define un cambio de base del espacio R p en el que se ha representado la matriz de datos originales. - Las q primeras columnas de V definen la proyección de los puntos en R p sobre el subespacio q-dimensional de mejor ajuste. - Los elementos de V son los cosenos de los ángulos que forman las variables originales y las componentes principales. - Las coordenadas de los individuos en el nuevo sistema de referencia son de la forma Y = X V. - Las coordenadas las primeras componentes principales permiten interpretar las similaridades entre individuos con pérdida de información mínima. - El ACP utiliza la información redundante, a través de las correlaciones entre las variables, para reducir la dimensión. - La matriz de covarianzas entre las componentes es D (Λ). - Las componentes principales son variables incorreladas y, por tanto con información independiente. - La varianza de las componentes principales es λ i. - Si se trabaja con datos brutos, la primera componente principal suele mostrar la traslación de la nube de puntos con respecto al origen. - Si las variables están centradas, las componentes se calculan a partir de la matriz de covarianzas y las componentes estarán dominadas por las variables con escala de medida mayores. - Si se trabaja con datos estandarizados, las componentes principales se obtienen de la diagonalización de la matriz de correlaciones. Se utilizarán datos estandarizados cuando las escalas de medida de las variables sean muy diferentes. 6.- NÚMERO DE EJES A RETENER - Prueba de Anderson: Si los datos son normales, es posible realizar un test para contrastar si las últimas (p-q) raíces son iguales a cero.

28 p χ 2 p λi I=q+1 = (n 1) ln(λ i) + (n 1)(p q)ln I=q+1 p q sigue una ji-cuadrado con (1/2) (p-q) (p-q+1) - 1 grados de libertad. -Scree Plot: Gráfico de los valores propios. Se seleccionan ejes hasta que se vea un decrecimiento brusco en la magnitud de los valores propios. - Seleccionar las componentes necesarias para explicar un determinado porcentaje de la varianza. 7.- ESCALAS DE MEDIDA Si las escalas de medida de las variables son muy diferentes, la variabilidad estaría dominada por las variables con magnitudes mayores de forma que las primeras componentes pueden mostrar simplemente las diferencias en la escala. En este caso conviene tomar la matriz x estandarizada por columnas y centrando y dividiendo por la desviación típica. En este caso las componentes estarían colocadas sobre la matriz de correlaciones. 8.- INTERPRETACIÓN DE RESULTADOS - Diagramas de dispersión que representan los valores de los individuos en las primeras componentes principales. - Interpretación de distancias en términos de similitud. - Búsqueda de clusters (grupos) y patrones. - Interpretación de las componentes utilizando las correlaciones con las variables originales. Las posiciones de los individuos se interpretan después en relación a la interpretación dada a las componentes.

29 9.- CORRELACIONES DE LAS COMPONENTES Y LAS VARIABLES A los vectores escalados de la forma: v j * = λ j 1/2 v j C = VΛ 1/2 se les denomina factores de carga (C) Cuando las componentes principales se calculan usando la matriz de correlaciones, la matriz C contiene las correlaciones entre las variables originales y las componentes. Para las componentes calculadas a partir de la matriz de covarianzas, los factores de carga dependen de la escala de medida de las variables por lo que son difíciles de interpretar. Los factores de carga suelen representarse en un gráfico que permite la interpretación visual de las relaciones. En cualquiera de los casos podemos calcular también la correlación al cuadrado entre las componentes y las variables y las componentes. A dichas correlaciones al cuadrado se las denomina contribuciones relativas del factor al elemento y miden la proporción de la variabilidad de las variables explicadas por cada componente. Esta cantidad puede utilizarse para interpretar las componentes.

30 10.- EJEMPLO 10.1.- DATOS La tabla de datos siguiente muestra los porcentajes de personas empleadas en 9 sectores distintos para 26 países europeos (antes de los últimos cambios políticos). En este caso, el Análisis Multivariante puede ser útil para aislar grupos de países con distribuciones de empleo similares y en general para intentar comprender mejor las relaciones existentes entre los países y las variables. SECTORES: AGR: Agricultura, MIN: Minería, MAN: Manufacturas, ENER: Energía, CON: Construcción, SER: Industrias de servicios, FIN: finanzas, SSP: Servicios sociales y personales, TC: Transportes y comunicaciones. PAISES AGR MIN MAN ENER CON SER FIN SSP TC BÉLGICA 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2 DINAMARCA 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1 FRANCIA 10.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.7 RFA 6.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.1 IRLANDA 23.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.1 ITALIA 15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7 LUXEMBURGO 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2 HOLANDA 6.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.8 U.K. 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4 AUSTRIA 12.7 1.1 30.2 1.4 9.0 16.8 4.9 16.8 7.0 FINLANDIA 13.0 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.6 GRECIA 41.4 0.6 17.6 0.6 8.1 11.5 2.4 11.0 6.7 NORUEGA 9.0 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.4 PORTUGAL 27.8 0.3 24.5 0.6 8.4 13.3 2.7 16.7 5.7 ESPAÑA 22.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.5 SUECIA 6.1 0.4 25.9 0.8 7.2 14.4 6.0 32.4 6.8 SUIZA 7.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.7 TURQUÍA 66.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.2 BULGARIA 23.6 1.9 32.3 0.6 7.9 8.0 0.7 18.2 6.7 CHECOSLOVAQUIA 16.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7.0 RDA 4.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.4 HUNGRÍA 21.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8.0 POLONIA 31.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.9 RUMANIA 34.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5.0 URSS 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3 YUGOSLAVIA 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0

31 10.2.- REPRESENTACIÓN DE LOS INDIVIDUOS SOBRE EL PRIMER PLANO PRINCIPAL 2 HUN CHE RDA POL 1 RUM BUL URS LUX AUS -1 0 TUR YUG GRE POR ESP IRL ITA FRA RFA UK SUI FIN NOR BEL SUE HOL DIN -2-4 -3-2 -1 0 1 1.0 MINERIA 0.5 ENERG MANUF 0.0 AGRIC TRANSP CONSTR SERVSOC -0.5 FINANZAS SERVICIO -1.0-1.0-0.5 0.0 0.5 1.0 Representación gráfica de los factores de carga.

32 10.3.- SALIDA TIPICA DE ORDENADOR COMPONENT LOADINGS 1 2 AGRIC -0.978 0.078 MINERIA -0.002 0.902 MANUF 0.649 0.518 ENERG 0.478 0.381 CONSTR 0.607 0.075 SERVICIO 0.708-0.511 FINANZAS 0.139-0.662 SERVSOC 0.723-0.323 TRANSP 0.685 0.296 VARIANCE EXPLAINED BY COMPONENTS 1 2 3.487 2.130 PERCENT OF TOTAL VARIANCE EXPLAINED 1 2 38.746 23.669 FACTOR SCREE PLOT LATENT ROOTS (EIGENVALUES) 1 2 3 4 5 3.487 2.130 1.099 0.994 0.543 6 7 8 9 0.383 0.226 0.137 0.000 EIGENVALUES -+-----------+-----------+-----------+-----------+-----------+- 4 + + A 3 + + A 2 + + A 1 + A + A A A A A 0 + + -+-----------+-----------+-----------+-----------+-----------+- 0 2 4 6 8 10