2. Análisis factorial

2 Análisis factorial Técnica estadística multivariante que tiene por objeto descubrir las relaciones entre un grupo de variables y expresarlas mediante un número mínimo de cantidades aleatorias no observables (factores comunes) y una variable simple (factor específico) Los factores comunes generarán la estructura de covarianza del vector aleatorio y el factor específico explicará la varianza de cada componente del vector La formulación y los primeros desarrollos de la técnica tienen su origen en Psicología y se atribuyen a Spearman (904) Lawley (940), asumiendo distribución normal para el vector aleatorio, estimó los coeficientes factoriales usando el método de máxima verosimilitud 2 Definición del modelo factorial Sea X = (X,, X p ) un vector aleatorio observable con vector de medias µ y matriz de covarianzas Σ E[X] = µ, Cov[X] = Σ = (σ ij ) matriz definida positiva Se asume que cada componente X i del vector X puede expresarse como una combinación lineal de m variables no observables F,, F m (m p), sobre las que puede superponerse un conjunto de errores e,, e p, x = µ + λ F + + λ m F m + e x i = µ i + λ i F + + λ im F m + e i x p = µ p + λ p F + + λ pm F m + e p escrito en forma matricial x x i x p = µ µ i µ p + λ λ m λ i λ im λ p λ pm F F j F m + e e i e p y abreviadamente X = µ + ΛF + e donde - F = (F, F j,, F m ) vector de variables no observables denominados factores comunes, - e = (e, e i,, e p ) vector de errores denominados factores específicos, - Λ = (λ ij ) p m matriz de coeficientes desconocidos denominados cargas factoriales o saturaciones factoriales de la i-ésima variable sobre el j-ésimo factor

2 Interpretación del modelo factorial en la práctica Dado un conjunto de datos relativos a n individuos que han sido estudiados según las variables X,, X p, el modelo factorial para la observación i-ésima (i =,, n) se escribe: donde: x i = µ + λ F i + + λ k F ik + + λ m F im + e i x ij = µ j + λ j F i + + λ kj F ik + + λ mj F im + e ij x ip = µ j + λ p F i + + λ kp F ik + + λ mp F im + e ip x ij es el valor de la variable j-ésima sobre el individuo i-ésimo µ j representa el valor promedio de la variable j-ésima en la población F ik es la puntuación obtenida por el individuo i-ésimo en el factor común k-ésimo, puntuaciones factoriales λ kj es el peso que el factor k-ésimo ejerce sobre el valor que cada individuo presenta en la variable j-ésima, cargas o saturaciones factoriales e ij representa la parte de la variable j-ésima que no puede ser explicada por los factores comunes para el individuo i-ésimo Es suma de un error de medida (inherente a toda medición) y un factor específico relacionado sólo con la variable j-ésima La expresión x ij = µ j + λ kj F ik + e ij, i =,, n j =,, p k= determina que la respuesta del individuo i-ésimo en la variable j-ésima es la suma ponderada de sus puntuaciones en los factores comunes más el promedio de dichas respuestas en la población y más una componente o factor que es específico de cada variable 22 Hipótesis en el modelo factorial Modelo factorial ortogonal y oblicuo El vector F = (F,, F m ) de factores comunes puede ser aleatorio o puede ser un parámetro desconocido que varíe para cada observación Cuando F sea un vector aleatorio se asumirán una serie de hipótesis sobre el modelo Factores comunes - Los factores F j tienen media 0 - El vector F = (F, F j,, F m ) tiene matriz de covarianzas genérica Φ Factores específicos - Los factores específicos e i tienen media 0 - Los factores específicos e i son incorrelados, con matriz de covarianzas diagonal Ψ 2

Factores específicos y factores comunes Los factores específicos e i y comunes F j son incorrelados Problema de indeterminación del modelo En el modelo planteado existe una indeterminación Dada una matriz C m m no singular, si definimos otro vector de factores comunes F = C F y otra matriz Λ = ΛC, entonces: y ambos modelos son equivalentes X = µ + ΛF + e = µ + Λ C CF + e = µ + Λ F + e Solución parcial: Exigir que los factores comunes tengan varianza y sean incorrelados entre sí, es decir, Φ = I m (La solución es parcial porque la indeterminación se reduce al caso en que C es ortogonal, es decir, el modelo ajustado sería único salvo rotaciones ortogonales) Modelo factorial ortogonal Un modelo factorial X = µ + ΛF + e verificando las hipótesis (i) Los factores comunes F j tienen media 0, y matriz de covarianzas Φ (ii) Los factores específicos e i tienen media 0 y son incorrelados, con matriz de covarianzas diagonal, Ψ (iii) Los factores específicos e i y comunes F j son incorrelados (iv) Los factores comunes tienen varianza y son incorrelados, es decir, Φ = I m se dice que tiene factores ortogonales y el modelo recibe el nombre de modelo factorial ortogonal Modelo factorial oblicuo Un modelo factorial X = µ + ΛF + e verificando las hipótesis (i)-(iii) se dice que tiene factores oblicuos y el modelo se denomina modelo factorial oblicuo Comunalidades y especificidades Sea X = µ + ΛF + e un modelo factorial De las hipótesis (i)-(iii) del modelo se sigue Las variables X i tienen media µ i, i =,, p 2 El vector X = (X, X p ) tiene matriz de covarianzas Σ = ΛΦΛ + Ψ y de ahí (a) Cov[X i, X j ] = σ ij = = siendo λ iu λ jv Cov[F u, F v ] + Cov[e i, e j ] u= v= u= v= λ iu λ jv φ uv + ψ ij 3

σ ij = λ iu λ jv φ uv, i j σ 2 i = u= v= λ 2 iuφ uu + ψ ii, i = j u= (b) Cov[X i, F j ] = λ iu φ uv u= Considerando un modelo factorial ortogonal, de las hipótesis (i)-(iv) se sigue que el vector X tiene matriz de covarianzas Σ = ΛΛ + Ψ Por tanto, (a) V ar[x i ] = σ 2 i = λ 2 iu + ψ ii = ci + ψ ii u= (b) Cov[X i, X j ] = σ ij = (c) Cov[X i, F j ] = λ ij λ iu λ ju para i j u= Se deduce: La varianza de la variable X i, σ 2 i, se puede descomponer en un sumando que expresa la variabilidad de la variable debida a los factores comunes y que se denomina comunalidad (c i ) y otro sumando que expresa la variabilidad de la variable debida a los factores específicos y que se llama varianza específica o especificidad (ψ ii ) Se tiene que c i σ 2 i + ψ ii σ 2 i y c i /σi 2 representa la proporción de varianza de la variable X i explicada por los factores comunes (coeficiente de correlación múltiple al cuadrado entre la variable X i y los factores comunes) Un valor alto de la comunalidad (próximo a σ 2 i ) significa que dicha variable está bien representada en el espacio de factores =, Las saturaciones factoriales λ ij representan la relación existente entre la variable X i y el factor F j (es la covarianza entre ellos) Si se trabaja con datos tipificados (matriz de correlaciones), σ 2 i = c i + ψ ii =, por lo que: La comunalidad c i es directamente el coeficiente de correlación lineal múltiple entre variables y factores al cuadrado λ ij es la correlación entre la variable X i y el factor F j, de modo que λ 2 ij es la proporción de varianza de la variable X i explicada solamente por el eje factorial F j 4

22 Estimación del modelo factorial ortogonal Sea X = (X,, X p ) un vector p-dimensional de componentes correladas Se dispone de una muestra aleatoria de n datos y se desea reproducir esos datos de forma adecuada usando un modelo factorial con el menor número posible de factores Para ello se necesita conocer las coordenadas de las variables en el espacio de los factores comunes (cargas factoriales) λ ij, y las varianzas asociadas a los factores específicos, ψ ii, partiendo de la matriz de covarianzas de la muestra o de la de correlaciones en el caso de trabajar con los datos tipificados 22 Métodos de estimación Método de las Componentes Principales Se basa en el cálculo de las componentes principales asociadas al vector de variables Método del Factor Principal Es una generalización del método de las componentes principales Método de Máxima Verosimilitud ( Lawley, 945) Parte de la hipótesis de que el vector de factores comunes F y el de factores específicos e, se distribuyen, de forma conjunta, según una ley normal Método del Centroide Concebido para simplificar cálculos antes de la generalización del uso de ordenadores actualmente está en desuso Método del Residuo Mínimo o de Mínimos Cuadrados Describimos a continuación los más habituales en la práctica Método de las componentes principales Sean l,, l p los autovalores de la matriz de covarianzas Σ y v,, v p los correspondientes autovectores Entonces, se puede escribir Σ = ΛΛ, Λ = [ l v, l 2 v 2,, l p v p ] Con ello se representa la estructura de covarianza de X a partir de tantos factores como variables, p, siendo nulas las varianzas específicas La j-ésima columna de la matriz de cargas factoriales Λ es lj v j (salvo el factor de escala l j, el j-ésimo factor se corresponde con la j-ésima componente principal) Para reducir el número de factores se consideran los m p factores asociados a los m mayores autovalores de la matriz de varianzas-covarianzas, seleccionándose la estructura factorial proporcionada por Σ = ΛΛ + Ψ, donde Λ = [ l v, l 2 v 2,, l m v m ], ψ i = σ 2 i 5 λ 2 ij, i =,, p

Esta representación factorial se puede aplicar a la matriz de covarianzas muestral S o la matriz de correlaciones muestral R Método del factor principal Sea R = ΛΛ + Ψ la matriz de correlaciones Se sigue que ΛΛ = R Ψ Si la especificación del modelo es correcta con m p factores, se tiene = c i + ψ i Asumamos que se dispone de unas estimaciones iniciales de las especifidades desconocidas, ψ i Reemplazando los elementos de la diagonal de R por c i = ψ i se obtiene una nueva matriz R γ que se conoce con el nombre de matriz de correlaciones reducida Se aplica el método de componentes principales sobre la matriz de correlaciones reducida obteniéndose una nueva matriz de cargas factoriales Λ γ = [ l v,, l mv m] Se dispone así de nuevas reestimaciones de las comunalidades c i = con las que se puede repetir el proceso anterior Al partir en la etapa inicial de una estimación de las comunalidades, para evitar autovalores con valor negativo, suelen tomarse como comunalidades iniciales los cuadrados de los coeficientes de correlación múltiple entre la variable X i y las p variables restantes λ 2 ij Observaciones El método de componentes principales es una caso particular de este procedimiento en el que se toman las comunalidades iniciales iguales a Si el número de variables es grande y el número de factores es pequeño, ambos procedimientos conducen a cargas factoriales similares Método de máxima verosimilitud Este es un método debido a Lawley (945) Se supone que el vector de factores comunes F y el de factores específicos e se distribuyen, de forma conjunta, según una ley normal Se deduce de ahí la normalidad del vector de variables originales X Si se dispone de una muestra aleatoria de tamaño N de X, la función de verosimilitud vendrá dada por L(Λ, Ψ, µ) = (2π) Np/2 ΛΛ + Ψ N/2 exp { 2 Tr [ (ΛΛ + Ψ) ( S + N( X µ)( X µ) )]} 6

Al maximizar en µ se llega a µ = X y máx Λ,Ψ L(Λ, Ψ, µ) = máx L(Λ, Ψ, X) Λ,Ψ Puede entonces demostrarse el siguiente resultado (derivación matricial) Teorema Los estimadores máximo verosímiles de Λ y Ψ en el modelo factorial ortogonal, ˆΛ y ˆΨ respectivamente, se deducen del sistema (i) diag ( ˆΨ ) ( ) S + ˆΛˆΛ = diag N S (ii) N ˆΨ ˆΛ = ˆΛ( I + ˆΛ Ψ ˆΛ) Para el modelo factorial oblicuo con Σ = ΛΦΛ + Ψ, se tiene lo siguiente Teorema 2 Los estimadores máximo verosímiles de Λ, Φ y Ψ en el modelo factorial oblicuo, ˆΛ, ˆΦ y ˆΨ respectivamente, vienen dados por el sistema ( ) S (i) ˆΨ = diag N ˆΛ ˆΦˆΛ (ii) ˆΦˆΛ ˆΨ ˆΛ + I = (ˆΛ ) ( ˆΨ ˆΛ ˆΛ S ) ˆΨ N ˆΨ ˆΛ ( (iii) ˆΦˆΛ (ˆΛˆΛ + ˆΨ I S )) N (ˆΛˆΛ + ˆΨ ) = [ = ˆΦˆΛ I (ˆΛˆΛ + ˆΨ ) S ] ˆΨ N 222 Número de factores a conservar La matriz factorial estimada puede representar más factores de los necesarios para explicar la estructura de los datos La selección del número de ellos a considerar se puede hacer siguiendo diversas reglas Regla de Kaiser Se seleccionan los factores con autovalores asociados mayores que uno 2 Porcentaje de Varianza Explicada Se fija un porcentaje de la varianza de los datos que se desea explicar como mínimo, y se seleccionan los factores necesarios para conseguirlo 3 Gráfico de Sedimentación Representación gráfica en la que se considera en el eje de abscisas el número de factores y en el de ordenadas los autovalores Los factores con varianzas altas se suelen distinguir de aquellos con varianza explicada pequeña El punto de selección viene dado por el punto de inflexión en la gráfica 7

23 Rotaciones factoriales En ocasiones es difícil interpretar el significado de los factores a partir de la matriz de cargas factoriales, sobre todo si aparecen varios factores compartiendo variables Puede haber distintas variables que muestren correlaciones altas con varios factores haciendo difícil su interpretación El hecho de que el modelo esté identificado salvo una matriz C no singular (ortogonal en el caso del modelo ortogonal) sugiere le posibilidad de rotar los ejes que representan los factores para buscar la solución más fácilmente interpretable Se trata de intentar aproximarse al denominado Principio de Estructura Simple (Thurstone, 947) según el cual Cada factor debe contener cargas altas y cargas próximas a cero (es decir, debe tener importancia en la explicación de sólo algunas de las variables) 2 Cada variable debe ser explicada por un sólo factor 3 Factores distintos deben presentar distribución de cargas altas y bajas distinta (Concreción del Principio general de parsimonia en la explicación científica, que establece que de todas las soluciones posibles debe preferirse la más sencilla) Existen dos tipos de rotaciones: Rotaciones ortogonales y Rotaciones oblicuas Tanto en las rotaciones ortogonales como en las de tipo oblicuo, la comunalidad de cada variable no se ve modificada 23 Rotaciones ortogonales Conservan los ángulos rectos en las representaciones gráficas Se basan en la idea de maximizar la varianza de los cuadrados de las cargas factoriales, con lo que se consigue que los valores se dispersen al máximo, aumentando los mayores y disminuyendo los más pequeños Formalmente se basan en mín γ [0,] k= j k [ p ( p c 2 ij c 2 ik γ p c 2 ij ) ( p donde los valores c ij corresponden a las cargas factoriales rotadas c 2 ik )] Según los distintos valores de γ se tienen distintas rotaciones ortogonales (i) Cuando γ = 0 la rotación se dice Cuartimax En este caso se puede comprobar que la minimización anterior equivale a maximizar donde c 2 = pm pm p 2 ( c ij c 2) 2 p c 2 ij Nótese que lo que se hace es maximizar la varianza de los cuadrados de todas las cargas en bloque 8

(ii) Cuando γ = la rotación se denomina Varimax En este caso la minimización equivale a maximizar p 2 ( c p ij c 2) 2 donde c 2 = p c 2 p ij La diferencia con el método anterior es que actúa por columnas en la matriz de cargas con lo que se maximiza su dispersión pero para cada factor separadamente Se trata del procedimiento más utilizado (iii) Cuando γ = p/2 la rotación se denomina Equimax (iv) Cuando γ = 0,5 la rotación se denomina Bicuartimax Observación: Al aplicar los criterios anteriores suele utilizarse la denominada normalización de Kaiser que se basa en considerar las cargas factoriales normalizadas en el sentido de dividirlas por la raíz cuadrada de la comunalidad de la i-ésima variable, es decir, manejar c ij = c ij / c i, i =,, p, j =,, m Se intenta así que las variables con menor comunalidad tengan un peso relativo mayor en la determinación de la estructura final Así se tiene, por ejemplo, el criterio varimax normalizado o criterio de Kaiser 232 Rotaciones oblicuas Los ejes no son ortogonales y los factores no estarán incorrelados La versión oblicua de los métodos anteriores conduce a los procedimientos Oblimin Directos en los que la función a minimizar es la misma pero con γ (, 0] de tal forma que cuanto más negativo sea γ mayor correlación existirá entre los nuevos factores rotados Cuando γ = 0 se tiene el método Cuartimin directo que es la versión oblicua del cuartimax aunque no se está maximizando la varianza de las cargas factoriales En cuanto al objetivo de estos métodos, es distinto al de las ortogonales Para establecerlo tengamos en cuenta los siguientes aspectos del modelo factorial: (a) Estructura factorial: es la matriz de correlaciones entre las variables X i y los factores rotados En caso de rotación ortogonal, coincide con la matriz de cargas factoriales rotadas (b) Factores de referencia: asociado a cada factor rotado se puede encontrar un nuevo factor que sea incorrelado con los rotados A esos nuevos factores de les llama factores de referencia Obviamente si la rotación es ortogonal esos factores coinciden con los primeros (c) Estructura factorial de referencia o estructura de referencia: es la matriz de correlaciones entre las variables X i y los factores de referencia Si la rotación es ortogonal la matriz coincide con la estructura factorial 9

Se puede entonces decir que mientras las rotaciones ortogonales intentan encontrar la estructura factorial más simple, las oblicuas hacen lo mismo pero con la estructura de referencia De ahí que llamando v ij a la correlación entre X i y el eje de referencia G i, las rotaciones oblicuas persiguen [ p ( p ) ( p )] mín vijv 2 ik 2 γ vij 2 vik 2 γ [0,] p k= j k Los métodos de rotación que siguen esta filosofía se llaman Oblimin indirectos (i) Para γ = 0 se tiene el método de rotación Cuartimin indirecto (ii) Para γ = la rotación se dice Covarimin (iii) Para γ = 0,5 la rotación se conoce como Bicuartimin Además, cuanto más próximo esté γ a cero los ejes son más oblicuos y cuanto más cerca estén de lo serán menos, pudiéndose también emplear el criterio de normalización de Kaiser 24 Puntuaciones Factoriales Las puntuaciones factoriales son estimaciones de los valores que toman los individuos en los factores Se interpretan como las coordenadas de los individuos en el espacio de los factores, por lo que se consigue reducir la dimensionalidad del problema al pasar de un espacio de dimensión p (variables originales) a uno de dimensión m p (factores, nuevas variables a considerar) Estos valores podrían ser usados como datos para posteriores análisis en los que se trabaje con los mismos individuos sustituyendo las variables originales por los nuevos factores obtenidos Surge el problema del cómo calcular estas puntuaciones ante el hecho de que ni los factores ni los errores son observables, son aleatorios Son varios los métodos para el cálculo de las puntuaciones factoriales (i) Método de Regresión Las puntuaciones resultantes tienen de media 0 y varianza el cuadrado de la correlación múltiple entre las puntuaciones factoriales estimadas y los valores factoriales verdaderos Las puntuaciones pueden estar correlacionadas, incluso cuando los factores son ortogonales (ii) Método de Bartlett Las puntuaciones resultantes tienen media de 0 Se minimiza la suma de cuadrados de los factores comunes sobre el rango de las variables (iii) Método de Anderson-Rubin Es una modificación del método de Bartlett que permite asegurar la ortogonalidad de los factores estimados Las puntuaciones resultantes tienen media 0, desviación típica y no están correladas entre sí 20

25 Tests de hipótesis en modelos factoriales Cuando se pretende analizar la conveniencia de la aplicación del Análisis Factorial a un conjunto de variables, se realizan contrastes previos a la extracción de los factores Entre ellos destacamos los siguientes: Contraste de Esfericidad de Bartlett Se contrasta si las correlaciones entre las variables son todas igual a cero, es decir si la matriz de correlaciones es una matriz identidad } H 0 : R = I H : R I La hipótesis alternativa asume que el determinante de R, indicador de la varianza generalizada de dicha matriz, es distinto de uno Un determinante próximo a cero indica que una o más variables pueden expresarse como combinación lineal de las otras variables El estadístico de contraste es [ ] B = n ln R 6(2p + 5) siendo R el determinante de la matriz de correlaciones, con distribución en el muestreo χ 2 con /2(p 2 p) grados de libertad Rechazar H 0 sería indicativo de correlaciones entre las variables y tendría sentido el análisis factorial Condición de aplicabilidad: variables procedentes de una población con distribución normal multivariante Medida de Adecuación Muestral de Kaiser, Meyer y Olkin Contrasta si las correlaciones parciales entre las variables son pequeñas, mediante el cálculo de la medida n n donde KMO = n n rij 2 + r 2 ij n n s 2 ij r ij coeficiente de correlación lineal de Pearson entre las variables i-ésima y j-ésima (i j) s ij coeficiente de correlación parcial entre las variables i-ésima y j-ésima (i j) Valores altos (por encima de 05) para la medida KMO indican que el modelo es adecuado Los contrastes que se aplican después de la extracción de los factores pretenden evaluar el modelo factorial una vez estimado 2

Test de la Razón de Verosimilitudes Se considera X = (X,, X p ) un vector aleatorio con distribución normal p-variante con matriz de covarianza Σ definida positiva y una muestra aleatoria de tamaño N x j = (x j,, x jp ), j =,, N de Se plantea el contraste de las hipótesis H 0 : Σ = ΛΛ + Ψ H : Σ matriz simétrica definida positiva La función de verosimilitud para la muestra vendrá dada por { L(Σ, µ) = exp N } Traza (2π) Np/2 Σ (x j µ)(x j µ) Σ N/2 2 y, por tanto, máx H L(Σ, µ) = exp { 2 } (2π) Np/2 S/N Np N/2 Bajo H 0 y L(Σ, µ) se reduce a L(Λ, Ψ, µ) = (2π) Np/2 ΛΛ + Ψ { N/2 exp máx H0 L(Λ, Ψ, µ) = 2 Traza (ΛΛ + Ψ) N (x j µ)(x j µ) } (2π) Np/2 ˆΛˆΛ + ˆΨ N/2 { exp } 2 Traza (ˆΛˆΛ + ˆΨ) s donde ˆΛ y ˆΨ son los obtenidos del Teorema Por tanto, el test de la razón de verosimilitudes rechaza H 0 siempre que [ ] N/2 { s/n λ = ˆΛˆΛ + ˆΨ exp 2 Traza (ˆΛˆΛ + ˆΨ) s } 2 np c ( N = n) c depende del nivel de significación α del test En muestras de tamaño grande (Box, 949) P [ 2 log λ z] = P [χ 2 ν z] ν = [ 2 p(p + ) mp + p ] 2 m(m + ) + m 22

Test de Bondad de Ajuste para Mínimos Cuadrados Se contrasta si el número de factores seleccionados para un modelo es adecuado o no mediante un test de bondad de ajuste basado en un estadístico tipo chi-cuadrado La hipótesis nula considera que el número de factores es apropiado Significaciones bajas (próximas a 005) indicarán que debe cambirse el número de factores seleccionado 23