UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS FACULAD DE CIENCIAS MAEMÁICAS E.A.P. DE..ESADÍSICA Caracterzacón de los muncos de la rovnca de Lma usando los ndcadores de gestón muncal medante análss factoral y análss cluster Caítulo4. Análss factoral MONOGRAFÍA Para otar el ítulo de Lcencado en Estadístca AUOR Edth Dela Chávez Ramírez Naky Katy Lóez Rbero LIMA PERÚ 5
3 CAPÍULO IV ANÁLISIS FACORIAL En este caítulo se resenta la defncón del Análss Factoral y obetvos, se descrbe el modelo factoral y los suuestos del msmo, así como la descomoscón de la matrz de covaranzas. ambén se exlca la evaluacón de la matrz de correlacones, los métodos de estmacón, el número de factores a extraer, la nterretacón de factores, la rotacón de los estos factores y los métodos ara obtener las untuacones factorales. 4. DEFINICIÓN El análss factoral es un método estadístco multvarante, cuyo roósto rncal es defnr la estructura subyacente en una matrz de datos. Aborda el roblema de cómo analzar la estructura de las correlacones entre un gran número de varables.[] S el número de varables es demasado grande o exste necesdad de dar una meor reresentacón a través de un número varables más equeño, el análss factoral uede asstr en la seleccón de un subgruo de varables reresentatvo o ncluso crear nuevas varables llamadas factores (que no son observables drectamente), como susttutas de las varables orgnales. 4.. OBJEIVOS DEL ANÁLISIS FACORIAL El rncal obetvo de análss factoral es analzar la estructura de la matrz de covaranzas o de correlacones, es decr, descrbr s es osble las relacones entre varas varables en térmnos de ocas varables no observables ero mortantes llamados Factores, de modo que exlquen una buena arte de la varabldad de las varanzas.
4 4.3 MODELO FACORIAL El modelo matemátco del Análss Factoral es arecdo al de la regresón múltle. Cada varable se exresa como una combnacón lneal de factores no drectamente observables. [] Sean, X X varables bao estudo; tal que X,Σ X,..., se exresa como: X X = µ + l F + l F +.. + l F m m + ε = µ + l F + l F +.. + l F m m + ε.................. X = µ + l F + l F +.. + l F + ε m m el modelo básco (IV.) El modelo factoral suone:.- m < uesto que se desea exlcar las varables or un número más reducdo de varables teórcas llamadas factores..- La totaldad de los ( m + ) factores son ncorrelaconados; se retende que la arte de la varabldad de una varable exlcada or un factor no tenga relacón (en sentdo lneal) con los demás factores [3]. La exresón (IV.) uede exresarse matrcalmente como : X = µ + L F + ε (IV.) Donde: X = ( X, X,..., X ) : Es el vector de varables observadas X = µ, µ,..., µ F = ( ( F, F,.., Fm ) ) : Denota al vector de medas oblaconales. : Es un vector de m varables no observables, llamado factores comunes; orque de acuerdo al modelo (IV.) nfluyen en común en las n varables.
5 ε = ( ε, ε,..., ε) : Es un vector de varables no observables llamado vector de factores esecífcos o vector de factores úncos. L = ( l ) : Es una matrz de dmensón ( xm ), que contene constantes desconocdas, llamadas cargas factorales o esos factorales. 4.4 SUPUESOS DEL MODELO FACORIAL OROGONAL.- E ( F ) =, ( mx) Cov ( F ) = E( FF ) = I, ( mxm).- E ( ε ) =, ( x) Cov( ε ) = E( εε ) = Ψ ( x) ; donde Ψ es una matrz dagonal. 3.- Cov ( ε, F ) = E( ε, F ) = ( xm) (IV.3) La matrz de covaranza de los factores esecífcos se exresa como: Ψ Ψ =. Ψ... Ψ (IV.4) 4.5 DESCOMPOSICIÓN DE LA MARIZ DE COVARIANZAS SEGÚN EL MODELO FACORIAL Para determnar como es la estructura de la matrz de covaranza Σ, usaremos los suuestos del modelo (IV.), llamado modelo factoral ortogonal y la defncón de covaranza, bao oeracones y roedades anterormente menconadas obtendremos el sguente resultado: Σ = Cov ( X ) = E[( X µ )( X µ ) = E[( LF +ε )(( LF) + ε)] = E[( LF( LF) ] ) + ε ( LF) + LFε + εε ]
6 = LE( FF ) L Σ = LL + Ψ (IV.5) + E( ε F ) L + LE( Fε ) + E( εε ) La matrz de Σ queda descomuesta en funcón de L( xm) vector F y Ψ la matrz de varanzas esecífcas de X. matrz de esos del La varanza de X y la covaranza de X X, se exresa como: m Var( X ) = σ = l + l +... + l + Ψ (IV.6) Cov = +... + l ( X, X k ) σ k = ll k + llk m l km Donde : h = l + l +... + l m es la -ésma comunaldad. Entendendo or comunaldad al grado de asocacón que tenen las varables a través del factor -ésmo, es la varabldad comartda de las varables a través del factor común. Del resultado (IV.6) se observa que la varanza de una varable tene dos comonentes, bao el modelo factoral ortogonal, esto es: σ = h + Ψ σ = comunaldad + var anza esecífca (IV.7). Se entende como varanza esecífca aquella varanza asocada solamente con la varable esecífca. Cov ( X, F ) = L, esto es Cov ( X, F ) = l (IV.8) S el análss factoral es el adecuado ara exlcar las nterrelacones entre varables, la comunaldad debe ser lo más alto osble en comaracón con la
7 varanza esecífca. S se factorza la matrz de correlacones, la dagonal está dada or: = comunalda d + var anza. esecífca 4.6 PASOS PARA UN ADECUADO ANALISIS FACORIAL Los asos que se suelen segur ara un adecuado Análss Factoral son:. Calcular la matrz de correlacones entre todas las varables (conocda habtualmente como matrz R).. Extraccón de los factores necesaros ara reresentar los datos. 3. Rotacón de los factores con obeto de facltar su nterretacón cuando sea necesaro. 4. Calcular las untuacones factorales de cada ndvduo. 4.7 EXAMEN DE LA MARIZ DE CORRELACIONES El rmer aso en el Análss Factoral será calcular la matrz de correlacones entre todas las varables que entran en el análss. Un Análss Factoral resultará adecuado cuando exstan altas correlacones entre las varables, que es cuando odemos suoner que se exlcan or factores comunes. El análss de la matrz de correlacones será ues el rmer aso a dar. Pueden utlzarse dferentes métodos ara comrobar el grado de asocacón entre las varables y verfcar la adecuacón del modelo entre ellas tenemos: 4.7. El Determnante de la Matrz de Correlacones: Un determnante muy bao ndcará altas ntercorrelacones entre las varables o asocacón lneal, esto ndcaría que algunas de las varables están altamente correlaconadas y que se uede alcar el Análss Factoral. [4]
8 4.7. Índce Kaser- Meyer - Olkn (KMO) Es una medda de adecuacón del modelo factoral, el KMO se calcula como: Donde: r KMO = r + a (IV.9) r : es el coefcente de correlacón de Pearson entre la varables y. a : es el coefcente de correlacón arcal entre las varables y El índce KMO comara los coefcentes de correlacón de Pearson obtendos en (IV.9) con los coefcentes de correlacón arcal entre varables. S la suma de los coefcentes de correlacón arcal al cuadrado es muy equeña, el KMO será un índce muy róxmo a la undad y or tanto el análss factoral un rocedmento adecuado. En cambo valores equeños en este índce nos ndca la no convenenca de alcar el análss factoral. Una clasfcacón comúnmente acetado ara la evaluacón de la adecuacón del modelo factoral y su nterretacón es (Kaser 974): KMO >.9 Excelentes.9 KMO >.8 Buenos.8 KMO >.7 Acetables.7 KMO >.6 Medocres o regulares.6 KMO >.5 Malos KMO.5 Inacetables o muy malos. 4.7.3 Medda de Adecuacón Muestral (MSA) La medda de adecuacón muestral (MSA), son los coefcentes que se encuentran en la dagonal de la matrz de correlacón ant magen, que venen a ser los KMO ero en este caso ara cada varable or searado.
9 Se obtene del sguente modo: MSA ) = r + a r ( (IV.) S el valor MSA fuera equeño, no se aconsearía el Análss Factoral. Por el contraro, valores róxmos a ndcarían que la varable X es adecuada ara nclurla con el resto en un Análss Factoral. En muchas ocasones, se elmnan las varables con MSA muy bao. [4] 4.8 MÉODO DE ESIMACIÓN Una vez que se esecfcan las varables y se reara la matrz de correlacón, ya se uede alcar el análss factoral. Para ello es necesaro defnr el método de estmacón de los factores. Entre los métodos de estmacón de factores, tenemos al método de Comonentes Prncales y Máxma Verosmltud, que se descrben a contnuacón. 4.8. Método de Comonentes Prncales Este método tamben es conocdo como el método de Factores Prncales, se basa en suoner que los factores comunes exlcan el comortamento de las varables orgnales en su totaldad, usa la descomoscón esectral de la matrz de covaranzas así entonces: Σ or la descomoscón esectral contene los ares ( λ, γ ) con λ λ... λ, donde λ son los valores roos (autovalores) y γ son los vectores roos (autovectores) generados a artr de los λ entonces : Σ = λ γ γ + λ γ γ +... + λ γ γ
3 λγ λγ. (IV.).. λγ [ λγ λ γ... λ γ ] La estructura de Σ, tene tantos factores como varables bao estudo y la varanza esecífca es cero ara todas las varables, obvamente que la matrz de factores tene como -ésma columna como: λ γ, or tanto Σ se uede escrbr Σ = LL + = LL (IV.) Pero como buscamos m factores comunes, entonces -m factores no se consderan debdo a que -m autovalores son desrecables, or tanto: Σ = λγ λ γ λ (IV.3) ( xm) ( mx).. λγ [ γ λγ... λ γ ]. = L L donde L ( xm) es la matrz de esos factorales. La reresentacón aroxmada en (IV.3) asume que el factor esecífco ε es de menor mortanca y uede gnorarse en la factorzacón de Σ, s los factores esecífcos son ncludos en el modelo, sus varanzas ueden obtenerse de: Σ LL, donde aroxmacón es: Σ = LL + Ψ (IV.4) LL se defne en (IV.3), entonces la m donde ψ = σ l ara =,,..., (IV.5) = Ordenando y resumendo lo anterormente tratado, ara la obtencón del modelo factoral ortogonal medante el método de comonentes rncales, ara la matrz de covaranzas muestral S, la matrz de esos factorales es :
3 [ λˆ γ λˆ γ λˆ ˆ ˆ... mγˆ m ] ˆ L = (IV.6) Las estmacones de las varanzas esecífcas se obtenen de la dagonal de la matrz: S - ˆ L, de manera tal que : L ˆ Ψˆ Ψ =. Ψˆ ˆ... Ψˆ (IV.7) con m ˆψ = S l y las comunaldades estmadas son: = h ˆ = + (IV.8) ˆ ˆ ˆ l + l +... l m En caso se obtenga el modelo factoral ortogonal medante la matrz de correlacones muestrales R, es necesaro reemlazar adecuadamente a fn de obtener las comunaldades y las varanzas esecífcas corresondentes. Este método es el más usado debdo a que no hay condcón alguna acerca de la dstrbucón de robabldad de la oblacón, de donde se ha tomado la muestra aleatora; además cuando el nvestgador desea consderar más factores de las que selecconó, uede ncrementarlos y la solucón no camba. 4.8. Método de Máxma Verosmltud Una de las dferencas más mortantes del método de máxma verosmltud desarrollado or Joreskorg es que comenza con una matrz de covaranza (Σ ) oblaconal, en lugar de muestral (S ) como los demás métodos y asume que las untuacones de los suetos rovenen de dstrbucones normales multvaradas. El obetvo es maxmzar la funcón : n L = ln Σ + traza( SΣ ) (IV.9) donde la traza es la suma de los elementos dagonales del roducto matrces.
3 El rocedmento trata de extraer factores de forma sucesva de manera que cada uno exlque tanta varanza como sea osble de la matrz oblaconal, de la muestral. Sus resultados son muy semeantes a los de otros métodos cuando las fabldades de las ruebas y las comunaldades de las varables son altas.. (Andrés Catena, 3). 4.9 NÚMERO DE FACORES Cuando una gran sere de varables se somete ara la extraccón de factores, en rmer lugar el método extrae las combnacones lneales de las varables que exlcan la cantdad mayor de la varanza y desués contnúa con combnacones que ustfcan cantdades de varanza cada vez menores. Para decdr cuántos factores se deben estmar se emeza generalmente con algún crtero redetermnado, tal como el orcentae de varanza o el crtero de raíz latente, ara llegar a un número de factores esecífcos. Desués de consderar la solucón ncal, se calculan varas solucones de rueba adconales, normalmente un factor menos que el número ncal y dos o tres factores más que los que se estmaron ncalmente. Posterormente, en funcón de la nformacón que se obtene de estos análss revos, se examnan las matrces de factores y se escoge el número de factores que reresente meor los datos. [] No obstante, en general se utlzan los sguentes crteros ara determnar el número de factores a consderar. 4.9. Crtero de Kaser Excluye aquellos factores rncales cuyos autovalores son menores que el romedo, es decr cuando se utlza la matrz de correlacones se excluyen los autovalores menores que 4.9. Crtero a ror El crtero a ror es un crtero smle y a la vez razonable bao certas crcunstancas. Su alcacón, nos ermte saber cuantos factores hay que extraer antes de ncar el análss factoral. Consste en nstrur al comutador ara detener el análss cuando se haya extraído el número de factores deseado. Esta aroxmacón resulta de utldad cuando se rueba una teoría o
33 una hótess acerca del número de factores ara ser extraído. Este crtero deende mucho de la exerenca del nvestgador. 4.9.3 Crtero de orcentae de la varanza El crtero de orcentae de varanza es una aroxmacón que se basa en obtener un orcentae acumulado esecfcado de la varanza total extraída. El roósto es asegurar una sgnfcacón ráctca de los factores dervados, asegurando que exlcan or lo menos una cantdad esecfcada de la varanza. No se ha adotado un umbral absoluto ara todas las alcacones. Sn embargo en las cencas naturales, el rocedmento de factores no debería ser detendo hasta que los factores extraídos cuenten or lo menos con un 95% de la varanza. Por contraste en la cencas socales, donde la nformacón muchas veces es menos recsa, es normal consderar una solucón que reresente un 6% de la varanza total como satsfactora. 4.9.4 Crtero de contraste de caída (Catell) El contraste de caída se utlza ara dentfcar el número ótmo de factores que ueden ser extraídos antes de que la cantdad de la varanza únca emece a domnar la estructura de la varanza común. Se estma el contraste de caída con el trazo de autovalores en funcón del número de factores en su orden de extraccón, y se utlza la forma de curva consguente ara evaluar el unto de corte. 5 4 Autovalores 3 Crtero raíz latente (autovalor) 3 4 5 6 7 8 Número de Factores
34 4. INERPREACIÓN DE LOS FACORES Para nterretar los factores y selecconar la solucón factoral defntva, en rmer lugar se calcula la matrz ncal no rotada ara que nos dé una ndcacón relmnar acerca del número de factores a extraer. La matrz de factores contene los esos factorales ara cada varable sobre cada factor. Al calcular la matrz de factores no rotada, nos nteresa la meor combnacón lneal de varables, es decr encontrar aquella combnacón artcular de varables orgnales que cuenta con el mayor orcentae de varanza de los datos. En consecuenca, el rmer factor uede contemlarse como el meor resumen de las relacones lneales que los datos manfestan. El segundo factor se defne como la segunda combnacón lneal de la varables, sueta a la restrccón de que sea ortogonal al rmer factor. Para se ortogonal al rmer factor, el segundo factor debe dervarse de la varanza restante tras la extraccón del rmer factor. Así, el segundo factor uede defnrse como la combnacón lneal de las varables que da cuenta del mayor orcentae de varanza resdual una vez que se ha elmnado de los datos el efecto del rmer factor. Los factores subsguentes se defnen de manera análoga hasta haber agotado la varanza de los datos y los últmos factores tenen menor orcentae de varanza. Las solucones factorales no rotadas alcanzan el obetvo de reduccón de datos, ero ueden ser que no faclte la nterretacón más adecuada de las varables examnados. La solucón factoral no rotada uede no sumnstrar un atrón sgnfcatvo de los esos de las varables, s se esera que los factores no rotados sean sgnfcatvos, el usuaro uede esecfcar que la rotacón no se lleva a cabo. Generalmente, la rotacón es deseable orque smlfca la estructura de factores, y faclta la nterretacón. []
35 4. ROACIÓN DE FACORES Los esos factorales obtendos ncalmente or una transformacón ortogonal, reroducen la estructura de la matrz de covaranzas o correlacones, ero cuando no odemos nterretar el sentdo y sgnfcado de los factores, se recurre a la rotacón hasta obtener una estructura smle y darle la nterretacón debda a los factores comunes. La rotacón de factores es mortante ara nterretar los factores, consste en grar el orgen de los ees de referenca de los factores hasta alcanzar una determnada oscón. Las solucones factorales no rotadas extraen factores según su orden de mortanca. El rmer factor tene mayor orcentae de varanza, el segundo y sguentes factores se basan en la varanza resdual. Cada uno exlca orcentaes de varanza cada vez menores. El efecto últmo de rotar la matrz de factores es redstrbur la varanza de los rmeros factores a los últmos ara lograr un atrón de factores más smles y teórcamente más sgnfcatvo. [] Según Johnson (98), S Lˆ es la matrz estmada xm de esos factorales obtendo or el método de comonentes rncales, entonces Lˆ* = Lˆ ; donde = = I, es una matrz xm de esos rotados. Además la matrz de covaranza estmada (o matrz de correlacón) ermanece nalterada dado que : LL ˆ ˆ + Ψ ˆ = L ˆ Lˆ + Ψ ˆ = Lˆ* Lˆ* + Ψ (IV.9) la ecuacón anteror ndca que la matrz resdual S n LLˆ * * ˆ Ψ ˆ = S ˆ ˆ n L L Ψˆ no camba. Además las varanzas esecífcas Ψˆ y las comunaldades no se alteran. Dado que los esos factorales orgnales no son nterretables en la ráctca es usual rotarlas hasta que se obtenga una estructura más smle. (Johnson, 98). Exsten dversos to de rotacón, los ortogonales (Varmax, Cuartmax y Equamax, entre otros), y los no ortogonales (Promax, Quartmn, Oblmn entre otros), de todos estos métodos el más utlzado es el Varmax. (Afff y Clark,Vsauta 998). Desarrollaremos dos de cada to de rotacón.
36 a) Rotacón Varmax El método Varmax es el más frecuente emleado. Fue dseñado or Kaser (958), y como su nombre lo ndca está orentado a la maxmzacón de la varanza de factores. Lógcamente, una forma de consegur esto es que algunos factores tengan esos altos y otros róxmos a cero, lo que tene como consecuenca que bastantes varables tengan untuacones baas en un factor. Por trgonometría elemental sabemos que ara rotar un ee tenemos que multlcar or coseno y seno del ángulo de rotacón, de modo que debemos rmero dentfcar el ángulo que deseamos rotar los ees. Kaser (958) rouso un crtero de selecconar que es emleado or aquetes estadístcos como SPSS. Concretamente, el ángulo de rotacón selecconado, será aquel que mnmce la exresón sguente: b) Cuartmax V c c 4 g k ( g k ) k = k = = = = (IV.) rata de mnmzar el número de factores necesaros ara exlcar un conunto de varables. El obetvo de este to de rotacón es smlfcar las flas de una matrz de factores; cuartmax se centra en rotar los factores ncales de tal forma que una varable cargue alto sobre un factor y tan bao como sea osble sobre los otros factores. En estas rotacones muchas varables ueden cargar alto o cerca sobre el msmo factor que la técnca se centra en las flas. [4] c) Promax Es el más aconseable ara grandes bases de datos (trabaa con arámetro λ cuyo valor or defecto es 4). d) Oblmn rabaa con el arámetro δ. El valor de δ será s queremos que los factores sean muy oblcuos, o lo que es lo msmo que exsta una alta correlacón entre los msmos y tanto más negatvo su valor cuanto más oblcuos. [4]
37 4. PUNUACIONES FACORIALES En el análss factoral nteresa usualmente centrarse en los arámetros del modelo factoral. Sn embargo, los valores estmados de los factores comunes, llamado untae factorales (factor scores), ueden tamben ser requerdos. Estos cantdades son desués usadas ara roósto de dagnóstco como buenas saldas de análss osterores. Los untaes factorales no son estmacones de arámetros desconocdos en el sentdo usual. Por el contraro ellos son valores estmados ara el vector de factores aleatoros no observados. F, =,,3... n Esto es, untae factoral fˆ = estmacón de el valor, fˆ obtendo or F ( th caso) Uno de los obetvos del Análss Factoral es reducr un gran número de varables a un equeño número de factores, es aconseable estmar las untuacones de las undades de análss con la fnaldad de nterretar y categorzarlos. Exsten dversos métodos ara obtener las untuacones factorales, como el método de Regresón, el método de suma de cuadrados onderados entre otros []. 4.. Método de Regresón Comenzamos con el modelo del factor orgnal X µ = LF + ε, ncalmente tratamos los esos de la matrz L y la matrz de varanza esecífca Ψ como conocda. Cuando los factores comunes F y los factores esecífcos ε, tenen comúnmente dstrbucón normal con meda y covaranza dada en (IV.3), la combnacón lneal X µ = L F + ε tene una dstrbucón N (, LL + Ψ), además la dstrbucón combnada de ( X u) y F es N (, *), donde : ( m + ) x Σ
38 Σ * ( m+ ) x( mx) Σ = LL = L ( x) ( mx) + Ψ L I ( xm) ( mxm) (IV.) y es una matrz ( m + ) x de ceros, la dstrbucón condconal de F / x es normal multvarante con : meda = E( F / x) = L Σ ( x u) = L ( LL + Ψ) ( x u) (IV.) y covaranza = Cov( F / x) = I L Σ L = I L ( LL + Ψ) L (IV.) Los cantdades L ( LL + Ψ) en (IV.) son los coefcentes en una regresón en los factores en las varables. La estmacón de estos coefcentes roduce los untaes factorales que son análogos a la estmacón del valor medo condconal en análss de regresón multvarante. Consecuentemente dado algún vector de observacones X y tomando la estmacón máxma verosíml ara Lˆ y Ψˆ como el verdadero valor, la th factor de untaes factorales es dado or : fˆ = Lˆ Σˆ ( x x) = Lˆ ( LL ˆ ˆ + Ψˆ ) ( x x), =,,3,...n (IV.3) El cálculo de fˆ en (3) uede ser smlfcado usando la matrz dentdad Lˆ ( mx) ( LL ˆ ˆ ˆ ˆ + Ψ) = ( I + L Ψ L L Ψ (IV.4) ( x) ( mxm) ( mx) ( x) Esta dentdad nos ermte comarar el untae factoral en (IV.3), generando or la regresón, con estos generados or el rocedmento suma de R LS cuadrados. Se denotará la forma or fˆ y el segundo or fˆ, cuando usamos (IV.4). ˆ) ˆ ˆ LS fˆ Lˆ ˆ ( Lˆ) ( I Lˆ ˆ Ψ + Ψ Lˆ) = fˆ (IV.5) Por estmacón de máxma verosmltud R ( Lˆ Ψˆ Lˆ) = ˆ y s los elementos de esta matrz dagonal están róxmos a cero, la regresón y la generalzacón del método suma de cuadrados odría dar aroxmadamente los untaes factorales arecdo. En un ntento or reducr los efectos de una determnacón ncorrecta del número de factores, tendemos a dvdr el calculo de los untaes factorales
39 en (IV.3) or S(matrz de covaranza de la muestra orgnal) en lugar de Σˆ = L ˆLˆ + Ψˆ. enendo lo sguente. Puntaes Factorales obtendos or Regresón fˆ = Lˆ S ( x x) =,,..., o, s la matrz de correlacón es factorzado fˆ Lˆ = R Z =,,..., n donde z z = D / ( x x) y ˆρ = L ˆ L ˆ + Ψ ˆ z z z (IV.6) Nuevamente, s rotamos los esos orgnales n (IV.5), el subsguente untae factoral n Lˆ* = Lˆ son usados en lugar de los esos fˆ * = fˆ =,,..., n Un medda numérca de acuerdo entre los untaes factorales generados de dos métodos de cálculos dferentes, es rovsto or el coefcente de correlacón smle entre untaes on el msmo factor.[]