AÁLISIS DE DATOS MULTIDIMESIOALES ITRODUCCIÓ DISTRIBUCIÓ DE FRECUECIAS MULTIDIMESIOAL DISTRIBUCIOES MARGIALES DISTRIBUCIOES CODICIOADAS IDEPEDECIA ESTADÍSTICA ESTUDIO AALÍTICO DE DISTRIBUCIOES MULTIDIMESIOALES COVARIAZA VECTOR DE MEDIAS MATRIZ DE VARIAZAS-COVARIAZAS COEFICIETE DE CORRELACIÓ MATRIZ DE CORRELACIÓ En muchas ocasones nteresa estudar el com portamento de m ás de una caracterís tca (2 o m ás) en una poblacón.es evdente que sem pre se podrá estudar cada característca por separado, a tr avés de su correspondente d strbucón de frecuencas y analzar su com portamento a trav és de lo s ndcadores ya estudados de poscón, dspersón, for ma y concentracón.pero puede resultar necesaro analzar, tam bén el comportamento conjunto de 2 o más de las característcas observadas, con el fn de dlucdar la nfluenca de una en otra u otras, d etermnar las relacones exstentes entre ellas,etc.para ello es mprescndble estudar conjuntamente las ob servacones de todas las característcas (varables o atrbutos), a trav és de la dstrbucón de frecuencas multdmensonal. Dada una poblacón de ndvduos, de la que se dsponen observacones de varas característcas (supong amos cuanttatvas, va rables) éstas pueden, en prncpo representarse a través de un lstado (matrcal) smlar a una base de datos en el que en cada fla aparecerá uno de los ndvduos segudo de los valores que cada varable toma para cada ndv duo, lo que co nsttuye un regstro.(cada varable es lo que en la termnología de las bases de datos se llama campo): IDIVIDUO VARIABLE ( X ) ASIG.MATRICUL. VARIABLE 2( X 2 ) EDAD VARIABLE 3 ( X 3 ) ASIG. APROBADAS º JUA X 8 X 2 2 X 3 7 2º PEDRO X 2 7 X 22 22 X 32 6 3º MARÍA X 3 9 X 23 24 X 33 6 4º AA X 4 9 X 24 2 X 34 5 5º LUIS X 5 9 X 25 9 X 35 5
Otra forma de repre sentar los da tos multdmensonales, esp ecalmente útl en el c aso bdmensonal, es agrupando los datos por frecuencas. En el caso bdm ensonal, consderaríamos una tabla de doble entrada para cada una de las varables,cada fla corresponde a un valor de la prmera varable(x o ben x ),cada columna a un valor de la segunda varable(x 2j o ben y j ), y en cada celd a aparecería la frecuenca de cada par de valores (n j ). Y(aprobadas) Y Y 2 Y 3 n. X (matrculadas.) 5 6 7 X n n 2 n 3 n. 7 X 2 n 2 n 22 n 23 n 2. 8 X 3 n 3 n 32 n 33 n 3. 9 2 3 n.j n. 2 n.2 2 n.3 5 Una tabla de este tpo recbe el nombre de tabla de correlacón. S, en lugar de estar representadas las observacones de dos varab les (cuanttatva s), s e tra tara de d os atrbutos, con dstntos nveles, hablaríamos de tabla de contngenca. Cada una de las frecuencas nj que nos n forma del número de ndvduos que toman el valor x para la varable x, e y j para la varable y,recbe el nombre de frecuenca conjunta. S sumamos las frecuencas conjuntas a lo largo de una fla () se obtene el número total de observacones del valor de x, x, con ndependenca del valor que tom e la otra varable: n.= j n j = nº de observacones de x Las n. se conocen como frecuencas margnales de la varable x. Análogamente,s sum amos las frecuencas conj untas a lo largo de una columna (j) se obtene el número total de observacones del valor de y, y j, con ndependenca del valor que tome la otra varable: n. j = n j = nº de observacones de y j Las n. j se conocen como frecuencas margnales de la varable y. 2
Dstrbucones margnales Las dstrbucones margnales son las dstrbucones undmensonales que nos nforman del número de observacones para cada valor de una de las varable s,(prescndendo de la nformacón sobre los valores de las demás varables). En el caso bdm ensonal hay dos (una pa ra la x y otra para la y), en el caso multdmensonal hay tantas como varables. A partr de la tabla de correlacón pueden construrse las dstrbucones m argnales, asgnando a cada valor de la varable consderada su frecuenca margnal. En el caso de dm ensón mayor de dos, y s upuestos los datos en form a de base datos matrcal, habrá que consderar úncamente una de las varables (una columna) y a partr del lstado de observacones, se podrá construr la tabla de frecuencas de la dstrbucón margnal. Las dstrbucones margnales son dstrbucones de frecuencas undmensonales como las ya estudadas y pueden analzarse de la manera habtual (meda, varanza, asmetría, curtoss, etc.). Dstrbucones condconadas En el caso bdm ensonal,se pueden consd erar adem ás otras dstrbucones que nos especfquen las observacones que hay de cad a valor de una de las varables cuando mponemos la condcón de que la otra toma un valor determnado. Esto supone consderar úncam ente una columna de la tabla de correlacón (dstrbucón de x condconada a un valor de y) o una fla de la tabla (dstrbucón de y condconada a un valor de x). En el caso multdm ensonal, con u na representacón de ba se de datos, establecer una condcón supone realzar una seleccón parcal de los dato s, el resultado d e esta seleccón s ería la ds trbucón condconada, que en este caso puede ser un o multdmensonal, dependendo de la condcón (seleccón). Independenca estadístca Dos vara bles es tadístcas son estadístcamente ndependentes cuando el comportamento estadístco de una de ellas no se ve afectado por los valores que toma la otra; esto es cuando las relatvas de las dstrbucones condconadas no se ven afectadas por la condcón, y concden en todos los casos con las frecuencas relatvas margnales. Esta defncón puede hacers e m ás operatva, a través de la caracterzacón sgu ente: Dos varables son estadístcam ente ndepe ndentes cuando para todos los pares de valores se cum ple que la frecuenca relat va conjunta es gual al producto de las frecuencas relatvas margnales.: 3
para todo,j : n n n = j,., j, Ejemplo: Y X 2 3 n. 5 5 6 2 2 32 5 4 4 2 64 n. j 7 7 35 2 n n n j,., j =,, j para el prmer par, tendríamos para el segundo par,2 tendríamos 6 7 = que cumple 2 2 2 6 7 = que cumple 2 2 2 lo comprobaríamos hasta el últmo 2 64 35 para el últmo par 3,3, tendríam os = que cumple, por tanto X e Y son 2 2 2 estadístcamente IDEPEDIETES Estudo analítco de dstrbucones multdmensonales: Vector de Medas, matrz de Varanzas-Covaranzas Aunque s la ds trbucón multdmensonal estudada tene una dm ensón superor a 2 es posble defnr ndcadores (basados en los momentos) que consderen a la totald ad de las varables, en la práctca basta con analzar la totaldad de las varables por parejas para poder contar con toda la nformacón ndspensable para manejarse adecuadamente con una dstrbucón multdmensonal. 4
De esta form a, dada una dstrbucón de frecuencas m ultdmensonal ( de cualq uer dmensón) nos nteresará, por un lado cons ervar los nd cadores unvarantes de cada dstrbucón m argnal (m edas, varanzas, etc.,-- de cada varable por separado) y consderar adem ás algunos ndcadores (bv arantes), de cada pareja de varables posble. COVARIAZA En este sentdo el ndcador bvarante más mportante es la covaranza: Dadas dos varables estadístcas x e y defnremos la covaranza Sxy como: S xy, = k h j= = ( )( ) X x Y y n, j en el caso de dsponer de la dstrbucón agregada por frecuencas en una tabla de correlacón S xy, = k h j= = ( X x)( Y y) en el caso de dsponer de la dstrbucón sn agregar por frecuen cas (en un lstado matrcal de datos donde cada regstro es una observacón y nº de regstros= ) Propedades:. La covaranza es el momento central de orden, de la dstrbucón bdmensonal. 2. Es nvarante ante los cambos de orgen en cualquera de las dos varables. 3. Sn embargo depende de los cambos de undad.s se camba de undad de medda en ambas varables la covaranza se modfca proporconalmente a ambos cambos: u= a+bx v = c + dy S uv = b.d.s xy 5
4. La expresón de cálculo de la covaranza es s = a, x y donde a es el llamado momento (ordnaro) mxto y su expresón es: xy a k XYn,, j j= = h = s las observacones están agregadas por frecuencas, o ben: a, k h = j= = XY s las observacones no están agregadas por frecuencas 5. S dos varables son ndepe ndentes su covaranza es cero (el resultado recíproco no es necesaramente certo). 6. La covaranza nos m de la covaracón conjunta de dos varables: S es postva nos dará la nform acón de que a valores alto s de una de las varable hay una m ayor tendenca a encontrar v alores altos de la o tra varable y a valores ba jos de una de las varable,correspondentemente valores bajos. En cambo s la covaranza es negatva, la covaracón de am bas varables será en sentdo nv erso: a va lores altos le corresponderán bajos, y a valores bajos, al tos.s la covaranza es cero no hay una covaracón clara en nnguno de los dos sent dos.sn embargo el hecho de que la covaranza dependa de las m eddas de las varables no perm te establecer comparacones entre unos casos y otros. VECTOR DE MEDIAS: Dada una varable estadístca n-dm ensonal (X,X 2,X 3,...,X n ), llam aremos vector de medas al vector co lumna formado por las m edas de las dstrbucones m argnales de cada varable por separado. 6
MATRIZ DE VARIAZAS-COVARIAZAS: Dada una varable estadí stca n-dm ensonal (X,X 2,X 3,...,X n ), llam aremos m atrz de varanzas-covaranzas (m atrz de varan zas) (m atrz de covaranzas ), a la m atrz cuadrada, n n, que dsponga en su dagonal prncpal de las varanzas de cada una de las dstrbucones m argnales undm ensonales, y en los elem entos no-dagonales (,j) de las correspondentes covaranzas entre cada dos varables S j Propedades. La matrz de varanzas-covaranzas es smétrca respecto a su dagonal prncpal 2. La matrz de varanzas-covaranzas es defnda postva 3. El determnante de la matrz de varanzas-covaranzas (tambén llamado determnante de momentos) es sempre no negatvo L mayor o gual a 4. En el caso bdmensonal tendremos: det V = L = S 2 x S 2 y - (S xy ) 2 COEFICIETE DE CORRELACIÓ Para poder contar con un ndcador que nos perm ta, por un lado establecer la covaracón conjunta de dos var ables, y por otro, que tenga la unversaldad sufcente para poder estab lecer comparacones entre dst ntos caso s, se utlza el coefcen te de correlacón (ln eal, de Pearson).La correlac ón es, pues una m edda de covaracón conjunta que nos nform a del sentdo de esta y de su relevanca, que está acotada y permte la comparacón entre dstntos casos. El coefcen te de co rrelacón en tre dos var ables puede defnrse como la covaran za exstente entre sus dos varables tpfcadas y tene por expresón de cálculo: S S x y xy, = uv, = = X X, Y Y S S x, y x Sy r S S 7
Interpretacón: **S r < Hay correlacón negatva : las dos varables s e correlac onan en sentdo nverso.a valores altos de una de ellas le su elen corresponder valor bajos de la otra y vceversa.cuánto más próxmo a - esté el coefcente de correlacón m ás patente será esta covaracón extrema.s r = - h ablaremos de correlacón negatva perfecta lo que supone una determnacón absoluta entre las do s varables ( en sentdo nverso): Exste una relacón funconal perfecta entre ambas(una relacón lneal de pendente negatva). ** S r > Hay correlacón postva: las dos varab les se correlacon an en sentd o drecto.a valores altos de una le corresponden valores altos de la otra e gualm ente con los valores bajos. Cuánto m ás próxm o a + esté el coef cente de correlacón más patente será esta covaracón. S r = hablaremos de correlacón postva perfecta lo que supone una determ nacón absoluta entre las dos varables (en sentdo drecto) :Exste una relacón lneal perfecta ( con pendente postva). ** S r = se dce que las varables están ncorrelaconadas: no pued e establecerse nngún sentdo de covaracón. Propedad m portante: S dos varables son ndependentes estarán ncorrelaconadas aunque el resultado recíproco no es necesaramente certo. MATRIZ DE CORRELACIÓ En el caso de estar ana lzando una dstrbucón n-d mensonal con n > 2, podemos construr la llamada matrz de correlacón: La matrz de correlacón R es una matrz cuadrada n n cosnttuda por los coefcentes de correlacón de cada pareja de varables; de m anera que tendrá unos en su dagonal prncpal, y en los elem entos no dagonales (,j) los correspondente s coefcentes de correlacón r j La m atrz de correlacón será, obvam ente, sm étrca, y conservará las propedades de ser defnda- postva y tener un determnante no negatvo, ( adem ás el determnante será sempre menor o gual que ). Puede consderarse co mo la matrz de varanzas entre las varables tpfcadas. 8
9