ANALISIS MULTIVARIANTE

ANALISIS MULTIVARIANTE Es un conjunto de técnicas que se utilizan cuando se trabaja sobre colecciones de datos en las cuáles hay muchas variables implicadas. Los principales problemas, en este contexto, son: (i) [Análisis en Componentes Principales] Muchas de las variables que se recogen entre los individuos de la población están correlacionadas, con lo cuál la información es redundante. Interesa, por lo tanto, reducir el número de variables para resumir adecuadamente la información. En este sentido, la técnica consiste en crear artificialmente unas pocas variables nuevas que retengan una parte significativa de la información proporcionada por los datos. El procedimiento para crear dichas variables es matemático y no hay seguridad de que las nuevas variables tengan un sentido claro; sin embargo, en muchos casos esas variables pueden interpretarse, es decir, se les puede dotar de sentido. Por ejemplo, si tomamos como variables las notas de un conjunto de alumnos de Bachillerato en las distintas materias, el análisis en componentes principales puede reducir las variables a unas pocas variables, que quizá puedan identificarse como índices de competencia humanística, científico-técnica, etc. (ii) [Análisis Discriminante] Consideremos una variable Y, categórica, con una cantidad finita de valores (niveles) posibles, y varias variables numéricas X 1,..., X n. Tanto la variable Y como las X i se registran simultáneamente sobre un conjunto de individuos. Por ejemplo, si consideramos un conjunto de pacientes afectados de una cierta enfermedad, las X i podrían ser el número de pulsaciones, el número de glóbulos rojos, niveles de calcio, potasio, etc. y la variable Y podría ser una variable cualitativa que indica si se estima que el paciente puede curar totalmente, parcialmente, o no curar. Se plantean entonces dos cuestiones: (a) Cuáles de entre las variables X i permiten discriminar mejor el valor de Y entre distintas alternativas? (obsérvese que en el fondo estamos intentando detectar influencias ). (b) Dado un nuevo individuo en el cuál se han registrado los valores de las variables X i, predecir el valor más probable de Y para dicho individuo (es decir, clasificar dicho individuo en alguno de los niveles posibles para la variable Y ). (iii) [Análisis Cluster] Dado un conjunto amplio de individuos sobre los cuáles se han registrado los valores de ciertas variables numéricas X 1,..., X n, dividir a dichos individuos en k grupos, también llamados clusters, distintos 1

(el número de grupos lo fija el experimentador) de modo que los elementos de cada grupo posean cierta afinidad. La técnica para determinar los clusters es matemática, es decir, la idea de afinidad se traduce en ciertos procedimientos matemáticos que permiten agrupar observaciones. Al igual que en el caso del análisis en componentes principales, corre después a cargo del experimentador dar sentido a cada uno de los grupos determinados, es decir, encontrar los rasgos, comunes a las observaciones pertenecientes a un cluster dado, que lo definen. Por ejemplo, en el caso de los clientes de una empresa, el análisis cluster puede servir para dividir a dichos clientes en distintos grupos, cada uno con un perfil distinto. A menudo las técnicas anteriores se combinan. Por ejemplo, puede suceder que la predicción de una cierta variable categórica Y mejore cuando se utilizan no ciertas variables X i, sino ciertas combinaciones de las X i determinadas a partir de un análisis en componentes principales. O que el análisis discriminante funcione mejor sobre los elementos de un cierto cluster, en lugar de aplicarse a toda la muestra, etc. Análisis en Componentes Principales El problema es el siguiente: dadas X 1,..., X n variables, recogidas sobre una cierta población, que poseen las siguientes características, a. n es grande b. Entre ellas existen correlaciones (es decir, proporcionan información redundante). c. Tienen significación (es decir, cada X i tiene un sentido claro), determinar nuevas variables Y 1,..., Y m, llamadas componentes principales, cada una de ellas de la forma Y j = a 1,j X 1 + + a n,j X n (el coeficiente a k,i recibe el mombre de peso de la variable X i en Y j ) y con las siguientes características: a. m es menor que n (a menudo, significativamente menor) b. Las Y j son independientes (es decir, entre ellas no hay correlaciones, y por tanto no proporcionan información redundante). c. En principio, se obtienen a partir de un procedimiento matemático, y no hay certeza de que tengan un significado claro. Sin embargo, al observar en las Y j las variables que tienen mayor peso (es decir, aquellas a las que corresponden los mayores a k,j ), algunas Y j pueden interpretarse (observemos que para hacer efectivo este criterio, las Y j deben ser de tamaños similares). 2

En principio, el procedimiento matemático suministra Y 1,..., Y n, es decir, el mismo número de Y j que de X i (lo cuál no supone ningún adelanto). Sin embargo, las Y j aparecen ordenadas según el porcentaje de información original (es decir, procedente de las X i ) que retienen. De este modo, basta con tomar unas cuantas Y j, no todas, para retener un porcentaje de información suficiente. Es en esta etapa del proceso cuando el número de variables se reduce. Dicho porcentaje de información se mide como el porcentaje de varianza original retenida. La idea es que, conocidas las varianzas de las X i (que pueden calcularse a partir de los datos originales) y las expresiones de las Y j (es decir, una vez determinados los pesos de las X i en cada Y j ), las varianzas de las Y j pueden determinarse. Además, la varianza conjunta de varias variables se estima como la suma de las varianzas. Puesto que la varianza conjunta de las X i supone una estimación de la diversidad presente en los datos, para que un número reducido de Y j describa suficientemente bien la población la varianza conjunta de estas Y j debe suponer un porcentaje suficientemente grande (digamos, cerca del 80 por ciento) de la variabilidad original. De hecho, este es el criterio que suele considerarse para escoger las componentes principales más relevantes. Análisis Discriminante Dadas X 1,..., X n variables numéricas, y una variable categórica (o discreta) Y, que recibe el nombre de variable clasificadora o factor de clasificación, y que posee k valores (niveles) posibles, se plantean dos cuestiones: (i) Determinar las X i más influyentes a la hora de discriminar el valor de Y entre distintas opciones. Este problema está relacionado con las llamadas funciones discriminantes. (ii) Predecir el valor de Y más probable para un individuo en el que se han registrado valores concretos de las X i. Esta cuestión puede responderse también mediante las funciones discriminanes, o bien mediante las llamadas funciones de clasificación. Las funciones discriminantes son expresiones del tipo: F 1 = a 1 X 1 + a 2 X 2 + + a n X n F 2 = b 1 X 1 + b 2 X 2 + + b n X n. donde los a i, b j, etc. reciben el nombre de pesos. Cada función discriminante posee un cierto poder discriminante. En general, el procedimiento proporciona varias funciones discriminantes; de ellas, nosotros nos quedaremos con unas cuántas (en ocasiones, bastará con una) de modo que el poder discriminante 3

total sea grande. Cada función discriminante permite discriminar entre distintas opciones, de modo que la utilización sucesiva de todas las funciones permite discriminar efectivamente el valor de Y ; por ejemplo, si Y es un diagnóstico sobre un enfermo del tipo cura totalmente, cura parcialmente o no cura, y tenemos dos funciones discriminantes, puede suceder que la primera permita distinguir entre aquellos pacientes que curan (total o parcialmente) y aquellos que no, mientras que la segunda función permita distinguir los que curan totalmente de los que sólo lo hacen parcialmente. Si por el contrario, en el mismo ejemplo tenemos sólo una función discriminante, de su valor podemos deducir directamente el posible diagnóstico de entre las tres alternativas que se dan. Observemos que, si las variables involucradas en la función tienen tamaños similares, las variables que poseen mayor peso en cada función discriminante son las más influyentes a la hora de discriminar Y entre las alternativas correspondientes a dicha función. Si la variable Y tiene k niveles posibles, hay k funciones de clasificación s 1 = c 1,0 + c 1,1 X 1 + + c 1,n X n. s j = c j,0 + c j,1 X 1 + + c j,n X n de modo que dado un nuevo individuo, que registra valores x 1,..., x n en las respectivas variables X i, el valor más probable de Y para dicho individuo se obtiene sustituyendo los valores x 1,..., x n en las funciones de clasificación, y tomando el nivel correspondiente al subíndice de aquella función que de un valor mayor. En el caso de las funciones de clasificación, los coeficientes de las funciones no son interpretables, y por tanto no pueden utilizarse para responder a la pregunta (i). Análisis Cluster Dado un número suficientemente grande de individuos entre los cuáles hemos registrado los valores de las variables numéricas X 1,..., X n, queremos dividir las observaciones en grupos (clusters) según criterios de homogeneidad. Es decir, cada grupo responderá a un cierto perfil, cuya descripción corre a cargo del experimentador (es decir, el criterio para formar los clusters es matemático, y los resultados son interpretados por el experimentador, si ello es posible). Para formar los grupos o clusters, el procedimiento es el siguiente: (1) Fijamos una cierta distancia. La más habitual es la euclídea al cuadrado, según la cuál la distancia entre dos puntos del plano es el cuadrado de la longitud de la porción de recta que los une; esta noción puede generalizarse al espacio, y a un número mayor de dimensiones. Hay, no obstante, otras 4

nociones posibles de distancia, que también pueden usarse. (2) Fijamos un número (k) de clusters. (3) Buscamos la pareja de datos más próxima, conforme a la distancia fijada en (1). Dicha pareja forma, provisionalmente, un grupo. (4) A partir de este momento, continuamos buscando la pareja más próxima. En este sentido, el grupo formado en (3) cuenta ahora como una sóla entidad, y por tanto se hace necesaria definir la distancia de una observación a un grupo como el anterior, o, en general, la distancia entre dos grupos (por ejemplo, entre dos parejas que han sido encontradas en distintos pasos del procedimiento). Para medir distancias entre grupos hay distintas posibilidades. Entre ellas: método del centroide: Se sustituye el grupo por el punto (centroide) cuyas coordenadas son las medias de las observaciones que integran el grupo. De este modo, la distancia entre dos grupos es la distancia entre sus centroides, medida según (1). método del vecino más próximo: La distancia entre dos grupos es la menor de las distancias (según (1)) entre los integrantes de cada grupo. método de Ward: tiene en cuenta la variabilidad total de cada grupo, de modo que la distancia entre dos grupos se define como el aumento que se produciría en la variabilidad conjunta si ambos grupos se fundieran para formar uno sólo. Este método requiere que la distancia fijada en (1) sea la euclídea al cuadrado. etc. (5) Reiteramos el paso (4) hasta obtener k clusters. Conviene observar que el experimentador tiene que decidir tanto el número de clusters, como la distancia entre observaciones y la distancia entre grupos. Distintas elecciones para estos parámetros llevan a resultados distintos, con lo cuál en cada caso habrá que ver qué elecciones arrojan resultados más significativos. 5