STATGRAPHICS Rev. 9/14/006 Correlaciones Canónicas Resumen El procedimiento Correlaciones Canónicas esta diseñado para ayudar a identificar asociaciones entre dos conjuntos de variables. Esto lo hace encontrando combinaciones lineales de las variables en los dos conjuntos que exhiban correlaciones fuertes. El par de combinaciones lineales con la correlación más fuerte forman el primer conjunto de variables canónicas. El segundo conjunto de variables canónicas es el par de combinaciones lineales que muestran la siguiente correlación más fuerte entre todas las combinaciones que no están correlacionadas con el primer conjunto. Frecuentemente, un número pequeño de pares puede ser usado para cuantificar la relación que existe entre los dos conjuntos. Ejemplo StatFolio: canonical.sgp Datos del Ejemplo: El archivo 93cars.sf6 contiene información acerca de 6 variables para n = 93 marcas y modelos de automóviles, tomadas de Lock (1993). La siguiente tabla muestra una lista parcial de los datos de este archivo: Make (Marca) Model (Modelo) Mid Price (Precio) MPG City (MPG en Ciudad) Engine Size (Tamaño del Motor) Horsepower (Caballos de fuerza) Acura Integra 15.9 5 1.8 140 177 Acura Legend 33.9 18 3. 00 195 Audi 90 9.1 0.8 17 180 Audi 100 37.7 19.8 17 193 BMW 535i 30 3.5 08 186 Buick Century 15.7. 110 189 Buick LeSabre 0.8 19 3.8 170 00 Buick Roadmaster 3.7 16 5.7 180 16 Buick Riviera 6.3 19 3.8 170 198 Cadillac DeVille 34.7 16 4.9 00 06 Cadillac Seville 40.1 16 4.6 95 04 Chevrolet Cavalier 13.4 5. 110 18 Length (Longitud) Las variables serán divididas en dos conjuntos. El primer conjunto de p = 7 variables que caracterizan las características físicas de los vehículos: Engine Size Horsepower Length Wheelbase Width Rear seat Weight El segundo conjunto de q = 4 variables que caracterizan el precio y el funcionamiento de los automóviles: 006 por StatPoint, Inc. Correlaciones Canónicas - 1
Mid Price 1 / MPG Highway 1 / MPG City U Turn Space STATGRAPHICS Rev. 9/14/006 Note que las millas observadas por galón han sido reexpresadas como galones por milla, de aquí que las 4 variables se espera que se incrementen con el tamaño del automóvil. Un gráfico de matriz de las 11 variables muestra correlaciones positivas consistentes entre todas las variables: Engine Size Horsepower Length Wheelbase Width Rear seat Weight Mid Price 1/MPG City 1/MPG Highway U Turn Space 006 por StatPoint, Inc. Correlaciones Canónicas -
STATGRAPHICS Rev. 9/14/006 Entrada de Datos La caja de dialogo de entrada requiere los nombres de las columnas que contiene los datos en los dos conjuntos Primer Conjunto de Variables: Los nombres de las p variables en el conjunto mas grande. Segundo Conjunto de Variables: Los nombres de las q variables en el conjunto más pequeño. Etiquetas de Puntos: Etiquetas opcionales para cada observación. Selección: Selección de un subconjunto de los datos. Note que los conjuntos deben ser seleccionados tal que p q. 006 por StatPoint, Inc. Correlaciones Canónicas - 3
STATGRAPHICS Rev. 9/14/006 Modelo Estadístico El objetivo de la correlación canónica es construir combinaciones lineales de las variables en los dos conjuntos tal que tengan las correlaciones más grandes. El primer conjunto de variables canónicas toma la forma U1 a11 X 1 + a1 X +... + a1 p X p = (1) V 1 1 = b11y1 + b1y +... + b q Y q () donde X y Y representan los valores estandarizados de las variables en el primer y segundo conjunto respectivamente. La correlación entre el primer conjunto de combinaciones lineales es * llamada la primera correlación canónica y será denotada por. Adicionales q 1 variables canónicas pueden ser construidas de manera similar. Las q correlaciones canónicas son encontradas determinando los eigenvalores de ρ 1 ρ ρ ρ ρ ρ (3) 1/ 11 1 1 1 1/ 11 donde las ρ s representan las matrices de correlación entre variables en cada conjunto y entre conjuntos. Los coeficientes de las variables canónicas pueden ser derivados de los eigenvectores. 006 por StatPoint, Inc. Correlaciones Canónicas - 4
STATGRAPHICS Rev. 9/14/006 Resumen del Análisis La tabla del Resumen del Análisis es mostrada enseguida: Correlaciones Canónicas Variables en el conjunto 1: Engine Size (liters) Horsepower (maximum) Length (inches) Wheelbase (inches) Width (inches) Rear seat (inches) Weight (pounds) Variables en el conjunto : Mid Price (average of min and max prices in $1,000) 1/MPG Highway 1/MPG City U Turn Space (feet) Número de casos completos: 91 Correlacions Canónicas Correlación Lambda de Número Eigenvalor Canónica Wilks Chi-Cuadrada G.L. Valor-P 1 0.89575 0.94619 0.07538 301.76 8 0.0000 0.495819 0.704144 0.6906 11. 18 0.0000 3 0.46885 0.680356 0.51453 54.6955 10 0.0000 4 0.091608 0.170765 0.970839.48593 4 0.647 Coeficientes de Variables Canónicas del Primer Conjunto Engine Size 0.6176 0.698443-0.073705.04984 Horsepower 0.17466 0.404309 1.3884-0.784463 Length 0.041777 1.0691 0.79635-0.054533 Wheelbase 0.0411746 0.344853 0.71068-1.45037 Width -0.0676957 0.9913-1.51189-1.08908 Rear seat 0.0045793-0.099359-0.0789944-0.6157 Weight 0.657779 -.4508-0.470777 1.19131 Coeficientes de Variables Canónicas del Segundo Conjunto Mid Price 0.56618 0.15463 1.1063-0.401701 1/MPG Highway -0.097157 -.0547 0.17565-1.51504 1/MPG City 0.6506 1.4486-0.796365.80861 U Turn Space 0.319 0.45498-0.340661-1.33714 Desplegada en la parte superior de la tabla están: Variables de Datos: Los nombres de las p+q columnas de entrada. Numero de casos completos: El numero de casos n para los cuales ninguna de las observaciones esta perdida. La sección de la salida etiquetada con Correlaciones Canónicas tabula: Numero: El índice de la correlación canónica j. Eigenvalor: Los eigenvalores de 1/ 1 ρ ρ ρ ρ ρ 1/. 11 1 1 11 006 por StatPoint, Inc. Correlaciones Canónicas - 5
* Correlación Canónica: Las correlaciones canónicas ρ j. STATGRAPHICS Rev. 9/14/006 Lambda de Wilk: Un estadístico calculado de las correlaciones canónicas de acuerdo a Λ j = q ( i= j ) * 1 ρ (4) i Chi-Cuadrada: Una prueba estadística usada para probar la hipótesis de que todas las correlaciones canónicas de j y mas grandes son igual a 0. es calculada de Χ = n 1 1 ( p + q + 1) ln Λ j (5) G.L.: Los grados de libertad (p-j+1)(q-j+1) asociados con el estadístico Chi-cuadrada. P-Valor: Un P-Valor de una cola para el estadístico Chi-cuadrada observada. P-valores pequeños (menos de 0.05 si se opera en un nivel de 95% de confianza) corresponden a correlaciones canónicas que son significativamente diferentes de cero. Las ultimas dos tablas muestran los coeficientes a y b en la construcción de las variables canónicas U y V. En el ejemplo, las primeras 3 correlaciones canónicas son estadísticamente significantes. La primera correlación, con una magnitud de 0.94, es particularmente fuerte. Las correlaciones canónicas asociadas son U 1 = 0.6 Engine Size + 0.17 Horsepower + 0.04 Length + 0.041 Wheelbase - 0.068 Width + 0.004 Rear Seat + 0.658 Weight V 1 = 0.57 Mid Price 0.097 * GPM Highway + 0.65 GPM City + 0.3 U Turn Space donde las variables de entiende que han sido estandarizadas sustrayendo su media y dividiendo entre la desviación estándar. Esto parece ser primariamente una relación entre pesos de vehículos y galones por milla (GPM) usados en cuidad, con algunas contribuciones del tamaño de la maquina, precio, y espacio requerido para hacer una vuelta U. La segunda correlación canónica es tan bien fuerte 0.70. La variable canónica para X es un contraste de Engine Size, Horsepower y Length contra el Weight del vehiculo. Este contraste es correlacionado con algún parecido a la diferencia entre millas por galón observadas en la ciudad versus carretera. La tercera correlación canónica es igual a 0.68. La variable canónica para X es un contraste de Horsepower y Wheelbase contra el Width del vehiculo. Esto es correlacionado con algún parecido a un contraste de Price del vehiculo versus GPM ciudad y U Turn Space. 006 por StatPoint, Inc. Correlaciones Canónicas - 6
STATGRAPHICS Rev. 9/14/006 Tabla de Datos El panel de la Tabla de Datos despliega los valores de las variables canónicas para cada una de n observaciones. Una porción de la tabla es mostrada enseguida: Tabla de Variables Canónicas Conjunto-Variable Conjunto-Variable Conjunto-Variable Conjunto-Variable Fila Etiqueta 1-1 -1 1- - 1 Integra -0.633815-0.6897 0.5376-0.191381 Legend 0.89817 0.89715 0.341564-0.30696 3 90 0.479834 0.46904-1.4149-0.794373 4 100 0.50937 0.659087-0.51631-0.67 5 535i 1.06715 0.45875-0.73874 0.73446 6 Century -0.39054 0.0756147 0.65743 1.1806 7 El orden de las columnas es U 1, V 1, U, V,, U q, V q. Gráfico de Variables Canónicas El Gráfico de Variables Canónicas despliega n valores de un conjunto seleccionado de variables canónicas.7 Gráfica de Variables Canónicas #1 1.7 Conjunto 0.7-0.3-1.3 -.3 -. -1. -0. 0.8 1.8.8 Conjunto 1 U es graficado en el eje horizontal, mientras que V es graficado en el eje vertical. Note las muy fuertes correlaciones para las primeras variables canónicas. Opciones del Panel 006 por StatPoint, Inc. Correlaciones Canónicas - 7
STATGRAPHICS Rev. 9/14/006 Numero de Variable: Especifica 1 para graficar el primer conjunto de variables canónicas, para graficar el segundo conjunto, hasta q para el ultimo conjunto. Una variación interesante de este grafico es en la cual las variables canónicas son codificadas de acuerdo a otra columna, tal como el tipo de vehiculo: Gráfico de CVARB_1 vs CVARA_1 CVARB_1.7 1.7 0.7-0.3 Type Compact Large Midsize Small Sporty Van -1.3 -.3 -. -1. -0. 0.8 1.8.8 CVARA_1 Para producir la grafica anterior: 1. Presionar el botón Guardar Resultados y guardar las Variables Canónicas en nuevas columnas de hoja de datos.. Seleccione el procedimiento Grafico X-Y de la parte superior del menú e introduzca las primeras variables canónicas para cada conjunto. 3. Seleccione Opciones del Análisis y especifique Tipo en le campo Códigos de Puntos. Note el agrupamiento de automóviles por tipo Guardar Resultados Los siguientes resultados pueden ser guardados en una hoja de datos: 1. Coeficientes Primer Conjunto q columnas que contienen los p coeficientes a de las variables canónicas correspondientes a X.. Coeficientes Segundo Conjunto q columnas que contienen los q coeficientes b de las variables canónicas correspondientes a Y. 3. Variables Canónicas - Primer Conjunto q columnas que contienen los valores de las variables canónicas U correspondientes a cada una de n observaciones en X. 4. Variables Canónicas Segundo Conjunto q columnas que contienen los valores de las variables canónicas U correspondientes a cada una de las n observaciones en Y. 006 por StatPoint, Inc. Correlaciones Canónicas - 8