4 Descripción conjunta de varias variables. Análisis Exploratorio de Datos Tema Ordenación de los datos

Documentos relacionados
4 Descripción conjunta de varias variables.

4 Descripción conjunta de varias variables. Ejemplos y ejercicios.

Estadística I Tema 3: Análisis de datos bivariantes

Tema 3: Análisis de datos bivariantes

Distribución bidimensional. Marginales. Correlación lineal. Rectas de regresión.

Técnicas de Inferencia Estadística II. Tema 6. Contrastes de independencia

Análisis descriptivo con SPSS. Favio Murillo García

Distribuciones bidimensionales. Correlación.

TEMA 14 ESTADÍSTICA. Cuantitativa: si puede medirse y expresarse con números (es una variable), por ejemplo la talla de calzado.

Estadística I Tema 3: Análisis de datos bivariantes

Estadística I Ejercicios Tema 3 Curso 2016/17

ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL. 30/09/2004 Proyecto MaMaEuSch 1

Tema 2: Análisis de datos bivariantes

Estadística I Tema 3: Análisis de datos bivariantes

1, 2, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 2, 1, 1, 4, 1

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

Tema 2: Análisis de datos bivariantes

Tema 9: Estadística en dos variables (bidimensional)

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 4)

Tema 10: Introducción a los problemas de Asociación y Correlación

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

Tema: Medidas de Asociación con SPSS

U ED Tudela Introducción al Análisis de Datos - Tema 4

DISTRIBUCIONES BIDIMENSIONALES

1 Resolución de algunos ejemplos y ejercicios del tema 1.

TABLAS DE CONTINGENCIA

Representaciones gráficas de las distribuciones bidimensionales de frecuencias... 74

TEMA 9 EL ANÁLISIS BÁSICO DE LA INFORMACIÓN EN LA INVESTIGACION DE MERCADOS

X Y

D I S T R I B U C I O N E S B I D I M E N S I O N A L E S

Descripción conjunta de dos variables

Tema 5. Estadística descriptiva bivariable con variables categóricas y numéricas

TEMA 2: DISTRIBUCIONES BIDIMENSIONALES

Estadística I Tema 2: Análisis de datos univariantes

UNIDAD DIDÁCTICA III ESTADÍSTICA BIDIMENSIONAL Y REGRESIÓN LINEAL SIMPLE

Cuaderno de actividades 1º

Estadística Estadística descriptiva bivariante

Part I. Descripción estadística de dos variables. Estadística I. Mario Francisco. Variable. bidimensional. Distribuciones de frecuencias

MÉTODOS DE INVESTIGACIÓN EN EDUCACIÓN. Tema 8

Apuntes de Estadística

El análisis de correspondencias. Ana María López Jiménez Dept. Psicología Experimental (USE)

UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ECONÓMICAS

TEMA 5 Estadística descriptiva. Análisis de datos

Variables estadísticas bidimensionales

Qué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y)

Técnicas Cuantitativas para el Management y los Negocios

Lucila Finkel Temario

Julio Deride Silva. 18 de agosto de 2010

Tema 9: Estadística descriptiva

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Estadística ESTADÍSTICA

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

Análisis de datos cualitativos

Estadística para el análisis de los Mercados S3_A1.1_LECV1. Estadística Descriptiva Bivariada

Tema 2: Estadística Bivariante Unidad 1: Correlación y Regresión

Contrastes basados en el estadístico Ji Cuadrado

ESTADÍSTICA BIDIMENSIONAL

Soluciones al examen de Estadística Aplicada a las Ciencias Sociales Junio 2008 Primera semana

Estadística Descriptiva y Probabilidad FORMULARIO

Tema 9: Relación entre variables categóricas

DISTRIBUCIONES BIDIMENSIONALES

SELECCIÓN Y SECUENCIACIÓN DE CONTENIDOS PARA MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I. BLOQUE 1 : ARITMÉTICA Y ÁLGEBRA

Análisis de Correspondencias Simple

Técnicas de Investigación Social

Tema 8: Distribuciones Unidimensionales y Distribuciones Bidimensionales. Consideraciones iniciales:

Estadística aplicada a la comunicación

Una primera mediada podría ser la diferencia de porcentajes Para Sánchez Carrión, J. (1995) es la mejor de todos ellas.

El ejemplo: Una encuesta de opinión

Estadística I Tema 2: Análisis de datos univariantes Descripción numérica de datos

ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL. 30/09/2004 Proyecto MaMaEuSch 1

2.- Tablas de frecuencias

REPASO DE ESTADÍSTICA DESCRIPTIVA

Sumario Prólogo Unidad didáctica 1. Introducción a la estadística. Conceptos preliminares Objetivos de la Unidad...

Estadística de dos variables

Distribuciones Bidimensionales.

Curso: 2º Créditos ECTS: 6 Tipo de asignatura: Básica Tipo de formación: Teórico-Práctica

Tablas estadísticas bidimensionales. Regresión y correlación lineal. Coe ciente de correlación. Signi cado y aplicaciones

1 de 12 15/07/ :49

y = 2, entonces: a) x es más dispersa que y. b) son igual de dispersas. 9.- Sean dos variables estadísticas x e y con los siguientes valores x = 5, σ

ANEXO VI. DETALLE ESTADÍSTICO

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

2. ESTADÍSTICAS BIDIMENSIONALES

M Dolores Redondas Curso

TEMA 4: DISTRIBUCIONES BIDIMENSIONALES

Estadística Descriptiva

TEMA 8 REGRESIÓN Y CORRELACIÓN

4. Obtén las siguientes tablas de doble entrada para las variables Dispersión y Formación:

ÍNDICE INTRODUCCIÓN... 21

Estadística Descriptiva. Poblaciones y muestras.

Estadística. Análisis de datos.

TEMA 1: ESTADISTICA DESCRIPTIVA

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

Matemáticas Aplicadas I: Ev2 Recuperación febrero 2018

Estadística Descriptiva II: Relación entre variables

ESTADÍSTICA APLICADA A LA EDUCACIÓN (Tema 7) Asignatura de Formación Básica (FB) de 1º curso, común a los Grado en Educación Social y en Pedagogía

ESTADÍSTICA. A su vez, las variables pueden ser :

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES

Estadística Descriptiva en R: Parámetros y estadísticos. José Enrique Martín García Universidad Politécnica de Gimialcón (Copyright 2016)

a. Poisson: los totales marginales y el total muestral varían libremente.

Transcripción:

Grado en Estadística y Empresa 1 Grado en Estadística y Empresa 2 4 Descripción conjunta de varias variables Análisis Exploratorio de Datos Tema 4 Aurea Grané Dpto Estadística Universidad Carlos III de Madrid Cuando en un mismo individuo se observan dos carácteres, el conjunto de las diferentes observaciones posibles, en forma de valores apareados, recibe el nombre de variable bidimensional o bivariante Denotaremos cada una de las variables observadas por X, Y yla variable bivariante por (X, Y ) En una muestra de tamaño n de la variable bivariante (X, Y ), supondremos que se han observado k valores diferentes de X y r valores diferentes de Y, de manera que la variable (X, Y ) puede tomar k r pares de valores diferentes (x i,y j ), i =1,,k, j =1,,r Grado en Estadística y Empresa 3 Grado en Estadística y Empresa 4 41 Ordenación de los datos Sean (x i,y j )losk r pares diferentes de valores que puede tomar la variable (X, Y ) sobre los n individuos de la muestra La frecuencia absoluta n ij es el número de veces que se ha observado el par (x i,y j )enlosn individuos de la muestra La frecuencia relativa es el cociente f ij = n ij /n Se denomina distribución conjunta de (X, Y ) al conjunto formado por los valores observados en forma de pares (x i,y j ), i =1,,k, j =1,,r en los n individuos de la muestra, y las frecuencias absolutas correspondientes a cada uno de estos pares Tabla de doble entrada y tabla de contingencias: Silas variables X e Y son cuantitativas, la tabla se denomina tabla de doble entrada y si son cualitativas, se denomina tabla de contingencias Y X y 1 y 2 y j y r n X x 1 n 11 n 12 n 1j n 1r n 1 x 2 n 21 n 22 n 2j n 2r n 2 x i n i1 n i2 n ij n ir n i x k n k1 n k2 n kj n kr n k n Y n 1 n 2 n j n r n

Grado en Estadística y Empresa 5 Grado en Estadística y Empresa 6 Frecuencias marginales: La frecuencia absoluta marginal del valor x i de la variable X es n i = n i1 + n i2 + + n ir = ylafrecuencia absoluta marginal del valor y j de la variable Y es n j = n 1j + n 2j + + n kj = La frecuencia relativa marginal del valor x i es f i = n i /n ylafrecuencia relativa marginal del valor y j es f j = n j /n r l=1 k l=1 n il n lj Frecuencias acumuladas marginales: Ordenando los valores de las variables X e Y en orden creciente, se define: La frecuencia absoluta marginal acumulada del valor x i es N i = n 1 + n 2 + + n i = ylafrecuencia absoluta marginal acumulada del valor y j es N j = n 1 + n 2 + + n j = Análogamente, las frecuencias relativas marginales acumuladas son F i = N i /n para el valor x i,yf j = N j /n para el valor y j i l=1 j l=1 n l n l Grado en Estadística y Empresa 7 Propiedades de las frecuencias: 1 0 n ij n, 0 f ij 1, i =1,,k, j =1,,r 2 k i=1 n i = n, r j=1 n j = n 3 k i=1 f i =1, r j=1 f j =1 4 N 1 = n 1, N i = N i 1 + n i, i =2,,k N 1 = n 1, N j = N j 1 + n j, j =2,,r 5 F 1 = f 1, F i = F i 1 + f i, i =2,,k F 1 = f 1, F j = F j 1 + f j, j =2,,r 6 N k = N r = n, F k = F r =1 Grado en Estadística y Empresa 8 Distribuciones marginales: Distribución marginal de X es el conjunto formado por los diferentes valores que ha tomado X junto con sus frecuencias absolutas marginales Distribución marginal de Y es el conjunto formado por los diferentes valores que ha tomado Y junto con sus frecuencias absolutas marginales X n X Y n Y x 1 n 1 y 1 n 1 x 2 n 2 y 2 n 2 x k n k y r n r n n Observación 1 Las distribuciones marginales son distribuciones univariantes

Grado en Estadística y Empresa 9 Grado en Estadística y Empresa 10 Ejemplo 1 La siguiente tabla contiene información sobre los fondos activos (en billones de dólares) de 220 empresas de Estados Unidos agrupadas según el sector al que pertenecen: Sector Fondos activos Energía Finanzas Tecnología [0, 5) 60 40 20 [5, 15) 25 30 10 [15, 50] 5 20 10 Cuáles son las variables de estudio? De qué tipo son? Qué valores toman? Cuáles son sus distribuciones marginales? Ejemplo 2 La tabla siguiente contiene los resultados sobre una encuesta realizada a 400 personas: Tiene usted lector de libros digitales? Sí No Edad (años) Hombres Mujeres Hombres Mujeres Total [15, 25) 15 13 17 15 60 [25, 35) 42 34 13 10 99 [35, 55) 41 37 23 24 125 [55, 75] 18 24 36 38 116 Cuántas variables hay en este estudio? De qué tipo son? Cuáles son sus distribuciones marginales? Grado en Estadística y Empresa 11 Grado en Estadística y Empresa 12 Distribuciones condicionadas: Dada la distribución conjunta de (X, Y ), se denomina distribución condicionada a la distribución de frecuencias absolutas de una de las variables suponiendo conocido y fijado el valor que toma la otra variable La distribución de X condicionada a que Y tome el valor y j es X Y =yj x 1 x 2 x i x k n ij n 1j n 2j n ij n kj n j y la distribución de Y condicionada a que X tome el valor x i es Y X=xi y 1 y 2 y j y r n ij n i1 n i2 n ij n ir n i Observación 2 Las definiciones anteriores son casos muy sencillos de distribución condicionada Pero puede condicionarse también al hecho que la variable tome varios valores aislados o bien a que tome valores dentro de un intervalo Por ejemplo, X Y yj, Y X xi En el ejemplo siguiente: Sector Fondos activos Energía Finanzas Tecnología [0, 5) 60 40 20 [5, 15) 25 30 10 [15, 50] 5 20 10 las preguntas es cierto que los fondos activos del sector financiero son superiores en media a los del sector tecnológico? qué porcentaje de las empresas que no son del sector energértico tienen unos fondos activos superiores a los 10 billones de dólares? se resuelven a partir de ciertas distribuciones condiconadas

Grado en Estadística y Empresa 13 Grado en Estadística y Empresa 14 43 Características numéricas marginales 42 Representaciones gráficas Diagrama de dispersión Se utiliza cuando las dos variables son continuas Es una representación sobre el plano R 2 de los diferentes puntos observados (x i,y j ) En el eje horitzontal se representa la variable X y en el eje vertical la variable Y Diagrama de barras en tres dimensiones Es una representación en R 3 de las frecuencias absolutas (o relativas) de los pares (x i,y j ), cuando ninguna de las variables está agrupada en intervalos de clase Se suele utilizar para variables discretas con pocos valores diferentes Medias marginales: x = 1 n Varianzas marginales: s 2 X = 1 n s 2 Y = 1 n k x i n i, i=1 y = 1 n r y j n j j=1 k (x i x) 2 n i = x 2 x 2, i=1 r (y j y) 2 n j = y 2 y 2, j=1 Observación 3 Para las distribuciones marginales y condicionadas (univariantes) pueden calcularse todas las medidas numéricas estudiadas en el Tema 2 Grado en Estadística y Empresa 15 Grado en Estadística y Empresa 16 Ejercicio 41 La siguiente tabla muestra la distribución conjunta de frecuencias relativas de la variable X, que representa el número de tarjetas de crédito que posee una persona, y la variable Y, que refleja el número de compras semanales pagadas con tarjeta de crédito Y = Num compras por semana X = Num tarjetas 0 1 2 3 4 1 008 013 009 006 003 2 003 008 008 009 007 3 001 003 006 008 008 a) Si se sabe que en el estudio han participado 300 personas, hallar la distribución conjunta de frecuencias absolutas a) Puesto que la tabla anterior contiene las frecuencias relativas, f ij = n ij, para i =1,,3, j =1,,5, n la distribución conjunta de frecuencias absolutas se obtendrá multiplicando cada f ij por n = 300 Y = Num compras por semana X = Num tarjetas 0 1 2 3 4 1 24 39 27 18 9 2 9 24 24 27 21 3 3 9 18 24 24 300

Grado en Estadística y Empresa 17 Grado en Estadística y Empresa 18 b) y c) La distribución marginal de Y se obtiene sumando, para cada valor de la variable Y, las filas de la tabla, mientras que la distribución marginal de X se obtiene sumando, para cada valor de la variable X, las columnas de la tabla b) Hallar la distribución marginal de Y Cuál es el número medio y la desviación típica del número de compras semanales pagadas con tarjeta de crédito? c) Obtener la distribución del número de tarjetas de crédito que poseen las personas de dicho estudio Cuál es el número más frecuente de tarjetas de crédito que posee una de estas personas? Y = Num compras por semana X = Num tarjetas 0 1 2 3 4 n i 1 24 39 27 18 9 117 2 9 24 24 27 21 105 3 3 9 18 24 24 78 n j 36 72 69 69 54 300 Cuál es el número más frecuente de tarjetas de crédito que posee una de estas personas? Grado en Estadística y Empresa 19 Grado en Estadística y Empresa 20 El número más frecuente de tarjetas de crédito se obtiene con la moda de X, queesmo(x) = 1 La media y desviación de Y se calculan a partir de la distribución marginal de Y : Y = Num compras por semana X = Num tarjetas 0 1 2 3 4 n i 1 24 39 27 18 9 117 2 9 24 24 27 21 105 3 3 9 18 24 24 78 n j 36 72 69 69 54 300 n j y j 0 72 138 207 216 633 n j yj 2 0 72 276 621 864 1833 d) Calcular la distribución del número de compras semanales pagadas con tarjetas de crédito que realizan las personas que poseen tres tarjetas Cuál es la media de esta distribución? Cuánto valen su moda y su mediana? Interpretar estas medidas y = 633 300 =211, sn(y )2 = 1833 300 (211)2 =166, s n(y )= 166 = 129

Grado en Estadística y Empresa 21 Grado en Estadística y Empresa 22 d) La distribución de Y condicionada a X = 3, es decir, Y X=3,se obtiene mediante la tercera fila de la tabla del apartado (a): Y X=3 n 3j N 3j y j n 3j 0 3 3 0 1 9 12 9 2 18 30 36 3 24 54 72 4 24 78 96 total 78 213 La media es y X=3 = 213/78 = 273 y representa el número medio de compras por semana que hacen las personas que tienen 3 tarjetas La mediana es Me(Y X=3 ) = 3, indicando que el 50% de las personas que tienen 3 tarjetas hacen como máximo 3 compras por semana Cuánto vale la moda? Pregunta: En media, qué grupo de personas realiza más compras por semana, las que solamente tienen una tarjeta de crédito, las que tienen dos o las que tienen tres tarjetas de crédito? Para contestar a esta pregunta hay que calcular la media de las tres distribuciones condicionadas siguientes: Y X=1, Y X=2, Y X=3 : y X=1 = 183 117 =156, y X=2 = 237 105 =226, y X=3 = 213 78 =273 Portanto,enmedia,elgrupoquemás compras semanales realiza es el de las personas con tres tarjetas de crédito Grado en Estadística y Empresa 23 Grado en Estadística y Empresa 24 44 Características numéricas conjuntas para tablas de doble entrada Pregunta: Existe alguna relación entre el número de compras que una persona realiza por semana y el número de tarjetas de crédito que posee? Para poder responder a esta pregunta necesitamos poder medir la variación conjunta de ambas variables Esto no se consigue con ninguna de las medidas marginales vistas hasta ahora Dos de las medidas más utilizadas para datos bivariantes que cuantifican el grado de dependencia lineal entre dos variables son la covarianza y el coeficiente de correlación lineal de Pearson Covarianza: Es una medida de variación conjunta de dos variables Se define como: s XY = 1 k r (x i x)(y j y) n ij = xy x y, n donde i=1 j=1 xy = 1 n Observación 4 s XX = s 2 X k i=1 j=1 r x i y j n ij

Grado en Estadística y Empresa 25 Grado en Estadística y Empresa 26 Interpretación geométrica de la covarianza Consideremos la nube de puntos formada por los n pares de datos (x i,y i ), cuyo centro de gravedad es (x, y), de manera que la nube de puntos queda dividida en cuatro cuadrantes Figure 1: Interpretación geométrica de la covarianza Relación lineal entre variables Qué valores puede tomar la covarianza? s XY = 1 n k r (x i x)(y j y) n ij i=1 j=1 Cuando será positiva? Cuando negativa? Puede ser igual a cero? (x, y) (x, y) Los puntos que se encuentran en el primer y tercer cuadrante contribuyen positivamente a s XY, y los que se encuentran en el segundo y cuarto cuadrante lo hacen negativamente (a) s XY > 0 (b) s XY < 0 (a) Y tiende a aumentar cuando lo hace X (relación lineal directa), (b) Y tiende a disminuir cuando X aumenta (relación lineal inversa) Grado en Estadística y Empresa 27 Grado en Estadística y Empresa 28 Si los puntos se reparten con igual intensidad alrededor del centro de gravedad, entonces se tendrá ques XY = 0, lo que indicará queno hay relación lineal entre las variables Esto no significa que no pueda existir otro tipo relación entre las variables Figure 2: Interpretación geométrica de la covarianza lineal entre variables Relación no Para responder a la pregunta (del Ejercicio 41) Pregunta: Existe alguna relación entre el número de compras que una persona realiza por semana y el número de tarjetas de crédito que posee? (x, y) (x, y) Debemos calcular la covarianza entre X= número de tarjetas de crédito que posee una persona e Y= número de compras semanales pagadas con tarjeta de creédito s XY =0 s XY =0

Grado en Estadística y Empresa 29 Grado en Estadística y Empresa 30 Covarianza entre X e Y : Y X 0 1 2 3 4 n i n i x i n i x 2 i x i ( 5 j=1 nij yj ) 1 24 39 27 18 9 117 117 117 183 2 9 24 24 27 21 105 210 420 474 3 3 9 18 24 24 78 234 702 639 n j 36 72 69 69 54 300 561 1239 1296 n j y j 0 72 138 207 216 633 n j yj 2 0 72 276 621 864 1833 x = 561 300 =187, s2 x = 1239 300 (187)2 =063, y =211, s 2 y =166, s xy = xy x y = 1296 (187) (211) = 037 300 Qué significa que s xy =037? Inconvenientes de la covarianza: No está acotada ni superior ni inferiormente ( <s XY < + ), Depende de las unidades de medida de las variables Proposición 41 Si (x 1,y 1 ),,(x n,y n ) es una muestra de tamaño n de la variable bidimensional (X, Y ), a R, b R, conb 0,y Z = a + by es una transformación lineal de Y, entonces (Demostración) s X,Z = bs XY Esta proposición dice que la covarianza, al igual que ocurría con la varianza, es invariante frente a traslaciones, pero no frente a cambios de escala que afecten a las variables Grado en Estadística y Empresa 31 Grado en Estadística y Empresa 32 El coeficiente de correlación lineal de Pearson Es una medida adimensional de la variación conjunta de dos variables Se define como: r XY = s XY, 1 r XY 1 s X s Y El signo de r XY coincide con el signo de s XY e indica el tipo de dependencia entre X e Y Interpretación: Si r XY > 0 dependencia directa Si r XY < 0 dependencia inversa r XY =1 correlación máxima entre X e Y Relación lineal perfecta r XY =0 No existe correlación lineal entre X e Y ysedicequeestán incorreladas X e Y no tienen relación lineal Proposición 42 El coeficiente de correlación entre dos variables no se ve afectado por las traslaciones ni por los cambios de escala Demostración: Consideremos la variable bidimensional (X, Y )yla variable Z = a + by,cona, b R y b>0 Entonces: r XZ = s XZ s X s Z = bs XY bs X s Y = s XY s X s Y = r XY, es decir, los pares (X, Y )e(x, Z) tienen el mismo coeficiente de correlación Observación: r XX =1

Grado en Estadística y Empresa 33 Grado en Estadística y Empresa 34 Pregunta: En el Ejercicio 41, cómo es la relación entre el el número de compras que una persona realiza por semana y el número de tarjetas de crédito que posee? Para responder a esta pregunta, podemos calcular el coeficiente de correlación lineal de Pearson, sabiendo que s xy =037, s 2 x =063 y s 2 y =166 Sustituyendo: r xy = s xy 037 = =036 s x s y 063 166 Qué significa que r xy =036? Ejercicio 42 Responde a las siguientes cuestiones: a) Supongamos que se miden dos variables y que la segunda siempre toma un valor más pequeño que la primera Es verdad que el coeficiente de correlación lineal de Pearson será negativo? Poner un ejemplo b) Supongamos que en las parejas de hermanos gemelos, uno siempre fuese un 2% más bajo que el otro Cuál sería la correlación lineal entre las alturas de los dos hermanos? Justificar la respuesta c) En general, qué se puede deducir si el coeficiente de correlación lineal entre dos variables es exactamente igual a cero? Grado en Estadística y Empresa 35 Grado en Estadística y Empresa 36 Matriz de covarianzas: Dada una variable multidimensional (X 1,X 2,,X p ), las varianzas de cada una de estas variables y las covarianzas entre pares de ellas pueden expresarse en forma matricial, dando lugar a la matriz de covarianzas: s 2 1 s 12 s 1p s 21 s 2 2 s 2p S =, s p1 s p2 s 2 p donde s 2 i = s2 X i para i =1,,p y s ij = s Xi,X j para i j Observación: La matriz de covarianzas es simétrica: s ij = s ji, i, j Matriz de correlaciones: Dada una variable multidimensional (X 1,X 2,,X p ), las correlaciones entre pares de variables pueden expresarse en forma matricial, dando lugar a las matriz de correlaciones: 1 r 12 r 1p r 21 1 r 2p R =, r p1 r p2 1 donde r ij = r Xi,X j para i j Observación: La matriz de correlaciones es simétrica: r ij = r ji, i, j

Grado en Estadística y Empresa 37 Grado en Estadística y Empresa 38 Ejercicio 43 Se han clasificado 100 familias según el número de hijos e hijas, en la siguiente tabla: M H 0 1 2 3 4 0 4 6 9 4 1 1 5 10 7 4 2 2 7 8 5 3 1 3 5 5 3 2 1 4 2 3 2 1 0 a) Hallar las medias, varianzas y desviaciones típicas marginales b) Qué número medio de hijas hay en aquellas familias con 2 hijos? c) Qué número medio de hijos hay en aquellas familias que sin hijas? d) Qué número medio de hijos tienen aquellas familias que a lo sumo tienen 2 hijas? e) Hallar la covarianza Ejercicio 43 (continuación): a) Definimos las variables X = número de hijos e Y = número de hijas, y construimos la tabla de frecuencias marginales: Y X y 1 =0 y 2 =1 y 3 =2 y 4 =3 y 5 =4 n i x 1 =0 4 6 9 4 1 24 x 2 =1 5 10 7 4 2 28 x 3 =2 7 8 5 3 1 24 x 4 =3 5 5 3 2 1 16 x 5 =4 2 3 2 1 0 8 n j 23 32 26 14 5 100 Grado en Estadística y Empresa 39 Ejercicio 43 (continuación): x = 1 n Y X 0 1 2 3 4 n i n i x i n i x 2 i x 1 =0 4 6 9 4 1 24 0 0 x 2 =1 5 10 7 4 2 28 28 28 x 3 =2 7 8 5 3 1 24 48 96 x 4 =3 5 5 3 2 1 16 48 144 x 5 =4 2 3 2 1 0 8 32 128 n j 23 32 26 14 5 100 156 396 n j y j 0 32 52 42 20 146 n j y 2 j 0 32 104 126 80 342 5 i=1 n i x i = 156 100 =156, y = 1 n 5 i=1 n j y j = 146 100 =146, Grado en Estadística y Empresa 40 Ejercicio 43 (continuación): Y X 0 1 2 3 4 n i n i x i n i x 2 i x 1 =0 4 6 9 4 1 24 0 0 x 2 =1 5 10 7 4 2 28 28 28 x 3 =2 7 8 5 3 1 24 48 96 x 4 =3 5 5 3 2 1 16 48 144 x 5 =4 2 3 2 1 0 8 32 128 n j 23 32 26 14 5 100 156 396 n j y j 0 32 52 42 20 146 n j y 2 j 0 32 104 126 80 342 s 2 X = x 2 x 2 = 396 100 (156)2 =153 s X = 153 = 124, s 2 Y = y 2 y 2 = 342 100 (146)2 =129 s Y = 129 = 114

Grado en Estadística y Empresa 41 Grado en Estadística y Empresa 42 Ejercicio 43 (continuación): b) Nos preguntan por y X=2 Distribución de Y condicionada a X = x 3 =2: y X=2 = 1 n 3 Y X=2 n 3 j n 3 j y j y 1 =0 7 0 y 2 =1 8 8 y 3 =2 5 10 y 4 =3 3 9 y 5 =4 1 4 total 24 31 5 j=1 n 3 jy j = 31 24 =129 Ejercicio 43 (continuación): c) Nos preguntan por x Y =0 Distribución de X condicionada a Y = y 1 =0: x Y =0 = 1 n 1 X Y =0 n i 1 n i 1 x i x 1 =0 4 0 x 2 =1 5 5 x 3 =2 7 14 x 4 =3 5 15 x 5 =4 2 8 total 23 42 5 i=1 n i 1x i = 42 23 =183 Grado en Estadística y Empresa 43 Ejercicio 43 (continuación): d) Nos preguntan cuánto vale x Y 2 Distribución de X condicionada a que Y tome los valores y 1 =0,y 2 =1,y 3 =2: X Y 2 n i 1 n i 2 n i 3 3 j=1 nij ( 3 j=1 nij ) x i x 1 =0 4 6 9 19 0 x 2 =1 5 10 7 22 22 x 3 =2 7 8 5 20 40 x 4 =3 5 5 3 13 39 x 5 =4 2 3 2 7 28 total 81 129 x Y 2 = 1 3 j=1 nij 5 3 i=1 j=1 n ij x i = 129 81 =159 Grado en Estadística y Empresa 44 Ejercicio 43 (continuación): e) Covarianza: Y X 0 1 2 3 4 n i n i x i n i x 2 i x 5 i j=1 nij yj x 1 =0 4 6 9 4 1 24 0 0 0 x 2 =1 5 10 7 4 2 28 28 28 44 x 3 =2 7 8 5 3 1 24 48 96 62 x 4 =3 5 5 3 2 1 16 48 144 63 x 5 =4 2 3 2 1 0 8 32 128 40 n j 23 32 26 14 5 100 156 396 209 n j y j 0 32 52 42 20 146 n j y 2 j 0 32 104 126 80 342 s XY = x, y x y = 209 (156)(146) = 0188 100

Grado en Estadística y Empresa 45 Grado en Estadística y Empresa 46 45 El coeficiente de correlación de Spearman Permite determinar si hay concordancia, discordancia o independencia entre los criterios seguidos por dos observadores a la hora de asignar preferencias (o rangos) sobre un conjunto de elementos Se define como: r S =1 6 k i=1 d2 i k (k 2 1), 1 r S 1, donde d i = A i B i representa la diferencia entre el orden de preferencia asignado al i-ésimo elemento por los observadores A y B, k es el número de elementos del conjunto a ordenar Interpretación: Si r S = 1, la concordancia entre los dos criterios será absoluta Si r S = 0, diremos que los criterios seguidos son independientes Si r S = 1, la discordancia entre los dos criterios será absoluta Ejemplo 43 Preguntamos a dos hermanos sus preferencias sobre diferentes deportes La seguiente tabla contiene los órdenes de preferencias dados por cada hermano: deporte A i B i tennis 1 7 fútbol 5 3 baloncesto 6 2 natación 2 6 waterpolo 3 5 voleibol 7 1 golf 4 4 Averiguad si los gustos deportivos de estos dos hemanos son iguales, opuestos o independientes Grado en Estadística y Empresa 47 Grado en Estadística y Empresa 48 Ejemplo 43 (continuación): deporte A i B i d i d 2 i tennis 1 7-6 36 fútbol 5 3 2 4 baloncesto 6 2 4 16 natación 2 6-4 16 waterpolo 3 5-2 4 voleibol 7 1 6 36 golf 4 4 0 0 112 Tenemos k = 7 elementos El coeficiente de correlación de Spearman es: r S =1 6 k i=1 d2 i 6 112 =1 k (k 2 1) 7 48 = 1, por tanto, los gustos deportivos de los dos hermanos son totalmente opuestos, ya que los dos criterios de ordenación son del todo discordantes 46 Medidas de associación para tablas de contingencias Las tablas de contingencias sirven para estudiar la relación entre dos variables cualitativas o variables que han sido previamente categorizadas Estudiar la relación significa estudiar la independencia ylaasociación Para estudiar la independencia entre variables se utiliza el contraste de independencia chi-cuadrado Para estudiar este grado de dependencia dos variables cualitativas se utilizan las medidas de asociación

Grado en Estadística y Empresa 49 Grado en Estadística y Empresa 50 El contraste de independencia χ 2 El contraste de independencia χ 2 es uno de los más usados en aplicaciones estadísticas (sobre todo en ciencias experimentales) Fue introducido por Karl Pearson en 1900 Sirve para decidir si dos criterios de clasificación sobre el mismo conjunto de individuos son independientes o no (es decir, si existe o no relación entre dos variables categóricas que se han medido sobre la misma muestra de individuos) Por ejemplo, nos puede interesar determinar si el ser fumador tiene relación con cierto aumento de la presión arterial, si el consumo habitual de alcohol está relacionado con la pérdida de cierto tipo de reflejos, si el practicar deporte con cierta regularidad disminuye la probabilidad de padecer enfermedades cardiovasculares, etc Si denominamos X e Y a las variables categóricas, y x 1,x 2,,x k e y 1,y 2,,y r, son los diferentes valores que pueden tomar, respectivamente, la clasificación de la muestra según estos valores da lugar a una tabla de contingencias donde las casillas contienen las frecuencias observadas para cada par de valores X \ Y y 1 y 2 y j y r n X x 1 n 11 n 12 n 1j n 1r n 1 x 2 n 21 n 22 n 2j n 2r n 2 x i n i1 n i2 n ij n ir n i x k n k1 n k2 n kj n kr n k n Y n 1 n 2 n j n r n Grado en Estadística y Empresa 51 Grado en Estadística y Empresa 52 La fórmula del estadístico χ 2 es Q = k r i=1 j=1 (n ij e ij ) 2 e ij, donde e ij son las frecuencias que esperaríamos encontrar si los dos criterios de clasificación fueran independientes Esta cantidad es una medida de concordancia (distancia) entre las frecuencias observadas (las n ij ) y las frecuencias esperadas Q tomará valores mayores cuando menos se parezcan las frecuencias observadas a las esperadas Cómo se obtienen las frecuencias esperadas? Se utiliza el siguiente resultado de probabilidades: Si las dos variables son independientes, P (X = x i,y = y j )=P (X = x i ) P (Y = y j ), i, j, Para estimar las probabilidades P (X = x i )yp(y = y j ) se utilizan las frecuencias relativas marginales f i y f j, respectivamente Por tanto, el valor que esperaríamos encontrar en la casilla (i, j) es: e ij = f i f j n = n i n n j n n = n i n j n Sustituyendo en la fórmula del estadístico, se tiene que: Q = k i=1 j=1 r (n ij n i n j /n) 2 n i n j /n

Grado en Estadística y Empresa 53 Grado en Estadística y Empresa 54 El estadístico Q intenta medir cuánto se parecen las frecuencias observadas con las esperadas bajo el supuesto de independencia Fijémonos en el numerador de su fórmula: Q = k i=1 j=1 r (n ij n i n j /n) 2 n i n j /n Cuando Q tome valores grandres será poco creíble que ambas frecuencias se parecen Por el contrario, cuando Q tome valores pequeños esta hipótesis será más creíble Por tanto, hay que calibrar qué esgrande yquéespequeño Bajo la hipótesis de independencia, el estadístico Q tiene una ley χ 2 (k 1)(r 1) Se utiliza como umbral de decisión (o valor crítico) el percentil (1 α)100 de esta ley de probabilidad Figure 3: Función de densidad del estadístico Q en el supuesto de independencia 02 018 016 014 012 01 008 006 004 002 0 0 5 c 1 α 10 15 Criterio de decisión: Si Q>c 1 α la hipótesis de independecia no resultará creíble Grado en Estadística y Empresa 55 Grado en Estadística y Empresa 56 Observación 5 Para que el estadístico Q tenga una ley χ 2 (k 1)(r 1) debe cumplirse que e ij 10, i, j, y que al menos el número de filas o el número de columnas de la tabla de contingencias sea mayor que 2 Si alguna frecuencia esperada es tal que 5 e ij 10 obiensise trata de una tabla 2 2, entonces hay que aplicar al estadístico Q la denominada corrección de Yates: Q = k i=1 j=1 r ( n ij n i n j /n 05) 2, n i n j /n Si alguna frecuencia esperada es inferior a 5 y no pueden agruparse categorías, entonces hay que recorrer a otros métodos que no se verán en este curso introductorio (test exacto de Fisher) Ejemplo de cálculo del estadístico χ 2 Un equipo de médicos quiere estudiar si existe un componente genético en el hecho de padecer o no determinadas enfermedades infecciosas Para llevar a cabo la investigación, seleccionan una muestra de 4368 parejas de gemelos, de los cuales 880 son genéticamente idénticos De éstos, en 151 pares ambos gemelos padecen alguna de las enfermedades, mientras que, de los no idénticos, en 53 casos están ambos enfermos Cuál puede ser la conclusión del estudio? enfermos no enfermos n X gemelos idénticos 151 880 gemelos no idénticos 53 n Y 4368

Grado en Estadística y Empresa 57 Grado en Estadística y Empresa 58 461 Medidas de asociación para variables nominales Tabla de frecuencias esperadas: gemelos idénticos gemelos no idénticos enfermos no enfermos Las más comunes son: a) basadas en el estadístico chi-cuadrado b) basadas en reducción proporcional del error El estadístico Q (con la corrección de Yates) es: Q = El percentil 95% de una χ 2 1 es c 095 = Conclusión: a) Medidas basadas en el estadístico chi-cuadrado El estadístico χ 2 usado para contrastar la independencia entre variables no es una buena medida de asociación porque: su valor depende del tamaño muestral, depende del grado de independencia entre variables, sólo depende de las frecuencias observadas y esperadas Es decir, tablas muy diferentes pueden dar lugar a un mismo valor de Q Grado en Estadística y Empresa 59 Grado en Estadística y Empresa 60 Las mediads basadas en el estadístico χ 2 intentan eliminar la influencia del tamaño muestral efectuando diversas correcciones que pretenden normalizarlo de forma que tome un valor entre 0 y 1 Dos de las más importantes son: El coeficiente de contingencia de Pearson Q/n C = 1+Q/n, 0 C<1 Si C =0 independencia Si C 1 asociación completa Cuando k = r, se puede demostrar que C toma valores menores que 1 1/k La V de Cramer Q/n V = min{k 1,r 1}, 0 V 1 Si V =0 independencia (no existe asociación) Si V = 1 asociación completa Pregunta: Cuánto valen C y V para el ejemplo anterior?

Grado en Estadística y Empresa 61 Grado en Estadística y Empresa 62 b) Medidas de asociación basadas en la reducción proporcional del error Se asume que una de las dos variables que dan lugar a la tabla de contingencias es función de la otra variable Por ejemplo, si Y es función de X, diremosquey es la variable dependiente y que X es la variable independiente Miden cómo de bien se puede predecir el valor de la variable dependiente conocido el valor de la variable independiente Para ello comparan el error cometido en dos situaciones: una donde no se usa la variable independiente para predecir la variable dependiente y otra donde sí El coeficiente λ de Goodman-Kruskal λ = P (error, sin información de X) P (error, con información de X), P (error, sin información de X) 0 λ 1 Si X e Y son independientes λ =0 Peroλ = 0 no implica que X e Y sean independientes Si λ =0 la información sobre X no ayuda en la predicción de Y λ =1 P (error, con información de X) =0 la información sobre X sí ayuda en la predicción de Y Grado en Estadística y Empresa 63 Grado en Estadística y Empresa 64 462 Medidas de asociación para variables ordinales Se basan en la concordancia o discordancia de los pares de valores Por ejemplo: individuo nivel de ingresos estudios 1 bajo primarios 2 medio superiores 3 alto secundarios El par formado por los individuos 1 y 2 es un par concordante, puesto que los valores de las variables nivel de ingresos y estudios siempre son inferiores en el individuo 1 El par formado por los individuos 2 y 3 es una par discordante, porque el nivel de ingresos es inferior para el individuo 2, pero el nivel de estudios del individuo 2 es superior al del individuo 3 Cómo es el par formado por los individuos 1 y 3? Si en la tabla de contingencias la mayoría de pares de valores son concordantes se dice que la asociación es positiva, mientras que si la mayoría de pares de valores son discordantes se dice que la asociación es negativa Si llamamos C al número de pares concordantes y D es el número de pares discordantes, algunas medidas de asociación para este tipo de datos son: La γ de Goodman-Kruskal γ = C D, 1 γ 1 C + D Si γ =0 independencia (no existe asocicación) Si γ =1 asociación completa positiva Si γ = 1 asociación completa negativa

Grado en Estadística y Empresa 65 Grado en Estadística y Empresa 66 La D de Sommer C D D =, 1 D 1, n(n 1)/2 T X donde T X = k n i (n i 1) i=1 2, T Y = r n j(n j 1) j=1 2 La interpretación de esta medida es análogaaladelaγ de Goodman-Kruskal La τ B ylaτ C de Kendall τ B = C D (n(n 1)/2 TX )(n(n 1)/2 T Y ), 1 τ B 1, min{k, r}(c D) τ C = min{k 1,r 1} n 2, 1 τ C 1 La interpretación de estas medidas es análoga a la de la γ de Goodman-Kruskal Ejemplo: Se realiza un estudio de mercado sobre el uso y el grado de satisfacción de cierto detergente Para ello se considera una muestra de 310 individuos que responden a las siguientes preguntas: X: Grado de satisfacción con el detergente (bajo, medio, alto) Y : Uso del detergente (algunas veces, muchas veces, siempre) Uso del detergente Grado de algunas muchas satisfacción veces veces siempre bajo 20 20 10 medio 10 40 50 alto 10 70 80 310 Qué se puede decir de la relación entre ambas variables? Grado en Estadística y Empresa 67 Grado en Estadística y Empresa 68 En primer lugar, mediante el estadístico χ 2 hay que determinar si existe relación entre ambas variables Tabla de frecuencias esperadas: Uso del detergente Grado de algunas muchas satisfacción veces veces siempre bajo 645 2097 2258 medio 1290 4194 4516 alto 2065 6710 7226 Q = 3 i=1 j=1 3 (n ij n i n j /n) 2 = n i n j /n (20 645)2 (80 7226)2 ++ =4321 645 7226 Si el percentil 95% para una χ 2 4 es c 095 =949, cuál es la decisión? Cuántos pares concordantes hay con los 20 individuos que usan el detergente algunas veces y su grado de satisfacción es bajo? Uso del detergente Grado de algunas muchas satisfacción veces veces siempre bajo 20 20 10 medio 10 40 50 alto 10 70 80 310 Y con los 20 individuos que usan el detergente muchas veces ysugrado de satisfacción es bajo? Todos los que usen el detergente más de muchas veces y que su grado de satisfacción sea mayor que bajo Cuántos son? Hay algún par concordante con los 10 individuos que usan siempre el detergente y su grado de satisfacción es bajo? El número de pares concordantes es C = = 12100

Grado en Estadística y Empresa 69 Grado en Estadística y Empresa 70 Cuántos pares disconcordantes hay con los 20 individuos que usan el detergente muchas veces y su grado de satisfacción es bajo? Uso del detergente Grado de algunas muchas satisfacción veces veces siempre bajo 20 20 10 medio 10 40 50 alto 10 70 80 310 Y con los 10 individuos que usan el detergente siempre y su grado de satisfacción es bajo? Todos los que usen el detergente menos que siempre y que su grado de satisfacción sea mayor que bajo Cuántos son? Hay algún par concordante con los 20 individuos que usan algunas veces el detergente y su grado de satisfacción es bajo? El número de pares disconcordantes es D = = 6100 Cuál es el grado de asociación entre las variables uso y grado de satisfacción del detergente? γ de Goodman-Kruskall: γ =(C D)/(C + D) =03297, τ C de Kendall: min{k, r} (C D) 3 (12100 6100) τ C = = =00936, min{k 1,r 1} n2 2 (310 2 ) D de Sommer: D = C D (12100 6100) = n(n 1)/2 T X 310(309)/2 18895 =02069, donde T X = 1 k 2 i=1 ni (ni 1) = 1 (50 49 + 100 99 + 160 159) = 18895 2 El grado de dependencia es moderadamente bajo, puesto que no supera el 33% La asociación es positiva, indicando que cuánto más satisfecho está el cliente más usa el producto Grado en Estadística y Empresa 71 Grado en Estadística y Empresa 72 Ejercicio 45 Para probar la efectividad de una vacuna se realiza el siguiente experimento a un grupo de personas: se vacuna a una parte de ellas y se observa si contraen o no la enfermedad Los datos se recogen en la siguiente tabla: vacunados no vacunados enfermos 13 236 no enfermos 215 450 Estudiar la efectividad de la vacuna Para decidir si la vacuna es efectiva se realiza el contraste de independencia χ 2 entre las variables categóricas nominales X = contraer la enfermedad e Y = estar vacunado Qué representa la hipótesis de independencia? Primero se obtienen las frecuencias marginales: X \ Y vacunados no vacunados n i enfermos 13 236 249 no enfermos 215 450 665 n j 228 686 914 y después la tabla de frecuencias esperadas bajo la hipótesis de independencia: vacunados no vacunados enfermos 228 249/914 = 6211 686 249/914 = 18689 no enfermos 228 665/914 = 16589 686 665/914 = 44911

Grado en Estadística y Empresa 73 Grado en Estadística y Empresa 74 Se calcula el estdístico χ 2, utilizando la corrección de Yates, al tratarse de una tabla 2 2: ( 13 6211 05)2 ( 236 18689 05)2 Q = + 6211 18689 ( 215 16589 05)2 ( 450 44911 05)2 + + 16589 44911 =3804 + 1264 + 1424 + 00003 = 6492 El percentil 95% de una ley χ 2 1 es c 095 =3841 Resulta creíble la hipótesis de independencia? Por qué? Qué seestá afirmando? Para saber el grado de efectividad de la vacuna, se calcula alguna medida de asociación para variables nominales Por ejemplo, el coeficiente de contingencia de Pearson C = Q/n 1+Q/n = 6492/914 1+6492/914 = 00663 = 02575, olavdecramer Q/n 6492/914 V = min{k 1,r 1} = =02665 1 Ambas medidas señalan que el grado de dependencia es bajo (del orden del 26%), indicando que la efectividad de la vacuna no es muy alta Es decir que el estar vacunado influye poco a la hora de contraer la enfermedad Grado en Estadística y Empresa 75 Grado en Estadística y Empresa 76 Ejercicio 46 La tabla siguiente contiene 901 individuos clasificados según las variables categóricas X = sueldo (en dólares USA) e Y = satisfacción con el trabajo Las categorías de la variable Y son: VI = muy insatisfecho, MI = moderadamente insatisfecho, MS = moderadamente satisfecho, VS= muy satisfecho sueldo VI MI MS VS < 6000 20 24 80 82 6000 15000 22 38 104 125 15000 25000 13 28 81 113 > 25000 7 18 54 92 Utilizando los datos de esta tabla calcular las medidas de asociación que se crean oportunas Puesto que X e Y estan medidas en una escala ordinal, calcularemos medidas de asociación para variables ordinales, que están basadas en los pares concordantes y pares discordantes Empezamos calculando las frecuencias marginales en la tabla de frecuencias observadas sueldo VI MI MS VS n i < 6000 20 24 80 82 206 6000 15000 22 38 104 125 289 15000 25000 13 28 81 113 235 > 25000 7 18 54 92 171 n j 62 108 319 412 901

Grado en Estadística y Empresa 77 Grado en Estadística y Empresa 78 A continuación calculamos los pares concordantes: C = 20(38 + 104 + 125 + 28 + 81 + 113 + 18 + 54 + 92) + 24(104 + 125 + 81 + 113 + 54 + 92) + 80(125 + 113 + 92) + 22(28 + 81 + 113 + 18 + 54 + 92) + 38(81 + 113 + 54 + 92) + 104(113 + 92) + 13(18 + 54 + 92) + 28(54 + 92) + 81(92) = 109520 y los pares discordantes: D = 24(22 + 13 + 17) + 80(22 + 38 + 13 + 28 + 7 + 18) + 82(22 + 38 + 104 + 13 + 28 + 81 + 7 + 18 + 54) + 38(13 + 7) + 104(13 + 28 + 7 + 18) + 125(13 + 28 + 81 + 7 + 18 + 54) + 28(7) + 81(7 + 18) + 113(7 + 18 + 54) = 84915 Grado en Estadística y Empresa 79 Grado en Estadística y Empresa 80 Finalmente, la γ de Goodman-Kruskall y la τ c de Kendall son: γ = C D 109520 84915 = C + D 109520 + 84915 =0127, min{k, r} (C D) 4(109520 84915) τ C = = =0040 min{k 1,r 1} n2 3 901 2 Para calcular la D de Sommer y la τ B de Kendall, necesitamos obtener T X = 1 k n i (n i 1) = 1 (206 205 + 289 288 + 235 234 + 171 170) = 104761, 2 2 i=1 T Y = 1 r n j (n j 1) = 1 (62 61 + 108 107 + 319 318 + 412 411) = 170506, 2 2 j=1 yentonces D = τ B = = C D n(n 1)/2 T X = 109520 84915 405450 104761 =0082, C D (n(n 1)/2 TX)(n(n 1)/2 T Y ) 109520 84915 =0093 (405450 104761)(405450 170506)