Tema 2 Datos multivariantes

Documentos relacionados
Tema 3 Normalidad multivariante

Tema 1. 1 Álgebra lineal. Aurea Grané Departamento de Estadística Universidad Carlos III de Madrid. 1.1 Vectores de R n. 1. Vectores. 2.

Análisis multivariante II

Tema 6: Distancias estadísticas y MDS

Repaso de conceptos de álgebra lineal

1 Vectores de R n. Tema 1. Álgebra matricial. 1.2 Dependencia lineal

Análisis de Correspondencias Simple

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Análisis de Componentes Principales

Distribuciones multivariadas

Tratamiento matricial de los datos multivariantes

Águeda Mata y Miguel Reyes, Dpto. de Matemática Aplicada, FI-UPM 1. Se llama producto escalar sobre un espacio vectorial real V a cualquier aplicación

Métodos Estadísticos Multivariados

Tema 1. Espacios Vectoriales. Sistemas de ecuaciones.

a n1 a n2 a nn Es decir, una forma cuadrática es un polinomio homogéneo de grado 2 y n variables.

a ij x i x j = [x] t B A+At ) t = At +(A t ) t = At +A x i x j + a ij + a ji x j x i = s ij x i x j + s ji x j x i 2

Matemáticas para la Empresa

Análisis de componentes principales

Tema 1. Espacios Vectoriales. Sistemas de ecuaciones.

ANÁLISIS DE COMPONENTES PRINCIPALES

Tensores cartesianos.

Espacios vectoriales reales.

APÉNDICE A. Algebra matricial

a n1 a n2 a nn x n a ij x i x j = [x] t B A+At ) t = At +(A t ) t = At +A x j x i = s ij x i x j + s ji x j x i 2 x i x j + a ij + a ji

Capítulo 2. Medidas Estadísticas Básicas Medidas estadísticas poblacionales

Relación 1. Espacios vectoriales

Diagonalización de Endomorfismos

2 Espacios vectoriales

Espacios Vectoriales. AMD Grado en Ingeniería Informática. AMD Grado en Ingeniería Informática (UM) Espacios Vectoriales 1 / 21

GF = I V. G(v ) = v 1

Clase 8 Matrices Álgebra Lineal

MATRICES Y OPERACIONES CON MATRICES. Suma A y B del mismo orden A+B = (a i j + b i j ) Resta A y B del mismo orden A -B = (a i j - b i j )

Tema 3: Espacios vectoriales

Tema 3.1. Espacio eucĺıdeo. Diagonalización ortogonal

Sistemas de Ecuaciones Lineales y Matrices

6.5.7 Orientación de un espacio vectorial eucĺıdeo Producto vectorial Diagonalización de formas bilineales simétricas...

Algebra lineal y conjuntos convexos 1

Repaso de álgebra de matrices y probabilidad. Javier Santibáñez (IIMAS, UNAM) Regresión Semestre / 58

EJERCICIOS DE ÁLGEBRA LINEAL TEMA 3 ESPACIOS EUCLÍDEOS

CONTENIDOS MATEMÁTICAS II SEGUNDA EVALUACIÓN CURSO 2017/2018 MATRICES

1 Autovalores y autovectores asociados a un endomor smo f. Diagonalización.

Capítulo VI. Diferenciabilidad de funciones de varias variables

4.2 Producto escalar.

Una matriz es un arreglo rectangular de números. Los números en el arreglo se llaman elementos de la matriz. ) ( + ( ) ( )

Matrices y sistemas de ecuaciones

Sistemas lineales de ecuaciones diferenciales. Juan-Miguel Gracia

Álgebra Lineal y Geometría I. Prueba 3. Grupo A. 12 de marzo de (

ALGEBRA LINEAL Segundo Semestre. Parte II

Distribución Gaussiana Multivariable

x, y = x 0 y 0 + x 1 y 1 + x 2 y 2 + x 3 y 3. Es fácil ver que verifica 1. Es simétrica. x, y = y, x para todo x, y R 4.

Análisis en Componentes Principales

Sobre vectores y matrices. Independencia lineal. Rango de una matriz

Matrices. Álgebra de matrices.

Tema 3: Análisis de datos bivariantes

Clase de Álgebra Lineal

Análisis de Componentes Principales (ACP)

TEMA 3.- VECTORES ALEATORIOS.- CURSO

Tema 2: Teorema de estructura de los grupos abelianos finitamente generados.

Podemos pues formular los dos problemas anteriores en términos de matrices.

V = v 1 +2v 2 +3v 3. v 2. v 1

Producto tensorial entre tensores

El grupo lineal proyectivo. Homologías. Afinidades.

Estadística I Tema 3: Análisis de datos bivariantes

Espacios Vectoriales

PROBLEMAS DE ÁLGEBRA LINEAL INGENIERÍA DE TELECOMUNICACIONES - E.T.S.I.T. CURSO 2005/06

Esta expresión polinómica puede expresarse como una expresión matricial de la forma; a 11 a 12 a 1n x 1 x 2 q(x 1, x 2,, x n ) = (x 1, x 2,, x n )

Álgebra Lineal. Tema 6. Transformaciones lineales y matrices

CONJUNTO R n. = (5, 2, 10) de 3, son linealmente. = (2,1,3) y v 3. = (0,1, 1) y u 3. = (2,0,3, 1), u 3. = (1,1, 0,m), v 2

MATRICES. Una matriz es un conjunto de números o expresiones dispuestos en forma rectangular, formando filas y columnas.

Estadística II Tema 1: Distribución normal multivariante

ALGEBRA 1- GRUPO CIENCIAS- TURNO TARDE- Espacios vectoriales

Tema 1. Espacios Vectoriales Definición de Espacio Vectorial

1. ESPACIO EUCLÍDEO. ISOMETRÍAS

7 Aplicaciones ortogonales

ÁLGEBRA LINEAL I NOTAS DE CLASE UNIDAD 2

Tema 1: Matrices. El concepto de matriz alcanza múltiples aplicaciones tanto en la representación y manipulación de datos como en el cálculo numérico.

Práctica nº 1: Álgebra Tensorial

Estos apuntes se han sacado de la página de internet de vitutor con pequeñas modificaciones.

Eigenvalores y eigenvectores

Autovalores y autovectores Diagonalización y formas canónicas

ANALISIS FACTORIAL. Jorge Galbiati R.

Transcripción:

Aurea Grané Máster en Estadística Universidade Pedagógica 1 Aurea Grané Máster en Estadística Universidade Pedagógica 2 Tema 2 Datos multivariantes 1 Matrices de datos 2 Datos multivariantes 2 Medias, covarianzas y correlaciones 3 Variables compuestas Aurea Grané Departamento de Estadística Universidad Carlos III de Madrid 4 Teorema de la dimensión 5 Distancias Aurea Grané Máster en Estadística Universidade Pedagógica 3 Introducción El análisis multivariante es la parte de la estadística y del análisis de datos que estudia, analiza, representa e interpreta los datos que resultan de observar un número p > 1 de variables estadísticas sobre una muestra de n individuos Las variables obervables son homogéneas y correlacionadas, sin que ninguna predomine sobre las demás Generalmente la información multivariante es una matriz de datos Aunque, a menudo, también puede ser una matriz de distancias (o similaridades), que miden el grado de discrepancia (o similitud) entre los individuos Aurea Grané Máster en Estadística Universidade Pedagógica 4 21 Matrices de datos Supondremos que hemos observado p variables en un conjunto de n elementos o individuos Cada una de estas p variables es una variable univariante y el conjunto de las p variables forma una variable multivariante La matriz de datos X es la representación de estas p variables medidas en los n individuos: x 11 x 12 x 1p x 21 x 22 x 2p X = x n1 x n2 x np La matriz X puede representarse de dos formas distintas: por filas y por columnas

Aurea Grané Máster en Estadística Universidade Pedagógica 5 Aurea Grané Máster en Estadística Universidade Pedagógica 6 Representación por filas: x 11 x 12 x 1p x 21 x 22 x 2p X = = x n1 x n2 x np donde x i Rp (i = 1,,n) representa los valores observados para el individuo i-ésimo en las p variables Representación por columnas: X = (X 1, X 2,,X p ), donde X j R n (j = 1,,p) representa la variable univariante j-ésima medida sobre todos los individuos de la muestra x 1 x 2 x n 22 Medias, covarianzas y correlaciones Dada una matrix X, n p, con datos cuantitativos, se define el vector de medias de X como el vector columna p 1 x = ( X 1, X 2,,X p ), donde Xj = 1 n Generalmente, el vector de medias se expresa como x = 1 n X 1, donde 1 = (1, 1,,1) es un vector columna n 1 n x ij i=1 Aurea Grané Máster en Estadística Universidade Pedagógica 7 La matriz cuyas columnas tienen media cero se denomina matriz de datos centrados y es el resultado de aplicar a cada columna de X una traslación igual a menos su media, es decir, ( ) 1 X 0 = X 1x = X 1 n 1 X = X 1 n 11 X = HX, donde H = I 1 n 11 es la matriz de centrado, I es la matriz identidad de orden n Propiedades de la matriz de centrado 1 H = H (simétrica) 2 H 2 = H (idempotente) 3 H1 = 0 (1 es un autovector de H de autovalor 0) 4 rang(h) = n 1 5 Los autovalores de H son 0 y 1 Ejercicio 21 Demostrar las propiedades anteriores Aurea Grané Máster en Estadística Universidade Pedagógica 8 Se define la matriz de covarianzas de X como S = 1 n X HX = (s jk ) p p Observad que para cada par (j, k), 1 j, k p el elemento s jk de S es la covarianza de las columnas j y k de la matriz X, es decir, s jk = 1 n (x ij X j )(x ik X k ) n i=1 En particular, para cada j, j = 1,,p, el elemento s jj de S es la varianza de la columna j de la matriz X, es decir, s jj = s 2 j = 1 n (x ij X j ) 2 n Cuando se desee obtener un estimador insesgado de las varianzas y covarianzas de la población, se utilizará la matriz S = i=1 n n 1 S = 1 n 1 X HX

Aurea Grané Máster en Estadística Universidade Pedagógica 9 Aurea Grané Máster en Estadística Universidade Pedagógica 10 Se define la matriz de correlaciones de X como aquella matriz cuyos elementos son los coeficientes de correlación de las columnas de X, es decir, R = (r jk ) p p, donde r jk = s jk sjj s kk En notación matricial, la matriz R se obtiene como R = D 1 s SD 1 s, donde D s = diag( s 11, s 22,, s pp ) Observad que S y R son matrices simétricas Más adelante veremos que también son matrices semidefinidas positivas El vector x es una medida de centralidad multivariante de los datos La matriz S y, sobre todo, la matriz R son medidas matriciales de interdependencia lineal entre las variables Como medidas escalares de dispersión multivariante (o de variabilidad global) se definen la varianza generalizada como det(s) y la variación total como tr(s) Como medida escalar de interdependencia lineal (o de dependencia global) se define η 2 = 1 det(r), que verifica las propiedades: 1 0 η 2 1, 2 η 2 = 0 las p variables están incorreladas, 3 η 2 = 1 existen relaciones lineales entre las variables Aurea Grané Máster en Estadística Universidade Pedagógica 11 Aurea Grané Máster en Estadística Universidade Pedagógica 12 23 Variables compuestas Ejercicios computacionales Ejercicio 22 Dada una matriz de datos X, escribir un programa en Matlab que calcule el vector de medias, la matriz de covarianzas y la matriz de correlaciones de X Ejercicio 23 Dada una matriz de datos X, escribir un programa en Matlab que calcule la varianza generalizada, la variación total y el coeficiente η 2 Algunos métodos del Análisis Multivariante consisten en obtener e interpretar combinaciones lineales adecuadas de las variables observables Se llama variable compuesta a toda combinación lineal de las variables observables Por ejemplo, sea a = (a 1, a 2,,a p ), entonces es una variable compuesta Y = a 1 X 1 + a 2 X 2 + + a p X p = Xa, Propiedades de las variables compuestas Sean Y = Xa, Z = Xb dos variables compuestas Se verifica que: 1 La media de Y es y = x a, 2 La varianza de Y es s 2 y = a Sa, 3 La covarianza entre Y y Z es s yz = a Sb = b Sa = s zy

Aurea Grané Máster en Estadística Universidade Pedagógica 13 Aurea Grané Máster en Estadística Universidade Pedagógica 14 Ciertas variables compuestas reciben nombres diferentes según la técnica multivariante: componentes principales, variables canónicas, funciones discriminantes, etc Uno de los objetivos del Análisis Multivariante es encontrar variables compuestas adecuadas que expliquen aspectos relevantes de los datos En la transparencia anterior hemos visto que una variable compuesta queda definida por un vector de coeficientes Pero, de forma más general, una matriz T de tamaño p q definirá q variables compuestas Y 1, Y 2,,Y q La expresión Y = XT, donde Y = (Y 1, Y 2,,Y q ), da lugar a una matriz n q que contiene los valores de q nuevas variables para los n individuos de la muestra Las columnas de Y = XT se llaman también variables transformadas En realidad, Y es una transformación lineal de la matriz de datos X Además, si T es una matriz ortogonal (es decir TT = T T = I), entonces Y es el resultado de aplicar una rotación o una reflexión respecto de un hiperplano Mediante las nuevas coordenadas Y los individuos se encuentran repesentados en un sistema de ejes ortogonales Propiedades 1 El vector de medias de Y es y = T x, 2 La matriz de covarianzas de Y es S Y = T ST Ejercicio 24 Demostrar las propiedades anteriores Aurea Grané Máster en Estadística Universidade Pedagógica 15 Aurea Grané Máster en Estadística Universidade Pedagógica 16 24 Teorema de la dimensión La matriz S es semidefinida positiva, puesto que, a R p, a Sa = 1 n a X HXa = 1 n a X HHXa = b b = b 2 0, donde b = 1 n HXa El teorema de la dimensión dice que el rango de la matriz S determina la dimensión del espacio vectorial generado por las variables observables, es decir, que el número de variables linealmente independientes es igual al rango de S TEOREMA 21 Si r = rang(s) p, entonces hay r variables linealmente independientes y las otras p r son combinación lineal de estas r variables Demostración: Sea X 0 = HX la matriz de datos centrados de tamaño n p Observemos que la matriz de covarianzas de X puede escribirse en función de X 0 como S = 1 n X HX = 1 n X HHX = 1 n X 0X 0, donde hemos usado que H 2 = H y H = H Utilizando una de las propiedades del rango (propiedad 5), sabemos que rang(s) = rang(x 0 ) Por tanto, si rang(x 0 ) = r p significa que existen r variables X j s linealmente independientes y que el resto p r son combinación lineal de estas variables

Aurea Grané Máster en Estadística Universidade Pedagógica 17 Corolario 21 Si todas las variables tienen varianza no nula y r = rang(r) p, entonces hay r variables linealmente independientes y las otras p r son combinación lineal de estas r variables Demostración: Puesto que R = D 1 s SD 1 s, donde D s = diag( s 11, s 22,, s pp ), entonces la matriz de covarianzas puede escribirse como S = D s RD s Finalmente, utilizando otra propiedad del rango (propiedad 1 del rango de matrices cuadradas), se tiene que rang(r) = rang(s) Aurea Grané Máster en Estadística Universidade Pedagógica 18 25 Distancias Algunos métodos del Análisis Multvariante están basados en criterios geométricos y en la noción de distancia entre individuos y entre poblaciones Consideremos la matriz de datos X en su representación por filas Sean S su matriz de covarianzas, x i = (x i1, x i2,,x ip ) y x j = (x j1, x j2,,x jp ), respectivamente, las filas i y j de X Las definiciones más importantes de distancia entre dos individuos son: 1 Distancia euclídea (al cuadrado) d 2 E(i, j) = (x i x j ) (x i x j ) = 2 Distancia de KPearson (al cuadrado) d 2 P(i, j) = (x i x j ) D 1 (x i x j ) = donde D = diag(s 11, s 22,,s pp ) p (x ik x jk ) 2 k=1 p k=1 (x ik x jk ) 2 s kk, Aurea Grané Máster en Estadística Universidade Pedagógica 19 Aurea Grané Máster en Estadística Universidade Pedagógica 20 3 Distancia de Mahalanobis (al cuadrado) d 2 M(i, j) = (x i x j ) S 1 (x i x j ) Observación 1 La distancia d E supone implícitamente que las variables son incorreladas Además d E no es invariante frente a cambios de escala (cambios en las unidades de medida de las variables) Consideremos el cambio de escala y = α x, donde α R, α 1 Ahora las puntuaciones de los individuos i y j son y i = αx i e y j = αx j, y la distancia euclídea es d 2 E (i, j) = (y i y j ) (y i y j ) = (αx i αx j ) (αx i αx j ) = α 2 (x i x j ) (x i x j ) Observación 2 La distancia d P supone que ls variables son incorreladas, pero es invariante frente a cambios de escala Como anteriormente, consideremos el cambio de escala y = α x, donde α R, α 1, que da lugar a y i = αx i e y j = αx j Observemos que las varianzas de las p variables están afectadas por el cambio de escala, siendo ahora α 2 s 11, α 2 s 22,,α 2 s pp De manera que la distancia de Pearson es d 2 P (i, j) = (y i y j ) (α 2 D) 1 (y i y j ) = α 2 (x i x j ) 1 α 2 D 1 (x i x j ) = (x i x j ) D 1 (x i x j )

Aurea Grané Máster en Estadística Universidade Pedagógica 21 Aurea Grané Máster en Estadística Universidade Pedagógica 22 Observación 3 La distancia d M tiene en cuenta las correlaciones entre las variables y es invariante frente a transformaciones lineales de las variables (en particular, es invariante frente a cambios de escala) Observación 4 La distancia d E es un caso particular de la distancia d M cuando S = I La distancia d P es un caso particular de la distancia d M cuando S = diag(s 11, s 22,,s pp ) Observación 5 La ditancia d M es la más adecuada porque tiene en cuenta las relaciones entre las variables, es decir, no presupone que sean incorreladas ni que tengan varianza unidad En cambio, utilizar d E significa suponer que las variables están incorreladas y tienen varianza unidad Utlizar d P implica suponer que las variables están incorreladas, pero con varianzas distintas (y distintas a la unidad, generalmente) Ejercicios computacionales Ejercicio 25 Escribir un programa en Matlab que calcule la distancia de Mahalanobis entre las filas de una matriz de datos X