Análisis Multivariante de Datos Curso 2016-2017
Por qué es importante realizar inferencia sobre los parámetros de la normal? La estimación máximo-verosímil (MV) de la distribución Normal son la media y la varianza poblacionales. El estimador MV es insesgado: E[ˆθ] = θ El estimador MV es consistente: Lim n Pr( θ ˆθ > c) = 0 La estimación puntual ˆθ se aproxima al verdadero valor del parámetro θ a medida que el tamaño de muestra es mayor. Se trata de una estimación puntual que no necesariamente coincide con el verdadero valor del parámetro, especialmente en muestras pequeñas.
Por qué es importante realizar inferencia sobre los parámetros de la normal? Histogram of mu5 Histogram of sd5 Frequency 0 10 25 Frequency 0 20 40 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 mu5 0.0 0.5 1.0 1.5 2.0 sd5 Histogram of mu50 Histogram of sd50 Frequency 0 40 80 Frequency 0 40 80 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 mu50 0.0 0.5 1.0 1.5 2.0 sd50 Histogram of mu500 Histogram of sd500 Frequency 0 50 150 Frequency 0 50 150 1.0 1.5 3.0 3.5 4.0 0.0 0.5 1.5 2.0 0.5 Análisis Multivariante de Datos 2.0 2.5 1.0 Curso 2016-2017 mu500 sd500
Teorema Central del Límite Supongamos que tenemos una muestra aleatoria de tamaño n x 1,..., x n IID con media µ y varianza σ 2, entonces Z n = X µ N(0, 1). σ 2 n Es decir, µ N( X, σ2 n ). De modo que el intervalo ] de confianza para media vendrá dado por: σ µ [ x ± z α/2 n. El Teorema Central del Límite se cumple para muestras grandes cuando se conoce la varianza poblacional. [ ] S En caso de varianza desconocida: µ x ± t n 1,α/2 n 1
Teorema Central del Límite Qué puedo hacer en muestras pequeñas? Simulación del intervalo de confianza mediante el método de Monte Carlo. n=5 n=50 n=500 Simulado (1.324091, 2.679814) (1.557552, 2.023963) (1.943476, 2.076639) Exacto (0.6498737, 2.370114) (1.780071, 2.189934) (1.932925 2.071800)
Estimación máximo-verosímil de la distribución NMV ˆµ = Los estimadores maximoverosímiles de la distribución Normal multivariada son el vector de medias muestrales y la matriz de varianzas y covarianzas muestral. µ 1. µ p = X 1. X p σ 11 σ 1,p ˆΣ =..... σ p1 σ p,p = S 11 S 1,p..... S p1 S p,p
Estimación máximo-verosímil de la distribución NMV Zvec X Y 0 1 2 3 4 0.16 0.12 0.08 0.2 0.02 0.04 0.06 0.1 0.14 0.18 0.22 0.24 6 8 10 12 14 16
TCL (multivariante) Supongamos que tenemos una muestra aleatoria de tamaño n, X 1,.., X n IID como ) una N p (µ, Σ). Σ X N p (µ, n 1 n (n 1)S = (X i X) (X i X) W p (n 1, Σ) i=n W p es la distribución Wishart. Esta distribución es la generalización al contexto multivariante de la distribución Chi-cuadrado.
Inferencia multivariante sobre el vector de medias Tres tipos de intervalos: 1 Intervalos independientes para cada variable. 2 Método de Bonferroni. 3 Región de confianza conjunta.
Inferencia multivariante sobre el vector de medias Intervalo de confianza individual para cada variable Es realmente representativo calcular un intervalo de confianza para cada variable? Definamos una nueva variable U: {número de estimaciones fuera del intervalo de confianza}. U BN(P, α). Por tanto la probabilidad de que las estimaciones estén dentro del intervalo es (1 α) Si las variables son independientes, Prob(todas las variables estén dentro del intervalo)= (1 α) P Ejemplo: α = 0.05, P = 20; Prob(todas las variables estén dentro del intervalo)= 0.95 20 = 0.358. La probabilidad de que las 20 estimaciones estén dentro del intervalo de confianza es de 0.358. 1 α conjunto = (1 α individual ) P α individual = 1 (1 α conjunto ) 1/P
Inferencia multivariante sobre el vector de medias Método de Bonferroni Las variables rara vez son independientes. Cuando las variables no son independientes se cumple la desigualdad de Bonferroni: ( ) P ) Pr P j=1 A j 1 PR(A c j ( ) Pr P j=1 A j = j=1 (( ) c ) ( ) P 1 Pr P j=1 A j = 1 Pr P j=1 Ac j 1 Pr(A c j ) j=i A nosotros ( ) nos interesa fijar el nivel de confianza conjunto Pr P j=1 A j = 1 α conjunto que sabemos que es al menos 1 Pα individual 1 α conjunto = 1 Pα individual α individual = α conjunto P El método de Bonferroni no es más que recalcular los intervalos de confianza para el error anterior.
Inferencia multivariante sobre el vector de medias Regiones de confianza Considera una muestra de datos bivariados que siguen una distribución normal bivariada con vector de medias µ = [µ 1, µ 2 ] Si consideramos las variables de forma independiente, nuestra región de confianza es un rectángulo. Cuando existe dependencia entre las variables esa región de confianza no es adecuada. Existirán combinaciones de µ 1 y µ 2 que caigan fuera de dicho rectángulo y aún así sean plausibles. Existirán combinaciones de µ 1 y µ 2 dentro del área del rectángulo y que no sean plausibles al nivel de confianza 1 α. La región de confianza para el vector de medias viene dado por: n( x µ) S 1 ( x µ) < c 0, (n 1)p donde c 0 = (n p) F p,n p.
7 5 Inferencia multivariante sobre el vector de medias 0.010 0.005 0.000 0.005 0.010 0.015 6 5.5 6.5 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0.010 0.005 0.000 0.005 0.010 0.015
Inferencia sobre la correlación Dado que el coeficiente de correlación está acotado enrte -1 y 1 no sigue una distribución normal. Pasos para calcular el intervalo de confianza: 1 Calcular la transformación de Fisher. w jk = 1 2 log 1 + r ( jk 1 N 1 r jk 2 log 1 + ρ ) jk 1, 1 ρ jk n 3 2 Calcular el intervalo de confianza para la transformación de Fisher aplicada al coeficiente de correlación. ( w jk z 1 α/2, w jk + z ) 1 α/2 n 3 n 3 3 Transformamos el intervalo anterior para obtener el intervalo sobre el coeficiente ( de correlación. ) e 2W L 1 e 2W, e2wu 1 L + 1 e 2W U + 1 donde W L y W U son el extremo inferior y superior del intervalo calculado en el segundo paso.
Referencias Bajorski, P. (2012). Statistics for Imaging, Optics, and Photonics (Vol. 808). New York, United States: John Wiley & Sons. Rencher, A. C. (2003). Methods of multivariate analysis (Vol. 492). (2a ed) New York, United States: John Wiley & Sons.