Análisis Multivariante de Datos

Documentos relacionados
Tema 7: Introducción a la Teoría sobre Estimación

Tema 6. Estimación puntual

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

b. Universidad Nacional-Sede Medellín

TEMA 2: Estimadores y distribuciones en el muestreo. Alfredo García Hiernaux. Grupos 69 y 73 Estadística I. Curso 2006/07

INFERENCIA ESTADISTICA

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

UN TAMAÑO DE MUESTRA PRELIMINAR EN LA ESTIMACION DE LA MEDIA, EN POBLACIONES CON DISTRIBUCIONES UNIFORMES Y TRIANGULARES

Tema 3: Estimación estadística de modelos probabilistas. (primera parte)

Muestreo e intervalos de confianza

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

TEMA 2: Propiedades de los estimadores MCO

Resumen. Recordemos que una cópula es una función C : I 2 I tal que: C(u 2, v 2 ) C(u 2, v 1 ) C(u 1, v 2 ) + C(u 1, v 1 ) 0. (2)

Planificaciones Probabilidad y Estadística B. Docente responsable: GRYNBERG SEBASTIAN PABLO. 1 de 6

Estadística I Tema 7: Estimación por intervalos

Selección de distribuciones de probabilidad

Asignatura : INFERENCIA ESTADÍSTICA I Titulación : DIPLOMADO EN ESTADÍSTICA Profesor : ISABEL MOLINA PERALTA Capítulo 5 : INTERVALOS DE CONFIANZA

Intervalos de Confianza

ESTADÍSTICA I Tema 2: Algunas ideas básicas sobre inferencia estadística. Muestreo aleatorio

Estadística Inferencial. Sesión 3. Estimación de parámetros y por intervalos

Teorema Central del Límite (1)

Técnicas de Muestreo Métodos

Ejercicio 1. Ejercicio 2

Estimación por intervalos

Tema 4: Estimación por intervalo (Intervalos de Confianza)

Tema 8: Regresión y Correlación

Tema 3: Estimación estadística de modelos probabilistas. (segunda parte)

ESTADISTICA APLICADA: PROGRAMA

Tema 4. Regresión lineal simple

Estadística. Tema 3. Esperanzas Esperanza. Propiedades Varianza y covarianza. Correlación

LICENCIATURA EN ECONOMÍA Y LICENCIATURA EN ADMINISTRACIÓN DE EMPRESAS

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Diseño de experimentos Hugo Alexer Pérez Vicente

Cuál es el campo de estudio de la prueba de hipótesis?

ESTADÍSTICA I Tema 3: Estimación puntual paramétrica

INFERENCIA ESTADÍSTICA

Estadística Económica y Estadística Empresarial

Tema 10: Introducción a los problemas de Asociación y Correlación

ESTADÍSTICA I Tema 4: Estimación por intervalos de confianza

Econometría II Grado en finanzas y contabilidad

Estimación. Introducción. Sea X la variable aleatoria poblacional con distribución de probabilidad f θ donde. es el parámetro poblacional desconocido

Fundamentos para la inferencia. Unidad 3 Parte II Estadísca Prof. Tamara Burdisso

Tema 6: Introducción a la Inferencia Bayesiana

Tema 3 Normalidad multivariante

Probabilidad y Estadística

Conceptos Básicos de Inferencia

ACTIVIDAD 2: La distribución Normal

UNIVERSIDAD DE MANAGUA Al más alto nivel

Estadística Inferencial. Sesión 2. Distribuciones muestrales

Tema 5. Muestreo y distribuciones muestrales

1 CÁLCULO DE PROBABILIDADES

Ejercicios T2 y T3.- DISTRIBUCIONES MUESTRALES Y ESTIMACIÓN PUNTUAL

ESTADÍSTICA I Tema 3: Estimación puntual paramétrica

PROGRAMA DE CURSO. Horas de Trabajo Personal Horas de Cátedra. Básica. Resultados de Aprendizaje

Técnicas Cuantitativas para el Management y los Negocios I

Curso: Inferencia Estadística (ICO 8306) Profesores: Esteban Calvo Ayudantes: José T. Medina ESTIMACIÓN POR INTERVALO

Estimación de Máxima Verosimilitud Utilizando la Función optim en R

ANÁLISIS DE REGRESIÓN

INDICE. Prólogo a la Segunda Edición

Conceptos Básicos de Inferencia

Distribuciones multivariadas

Análisis de la Varianza (ANOVA) y Correlación

Econometría II. Hoja de Problemas 1

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES ACATLÁN LICENCIATURA EN MATEMÁTICAS APLICADAS Y COMPUTACIÓN

Notas de clase Estadística R. Urbán R.

Estimación por intervalo del parámetro de la distribución de Poisson con una sola observación

Ms. C. Marco Vinicio Rodríguez

GUIÓN TEMA 2. PROPIEDADES DE LOS ESTIMADORES MCO 2.1 PROPIEDADES ESTADÍSTICAS DEL ES- TIMADOR MCO DE.

Métodos Estadísticos Multivariados

Facultad de Ciencias Sociales - Universidad de la República

PROGRAMA ACADEMICO Ingeniería Industrial

Tema 4. Análisis multivariante de la varianza

ESTIMACION INFERENCIA ESTADISTICA

El Movimiento Browniano en la modelización del par EUR/USD

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

Tema 6: Introducción a la inferencia estadística

T2. El modelo lineal simple

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.

Auxiliar 9. MNL y MLE. Daniel Olcay. 21 de octubre de 2014 IN4402. Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de / 13

Estadística. Tema 2. Variables Aleatorias Funciones de distribución y probabilidad Ejemplos distribuciones discretas y continuas

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

Estadística II Examen final junio - 17/06/16 Curso 2015/16 Soluciones Duración del examen: 2 h. y 45 min.

Tema 2: Modelos probabilísticos de series

Experimentos de Monte Carlo. Walter Sosa-Escudero

Tema 5. Muestreo y distribuciones muestrales

6. Inferencia con muestras grandes. Informática. Universidad Carlos III de Madrid


Método bayesiano bootstrap y una aplicación en la estimación del percentil 85 en ingeniería de tránsito

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

SOLUCIÓN EXAMEN IV Nombres: Apellidos: C.I.: Firma: Fecha: 19/11/2004

Principios de reducción de la data

CARGA HORARIA Horas totales: 80 Horas totales de resolución de problemas de aplicación: 32

Unidad Temática 2: Unidad 5 Estadística Inferencial Temas 10 y 11

Transcripción:

Análisis Multivariante de Datos Curso 2016-2017

Por qué es importante realizar inferencia sobre los parámetros de la normal? La estimación máximo-verosímil (MV) de la distribución Normal son la media y la varianza poblacionales. El estimador MV es insesgado: E[ˆθ] = θ El estimador MV es consistente: Lim n Pr( θ ˆθ > c) = 0 La estimación puntual ˆθ se aproxima al verdadero valor del parámetro θ a medida que el tamaño de muestra es mayor. Se trata de una estimación puntual que no necesariamente coincide con el verdadero valor del parámetro, especialmente en muestras pequeñas.

Por qué es importante realizar inferencia sobre los parámetros de la normal? Histogram of mu5 Histogram of sd5 Frequency 0 10 25 Frequency 0 20 40 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 mu5 0.0 0.5 1.0 1.5 2.0 sd5 Histogram of mu50 Histogram of sd50 Frequency 0 40 80 Frequency 0 40 80 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 mu50 0.0 0.5 1.0 1.5 2.0 sd50 Histogram of mu500 Histogram of sd500 Frequency 0 50 150 Frequency 0 50 150 1.0 1.5 3.0 3.5 4.0 0.0 0.5 1.5 2.0 0.5 Análisis Multivariante de Datos 2.0 2.5 1.0 Curso 2016-2017 mu500 sd500

Teorema Central del Límite Supongamos que tenemos una muestra aleatoria de tamaño n x 1,..., x n IID con media µ y varianza σ 2, entonces Z n = X µ N(0, 1). σ 2 n Es decir, µ N( X, σ2 n ). De modo que el intervalo ] de confianza para media vendrá dado por: σ µ [ x ± z α/2 n. El Teorema Central del Límite se cumple para muestras grandes cuando se conoce la varianza poblacional. [ ] S En caso de varianza desconocida: µ x ± t n 1,α/2 n 1

Teorema Central del Límite Qué puedo hacer en muestras pequeñas? Simulación del intervalo de confianza mediante el método de Monte Carlo. n=5 n=50 n=500 Simulado (1.324091, 2.679814) (1.557552, 2.023963) (1.943476, 2.076639) Exacto (0.6498737, 2.370114) (1.780071, 2.189934) (1.932925 2.071800)

Estimación máximo-verosímil de la distribución NMV ˆµ = Los estimadores maximoverosímiles de la distribución Normal multivariada son el vector de medias muestrales y la matriz de varianzas y covarianzas muestral. µ 1. µ p = X 1. X p σ 11 σ 1,p ˆΣ =..... σ p1 σ p,p = S 11 S 1,p..... S p1 S p,p

Estimación máximo-verosímil de la distribución NMV Zvec X Y 0 1 2 3 4 0.16 0.12 0.08 0.2 0.02 0.04 0.06 0.1 0.14 0.18 0.22 0.24 6 8 10 12 14 16

TCL (multivariante) Supongamos que tenemos una muestra aleatoria de tamaño n, X 1,.., X n IID como ) una N p (µ, Σ). Σ X N p (µ, n 1 n (n 1)S = (X i X) (X i X) W p (n 1, Σ) i=n W p es la distribución Wishart. Esta distribución es la generalización al contexto multivariante de la distribución Chi-cuadrado.

Inferencia multivariante sobre el vector de medias Tres tipos de intervalos: 1 Intervalos independientes para cada variable. 2 Método de Bonferroni. 3 Región de confianza conjunta.

Inferencia multivariante sobre el vector de medias Intervalo de confianza individual para cada variable Es realmente representativo calcular un intervalo de confianza para cada variable? Definamos una nueva variable U: {número de estimaciones fuera del intervalo de confianza}. U BN(P, α). Por tanto la probabilidad de que las estimaciones estén dentro del intervalo es (1 α) Si las variables son independientes, Prob(todas las variables estén dentro del intervalo)= (1 α) P Ejemplo: α = 0.05, P = 20; Prob(todas las variables estén dentro del intervalo)= 0.95 20 = 0.358. La probabilidad de que las 20 estimaciones estén dentro del intervalo de confianza es de 0.358. 1 α conjunto = (1 α individual ) P α individual = 1 (1 α conjunto ) 1/P

Inferencia multivariante sobre el vector de medias Método de Bonferroni Las variables rara vez son independientes. Cuando las variables no son independientes se cumple la desigualdad de Bonferroni: ( ) P ) Pr P j=1 A j 1 PR(A c j ( ) Pr P j=1 A j = j=1 (( ) c ) ( ) P 1 Pr P j=1 A j = 1 Pr P j=1 Ac j 1 Pr(A c j ) j=i A nosotros ( ) nos interesa fijar el nivel de confianza conjunto Pr P j=1 A j = 1 α conjunto que sabemos que es al menos 1 Pα individual 1 α conjunto = 1 Pα individual α individual = α conjunto P El método de Bonferroni no es más que recalcular los intervalos de confianza para el error anterior.

Inferencia multivariante sobre el vector de medias Regiones de confianza Considera una muestra de datos bivariados que siguen una distribución normal bivariada con vector de medias µ = [µ 1, µ 2 ] Si consideramos las variables de forma independiente, nuestra región de confianza es un rectángulo. Cuando existe dependencia entre las variables esa región de confianza no es adecuada. Existirán combinaciones de µ 1 y µ 2 que caigan fuera de dicho rectángulo y aún así sean plausibles. Existirán combinaciones de µ 1 y µ 2 dentro del área del rectángulo y que no sean plausibles al nivel de confianza 1 α. La región de confianza para el vector de medias viene dado por: n( x µ) S 1 ( x µ) < c 0, (n 1)p donde c 0 = (n p) F p,n p.

7 5 Inferencia multivariante sobre el vector de medias 0.010 0.005 0.000 0.005 0.010 0.015 6 5.5 6.5 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0.010 0.005 0.000 0.005 0.010 0.015

Inferencia sobre la correlación Dado que el coeficiente de correlación está acotado enrte -1 y 1 no sigue una distribución normal. Pasos para calcular el intervalo de confianza: 1 Calcular la transformación de Fisher. w jk = 1 2 log 1 + r ( jk 1 N 1 r jk 2 log 1 + ρ ) jk 1, 1 ρ jk n 3 2 Calcular el intervalo de confianza para la transformación de Fisher aplicada al coeficiente de correlación. ( w jk z 1 α/2, w jk + z ) 1 α/2 n 3 n 3 3 Transformamos el intervalo anterior para obtener el intervalo sobre el coeficiente ( de correlación. ) e 2W L 1 e 2W, e2wu 1 L + 1 e 2W U + 1 donde W L y W U son el extremo inferior y superior del intervalo calculado en el segundo paso.

Referencias Bajorski, P. (2012). Statistics for Imaging, Optics, and Photonics (Vol. 808). New York, United States: John Wiley & Sons. Rencher, A. C. (2003). Methods of multivariate analysis (Vol. 492). (2a ed) New York, United States: John Wiley & Sons.