Análisis de datos Categóricos

Documentos relacionados
Modelos lineales generalizados

1. Modelos para conteos

Propiedades Una distribución pertenece a la familia exponencial si su función de densidad puede expresarse como:

MODELOS LINEALES GENERALIZADOS

Modelos Lineales Generalizados

Análisis de datos Categóricos

Guillermo Ayala Gallego Universidad de Valencia

Estadística Computacional. M. González

Análisis de datos Categóricos

Análisis de datos Categóricos

Análisis de datos categóricos

Mathias Bourel. 2 de octubre de 2016

g(e (y)) = α + β 1 x β k x k

Algunos Problemas y Soluciones en el Análisis de Experimentos Ajustados con MLG s.

Estadística. Tema 2. Variables Aleatorias Funciones de distribución y probabilidad Ejemplos distribuciones discretas y continuas

Análisis de datos Categóricos

Pérdida Esperada. Pérdida Esperada (PE): Valor esperado de pérdida por riesgo crediticio en un horizonte de tiempo determinado.

Estimación Bayesiana en el modelo lineal generalizado

En el marco de las actividades y objetivos expresados en el protocolo de trabajo

viii CAPÍTULO 2 Métodos de muestreo CAPÍTULO 3 Análisis exploratorio de datos

Estadística Bayesiana

Análisis de Datos Categóricos. Leticia Gracia Medrano

Análisis de datos Categóricos

Auxiliar 9. MNL y MLE. Daniel Olcay. 21 de octubre de 2014 IN4402. Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de / 13

5 Estudios de simulación

Economía Aplicada. Modelos con variables dependiente binarias. Departamento de Economía Universidad Carlos III de Madrid

Introducción a la regresión ordinal

Estimadores de regresión logística para tratamiento de no respuesta en el caso de cocientes de variables dicotómicas

Definición Una hipótesis es una afirmación acerca de un parámetro.

El Bootstrap paramétrico y no parametrico y su aplicación en los modelos log-lineal Poisson

Preparación de los datos de entrada

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

Estadística Bayesiana

Econometría Aplicada

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Estudio en bloques completos vía regresión Poisson en presencia de sobredispersión. Ana María Torres Blanco

Estadística para las Ciencias Agropecuarias

(x) = 1 si P (Y = 1 X = x) P (Y = 0 X = x) P (Y = 0 X = x) > P (Y = 1 X = x) P (X = x Y = 0)P (Y = 0) > P (X = x Y = 1)P (Y = 1)

Regresión de Poisson. Microeconomía Cuantitativa. R. Mora. Departmento de Economía Universidad Carlos III de Madrid

Econometría III Examen. 29 de Marzo de 2012

Regresión ponderada y falta de ajuste

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS. Modelos Probit y Tobit aplicados al estudio de la oferta laboral de los trabajadores secundarios en el Perú

Índice general. Pág. N. 1. Capítulo 1 ETAPAS DE UNA INVESTIGACIÓN. Diseño. Población. Muestra. Individuo (Observación, Caso, Sujeto) Variables

ANÁLISIS DE REGRESIÓN

MODELOS DE SIMULACIÓN ESTADÍSTICOS CLASE 4: DISTRIBUCIÓN t, CHI-CUADRADA y EXPONENCIAL PROFESOR: OSCAR SAAVEDRA ANDRÉS DURANGO.

Tema 6: Introducción a la Inferencia Bayesiana

Robusticidad de los Diseños D-óptimos a la Elección. de los Valores Locales para el Modelo Logístico

Econometría Avanzada FLACSO 2014

Pruebas estadís,cas para evaluar relaciones

Estimación por intervalos

Cálculo de Probabilidades II Preguntas Tema 2

Tema 3. Tema 3 La Distribución Normal y los Puntajes Estándar. Profa. María Fátima Dos Santos

INDICE. Capitulo Uno.

EXAMEN DE ECONOMETRÍA

Cálculos de Regresión Logística en R, Caso de una covariable.

Estimación Máxima Verosimilitud

Modelos de suavizado, aditivos y mixtos

Regresión Lineal Múltiple

Modelos de elección discreta Aplicaciones en ordenador

Práctica 10: Introducción a Modelos Lineales Generalizados.

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos


UNIVERSIDAD DE ATACAMA

FACULTAD DE CIENCIAS AGRARIAS Y FORESTALES PROSECRETARÍA DE POSGRADO CURSO DE POSGRADO

TEMA 5. Modelos para Datos de Conteo

DEPARTAMENTO: Matemáticas NOMBRE DEL CURSO: Probabilidad y Estadística CLAVE: 1016M ACADEMIA A LA QUE PERTENECE: Probabilidad y Estadística


PROGRAMA OFICIAL DE POSTGRADO EN ESTADÍSTICA E INVESTIGACIÓN OPERATIVA

Una revisión de los modelos de conteo con excesos de ceros.

MLLG - Modelos Lineales y Lineales Generalizados

Transformaciones y esperanza

Modelos de distribuciones discretas y continuas

Representaciones gráficas de las distribuciones bidimensionales de frecuencias... 74

DESCRIPCIÓN DE DATOS POR MEDIO DE GRÁFICAS

Estudio de homogeneidad de la dispersión en diseño a una vía de clasificación para datos de proporciones y conteos

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

Universidad Autónoma de Sinaloa

INDICE. Prólogo a la Segunda Edición

Inferencia en tablas de contingencia

Simulación. La mayoría de los procesos de simulación tiene la misma estructura básica:

Relación de Problemas. Tema 5

JUEGO DE BASKETBALL. Repaso de Distribuciones de Probabilidad Discretas y Continuas

Distribuciones Probabilísticas. Curso de Estadística TAE,2005 J.J. Gómez Cadenas

Análisis de datos Categóricos

478 Índice alfabético

Tema 6. Estimación puntual

UNIVERSIDAD NACIONAL DE SAN AGUSTÍN FACULTAD DE CIENCIAS NATURALES Y FORMALES ESCUELA PROFESIONAL DE MATEMÁTICA

Modelo Lineal Generalizado GAMMA. Distribución gamma: Otra parametrización mediante el parámetro de forma y la media:

Tema1. Modelo Lineal General.

Modelado y simulación en Ingeniería Química. Manuel Rodríguez

Folleto de Estadísticas. Teoría del 1er Parcial

Lista de Ejercicios (Parte 1)

Modelos con variable dependiente limitada

Técnicas de Inferencia Estadística II. Tema 3. Contrastes de bondad de ajuste

Regresión polinomial y factores

Centro Universitario de Tonalá

Transcripción:

Introducción a los Modelos Lineales Generalizados Universidad Nacional Agraria La Molina 2016-1

Introducción Modelos Lineales Generalizados Introducción Componentes Estimación En los capítulos anteriores se discutieron métodos para analizar tablas de dos vías. Sin embargo, muchos estudios incluyen más de dos variables explicativas algunas continuas y otras categóricas. En este capítulo se introduce la familia de Modelos Lineales Generalizados que incluye los modelos más importantes para una variable respuesta categórica y continua. Nelder y Wedderburn (1972) introducen la familia de GLM's (Generalized Linear Models). Otra buena referencia es Annette J. Dobson (2002) An introduction to Generalized Linear Models.

Introducción Componentes Estimación Componentes Un Modelo Lineal Generalizado (GLM) se especica a partir de tres componentes. Un componente aleatorio que identica la variable respuesta Y y su distribución de probabilidad. Un componente sistemático que identica las variables explicativas usadas en una función predictor lineal. Una función de enlace que conecta µ = E (Y ) con el componente sistemático. El componente aleatorio consiste de una variable respuesta Y con observaciones independientes (y 1,, y n ) a partir de una distribución que pertenece a una familia exponencial natural.

Componentes Modelos Lineales Generalizados Introducción Componentes Estimación Esta familia tiene distribución de probabilidad o densidad: f (y i ; θ i ) = a(θ i )b(y i ) exp{y i Q(θ i )} El término Q(θ) es llamado el parámetro natural. Sea x ij el valor del predictor j para el sujeto i, entonces: η i = p β j x ij = x T i β j=0 i = 1,, n Esta combinación lineal de variables explicativas es llamada el predictor lineal.

Componentes Modelos Lineales Generalizados Introducción Componentes Estimación La función de enlace g es monótona, diferenciable y conecta los componentes sistemático y aleatorio a través de: g(µ i ) = x T i β La función de enlace que transforma la media hacia el parámetro natural es llamado enlace canónico, es decir: g(µ i ) = Q(µ i ) = x T i β En resumen, un GLM es un modelo lineal para el valor esperado de una variable respuesta que tiene una distribución que pertenece a una familia exponencial natural.

Introducción Componentes Estimación Modelo logit binomial La función de probabilidad de la distribución de Bernoulli es: f (y; π) = π y (1 π) 1 y y pertenece a una familia exponencial natural. La función de enlace canónica es g(π) = log El modelo usando el enlace anterior: log π 1 π. π i 1 π i = x T i β i = 1,, n y es llamado modelo logit binomial.

Introducción Componentes Estimación La función de probabilidad para Y P (µ) es: f (y; µ) = e µ µ y y! que pertenece a una familia exponencial natural. La función de enlace canónica es g(µ) = log µ. El modelo usando el enlace anterior: log µ i = x T i β i = 1,, n y es llamado modelo loglineal de Poisson.

Modelo lineal normal Introducción Componentes Estimación La clase de GLM tambien incluye modelos para una variable respuesta continua. La distribución normal pertenece a una familia exponencial natural que incluye un parámetro de dispersión. El modelo más conocido es: µ i = x T i β i = 1,, n donde se considera la función de enlace identidad. Este modelo es llamado modelo de regresión lineal normal.

Introducción Componentes Estimación Tipo de análisis según el GLM Tabla 1: Tipo de análisis según GLM Componente Componente aleatorio Enlace sistemático Modelo Normal Identidad Mixto Regresión Normal Identidad Categórico ANVA Binomial logit Mixto Logístico Poisson log Mixto Loglineal Multinomial logit Mixto Respuesta multinomial

Devianza Modelos Lineales Generalizados Introducción Componentes Estimación La devianza de un GLM se dene por: D = 2 [L(û; y) L(y; y)] χ 2 N (p+1) y corresponde a la estadística de razón de verosimilitud para comparar un modelo propuesto con el modelo saturado. Los grados de libertad corresponden a la diferencia entre el número de parámetros en el modelo saturado y en el modelo propuesto La devianza es usada para analizar el grado de ajuste del modelo y también para poder establecer comparaciones con otros modelos.

Introducción Componentes Estimación Mínimos cuadrados reponderados iterativos Los estimadores se obtienen por un procedimiento llamado mínimos cuadrados ponderados iterativos: b (m) = (X T W (m 1) X) 1 X T W (m 1) z (m 1) La matriz W es diagonal cuyos elementos son: w ii = 1 Var(Y i ) ( µi η i ) 2 Los elementos de z son: ( ) ηi z i = η i + (y i µ i ) µ i

Modelo de regresión probit Tablas 2 2 Sea Y una variable respuesta binaria cuyos posibles resultados son 0 y 1 tal que: E (Y ) = Pr (Y = 1) = π (x) Normalmente existe una relación no lineal monótona entre π (x) y x. Las curvas en forma de S son típicas. La más importante corresponde al modelo de regresión logística: π (x) = exp {β 0 + β 1 x} 1 + exp {β 0 + β 1 x}

Modelo de regresión probit Tablas 2 2 Si x, entonces π(x) tiende a cero cuando β 1 < 0 y π(x) tiende a uno cuando β 1 > 0. A partir del modelo anterior el odds es: π(x) 1 π(x) = exp{β 0 + β 1 x} Luego, el logaritmo del odds tiene relacion lineal: log π(x) 1 π(x) = β 0 + β 1 x El modelo anterior es también llamado modelo logit.

Modelo de regresión probit Modelo de regresión probit Tablas 2 2 Una curva de regresión monótona por lo general tiene la forma de una función de distribución acumulada de una variable aleatoria continua. Lo anterior sugiere un modelo para una variable respuesta binaria de la forma: π (x) = F (x) para alguna función de distribución acumulada F. Sea Φ la función de distribución acumulada estándar de una familia de distribuciones.

Modelo de regresión probit Modelo de regresión probit Tablas 2 2 Se propone el modelo: π (x) = Φ(β 0 + β 1 x) Si Φ es estrictamente creciente entonces: Φ 1 (π (x)) = β 0 + β 1 x es decir, la función de enlace para el GLM es Φ 1. Si Φ es la función de distribución acumulada de la distribución normal estándar el model anterior es llamado modelo probit.

Ejemplo Modelos Lineales Generalizados Modelo de regresión probit Tablas 2 2 Ejemplo: Pulso Suponga que se desea determinar el efecto del peso (en libras) de un grupo de pacientes sobre su tasa de pulso en reposo. La variable respuesta es Y = 1 si la tasa de pulso es alta y Y = 0 si la tasa de pulso es baja. Se desea establecer dos modelos que permitan estimar la tasa de pulso alta en función al peso del paciente. Usar ambos modelos para estimar la probabilidad que tiene un paciente de 140 libras de tener una tasa de pulso alta.

Tablas 2 2 Modelos Lineales Generalizados Modelo de regresión probit Tablas 2 2 Suponga que para alguna función de enlace: g(π (x)) = β 0 + β 1 x Se describe el efecto de X por: β 1 = g(π (2)) g(π (1)) Para el enlace identidad: β 1 = π (2) π (1)

Tablas 2 2 Modelos Lineales Generalizados Modelo de regresión probit Tablas 2 2 Para el enlace log: β 1 = log π (2) log π (1) = log π (2) π (1) = log r Para el enlace logit: β 1 = logit π (2) logit π (1) = log π(2) 1 π(2) π(1) 1 π(1) = log θ

Ejemplo: Modelos Lineales Generalizados Modelo de regresión probit Tablas 2 2 Ejemplo: Osteoporosis En un estudio para conocer la prevalencia de la osteoporosis se incluyó a 1360 mujeres con edades entre 50 y 54 años. A cada una se le realizó una densitometría de columna y se completó un cuestionario de antecedentes. Los resultados obtenidos se muestran a continuación: Resultado Osteoporosis densiometría Si No Total Expuesto 28 656 684 No expuesto 18 658 676 Total 46 1314 1360

Sobredispersión Distribución binomial negativa En muchos casos la variable respuesta a modelar es el resultado de un proceso de conteo. La distribución de Poisson tiene media µ > 0. El logaritmo de la media es el parámetro natural de la distribución y corresponde al enlace canónico para su GLM. El modelo loglineal de Poisson con variable explicativa x es: log µ = β 0 + β 1 x La media satisface la siguiente relación exponencial: µ = exp{β 0 + β 1 x}

Ejemplo Modelos Lineales Generalizados Sobredispersión Distribución binomial negativa Ejemplo: Apareamiento del cangrejo Se presenta un estudio sobre el apareamiento del cangrejo de herradura. Cada cangrejo hembra tiene un cangrejo macho residente en su nido. El estudio investigó los factores que hacen que un cangrejo hembra tenga otros machos no residentes llamados satélites. Se busca un modelo que permita estimar el número de satélites en función al ancho del caparazón del cangrejo hembra.

Sobredispersión Modelos Lineales Generalizados Sobredispersión Distribución binomial negativa Cuando la varianza es mayor que la media se tiene el problema de la sobredispesión. Una causa para la sobredispersión es la heterogeneidad en los sujetos. La sobredispersión no representa un problema en una regresión ordinaria con distribución normal para Y debido a que la varianza es un parámetro separado. Para la distribución binomial y Poisson, sin embargo, la varianza es función de la media.

Sobredispersión Distribución binomial negativa Distribución binomial negativa La distribución binomial negativa tiene función de probabilidad: f (y; k; µ) = ( ) Γ (y + k) k k ( 1 k ) y Γ (k) Γ (y + 1) µ + k µ + k para y = 0, 1, 2, tal que E(Y ) = µ y Var(Y ) = µ + µ 2 /k. El término k 1 es llamado parámetro de dispersión. Cuando k 1 0 entonces Var(Y ) µ y la distribución binomial negativa converge a la distribución de Poisson.

Sobredispersión Distribución binomial negativa Distribución binomial negativa Usualmente k 1 es desconocido y su estimación ayuda a estudiar el grado de sobredispersión. Para k jo la función de probabilidad anterior puede expresarse en la forma de una familia exponencial natural. Un modelo con componente aleatorio con distribución binomial negativa es un GLM. Por simplicidad, estos modelos consideran que el parámetro k es el mismo para todas las observaciones.

Regresión de Poisson para tasas Sobredispersión Distribución binomial negativa Cuando los eventos de un determinado tipo se producen en una unidad de tiempo o espacio es preferible modelar la tasa en las que éstos ocurren. Por ejemplo, en un estudio de los homicidios ocurridos en un año para una muestra de ciudades se podria modelar el número de homicidios por año divididos por el tamaño de la población. El modelo podría describir como la tasa de homicidios depende de variables como la tasa de desempleo, la mediana del ingreso, el porcentaje de residentes que completan secundaria, etc.