Modelos Lineales Generalizados

Modelos Lineales Generalizados 1 DefinicióndeunMLG Y1,Y2,...,Yn,conmediasµ1,µ2,...,µn,Yi, i=1,...,n,tienefdpmiembrodela familia exponencial a un parámetro, con las siguientes propiedades: 1.LadistribucióndecadaunodelosYi,paratodoi,estáenlaformacanónica,i.e.: f(yi;θi,φ)=exp{ 1 a(φ) [y iθi b(θi)]+c(yi;φ)} para b(.) y c(.) funciones conocidas. El parámetro θi es llamado de parámetro canónico, o natural, de la familia exponencial, y φ es llamado parámetro de dispersión,paraelcuala(φ)= φ w,dondewsonconsideradospesosapriori. MLG - 2007 M. P. Díaz 1

2. Principales propiedades: E(Yi)=µi=b (θi) Var(Yi)=a(φ)b (θi)=a(φ)v(µi) donde Vi es llamada función de varianza; θi= Ω V 1 dµi=q(µi) con q(.) una función conocida; 3.LasdistribucionesdelosYisondelamismaforma,paratodoi. Únicosparámetrosexplícitos: θi i=1,...,n nosondeinterés,sinounconjunto menor, de β s: g(µi)= p xijβj=x jβ j=1 donde g(.) es una función monótona, diferenciable. MLG - 2007 M. P. Díaz 2

Síntesis Un modelo lineal generalizado se define como: (a) Un componente aleatorio representado por las variables aleatorias independientes Yi s, provenientes de la misma distribución en la familia exponencial; (b) Un componente sistemático lineal en los parámetros, llamado predictor lineal, η=xβ; (c)unafunciónde enlaceg(.)talqueηi=g(µi),dondee(yi)=µi. MLG - 2007 M. P. Díaz 3

Necesidad de un trinomio: distribución de la variable respuesta; matriz del modelo(diseño experimental, situación observacional); función de enlace. MLG - 2007 M. P. Díaz 4

Uno de los componentes 2 Función de Enlace Cada fdp(v.a. respuesta) permite una clase de funciones de enlace, Qué considerar?: interpretación, proceso biológico, buenas propiedades estadísticas. MCGM:E(Y)=µ=η Identidadadesunafunciónapropiadasiempreycuando ηyµpuedantomarcualquiervalorenr. Conteos?Y P(µ),yi R + Identidadadnoesadecuada. MLG - 2007 M. P. Díaz 5

Características Conteos e Hipótesis de independencia en datos de clasificación cruzada? efectos multiplicativos log, η = logµ, µ = e η ; así, efectosaditivosenel nuevomodelo restringen el dominio de µ solamente a los reales positivos. Conteosrestringidos?0<µ<1,g:(0,1) R f. logística, probit,complemento log-log, entre otras. CasoGeneral:funcionesdeenlacedentrodefamiliapotencia,(almenosparaYi>0, Lindsey, 1993): η= µ λ : λ 0, logµ : λ=0. MLG - 2007 M. P. Díaz 6

Resumen Función Binomial Gama Normal Inversa Poisson de enlace Positiva Gaussiana Logística C Probit Complemento log-log Identidad C Recíproca C Logarítmica C Recíproca Cuadrática C Raíz Cuadrada C indica la canónica para esa familia de distribuiciones, θ = η. Luego, T(X) estadístico suficiente con igual dimensión que el vector de parámetros β en el predictor lineal. MLG - 2007 M. P. Díaz 7

Función de enlace 3 Importancia de la Función de Enlace Cordeiro(1986)proponelosiguiente: SiV =V(µ)=b (θ)=dµ/dθ entonces µ= b (θ)dθ, luegosedefinelafamiliadefuncionesdeenlacecomo: η=g(µ)= [b (θ)] δ dθ= [V(µ)] δ dθ= [V(µ)] δ 1 dµ, dondeδ R,b (θ)>0. Cada miembro de la familia exponencial genera una clase de funciones de enlace. Poisson: θ=lnµ,dθ=µ 1 dµ, b(θ)=e θ =µ,b (θ)=e θ =µ,b (θ)=e θ =µ η=g(µ)= [b (θ)] δ dθ= [V(µ)] δ 1 dµ= µδ δ, conδ=0. MLG - 2007 M. P. Díaz 8

Función de enlace Luego, las funciones potencia son de la forma Todo para Poisson η= µ δ si δ 0 lnµ c.c. Cuál es su utilidad? contiene varias g(.) importantes: (Poisson) 1.Siδ=0,η=lnµ=θ(linkcanónica), 2.Siδ=1,η=µ= b (θ)dθ=b (θ)=µ(linkidentidad) 3.Siδ=1/2... (Ejerc.: quésucedeconlamatrizdeinf. defisher? vermaterial) 4. Si δ = 1/3... (ejerc.: qué sucede con la log-verosimilitud? ver material) Para otro miembro? MLG - 2007 M. P. Díaz 9

Síntesis de las funciones potencia Miembros importantes de la familia de funciones de enlace η δ [ b θ ] dθ = ''( ) (Hacer cuadro.) MLG - 2007 M. P. Díaz 10

Función de verosimilitud desde la FEU En el caso particular que el parámetro canónico coincida con el predictor lineal, Importancia? MLG - 2007 M. P. Díaz 11

Funciones de enlace canónicas De quiénes? Otras funciones de enlace MLG - 2007 M. P. Díaz 12

Representación de Logística y Valor Extremo MLG - 2007 M. P. Díaz 13

Familia de Funciones Potencia (Transf. Box- Cox) MLG - 2007 M. P. Díaz 14

Familia de Funciones de Enlace Aranda-Ordaz (1981) Casos particulares cuando α es 1 o α 0. MLG - 2007 M. P. Díaz 15

Proceso de Inferencia en MLG Estimación de Parámetros en un MLG (β η µ θ). 1. Método de estimación 2. Algoritmo de estimación (general) 3. Convergencia: problemas y criterios 4. Expresión de la precisión de los estimadores 5. Estimación del parámetro de dispersión 6. Recomendaciones. MLG - 2007 M. P. Díaz 16

Síntesis: Teoría de Máxima Verosimilitud MLG - 2007 M. P. Díaz 17

Ejemplo: Distribución Geométrica Considere una serie de ensayos Bernoulli independientes, con π probabilidad de éxito, constante. La distribución del número de fallas Y i hasta el primer éxito tiene una pdf, Para y i = 0,1,.,. Se demuestra que su valor esperado y la función de verosimilitud para n observaciones es: donde y es la media muestral y se muestra que es un estadístico suficiente para π. MLG - 2007 M. P. Díaz 18

Geométricamente, n=20 y media muestral igual a 3. MLG - 2007 M. P. Díaz 19

Estadístico de escore: La primera derivada de la función log-verosimilitud se denomina función escore (de Fisher), Si la log-verosimilitud es cóncava, el estimador de máxima se logra resolviendo el sistema de ecuaciones Para el ejemplo, MLG - 2007 M. P. Díaz 20

La Matriz de Información: El vector escore es un estadístico con propiedades estadísticas interesantes: 1) evaluado en el vector de parámetros tiene esperanza cero, i.e 2) y matriz de var-cov igual a la matriz de información: 3) bajo condiciones de reg., se puede también obtener según: En ejemplo sería: MLG - 2007 M. P. Díaz 21

Ejemplo: pdf geométrica, Y usando que Resulta, MLG - 2007 M. P. Díaz 22

Newton-Raphson Scoring de Fisher Cálculo del EMV requiere proceso iterativo Expansión en serie de Taylor de la función escore evaluada en θˆ y en un entorno de θ o. L matriz hessiana ( 2 de la log-ver). Reemplazando, resulta: Técnica de Newton Raphson MLG - 2007 M. P. Díaz 23

Proceso alternativo (muy usado): Escore de Fisher Qué hace? reemplaza la (-)matriz hessiana Por su valor esperado, llamada Matriz de Información de Fisher. MLG - 2007 M. P. Díaz 24