Familia Exponencial Propiedades Una distribución pertenece a la familia exponencial si su función de densidad puede expresarse como: f (y; θ) = s(y)t(θ)exp[a(y)b(θ)] = exp[a(y)b(θ)+c(θ)+d(y)] (1) con s(y) = exp[d(y)] y t(θ) = exp[c(θ)]. La distribución depende de un solo parámetro, a θ se le conoce como parámetro de la familia.
Si a(y) = y se dice que la distribución está expresada en forma CANÓNICA y a b(θ) se le conoce como el PARÁMETRO NATURAL. Si hay otros parámetros se les considera como de ruido y se tratan como si fueran conocidos.
f (y; θ) = 1 Si derivo d/dθ f (y; θ)dy = 0 Si f permite intercambiar el signo de derivación e integración df (y; θ)dy/dθ = 0 Si vuelvo a derivar d/dθ df (y; θ)dy/dθ = d 2 f (y; θ)dy/dθ 2 = 0 Usando la expresión (1)
df (y; θ)/dθ = f (y; θ)[a(y)b (θ) + c (θ)] = 0 (2) y ahora integrando [a(y)b (θ) + c (θ)]f (y; θ)dy = 0 Ahora distribuyo la multiplicación b (θ) a(y)f (y; θ)dy + c (θ) f (y; θ)dy Y tengo una expresión para la esperanza de E(a(y)) E(a(y)) = c (θ)/b (θ) (3)
Para llegar a una expresión para la Var(a(y)) haremos un desarrollo semejante d 2 f (y; θ)/dθ 2 = f (y; θ)[a(y)b (θ)+c (θ)]+f (y; θ)[a(y)b (θ)+c (θ)] usando la expresión para f (y; θ) = f (y; θ)[a(y)b (θ) + c (θ)] + f (y; θ)[a(y)b (θ) + c (θ)] 2 Ahora trabajo el cachito [a(y)b (θ)+c (θ)] 2 = [b (θ)[a(y)+c (θ)/b (θ)]] 2 = b (θ) 2 [a(y) E(a(y))] 2
Integrando = b (θ) +[b (θ)] 2 d 2 f (y; θ)/dθ 2 a(y)f (y; θ)dy + c (θ) f (y; θ)dy [a(y) E(a(y))] 2 f (y; θ)dy = 0 Var(a(y)) = b (θ)c (θ) c (θ)b (θ) [b (θ)] 3 (4)
Logverosimilitud Esta es la expresión para la log verosimilitud Se llama score statistic a U l(θ; y) = a(y)b(θ) + c(θ) + d(y) U(θ; y) = dl(θ; y)/dθ = a(y)b (θ) + c (θ) = U U depende de y y se le puede ver como una variable aleatoria, entonces calcularemos su esperanza: E(U) = E(a(y)b (θ) + c (θ)) = b (θ)e(a(y)) + c (θ) usando la expresión (3) E(U) = b (θ)[ c (θ)/b (θ)] + c (θ) = 0
Y para su varianza usamos la expresión (4) Var(U) = Var(a(y)b (θ) + c (θ)) = [b (θ)] 2 Var(a(y)) = b (θ) c (θ)/b (θ) c (θ) = I También se tiene, Var(U) = E[(U 0) 2 ] = E[U 2 ] = I
Calculando U U = du/dθ = a(y)b (θ) + c (θ) y E(U ) = b (θ)e(a(y)) + c (θ) = b (θ)[ c (θ)/b (θ)] + c (θ) = Var(U) = I La I es la matriz de información. En el caso de que U sea univariadad y para n grande U/ (I) se distribuye aproximadamente como N(0, I) Desde luego cuando generalizamos y θ es un vector de la forma (β 0, β 1,..., β p ), se tiene normalidad en cada una de sus entradas.
Modelo Lineal Generalizado 1. Componente aleatoria. La variable respuesta Y i tiene una distribución que pertenece a la familia exponencial (en forma canónica) f i = f (y i ; θ i ) = exp[y i b(θ i ) + c(θ i ) + d(y i )] Todas las Y i son independientes. 2. Componente sistemática. Un vector η i = (η 1,..., η n ) que se relaciona con las variables explicativas X = (X 1,..., X k ) a través de η i = x i β 3. Función liga. Existe una función g, diferenciable y monótona (y por tanto tiene inversa), tal que g(µ i ) = g(e(y i )) = x i β. A g se le conoce como función liga y x i = (x i1,..., x ik ) es el vector de variables explicativas X
Estimación Para cada y i l i = y i b(θ) + c(θ i ) + d(y i ) La logverosimilitud es E(y i ) = µ i = c (θ i )/b (θ i ) Var(y i ) = b (θ i )c (θ i ) c (θ i )b (θ i ) [b (θ i )] 3 g(µ i ) = x i β = η i l = l i = i = 1 y i b(θ i ) + i = 1 c(θ i ) + i = 1 d(y i ) i = 1
Para maximizar derivo: l β j = U j = La derivada parcial 1 [ ] li = β j i = 1 l i θ i = i 1 }{{} 1 θ i µ i }{{} 2 µ i β j }{{} 3 l i θ i = y i b (θ i ) + c (θ i ) = y i b (θ i ) b (θ i )µ i = b (θ i )(y i µ i )
La derivada parcial 2 µ i θ i θ i = 1/ µ i µ i θ i = [ c (θ i )/b (θ i ) ] [ c (θ i )b (θ i ) c (θ i )b (θ) = [b (θ i ) 2 ] = b (θ i )Var(y i ) ]
la derivada parcial 3 µ i β j = µ i η j η j β j = µ i η j x ij Reuniendo esto U j = (y i µ i )b 1 (θ i ) b (θ i )Var(y i ) µ i x ij = η j i = 1 i = 1 (y i µ i ) µ i x ij Var(y i ) η j
Solo se presentará la matriz de Información I = [E(U j U k )] I jk = i = 1 E[(y i µ i ) 2 ] Var(y i ) 2 2 µ i x ik x ij = η j i = 1 x ik x ij Var(y i ) [ µi η j ] 2 Esta expresión es así de sencilla debido a que las observaciones son independientes (E[(y i µ i )(y s µ s )] = 0)
Método de Newton-Raphson Para cualquier función t(x) si se desea encontrar el punto x tal que t(x) = 0 se puede hacer lo siguiente: Si se considera que la distancia entre x m 1 y x m es pequeña [ dt dx ] = t (x m 1 ) = t(x m ) t(x m 1 ) x=x x m x m 1 m 1 Si x m es la solución a t(x) = 0 entonces t (x m 1 ) = 0 t(x m 1 ) x m x m 1 x m = x m 1 t(x m 1 ) t (x m 1 )
(x 2)^2 6 * (x 2) 5 0 5 10 15 x(m 1) x(m) t(x) 4 5 6 7 8 9 10 x
Entonces regresando al tema de estimación de β, lleva a encontrar el cero de U, y se conoce esto como método score y la podemos estimar con: ˆβ m = ˆβ m 1 Um 1 U m 1 ˆβ m 1 Um 1 E(U m 1 ) = ˆβ m 1 + Um 1 I m 1 También es válido usar I m 1 ˆβ m = I m 1 ˆβ m 1 + U m 1 (5) Basta entonces tener una solución inicial ˆβ (0) = ( ˆβ o (0), ˆβ (0) 1,, ˆβ p (0) )y después iterar con esta fórmula que depende de U y de I
Para cualquier modelo GLM las fórmulas para U j y I jk son: y U j = x ij (y i µ i ) ( µ i ) Var(y i ) η i I jk = x ij x ik Var(y i ) ( µ i η i ) 2 otra forma de escribir la información es: I jk == X WX donde W es una matriz diagonal de n n con w ii = 1 Var(y i ) [ µi η j ] 2
El lado derecho de 5 es un vector y puede escribirse como donde z i = p k=1 X Wz x ik β (m 1) k y con µ i y µ i η i evaluadas en β (m 1). + (y i µ i )( η i µ i )
finalmente 5 puede escribirse como X WX β (m) = X Wz Y tiene la forma de un sistema de ecuaciones normales para un modelo lineal obtenido por mínimos cuadrados ponderados, excepto porque z y W dependen de β. La mayoría de los paquetes utiliza un algoritmo basado en 5.
Ejemplo del modelo logístico La variable y i se distribuye como binomial B(n i, p i ), de ahí que E(y i ) = n i p i ; la función liga es el logit de p i, esto es: ( ) pi η i = log = β 0 + β 1 x 1i +... + β k x ki (1 p i ) Para estimar a β se maximiza la verosimilitud L(β) = n ( ni p i ) p y i i (1 p i ) n i y i ésta depende de p i que a su vez depende de β
log(l(β)) = = usando que {log {log se tiene que = ( ni p i ( ni p i ) + y i log(p i ) + (n i y i ) log(1 p i )} ) p i + y i log( ) + n i log(1 p i )} 1 p i e η i = p i 1 p i 1 + e η i = 1 + p i 1 p i = 1 1 p i {log log(1 + e η i ) = log(1 p i ) ( ni p i ) + y i η i n i log(1 + e η i )}
Como η i = n β jx ji con x 0i = 1 y calculando la derivada se tiene: U j = log(l(β))/ β j = (l(β))/ β j = y i x ij n i x ij e η i (1 + e η i ) U j = (y i x ij n i p i x ij ) = (x ij (y i n i p i )) = x ij (y i µ i )
Ahora para calcular I jk = E(U j U k ) E(U j U k ) = E( x ij (y i µ i ) x ik (y i µ i )) = Usando el hecho que las observaciones son independientes, es decir que E[(y i µ i )(y s µ s )] = 0 finalmente se tiene: E(U j U k ) = = x ij x ik E(y i µ i ) 2 = x ij x ik Var(y i ) x ij x ik n i p i (1 p i ) = I jk Ya se tienen las expresiones de U y de I para poder usar el método de Newton Raphson.