UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS



Documentos relacionados
CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS

EXPERIMENTACIÓN COMERCIAL(I)

Análisis de Regresión y Correlación

Econometría. Ayudantía # 01, Conceptos Generales, Modelo de Regresión. Profesor: Carlos R. Pitta 1

Tema 3. Estadísticos univariados: tendencia central, variabilidad, asimetría y curtosis

De factores fijos. Mixto. Con interacción Sin interacción. No equilibrado. Jerarquizado

Pruebas Estadísticas de Números Pseudoaleatorios

Tema 1: Estadística Descriptiva Unidimensional Unidad 2: Medidas de Posición, Dispersión y de Forma

Relaciones entre variables

MODELOS DE ELECCIÓN BINARIA

REGRESION Y CORRELACION

CURSO INTERNACIONAL: CONSTRUCCIÓN DE ESCENARIOS ECONÓMICOS Y ECONOMETRÍA AVANZADA. Instructor: Horacio Catalán Alonso

Capitalización y descuento simple

Histogramas: Es un diagrama de barras pero los datos son siempre cuantitativos agrupados en clases o intervalos.

Modelos lineales Regresión simple y múl3ple

CAPÍTULO 4 MARCO TEÓRICO

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia

12-16 de Noviembre de Francisco Javier Burgos Fernández

PUBLICACIONES DE 4º CURSO

Figura 1

DEFINICIÓN DE INDICADORES

TEMA 4 Variables aleatorias discretas Esperanza y varianza

FE DE ERRATAS Y AÑADIDOS AL LIBRO FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES (Ximénez & San Martín, 2004)

2.2 TASA INTERNA DE RETORNO (TIR). Flujo de Caja Netos en el Tiempo

Correlación y regresión lineal simple

UNIVERSIDAD CARLOS III DE MADRID Ingeniería Informática Examen de Investigación Operativa 21 de enero de 2009

Mª Dolores del Campo Maldonado. Tel: :

Inferencia en Regresión Lineal Simple

Tema 7: Regresión Logística p. 1/1

CÁLCULO DE INCERTIDUMBRE EN MEDIDAS FÍSICAS: MEDIDA DE UNA MASA

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 19 de Septiembre de :30 horas. Pregunta 19 A B C En Blanco

Modelos de elección simple y múltiple. Regresión logit y probit. Modelos multilogit y multiprobit.

Aspectos fundamentales en el análisis de asociación

Smoothed Particle Hydrodynamics Animación Avanzada

PROPUESTAS PARA LA DETERMINACIÓN DE LOS PARÁMETROS DEL GRÁFICO DE CONTROL MEWMA

Problemas donde intervienen dos o más variables numéricas

EJERCICIO 1 1. VERDADERO 2. VERDADERO (Esta afirmación no es cierta en el caso del modelo general). 3. En el modelo lineal general

ALN - SVD. Definición SVD. Definición SVD (Cont.) 29/05/2013. CeCal In. Co. Facultad de Ingeniería Universidad de la República.

Instituto Tecnológico Superior del Sur del Estado de Yucatán EGRESIÓN LINEAL REGRESI. 10 kg. 10 cm

Tema 6. Estadística descriptiva bivariable con variables numéricas

Ejemplo: Consumo - Ingreso. Ingreso. Consumo. Población 60 familias

Problema: Existe relación entre el estado nutricional y el rendimiento académico de estudiantes de enseñanza básica?

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 6 de Junio de :00 horas. Pregunta 19 A B C En Blanco. Pregunta 18 A B C En Blanco

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 20 DE JUNIO DE horas

CAPÍTULO 7 ESTIMACIÓN DE PARÁMETROS

MÉTODOS PARA PROBAR NUMEROS

Economía de la Empresa: Financiación

e i para construir el modelo econométrico que se escribe a continuación:

Tema 4: Variables aleatorias

TERMODINÁMICA AVANZADA

Guía de ejercicios #1

ENCUESTA ESTRUCTURAL DE TRANSPORTE POR CARRETERA AÑO CONTABLE 2013 INSTITUTO NACIONAL DE ESTADÍSTICAS

Operadores por Regiones

Probabilidad Grupo 23 Semestre Segundo examen parcial

METODOLOGÍA MUESTRAL ENCUESTA A LAS PEQUEÑAS Y MEDIANAS EMPRESAS

Prueba de Evaluación Continua

Estadística con R. Modelo Probabilístico Lineal

Instituto Nacional de Estadísticas Chile METODOLOGÍA. Encuesta Estructural de Transporte por Carretera Año contable 2012

Tema 1.3_A La media y la desviación estándar

Métodos específicos de generación de diversas distribuciones discretas

, x es un suceso de S. Es decir, si :

A. Una pregunta muy particular que se puede hacer a una distribución de datos es de qué magnitud es es la heterogeneidad que se observa.

Muestra: son datos de corte transversal correspondientes a 120 familias españolas.

PRÁCTICA 16: MODELO DE REGRESIÓN MÚLTIPLE SOLUCIÓN

Tema 1:Descripción de una variable. Tema 1:Descripción de una variable. 1.1 El método estadístico. 1.1 El método estadístico. Describir el problema

ENCUESTA ESTRUCTURAL DE TRANSPORTE POR CARRETERA AÑO CONTABLE 2011 INSTITUTO NACIONAL DE ESTADÍSTICAS

MUESTREO EN POBLACIONES FINITAS

Riesgos Proporcionales de Cox

MODELOS SEMIPARAMÉTRICOS PARA DATOS LONGITUDINALES: COMPORTAMIENTO DE LOS ESTIMADORES DE UN MODELO DE RE- GRESIÓN PARA MUESTRAS PEQUEÑAS

Detección Bayesiana de Efectos Activos en Experimentos Factoriales con Respuesta Dicotómica.

16/02/2015. Ángel Serrano Sánchez de León

PyE_ EF2_TIPO1_

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 17 de Mayo de :00 horas

Especialista en Estadística y Docencia Universitaria REGRESION LINEAL MULTIPLE

TERMODINÁMICA AVANZADA

Modelos triangular y parabólico

UNIVERSIDAD NACIONAL DE LA PLATA FACULTAD DE CIENCIAS AGRARIAS Y FORESTALES. CURSO: Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas

Regresión Binomial Negativa

Medidas de Variabilidad

Econometría de corte transversal. Pablo Lavado Centro de Investigación de la Universidad del Pacífico

Tema 1: Estadística Descriptiva Unidimensional

Tema 3: Procedimientos de Constrastación y Selección de Modelos

Efectos fijos o aleatorios: test de especificación

Media es la suma de todas las observaciones dividida por el tamaño de la muestra.

Estadísticos muéstrales

Examen Final de Econometría Grado

ANEXO A: Método de Interpolación de Cokriging Colocado

UNIVERSIDAD DE GUADALAJARA, CUCEI DEPARTAMENTO DE ELECTRÓNICA LABORATORIO DE ELECTRÓNICA II

Regresión de Datos de Vida

TÉCNICAS AUXILIARES DE LABORATORIO

Unidad I Definición de reacción de combustión Clasificación de combustibles

Tema 2: El modelo clásico de regresión

Regresión lineal y correlación lineal

Diseño y Análisis de Experimentos en el SPSS 1

17/02/2015. Ángel Serrano Sánchez de León

Regresión y Correlación Métodos numéricos

CAPÍTULO IV. MEDICIÓN. De acuerdo con Székely (2005), existe dentro del período información

Licenciatura en Administración y Dirección de Empresas INTRODUCCIÓN A LA ESTADÍSTICA EMPRESARIAL

Trabajo y Energía Cinética

) para toda permutación (p p 1 p

Transcripción:

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS FACULTAD DE CIENCIAS MATEMÁTICAS E.A.P. DE..ESTADÍSTICA La fecunddad y su relacón con varables socoeconómcas, demográfcas y educatvas aplcando el Modelo de Regresón Posson Capítulo. Modelos lneales generalzados MONOGRAFÍA Para optar el Título de Lcencado en Estadístca AUTOR Gulanna Teresa Fgueroa Arboccó LIMA PERÚ 5

19 CAPÍTULO II: MODELOS LINEALES GENERALIZADOS Ya conocemos la problemátca de la fecunddad a nvel socal, cultural, demográfco, etc., ahora necestamos tener el sustento teórco sobre la técnca estadístca a usar para luego proceder a la aplcacón y estudo, comenzaremos así con una revsón sobre toda la teoría estadístca, para al fnal de este trabajo monográfco poder concenzudamente dscutr y analzar los resultados obtendos y transmtr las conclusones respectvas..1 LOS MODELOS LINEALES GENERALIZADOS Los modelos l neales generalzados (MLG) son una extensón del ya conocdo Modelo Lneal General (Stgler, 1981) a una famla más general y fueron propuestos por Nelder y Wedderburn (197). Esta nueva famla unfca tanto a modelos con varables de respuesta categórca como numérca; y consdera dstrbucones como la bnomal, posson, hpergeométrca, bnomal negatva y otras, ya no úncamente la dstrbucón Normal. Como en los Modelos de Regresón Lneal, se consdera el supuesto de ndependenca para las observacones. Sn embargo, para estos modelos, a dferenca del Modelo Lneal General, las dstrbucón de la componente aleatora no necesaramente es homocedástca, es decr no se requere de un supuesto de homogenedad de varanzas. Por ejemplo en el modelo de regresón de Posson la varanza de la varable respuesta vene determnada por el valor esperado µ. Por tanto la varanza puede varar a medda que varíe este valor esperado, a dferenca del clásco modelo con dstrbucón Normal que tene dos parámetros, la meda y la varanza. (McCullagh y Nelder, 1991). Los MLG están formados por tres componentes: a) Componente aleatora: Es el vector aleatoro Y = ( Y1, Y,..., Y n )' cuyos elementos son ndependentes e déntcamente dstrbudos. La funcón de dstrbucón de este vector pertenece a la famla exponencal y tene la sguente forma:

yθ b( θ) fy ( y, θφ, ) = exp ( + cy (, φ) a( φ) donde b ( ) y c ( ) son funcones conocdas. (II.1) La varanza de la respuesta depende de la meda µ a través de una funcón varanza V, de tal manera que: var( y ) = φ V( µ )/ w, donde φ es el parámetro de dspersón y w es un peso conocdo para cada observacón, θ es el parámetro canónco. b) Componente sstemátca: Como en el caso de los modelos lneales está dado por el predctor lneal. η p = x jβj (II.) j= donde las x 's representan a la covarables o varables explcatvas del modelo y los β' s son parámetros cuyos valores son desconocdos y necestan ser estmados. c) Funcón de e nlace: La funcón enlace ( g ( µ )), relacona el predctor lneal ηcon el valor esperado de la varable respuesta, EY ( / X ) = µ, a través de la funcón g( µ ) = Xβ (II.3) g ( µ ) = η donde g es una funcón dferencable, monótona e nvertble..1.1 LA FUNCIÓN LOG-VEROSIMILITUD Asumendo que cada componente de Y tene una dstrbucón provenente de la famla exponencal de la forma denotada anterormente, escrbmos la funcón logverosmltud de la sguente forma: l( θφ, ; y) = log f ( y; θφ, ), (II.4) la cual es una funcón de θ y φ, dado un valor de y. n 1 l( θφ, ; y) = [ yθ b( θ)] + cy ( ; φ) = 1 a( φ ) (II.5) Y

1 La meda y la varanza de Y se obtenen a partr de las sguentes relacones (Dobson, 199) : l E θ l E( ) = θ l θ ( ) + E( ) = (II.6) (II.7) De estas relacones se obtene que E(Y)= µ = b'( θ) y Var(Y)= b"( θ) a( φ ), donde b"( θ ) es una funcón que depende del parámetro canónco θ y es llamada funcón varanza. La funcón a( φ) es comúnmente escrta de la forma a( φ) = φ/ w, donde φ es el parámetro de dspersón y w es una ponderacón para cada observacón..1. ESTADÍSTICA SUFICIENTE Y ENLACE CANÓNICO Cada dstrbucón tene una funcón de enlace especal que está asocada al predctor lneal η= xβ para la cual exste una estadístca sufcente con la msma dmensón de β. Estos enlaces son llamados canóncos, cuando θ= η, donde θ es el parámetro canónco. Para los enlaces canóncos, la estadístca sufcente es vectoral (McCullagh y Nelder, 1991). T X Y en notacón El logartmo de la funcón de verosmltud de los Modelos Lneales Generalzados con respuestas ndependentes se puede expresar de la forma L( β, y). Una de las ventajas de usar enlaces canóncos es que garantzan la concavdad de L( β, y) y por tanto se obtenen r esultados asntótcos más fáclmente. La concavdad de la funcón log-verosmltud garantza la uncdad de la estmacón de máxma verosmltud de ˆβ cuando ésta exste..1.3 ESTIMACIÓN DE LOS PARÁMETROS Dentro de los modelos lneales generalzados se utlzan varos métodos para estmar los parámetros, sn embargo el óptmo es el método de máxma verosmltud,

el cual tene las propedades de consstenca y efcenca asntótca (Cordero, ). Las estmacones que se obtenen a través de este método son smlares a un proceso de mínmos cuadrados ponderados teratvos (McCullagh y Nelder, 1991). El algortmo de estmacón medante este método utlza el método Score de Fsher, defndo como: l( β) U ( β) = (II.8) β Además de la matrz de nformacón de Fsher defnda como: l U( β) K= - E( ) = - E( ) (II.9) βr βs β Expandendo la funcón score en una sere multvarada de Taylor de prmer orden se desarrolla un proceso teratvo de la sguente forma: ( m + 1) ( m ) 1 ( ) ( ) β = β + K ( β m ) U( β m ), (II.1) donde m es el valor del térmno de la m-ésma teracón. Este es una varante del método de Newton-Raphson para el cálculo del estmador máxmo verosíml, conocdo como el método Scorng (Nelder y Wedderburn, 197). Utlzando la expresón anteror, llegamos a una expresón smlar al estmador de mínmos cuadrados ponderados teratvo. ( m 1) T ( m) 1 T ( m) ( m) β + ( X W X) X W z =, (II.11) 1/ donde z= η W + V 1/ ( y µ ) es la varable dependente modfcada, mentras W es una matrz de pesos que camba en cada paso del proceso teratvo. Por otra parte, l( β) es estrctamente cóncava como funcón de β y garantza un máxmo y únco ˆβ..1.4 PROPIEDADES Y DISTRIBUCIÓN DE ˆβ Cordero () mencona las sguentes propedades del estmador ˆβ: ) El estmador ˆβ es asntótcamente nsesgado, es decr para muestras grandes E( βˆ ) = β.

3 ) La matrz de varanzas y covaranzas de ˆβ para muestras grandes está dada por: Cov( βˆ) E[( βˆ β)( βˆ β)] K T 1 = = (II.1) La matrz de nformacón de Fsher K es consstentemente estmada por ˆ 1 T K = X WX (II.13) φ ) Para muestras grandes se tene que: ˆ T ( β β) K( βˆ β)~ χ o de forma equvalente ˆ ~ (, 1 N ) p K β β p.1.5 EVALUACIÓN DEL MODELO Esta seccón tene por objetvo evaluar la valdez externa del modelo ajustado, para lograr esto es necesaro verfcar la bondad del ajuste y la adecuacón (cumplmento de supuestos) del modelo ajustado..1.5.1 BONDAD DE AJUSTE DEL MODELO Una vez estmados los parámetros, se debe valorar la magntud de la dscrepanca entre los datos observados y esperados. Según McCullagh y Nelder (1991), el ajuste de un modelo a partr de conjunto de datos observados puede ser encarado como una manera de susttur las observacones por un conjunto de valores estmados ˆµ para un modelo con un número de parámetros relatvamente pequeño. Una dscrepanca pequeña entre los datos observados y ˆµ puede ser tolerable, en cuanto que una dscrepanca grande no. De esta manera, s se admte una combnacón satsfactora de la dstrbucón de la varable respuesta y de la funcón de enlace, el objetvo es determnar cuántos térmnos son necesaros en la estructura lneal para una descrpcón razonable de los datos. Un número grande de varables explcatvas (o covarables) puede llevar a que un modelo explque ben los datos pero con un aumento de complejdad en su nterpretacón. Por otro lado, un número pequeño de varables explcatvas (o covarables) puede llevar a un modelo de fácl nterpretacón pero que se ajuste pobremente a los datos. Lo que se desea en realdad es un modelo ntermedo. En el proceso del ajuste del modelo se evalúan generalmente un conjunto de modelos

4 que consttuyen aproxmacones a los datos observados. Dos modelos que pueden ntervenr en las comparacones a menudo son: a) MODELO SATURADO: En este modelo el número de parámetros estmados es gual al número de observacones. En datos ndvduales, utlzar este modelo mplcaría estmar un número de parámetros gual al tamaño muestral. b) MODELO NULO: Este es un modelo muy smple, el cual se utlza como modelo de referenca. Contene como únco parámetro al valor esperado µ, para todas las observacones. Habtualmente es ncapaz de representar adecuadamente la estructura de los datos, asume un efecto nulo de las varables explcatvas..1.5.1.1 FUNCIÓN DESVÍO La bondad de ajuste en un modelo lneal generalzado es evaluada a través de la funcón desvío: { } Dy ( ; µ ˆ) = lyy ( ; ) l( µ ˆ; y), (II.14) que es la dstanca entre el logartmo de la funcón verosmltud del modelo saturado (con n parámetros) y el modelo en nvestgacón (con p parámetros). Un valor pequeño del desvío ndca que para un número menor de parámetros, se obtene un ajuste tan bueno como cuando se ajuste un modelo saturado. Por tanto, el desvío es una medda de dstanca de los valores ajustados µ ˆ 's en relacón con los datos observados. El desvío es sempre mayor o gual a cero. Para probar la adecuacón de un Modelo Lneal Generalzado, el valor del desvío debe ser comparado con el percentl de alguna dstrbucón de probabldad referente. En la práctca, la funcón desvío se compara con los percentles de una dstrbucón χ (McCullagh y Nelder, 1991). n p Dyµ ˆ χ (, )~ n p

5.1.5.1. COEFICIENTE DE DETERMINACIÓN ( R ) La medda R es defnda como la reduccón proporconal en la ncertdumbre, debdo a la nclusón de los regresores. Bajo certas condcones, tambén puede ser nterpretada como la varanza explcada por el modelo ajustado. Se han propuesto varos R basados en las defncones de resduales, sn embargo una medda R preferda es aquella basada en el desvío, que tene la sguente forma: donde Dyµ (, ˆ ) y respectvamente. R Dy (, µ ˆ ) = 1, (II.15) Dy (, µ ˆ ) Dyµ (, ˆ ) son las funcones desvío de los modelos ajustado y nulo, Esta medda satsface las sguentes propedades: 1) R 1 ) No decrece a medda que se añaden los regresores. 3) Tene una nterpretacón en térmnos del contendo de nformacón de los datos..1.5.1.3 ESTADÍSTICA CHI-CUADRADO DE PEARSON Otra medda de dscrepanca es la estadístca cual toma la sguente forma: X de Pearson generalzada, la donde X n w ( ˆ y µ ) =, (II.16) V ( µ ˆ ) = 1 V ( µ ˆ) es la funcón de varanza estmada para la dstrbucón de la varable respuesta. La estadístca X se aproxma asntótcamente a una dstrbucón χ cuando n p la dstrbucón de la varable Y es no normal. Cuando es normal, esta estadístca es la suma de cuadrados resdual de un modelo lneal clásco y tene una dstrbucón exacta. χ n p

6.1.5.1.4 ANÁLISIS PARA SUB-VECTORES DE PARÁMETROS Cuando se tene un vector de parámetros β de un Modelo Lneal Generalzado, muchas veces nteresa probar hpótess de un subconjunto de éstos, dependendo de los objetvos o de la metodología a usar para el análss de datos. Sea una partcón de vector de parámetros β = ( β T 1, β T ) T en donde β 1 es un vector de dmensón q y β tene dmensón p-q y φ es conocdo o fjo. S es de nterés probar la hpótess H : β1 = vs H1 : β1, las funcones desvío correspondentes a los modelos bajo H y H 1 son denotados por Dy ( ; µ ˆ ) y Dy ( ; µ ˆ) respectvamente, donde ˆµ es la estmacón de máxma verosmltud sobre H. La estadístca de razón de verosmltud dada por Buse (198) es: Bajo la hpótess nula 1 RV Dy Dy φ Λ = { ( ; µ ˆ ) ( ; µ ˆ)} (II.17) Λ RV ~ χ q cuando n. De forma smlar, defnmos la estadístca F (Dobson, 199): F = Dy ˆ D y ˆ q Dy ( ; µ ˆ)/( n p) { ( ; µ ) ( ; µ )}/ F q, n p (II.18) La ventaja de usar F en lugar de la estadístca de razón de verosmltud (II.17) es que F no depende del parámetro de dspersón..1.5.1.5 ANÁLISIS DE COVARIABLES: PRUEBAS DE HIPÓTESIS SIMPLES Los métodos de nferenca en los Modelos Lneales Generalzados se basan fundamentalmente en la teoría de Máxma Verosmltud. Según ésta, exsten tres estadístcas para probar hpótess relatvas a los parámetros β 's que son deducdas de las dstrbucones asntótcas de las funcones adecuadas de las estmacones de los β 's.

7 Estas son: 1) Razón de Verosmltud. ) Wald: tambén conocda como de Máxma Verosmltud por algunos autores, se basa en la dstrbucón normal asntótca del vector ˆβ. 3) Score: obtenda a partr de la funcón score. Las hpótess smples se defnen de la sguente manera: H : β= β vs H : β β, donde 1 conocdo. β es un vector p-dmensonal y φ se asume A) TEST DE RAZÓN DE VEROSIMILITUD Está defndo por: o equvalentemente: ˆ ˆ Λ RV = { L( β; y) L( β ; y)} (II.19) 1 RV Dy Dy φ Λ = { (, µ ˆ ) (, µ ˆ)} (II.) Cabe recordar que esta estadístca se construye gual a (II.17) pero bajo dferentes hpótess. En este caso la hpótess se defne para un vector smple, mentras que la fórmula (II.17) se construye bajo la hpótess defnda para un subvector de parámetros. B) TEST DE WALD El test de Wald está defndo por: donde ˆ β. ξ βˆ β ˆ βˆ βˆ β T 1 W = [ ] Var ( )[ ], (II.1) Var ˆ ( β ˆ ) denota la estmacón de la matrz de varanza-covaranza asntótca de defnda por: Recordemos que Var ˆ ( β ˆ ) = K ( β), entonces la estadístca de Wald está 1 ˆ 1 ξ β ˆ β ˆ β ˆ β φ T T W = [ ]( X WX )[ ] (II.)

8 En el caso en que modelo tene un s ólo parámetro, el test de Wald es equvalente al test t usual, de tal manera que: ξ W ( βˆ β ) = Var ˆ ( βˆ ) C) TEST DE SCORE Tambén conocdo como el test de Rao, se defne: T ˆ ˆ 1 ξsr = U( β ) Var ( β) U( β ), (II.3) donde Var ˆ ˆ ( β ) es la varanza asntótca de ˆβestmada bajo H : β = β. Esta estadístca se defne tambén de la sguente forma: donde W ˆ es estmado bajo H. T T ˆ 1 ξsr = φu( β ) ( XWX ) U( β ) (II.4) Asntótcamente y bajo la hpótess nula, las tres estadístcas defndas Λ se dstrbuyen como RV, ξw y ξsr χ p. Para las hpótess relatvas a un únco coefcente β, la estadístca de Wald es la más usada. Para hpótess relatvas a varos coefcentes, la razón de Máxma Verosmltud es preferda por ser un test unformemente más poderoso (Cordero, )..1.5.1.6 INTERVALOS DE CONFIANZA PARA ˆβ Los ntervalos de confanza pueden construrse usando cualquera de estas estadístcas. Usando, por ejemplo la Estadístca de Wald, una regón de confanza para β con un nvel de confanza 1(1 α)% será: ˆ T ( β β) [ Vˆ ( βˆ)] ( βˆ β) < χ. (II.5) 1 p,1 α.1.5.1.7 ESTIMACIÓN DEL PARÁMETRO DE DISPERSIÓN Para obtener el estmador de máxma verosmltud para φ, es necesaro tomar el logartmo de la funcón de verosmltud para el vector aleatoro Y. Dervando

9 l( θφ, ; y) con respecto a φ e gualando a cero, la solucón será el estmador de máxma verosmltud para φ. McCullagh y Nelder (1991) propuseron dos solucones más generales que conssten en estmar el parámetro de dspersón a partr de: ˆ D φ = (II.6) n p y ˆ X φ = (II.7) n p donde D es el desvío o devance y X es la estadístca defnda en (II.16)..1.5. ADECUACIÓN DEL MODELO En la práctca, puede ocurrr que aún escogendo cudadosamente un modelo y después ajustando un conjunto de datos, el resultado sea nsatsfactoro. Los desvíos sstemátcos se orgnan por haber escogdo nadecuadamente la funcón de varanca, la funcón de enlace o la matrz de dseño del modelo. Las dscrepancas asladas pueden ocurrr debdo a puntos extremos, o porque estos realmente son erróneos como resultado de lecturas erróneas o por factores no controlados al momento de la toma de datos. La verfcacón de la adecuacón del modelo es un requsto fundamental que se realza sobre el conjunto de datos para analzar posbles desvíos de las suposcones hechas para el modelo, así como la exstenca de observacones extremas con alguna nterferenca desproporconada en los resultados del ajuste..1.5..1 RESIDUALES Como en la regresón lneal, los resduos o resduales son utlzados para verfcar la adecuacón del modelo. Los resduos expresan la dscrepanca entre una observacón y su valor ajustado. Estos pueden ser usados para evaluar la adecuacón del ajuste de un modelo, con respecto a la eleccón de la funcón de varanza, la funcón enlace y en térmnos del predctor lneal. Los resduales tambén pueden ndcar la presenca de valores anormales o dscordantes que puedan requerr de una nvestgacón más detallada.

3 a) RESIDUAL DE PEARSON Se defnen de la sguente manera: r y µ ˆ = = 1,,..., n. (II.8) φ ˆV ( µ ˆ ) p sendo ˆφ un estmador consstente del parámetro φ. La desventaja de este resdual es que su dstrbucón es bastante asmétrca para modelos no normales. b) RESIDUAL DE PEARSON ESTUDENTIZADO r = y µ ˆ φ ˆV( µ ˆ )(1 h) p' = 1,,..., n (II.9) sendo h elemento de la dagonal de la matrz. La ventaja de usar este resdual es que capta mejor la varabldad de los datos debdo a que usa el valor de h, el cual es útl para medr la nfluenca de la -ésma observacón. c) RESIDUAL DESVÍO Pregbon (1979, Cáp. 4) defne el desvío resdual como: D r = sgn( y µ ˆ ) d, = 1,,..., n. (II.3) donde d es llamado el componente del Desvío, el cual se puede escrbr de la forma n n n, D= l( y, y ) l( µ ˆ, y ) = d = 1 = 1 = 1 d mde la dferenca de los logartmos de la funcón de verosmltud observada y ajustada para cada observacón correspondente. El resdual desvío tene una dstrbucón exacta normal en el caso de la regresón normal y en el caso de la regresón normal nversa. (Wllams, 1987). d) RESIDUAL DESVÍO ESTUDENTIZADO En los Modelos Lneales Generalzados, la matrz de proyeccón H se defne por: H W X X WX X W 1/ 1 1/ ( T T = ), (II.31) donde W es una matrz dagonal, cuyos elementos de la dagonal prncpal están dados por:

31 1 µ w = ( ) var( µ ) η (II.3) Entonces los resduales desvío estudentzados son defndos de la sguente manera: r D' = r D φˆ(1 h ) (II.33) donde h es el -ésmo elemento de la dagonal de la matrz H y estmacón del parámetro de dspersón. ˆ Dy (, µ ˆ ) φ = n p es la e) RESIDUALES QUANTIS Un concepto de resdual propuesto por Dunn y Smyth (1996), se basa en la dea de nvertr la funcón de dstrbucón estmada para cada observacón, así se obtenen resduos cuya dstrbucón es exactamente normal. Estos resduos se usan en Modelos Lneales Generalzados cuando exste una dspersón grande y cuando los resduales desvío pueden ser no normales. Los resduos Quants son resduos útles para datos bnomales y de Posson, s la varable respuesta asume un número pequeño de valores dstntos. Sea F( yµφ ;, ) la funcón de dstrbucón acumulada de Y. Como F es contnua, entonces F( yµφ ;, ) está unformemente dstrbuda en el ntervalo (,1). En este caso, los resduales Quants se defnen: q 1 ˆ ˆ F yµφ r =Φ { ( ;, )}, (II.34) donde Φ es funcón de dstrbucón acumulada de la Normal. S F es no contnua, los resduales Quants se defnen a partr de: r q =Φ 1 ( u), (II.35) donde u es una varable unforme defnda en el ntervalo (a,b), a = lm F( y; µφ ˆ, ˆ) y b = ( y ; µφ ˆ, ˆ). y y

3 q q Sea F contnua o dscreta, Er { } = y Var( r) = 1. Por tanto, s β y φ se q estmaron usando estmadores consstentes, entonces r N(,1) en probabldad. En conclusón, Perce y Schafer (1989), ctados por Lee y Nelder (1998), mostraron que para dstrbucones de la famla exponencal, la dstrbucón de los resduales desvío es la que más se aproxma a la normal y recomendan utlzar los resduales desvío estudentzados para verfcar la adecuacón del modelo..1.5.. VERIFICACIÓN DEL AJUSTE DEL MODELO.1.5...1 PUNTOS DE APALANCAMIENTO O LEVERAGE La verfcacón del modelo ajustado se realza a través de un análss detallado de las observacones porque queremos verfcar s es que algunas de ellas son nfluyentes desproporconadamente en las estmacones. La dea que está detrás de los puntos de apalancamento es la de evaluar la nfluenca de y sobre su propo valor ajustado y ˆ. La matrz de proyeccón (matrz Hat) para el modelo lneal generalzado está dado por: H W X X WX X W 1/ 1 1/ ( T T = ), (II.36) donde H es smétrca e dempotente. Se sugere la utlzacón de los elementos de la dagonal prncpal de Ĥ para detectar la presenca de puntos de apalancamento en los Modelos Lneales Generalzados. Tenemos que h = traza H = p y exste una ventaja en trabajar con una forma estandarzada h = nh / p, de tal modo que ' ' h = n. Hoagln y Welsch (1978) sugeren el uso de h>p/n, es decr h > para ndcar puntos de alto apalancamento. Una gráfca de h versus los índces con un límte h = es generalmente una herramenta útl para buscar puntos de apalancamento. Cabe

33 notar que para los Modelos Lneales Generalzados un punto en el extremo del rango de las x s no necesaramente podría tener un valor alto de leverage s su peso es demasado pequeño..1.5... MEDIDA DE INFLUENCIA Los valores nfluyentes se detectan medante el análogo del estadístco de Cook de los modelos lneales cláscos. La nfluenca puede ser medda a través del cambo en la estmacón de los parámetros cuando una -ésma observacón es retrada. De esta manera, se evalúa βˆ ˆ () β, donde β ˆ () denota la estmacón elmnando la -ésma observacón, y ˆβ aquella con este valor ncludo. En defntva es una medda de dstanca entre ˆβ y β ˆ (). La estadístca de Cook propuesta es según McCullagh y Nelder (1991): lo cual es equvalente a: LD para uso de los modelos lneales generalzados LD = ( βˆ βˆ)( X WX)( βˆ βˆ )/ pφˆ, (II.37) T () () LD = r' h p(1 h ), donde ' r es el resdual de Pearson estudentzado..1.5...3 MÉTODOS GRÁFICOS PARA EVALUAR LA ADECUACIÓN Según Borges () y Paula (4) las técncas gráfcas más usadas para analzar la adecuacón de los Modelos Lneales Generalzados son las sguentes: a) Resduos vs. valores ajustados: Es recomendado, por ejemplo el gráfco de algún tpo de resduo estudentzado versus ˆη. El comportamento estándar de este gráfco es una dstrbucón de los resduos en torno de cero con una ampltud constante. Para errores con dstrbucón normal los contornos del vector ŷ son líneas rectas paralelas con una ampltud de ±. Este gráfco srve para verfcar la funcón de enlace. No tene sgnfcado para datos bnaros.

34 b) Resduos vs. varables explcatvas ncludas en el modelo: Puede mostrarse s exste una relacón sstemátca entre los resduos y una varable ncluda en el modelo. El comportamento estándar de este gráfco es una dstrbucón aleatora de meda y ampltud constante. c) Resduos vs. tempo: Deben ser hechos sempre que sea posble. Nos puede llevar a la deteccón de patrones no sospechados debdo al tempo, o alguna varable altamente correlaconada con el tempo. d) Gráfco de probabldad normal de los resduos: Medante este gráfco se puede observar la exstenca de observacones atípcas y la adecuacón del modelo. e) Gráfco de la varable dependente ajustada z vs. ˆη, el predctor lneal estmado: El patrón nulo es una recta. Srve para verfcar la adecuacón de la funcón de enlace. f) Valores absolutos de resduos estudentzados vs. valores ajustados: Srven para verfcar la funcón de varanza. El patrón nulo es una dstrbucón aleatora de meda cero y ampltud constante. Una funcón de varanza escogda erradamente mostrará una tendenca en la meda. En general, la no adecuacón de la funcón de varanza será tratada como sobredspersón, tema tratado más adelante. g) Gráfcos de h, LD vs. orden de las observacones: Útl para la vsualzacón de los puntos dscordantes e nfluyentes. Paula (4) ndca que en el caso de los Modelos de Regresón Posson, los gráfcos de estos versus los valores ajustados son más nformatvos que los gráfcos versus el orden de las observacones..1.6 SOBREDISPERSIÓN En los modelos lneales generalzados, uno de los cudados que se debe tomar en el análss de datos, prncpalmente en el caso de las varables dscretas; es que pueda ocurrr la sobredspersón. Cuando se asume que las observacones sguen una dstrbucón de la famla exponencal, la funcón de varanza defnda en la seccón.1 tene una forma conocda, por ejemplo la Var( Y ) = µ para la dstrbucón de Posson y

35 Var( Y) = π (1 π) para los datos bnaros, cuando φ = 1. La sobredspersón ocurre en los casos donde φ > 1. La sobredspersón puede deberse a varas causas: la varabldad del materal expermental, la correlacón entre las respuestas ndvduales, varables explcatvas omtdas, cuando la funcón de enlace no es la adecuada, cuando hay exceso de ceros en las observacones, etc. El no consderar la sobredspersón en los datos puede llevar a una estmacón ncorrecta de los errores estándar, sendo los msmos sobre o subestmados, y por consguente, una evaluacón ncorrecta de la sgnfcanca de los parámetros de regresón ndvdual. Una manera de dagnostcar sobredspersón es evaluar la relacón entre la estadístca Ch-cuadrado de Pearson y el desvío entre sus grados de lbertad.