FACULTAD DE CIENCIAS AGRARIAS Y FORESTALES PROSECRETARÍA DE POSGRADO CURSO DE POSGRADO

FACULTAD DE CIENCIAS AGRARIAS Y FORESTALES PROSECRETARÍA DE POSGRADO CURSO DE POSGRADO 1- Docente responsable Dra. María del Pilar Díaz Profesora Adjunta Estadística y Bioestadística Facultad de Cs. Médicas, Universidad Nacional de Córdoba 2- Nombre del curso Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas 3- Carácter propuesto: Curso de Postgrado acreditable a Carreras de Postgrado 4- Docentes Intervinientes Dra. María del Pilar Díaz (Facultad de Cs. Médicas, Universidad Nacional de Córdoba). Dictado clases teórico-prácticas Carga Horaria: 32 horas Ing. Ftal. Sarah Burns (Facultad de Ciencias Agrarias y Forestales UNLP) Apoyatura en actividades prácticas Carga Horaria: 18 horas 5- Fundamentación de la Propuesta Durante muchos años el área de modelación estuvo restringida a la de los modelos normales clásicos, los cuales eran utilizados para describir la mayoría de los fenómenos aleatorios, aún en los casos en que era bastante razonable suponer distribución no normal para el comportamiento de la variable en estudio. En algunos de estos casos, y aún en la actualidad, se utilizan transformaciones para intentar lograr normalidad. Las transformaciones deben garantizar también simultáneamente los otros supuestos asumidos en un modelo clásico, como constancia de la varianza y linealidad (aditividad) en los parámetros, lo cual ocurre raramente. Así, el uso de datos transformados como base del análisis estadístico es adecuado sólo cuando la escala que hace que los supuestos requeridos se cumplan, tiene significado en el área de estudio, dado que las conclusiones se aplican a las poblaciones transformadas (Mead et al, 1993). Nótese que mientras en supuesto de aditividad concierne a la construcción del modelo, los otros dos, normalidad y

homogeneidad de varianzas se relacionan con la variación aleatoria y no hay garantía de que ambos requisitos resulten de la misma transformación (Mead et al, 1993; Box y Cox, 1982). Una propuesta interesante, basada en un concepto innovador de modelación, surgió en 1972, con el artículo de Nelder y Wedderburn sobre los modelos lineales generalizados (MLG). La idea básica consiste en abrir el abanico de posibilidades u opciones para la distribución de la variable respuesta (esto es, relajar el supuesto de distribución normal), siempre y cuando pertenezca a una familia más amplia de distribuciones: la familia exponencial, así como permitir que la relación entre el valor esperado (media) de la variable y la combinación lineal de los parámetros (parte sistemática del modelo) no sea siempre la identidad, sino cualquier función monótona. Los MLG permiten trabajar con variables de tipo continuas, discretas y categóricas, pertenecientes a la familia exponencial (funciones de densidad normal, gama, normal inversa, distribuciones de probabilidad Poisson, Binomial, Multinomial, entre otras). Por consiguiente, el supuesto de varianzas constantes puede ser relajado, ya que se permite usar funciones de varianza, por ejemplo, en una Binomial, la varianza nµ(1-µ) es función de la media, µ. Por otra parte la aditividad de los efectos sistemáticos puede ocurrir en la escala de una transformación monótona de la media. Es entonces clara la ventaja de los MLG frente a la transformación de datos. Como muchas de estas relaciones funcionales pueden ser del tipo no lineal, Nelder y Wedderburn (1972) propusieron la estimación de los parámetros a través de un proceso iterativo, a la vez que presentaron una medida de bondad de ajuste (ya no una suma de cuadrados, como es en el caso de un modelo lineal normal), llamanda deviance, que es utilizada en el ajuste del modelo y en las etapas de diagnóstico. Como en rigor el método de estimación se basa en el principio de máxima verosimilitud, los estimadores que se obtienen tienen buenas propiedades estadísticas. A partir de trabajo de Nelder y Wedderbur, en 1972, fueron publicados innumerables trabajos científicos sobre MLG. Mas fue a partir del desarrollo del primer software para la estimación de los mismos que este marco metodológico cobró importancia, principalmente en el campo de las Ciencias Biológicas. Ese sistema, denominado GLIM (Generalized Linear Interactive Models, (http://www.nag.co.uk/stats/gdge_soft.asp) (vide Aitkin et al., 1989, Francis et al. 1994), fue desarrollado exclusivamente para el ajuste de MLG, y fue por mucho tiempo, única alterativa para el análisis de datos. Hoy existen otros sistemas estadísticos muy difundidos, como el S-Plus (http://www.insightful.com), R (http://www.r-project.org), SAS (http://www.sas.com), STATA (http://www.stata.com), SUDAAN (http://www.rti.org/sudaan), por citar algunos. Esta teoría ha sido vastamente extendida ya. Wedderburn (1974) proporcionóla base teórica para los modelos de cuasi-verosimilitud, los cuales generalizan los MLG a situaciones más generales, incluyendo datos correlacionados. Jørgensen (1983), con la construcción de los modelos de dispersión, amplia aún más uno de los aspectos centrales de la definición de los MLG: la distribución de la variable respuesta. En 1986, Liang y Zeger (1986) extienden los modelos de cuasi-verosmilitud presentando las ecuaciones generalizadas de estimación (conocidas como GEE), las cuales permiten el abordaje de estudio longitudinales (tiempo o espacio) descriptos por variables aleatorias no normales correlacionadas. Hastie y Tibshirani (1990) presentan los modelos aditivos generalizados (GAM), que suponen un predictor lineal que puede ser formado por funciones semi-paramétricas, adecuadas para descripciones de patrones no lineales que requieren de suavizados. Breslow y Clayton (1993) fueron los primeros en construir el marco teórico para los modelos lineales generalizados mixtos (GLMM), en el sentido de admitir la inclusión de efectos aleatorios (normales) en el predictor lineal. Actualmente las aplicaciones de los MLG

pueden encontrarse en casi todas las disciplinas científicas, siendo un libro óptimo de referencia el McCullagh y Nelder (1989), que será abordado en este curso. 6- Objetivos Objetivo General: 1) Presentar una amplia clase de modelos generalizados, la cual incluye a muchos de los modelos más utilizados en la práctica estadística como casos particulares. 2) Mostrar las estructuras de modelación para algunas situaciones de interés biológico en general y desarrollar el proceso de inferencia de los parámetros. Objetivos Específicos: 1) Adquirir destrezas en el ajuste de los modelos lineales generalizados en el software Statistica. 2) Presentar aplicaciones particulares de los MLG y diversas extensiones de esos modelos a los casos de datos correlacionados. 7- Contenidos (Programa Analítico + Bibliografía) Tema 1: Introducción y Antecedentes: Modelación. Teoría para el ajuste de modelos y su adecuación. Terminología general. Familia Exponencial Uniparamétrica. Tema 2: El Modelo Lineal Generalizado: Introducción. Ejemplos básicos: modelos logístico, probit y complemento log-log para ensayos del tipo Dosis-Respuesta, modelos para tablas de contingencia. Definición de un MLG. Componentes de un modelo lineal generalizado. Metodología general de modelación. Tema 3: Proceso de Estimación e Inferencia: Método de máxima verosimilitud y de mínimos cuadrados. Algoritmo de estimación Funciones de Enlace. Estadísticos Cociente de Máxima Verosimilitud, Wald y Escore. La función Deviance. El análisis de la Deviance (ANODEV). Análisis de diagnóstico: tipos de residuos (Pearson, Ascombe, deviance). Herramientas gráficas. Tema 4: Modelos para Datos Binarios y Politómicos: Distribuciones de probabilidad, estimación máximo verosímil. Regresión logística general. Modelos politómicos. Modelos ordinales: Logístico acumulado o odds proporcionales. Tema 5: Modelos para Datos de Conteo: Métodos clásicos para tablas de contingencia. Modelos Log-lineales. Formulación específica. Tema 6: Aplicaciones de los Modelos Lineales Generalizados y extensiones: Modelos Lineales Generalizados Longitudinales: Definición y estimación de modelos marginales mediante el uso de las Ecuaciones de Estimación Generalizadas (GEE). Metodología: Clases teórico-prácticas, con asistencia de uso de Gabinete de Computación para uso del Statistica. Seminarios grupales sobre tópicos específicos.

Bibliografía: -Agresti, A. 1998. Introduction to Categorical Data Analysis. Wiley, NY. -Aitkin, M.; Anderson, D.; Francis, B.; Hinde, J. 1989. Statistical Modelling in GLIM. Oxford Statistical Sciences Series-Claresdon Press, Oxford. -Collet, D. Modelling Binary Data. Chapman and Hall, London, 1991. 369p. -Díaz, M.P.; Demétrio, C.G.B. 1998. Introducción a los Modelos Lineales Generalizados: Su Aplicación en las Ciencias Biológicas. Screen Edit. 112p. -Diggle, P.J., Liang, K.Y; Zeger, S.L. 1994. Analysis of Longitudinal Data. University Express. Oxford. -Dobson A.J. 1990. An Introduction to Generalized Linear Models. Chapman \& Hall. -Farhrmier L y Tutz G. 2001. Multivariate statistical modelling based on Generalized Linear Models. 2nd. Edition. Springer Verlag. New York. -Heagerty, P. J. y Zeger, S. L. 1996. Marginal Regression Models for Clustered Ordinal Measurements. Journal of the American Statistical Association, 91, 1024-1036. -Liang, K.Y ; Zeger, S.L. 1986 Longitudinal data analysis using generalized linear models. Biometrika, v. 73, p. 13-22. -Lindsey J.K. 1997. Applying Generalized Linear Models. Springer. pp 257. -McCullagh, P.; Nelder, J.A. 1989. Generalized Linear Models. 2nd. ed. London: Chapman \& Hall. -Nelder, J.A.; Wedderburn, R.W.M. 1972. Generalized Linear Models.{\it{Journal of the Royal Statistics Society}}, A, 135:370-384. -Nores, ML; Díaz, MP y Rodríguez, MI. 2004. Ecuaciones de Estimación Generalizadas: Una Aplicación a Respuestas Continuas y Ordinales. VI Congreso Latinoamericano de Sociedades de Estadística. Concepción, Chile. -Paula, G.A. 2002. Modelos de Regressao: com apoio computacional. Texto Preliminar, 227p. IME-USP. Brasil. 8- Metodología: Clases durante cuatro días con una carga horaria presencial de 32 horas distribuida diariamente de 9 a 13 hs. y de 15 a 18 hs. La carga horaria total se completa con 8 horas de trabajo no presencial Las clases serán teórico-prácticas, con asistencia de uso de Gabinete de Computación para uso del Statistica. Seminarios grupales sobre tópicos específicos. 9- Evaluación: (Explicitar condiciones para la aprobación del curso) La acreditación del curso se hará a través de un informe escrito (grupal) sobre trabajos basados en artículos científicos y/o análisis de datos provenientes de situaciones reales en el área biológica.

10 - Cupo de alumnos para el dictado: Mínimo 14 alumnos y máximo 20 alumnos - Destinatarios: Profesionales de diversas áreas, con énfasis en Ciencias Biológicas y/o Matemáticas, con conocimientos de Probabilidad y Estadística General (Estadística Descriptiva e Inferencial). Se recomienda que los mismos hayan abordado, en algún curso, contenidos introductorios a los Modelos Lineales en general. Título de grado que acredite como mínimo un curso de estadística - Arancel: 250 $ - Fecha comienzo y finalización: últimas dos semanas de agosto de 2009 a confirmar 11- Requisitos básicos para el dictado Tipo de Aula : Sala de Computación Tipo de Equipamiento: Cañón y pantalla