Regresión ecológica mediante modelos jerárquicos bayesianos con valores ausentes en la covariable



Documentos relacionados
Artículos 1. INTRODUCCIÓN

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES

Aplicación para la docencia en ingeniería: Cálculo de costes de mecanizado. MECACOST 1.0

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN ANÁLISIS MULTIVARIADO

GESTIÓN DEL MEDIO AMBIENTE URBANO. (LIMPIEZA VIARIA, MANTENIMIENTO DE ZONAS VERDES, RESIDUOS URBANOS Y ABASTECIMIENTO DE AGUA)

SELECCIÓN N Y DISEÑO DEL PRODUCTO Y SERVICIO

Características de los pacientes diabéticos hospitalizados en dos hospitales de EsSalud Piura

Revisión del Universo de empresas para la Estimación de los Datos Del Mercado Español de Investigación de Mercados y Opinión.

XVIII CONFERENCIA REGIONAL SOBRE MIGRACIÓN (CRM)

Los estados financieros proporcionan a sus usuarios información útil para la toma de decisiones

Correspondencias entre taxonomías XBRL y ontologías en OWL Unai Aguilera, Joseba Abaitua Universidad de Deusto, EmergiaTech

SECTORES CAD Y SECTORES CRS

Prevalencia de la ansiedad y cargas asociadas

UNA HERRAMIENTA DE GESTION CENTRALIZADA DE INDICADORES DE CALIDAD EN EUSTAT

INTERPOLACIÓN POLINÓMICA Y LA DIVISIÓN DE SECRETOS

Capítulo 10. Estudio de un caso con parámetros reales: acuífero de Borden

Línea Base Juan Carlos Bajo Albarracín Qué es una línea base Cómo implantar la Ley 29783: El concepto sistema de gestión en la Ley 29783

Capítulo 6: Conclusiones

Caso práctico de Cuadro de Mando con Tablas Dinámicas

Curso de implantación 2010/2011

AUTORA: SUSANA REYES BENÍTEZ DNI: C LA IMPORTANCIA DE LOS RECUROS HUMANOS. Introducción:

Facultad de Ciencias. Matemática (UCM)

PROYECTO DE CALIDAD TURÍSTICA

Sistemas de Calidad Empresarial

INDICADORES SOBRE TURISMO Y SOSTENIBILIDAD EN LOS DESTINOS: UNA APROXIMACIÓN DESDE ANDALUCÍA

Registro Nacional de Cáncer de Próstata

Anexos II.A7 Acta de revisión del Sistema de Gestión Medioambiental

Diagnosis y Crítica del modelo -Ajuste de distribuciones con Statgraphics-

Programa en Microsoft Visual Basic 6.0 para el análisis de riesgos eléctricos en oficinas y centros de cómputo. López Rosales, Juan Carlo.

UNA MAESTRIA EN ADMINISTRACION DE INSTITUCIONES CIENTIFICAS *

INTrodUCCIÓN El museo Como recurso EdUCATIvo

Covarianza y coeficiente de correlación

NORMA ISO DE RIESGOS CORPORATIVOS

LA INTERVENCIÓN SOCIAL PROFESIONAL: RETOS DE FUTURO

Operativa en Acciones: Introducción a la Bolsa

Módulo III. Aprendizaje permanente Tema 4: Aprendizaje de actividades laborales Entrevista. El papel de las familias como impulsoras del empleo

LINEAMIENTOS PARA LA ELABORACIÓN DEL PROGRAMA ANUAL DE TRABAJO

Cálculo Simbólico también es posible con GeoGebra

METODOLOGIA. El programa de Prevención CIBILETE, se ha realizado en 6 Institutos de Educación Secundaria y 2

AHORRO ENERGÉTICO DOMÉSTICO. NIVEL DE IMPLANTACIÓN.

UN PROBLEMA CON INTERÉS Y CALCULADORA

TALLER 2. MEJORA CONTINUA

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Haga clic en Siguiente para comenzar.

Auditorías de calidad

proporción de diabetes = = % expresada en porcentaje

Propuesta de Autobuses Directos (Exprés) Alpedrete-Madrid

Cuáles son las funciones y desempeño asociadas del equipo en su contexto operativo?, o un poco mas coloquialmente;

Cambio climático y agua en Cataluña. Cambio climático Constataciones Mitigación Impactos y adaptación

La solidaridad corre por tus venas, dona sangre, dona vida!!!

SISTEMA DE CENTROS DE COSTOS

Informe final de evaluación del seguimiento de la implantación de títulos oficiales MÁSTER UNIVERSITARIO EN PERIODISMO MULTIMEDIA PROFESIONAL

PROBLEMAS Y SOLUCIONES EN EL DESARROLLO DE LA IDE EXTREMADURA

Uso de las tecnologias de la informacion en las PyMES de los municipios de Comalcalco y Cunduacán

Tema 2: Muestreo. Estadística. 4 o Curso. Licenciatura en Ciencias Ambientales

UNA LECCIÓN DE ESTEREOMETRÍA ASISTIDA POR COMPUTADORA

Estos cambios suelen traducirse en oportunidades de venta para la empresa o en amenazas para la misma, de ahí la importancia de vigilar el entorno.

PODER ADJUDICADOR: DIPUTACIÓN PROVINCIAL DE ALBACETE

INFORME DE INSERCIÓN LABORAL CURSO GRADO EN FISIOTERAPIA

LOS ANCIANOS Y LA SOLEDAD

La transnacionalidad en los proyectos comunitarios

Guía para la elaboración de Proyectos de Formación Sindical Ambiental e Investigación en Trabajo y Desarrollo Sustentable

DISEÑO DE INDICADORES DE DESIGUALDAD SOCIAL EN LAS CIUDADES.-

Índice. Introducción. Percepción e imagen de la FAD entre las familias españolas. Julio 2001

ANALISIS MULTIVARIANTE

CONCLUSION. A través de ésta tesis observamos de una manera muy clara que la

PROYECTO MEDICINA PERSONALIZADA PARA EL CÁNCER INFANTIL CÁNCER INFANTIL. Javier Alonso

Control de procesos. Introducción

Servicio de estadísticas de Alojamiento Fecha de revisión: 19/09/2005

Capítulo 1. Introducción

PROGRAMAS OFICIALES DE POSGRADO

CAPITULO I CONTEXTO INSTITUCIONAL EN EL SISTEMA ESTATAL PENITENCIARIO

CAPÍTULO 1 INTRODUCCIÓN. Introducción

Análisis y gestión de riesgo

ÍNDICE. Ficha técnica Encuesta y cuestionario Finalidad y resultados de la encuesta Primera parte: conocimiento...

Adaptación del producto

Programa de trabajo para Escuelas Asociadas

La Gestión Operativa: La Clave del Éxito.

Las razones financieras ayudan a determinar las relaciones existentes entre diferentes rubros de los estados financieros

Aire ambiente: No se recogieron muestras en esta comunidad.

_ Antología de Física I. Unidad II Vectores. Elaboró: Ing. Víctor H. Alcalá-Octaviano

Fracción másica y fracción molar. Definiciones y conversión

Bases de datos segmentadas y actualizadas, la base de cualquier relación comercial

CASO PRÁCTICO DISTRIBUCIÓN DE COSTES

Diseño y desarrollo de una aplicación informática para la gestión de laboratorios

NOVEDADES Y MEJORAS. datahotel versión 9.00 TRABAJAR CON I.V.A INCLUIDO

NUEVAS SOLUCIONES y CAMBIOS EN LA GESTION DEL NEGOCIO. JOSE LUIS LENCE Socio Director de Gesfarm Consultoria Farmacias

Introducción. Rene Coulomb* y Martha Schteingart*

Primeramente debe conocer que los objetivos específicos de este tema son:

Revisión de ISO 9001:2015 e ISO 14001:2015 Respuestas sobre las nuevas versiones de ISO 9001 e ISO 14001

CARRERA: INGENIERÍA EN GESTIÓN EMPRESARIAL SEMESTRE: 8 DOCENTE: VALDEZ RAMÍREZ ESTEBAN AUDITORIA DE LA CALIDAD ALUMNA PINEDA MERAZ AVILENE

Capítulo 4 4. CONCLUSIONES Y RECOMENDACIONES. compañías estudiadas con un 45% y un 34% respectivamente.

FORMACIÓN EN COMPETENCIAS INFORMACIONALES Y SU GESTIÓN DE CALIDAD EN LA BIBLIOTECA UNIVERSITARIA DE GRANADA: PRIMERAS EXPERIENCIAS

PUNTO FIJO DE INFORMACIÓN Y ANÁLISIS DE DROGAS

Cuestionario sobre marketing 2.0

ANEXO III: Panel de expertos

por Miguel Crespo Celda

Guía LEGAL Conectores sociales Y "SOCIAL LOGIN"

IV SESIÓN DE TRABAJO DE FORO DE EXPERTOS EN RSE El Informe de RSE como motor de la Responsabilidad Social

ÍNDICE 1.0 INTRODUCCIÓN INSTALACIÓN Inserción de la tarjeta en el dispositivo Inserción del dispositivo CAM tdt en el televisor 4

Transcripción:

Regresión ecológica mediante modelos jerárquicos bayesianos con valores ausentes en la covariable C. Abellán 1 ya.lópez-quílez 2 1 Àrea d Epidemiologia. Direcció General de Salut Pública. Conselleria de Sanitat. Generalitat Valenciana 2 Departament d Estadística i Investigació Operativa. Universitat de València Introducción Este trabajo se enmarca en el creciente interés por el estudio de la repercusión en la Salud Pública de los problemas medioambientales. La regresión ecológica se ha convertido en una herramienta esencial para llevar a cabo este tipo de análisis ya que permite la inclusión de factores de riesgo como covariables así como la de componentes aleatorias que modelicen posibles factores ocultos. Sin embargo, la resolución de este tipo de problemas resulta muy compleja empleando procedimientos habituales cuando tenemos valores ausentes en la covariable. Nuestro objetivo es abordar el problema de trabajar con datos incompletos en el marco de los modelos lineales generalizados mixtos ayudándonos de los avances en análisis bayesiano vía métodos Markov Chain Monte Carlo (MCMC). Regresión ecológica espacial Recientes desarrollos en Estadística Espacial permiten obtener mejores resultados en el estudio de la correlación entre factores de riesgo e indicadores de salud. Modelos estadísticos como la regresión de Poisson así como otros modelos lineales generalizados (McCullagh y Nelder, 1989) han contribuido mucho a este desarrollo incluyendo la información que sobre los factores de riesgo nos proporcionan las unidades próximas geográficamente. Es más, la inclusión de factores aleatorios en el modelo lineal generalizado nos permite tener en cuenta la sobredispersión que generalmente aparece en datos geográficos de salud. En particular, dentro de los análisis estadísticos espaciales los relacionados con el efecto de factores medioambientales y más concretamente el estudio de los posibles efectos que sobre la salud tiene la calidad del agua potable han sido importantes últimamente debido a su gran interés desde el punto de vista social y de la salud pública (Ferrándiz et al., 1999, 2003). Nuestro interés se centra en analizar la posible relación entre las concentraciones

20 Regresión ecológica mediante modelos bayesianos con valores ausentes en la covariable de nitrato presentes en el agua potable y la mortalidad por cáncer de estómago en los municipios de la Comunidad Valenciana teniendo en cuenta el patrón geográfico. Al abordar un estudio de estas características, es lógico pensar en las observaciones en cada unidad geográfica como datos correlados debido a la existencia de factores ocultos. Además, podemos considerar el origen de parte de estos factores ocultos en fenómenos medioambientales, lo que produciría observaciones correladas en unidades geográficas vecinas. Estos factores ocultos suelen ser modelizados con dos efectos aleatorios, heterogeneidad y espacial (Besag et al., 1991). La componente de heterogeneidad permite ajustar la influencia de factores de riesgo ocultos locales independientemente en cada unidad geográfica. Esto se consigue generalmente considerando cada componente como una observación aleatoria de una distribución normal debidamente centrada. La componente espacial recoge factores de riesgo geográficos cuya influencia afecta no solo a una única unidad geográfica o que posee una suave variación geográfica mostrando niveles de riesgo similares en observaciones vecinas. Este efecto espacial es generalmente modelizado mediante una distribución condicional autoregresiva normal, denominada CARNormal (Besag y Kooperberg, 1995) que permite introducir la relación de vecindad entre observaciones definiendo la distribución de cada observación condicional al resto de observaciones como la distribución condicionada únicamente a las observaciones vecinas. El empleo de la distribución CAR para modelizar la similitud entre observaciones próximas geográficamente es habitual en el contexto de la suavización de razones de mortalidad (Ferrándiz et al., 2002). La perspectiva bayesiana nos permite modelizar este tipo de estudios geográficos de un modo sencillo y natural mediante el empleo de modelos jerárquicos. Además recurriendo a métodos MCMC evitamos las dificultades derivadas de intentar obtener la distribución posterior exacta de los parámetros de interés. Este procedimiento es utilizado con frecuencia en diferentes ámbitos permitiendo realizar una amplia variedad de estudios como análisis espacio temporales de riesgos de enfermedad (Bernardinelli et al., 1995; Waller et al., 1997) o análisis de regresión con covariables (Ferrándiz et al., 2003). Valores ausentes Sin embargo, en nuestro estudio el principal problema es que los datos de concentraciones de nitratos están incompletos debido a la existencia de valores ausentes. Este problema es bastante común en datos medioambientales y provoca que sea muy complicado llevar a cabo análisis con estas covariables. Además las técnicas estadísticas diseñadas para trabajar con valores ausentes suelen ser complejas, muy costosas a nivel computacional y específicas de cada aplicación. Por tanto, para facilitar el análisis mediante las técnicas estadísticas habituales incluidas en los paquetes esta-

C. Abellán y A. López Quílez 21 dísticos comunes, es preferible completar la covariable estimando los valores ausentes, es decir, imputándolos. La imputación de datos se convierte en necesaria cuando la covariable va a ser utilizada en diferentes ámbitos de análisis y para diferentes propósitos. Además, generalmente la fuente de los datos y el usuario de éstos suelen estar en diferentes entidades lo que reafirma aún más la necesidad de imputar la información ausente (Rubin, 1987). Datos Como hemos mencionado antes, la calidad del agua potable es un importante factor de vigilancia en salud pública y, por tanto, es regularmente analizado por la Agencia de Medioambiente de la Comunidad Valenciana desde 1991. Concretamente, se han medido anualmente las concentraciones de nitratos en cada uno de los 540 municipios de la Comunidad Valenciana durante el periodo 1991-2000. Estos datos presentan un alto porcentaje de valores ausentes (alrededor del 30 %), haciendo la imputación necesaria. Por otro lado, la mortalidad por cáncer de estómago en los municipios de la Comunidad Valenciana ha sido registrada anualmente para el periodo 1991-2000 y proporcionada por el Registro de Mortalidad de la Comunidad Valenciana. Modelización El hecho de que los datos de concentraciones de nitratos haya sido registrado por municipio nos induce a pensar en una posible correlación geográfica. Por tanto, en el modelo de imputación, incluimos una componente espacial aleatoria para cada municipio que recoja la relación espacial entre observaciones vecinas. Esta componente además presenta la ventaja de proporcionar imputaciones fiables para aquellos municipios vecinos con un alto porcentaje de valores ausentes a lo largo del periodo de estudio. Además de esta correlación espacial, como los datos han sido medidos anualmente en el periodo de 1991 a 2000, cabe pensar en una tendencia temporal independiente para cada municipio en las concentraciones de nitratos. Debido a esto, incluimos una componente temporal aleatoria diferente para cada municipio y año con la intención de ajustar dicha tendencia temporal. Como el principal interés está en el estudio de cómo afectan las concentraciones de nitratos a la mortalidad por cáncer de estómago mediante una regresión espacial, incluimos la imputación de la covariable en el propio estudio. Es decir, planteamos un modelo jerárquico bayesiano que incluye en un primer nivel las concentraciones de nitratos como covariable y las componentes de heterogeneidad y espacial mencionadas antes, teniendo en cuenta la correlación espacial de los datos de mortalidad. En un

22 Regresión ecológica mediante modelos bayesianos con valores ausentes en la covariable segundo nivel modelizamos la imputación de la covariable introduciendo la estructura espaciotemporal descrita. En los siguientes niveles especificamos las distribuciones de las componentes que forman parte de la modelización así como las distribuciones previas de los parámetros del modelo. Procediendo de esta forma en lugar de imputar la covariable primero y realizar la regresión ecológica después, conseguimos no perder la variabilidad de la imputación incluyéndola en el estudio de la relación entre las concentraciones de nitratos y la mortalidad por cancer de estómago. Resultados Con esta compleja modelización es muy difícil trabajar a nivel analítico. Sin embargo, su análisis es posible desde la perspectiva bayesiana empleando métodos de simulación basados en técnicas MCMC para obtener las distribuciones finales de las cantidades desconocidas: los parámetros del modelo y las estimaciones de los valores ausentes. El procedimiento de simulación consiste, de forma resumida, en simular primero observaciones de la covariable para aquellos valores que están ausentes (imputación), con esto se completa la covariable, y después simular valores de los parámetros de la regresión. Para el proceso de simulación hemos hecho uso del software WinBUGS. Este programa de libre distribución implementa técnicas de simulación mediante Gibbs Sampling (Green, 2001) y facilita el análisis bayesiano, teniendo las cautelas necesarias. Como resultados preliminares, encontramos que el modelo de imputación ajusta adecuadamente la estructura espacio temporal de los datos de concentración de nitratos, proporcionando mejores imputaciones que otros modelos con los que hemos probado. Además, a pesar de ser difícil detectar relación de factores de riesgo medioambientales en estudios de salud debido a que los efectos que éstos tienen sobre la salud son generalmente muy débiles, observamos mayor riesgo en aquellas zonas con valores altos de concentración de nitratos. Agradecimientos Este trabajo ha sido parcialmente financiado por la Dirección General de Salud Pública de la Generalitat Valenciana mediante un acuerdo de colaboración con la Universitat de València. Referencias Bernardinelli, L., Clayton, D., Pascutto, C., Montomoli, C. y Ghislandi, M. (1995). Bayesian analysis of space-time variation in disease risk. Statistics in Medicine

C. Abellán y A. López Quílez 23 14:2433 2443. Besag, J. y Kooperberg, C. (1995). Biometrika 82:733 746. On conditional and intrinsic autoregressions. Besag, J., York, J. y Mollié, A. (1991). Bayesian image restoration, with two applications in spatial statistics. Annals of the Institute of Statistical Mathematics 43:1 59. Ferrándiz, J., Abellán, J., López, A., Sanmartín, P., Vanaclocha, H., Zurriaga, O., Martínez-Beneito, M., Melchor, I. y Calabuig, J. (2002). Geographical distribution of the cardiovascular mortality in Comunidad Valenciana (Spain). D. Briggs, P. Forer, L. Jarup y R. Stern. (eds.), GIS for Emergency Preparedness and Health Risk Reduction, 267 282. Dordrecht, The Netherlands: Kluwer Academic Publishers. Ferrándiz, J., López, A., Gómez-Rubio, V., Sanmartín, P., Martínez-Beneito, M. A., Melchor, I., Vanaclocha, H., Zurriaga, O., Ballester, F., Gil, J. M., Pérez-Hoyos, S. y Abellán, J. J. (2003). Statistical relationship between hardness of drinking water and cerebrovascular mortality in Valencia: a comparison of spatiotemporal models. Environmetrics 14:491 510. Ferrándiz, J., López, A. y Sanmartín, P. (1999). Spatial regression models in epidemiological studies. A. Lawson, A. Biggeri, D. Böhning, E. Lesaffre, J. Viel y R. Bertolini (eds.), Disease Mapping and Risk Assessment for Public Health, 203 215. Chichester, U.K.: Wiley. Green, P. (2001). A primer of Markov Chain Monte Carlo. O. E. Barndoff-Nielsen, D. R. Cox y C. Klüppelberg (eds.), Complex Stochastic Systems, 1 62. London: Chapman and Hall / CRC. McCullagh, P. y Nelder, J. (1989). Generalized linear models. London: Chapman and Hall, Second Edition. Rubin, D. B. (1987). Multiple Imputation for Nonresponse in Surveys. New York: Wiley. Waller, L. A., Carlin, B. P., Xia, H. y Gelfand, A. E. (1997). Hierarchical spatiotemporal mapping of disease rates. Journal of the American Statistical Association 92:607 617.