Ciencia UANL Universidad Autónoma de Nuevo León rciencia@mail.uanl.mx ISSN (Versión impresa): 1405-9177 MÉXICO 2008 Peter B. Mandeville TEMA 16: LA RAZÓN DE MOMIOS 2. REGRESIÓN LOGÍSTICA Ciencia UANL, enero-marzo, año/vol. XI, número 001 Universidad Autónoma de Nuevo León Monterrey, México pp. 115-118 Red de Revistas Científicas de América Latina y el Caribe, España y Portugal Universidad Autónoma del Estado de México http://redalyc.uaemex.mx
Peter B. Mandeville Tips bioestadísticos Everyone believes in the [normal] law of errors, the experimenters because they think it is a mathematical theorem, the mathematicians because they think it is an experimental fact. Henri Pancaré 1 Tema 16: La razón de momios 2 Regresión Logística Regresión logística es una forma de análisis de regresión que se utiliza cuando la variable de respuesta es binaria, dicótoma. El método se basa en la transformación logística, logit, de una proporción donde es la proporción de los sujetos con la característica. En el conjunto de datos birthwt, es la probabilidad de que una mujer tenga un nacimiento con bajo peso, y es la probabilidad que una mujer no tenga un nacimiento con bajo peso. La cantidad logit(p),, es el logaritmo del momio. Si se tienen dos variables explicativas x 1 y x 2, el modelo de regresión logística es: 2 Si se incrementa en una unidad, mientras se mantiene constante, entonces se incrementa el logit de éxito de β 1 o se incrementa el momio de éxito de exp(β 1 ). 3,4 CIENCIA UANL / VOL. XI, No. 1, ENERO-MARZO 2008 115
TIPS BIOESTADÍSTICOS Los cálculos están efectuados con R 2.6.0. 5 Se sigue utilizando el conjunto de datos birthwt, donde la variable de respuesta es peso al nacer que se clasifica como bajo (menor que 2500 gr) o no bajo (igual o mayor que 2500 gr). Se define el "mejor" modelo al eliminar secuencialmente el término no significativo con la probabilidad mayor, hasta tener un modelo donde todos los términos sean significativos. 4 El modelo final incluye los términos: lwt smoke ht peso de la madre al tener su última menstruación tabaquismo en la madre hipertensión en la madre > library(mass) > data(birthwt) > res <- glm (low~lwt+smoke+ ht,family=binomial,data=birthwt) > summary(res) Call: glm(formula = low ~ lwt + smoke + ht, family = binomial, data = birthwt) Deviance Residuals: Min 1Q Median 3Q Max -1.7067-0.8311-0.6892 1.1550 2.2815 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 1.083538 0.834219 1.299 0.19399 lwt -0.018046 0.006565-2.749 0.00598** smoke 0.683910 0.330954 2.066 0.03878* ht 1.822025 0.686039 2.656 0.00791** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 234.67 on 188 degrees of freedom Residual deviance: 216.86 on 185 degrees of freedom AIC: 224.86 Number of Fisher Scoring iterations:4 Se calculan los límites de confianza para los coeficientes de regresión parcial. > tmp <- confint(res) Waiting for profiling to be done... > tmp[-1,] 2.5 % 97.5 % lwt -0.03179293-0.005906983 smoke 0.03636548 1.337728177 ht 0.51710949 3.264744868 Se calculan las razones de momios, al tomar el antilogaritmo de los coeficientes parciales de regresión. > exp(res$coef[-1]) lwt smoke ht 0.9821154 1.9816101 6.1843679 Y se calculan los límites de confianza de las razones de momios, al tomar el antilogaritmo de los límites de confianza de los coeficientes parciales de regresión. > exp(tmp[-1,]) 2.5 % 97.5 % lwt 0.9687072 0.9941104 smoke 1.0370348 3.8103772 ht 1.6771728 26.1734325 La interpretación depende de la escala de medición de la variable explicativa. Para variables explicativas continuas, el momio (probabilidad) de un nacimiento de bajo peso es 0.98 (límites de confianza a 95% de 0.97 y 0.99) veces que el momio de una mujer que pesa un libra más en su última menstruación, cuando se mantienen las otras variables explicativas constantes. Dado que la razón de momios es menor que 1, puede ser más fácil interpretar el recíproco,, que se interpreta así: si la madre tiene un peso (lwt) 1 libra menos, entonces la probabilidad de tener un nacimiento de bajo peso es 1.0182 veces mayor que si no se gana 1 libra cuando se mantienen las otras variables explicativas constantes. Hay ocasiones en que se requiere de comparar valores. Por ejemplo, cuál es la razón de momios para mujeres con lwt igual a 100, comparado con mujeres con lwt igual a 90? 116 CIENCIA UANL / VOL. XI, No. 1, ENERO-MARZO 2008
PETER B. MANDEVILLE > exp (-0.018046*(100-90)) [1] 0.834886 El momio (probabilidad) de un nacimiento con peso bajo para una mujer que tuvo un lwt de 100 libras es 0.83, comparado con el de una mujer que tuvo un lwt de 90 libras, explicativas constantes. La interpretación en términos del recíproco es: > 1/0.834886 [1] 1.197768 El momio (probabilidad) de un nacimiento con peso bajo es 1.20 veces mayor para una mujer que tuvo lwt de 90 libras que para una mujer que tuvo lwt de 100 libras, cuando se mantienen las otras variables explicativas constantes. Para variables explicativas discretas, la interpretación es distinta. Si la madre fuma, entonces el momio, probabilidad, de un nacimiento de peso bajo es 1.98 veces (límites de confianza a 95% de 1.04 y 3.81) mayor que si la madre no fuma, explicativas constantes. Si la madre tiene hipertensión, entonces el momio (probabilidad) de un nacimiento de peso bajo es 6.1844 veces (límites de confianza a 95% de 1.68 y 26.17) mayor que si la madre no tiene hipertensión, explicativas constantes. Regresión de riesgos proporcionales (regresión de Cox) La razón de riesgos, hazard ratio (HR), es la de dos funciones de riesgo, típicamente es reportada como el efecto estimado del grupo 1 relativo al grupo 2. Como con la razón de momios, si el evento bajo estudio es fallecimiento u otro evento adverso, entonces una razón de riesgo entre cero y la unidad se interpreta como efecto protector, mientras que una razón de riesgo mayor que la unidad se interpreta como efecto dañino. Si el evento bajo estudio es benéfico, la interpretación es invertida. 6 Si la razón de riesgo cumple con el supuesto de riesgos proporcionales, entonces: 7 Como una razón de momios muchas veces es una forma natural para describir un efecto sobre una respuesta binaria, una razón de riesgos es una forma natural para describir un efecto sobre el tiempo de supervivencia. 4 Se utilizó el conjunto de datos VA, Veteran's Administration Lung Cancer Trial. > library(mass) > data(va) > res <- coxph(surv(stime,status)~age+ Karn+factor(cell),data=VA) > summary(res) Call: coxph(formula=surv(stime,status)~age +Karn+factor(cell),data=VA) n= 137 coef exp(coef) se(coef) z p age -0.00603 0.994 0.00905-0.666 5.1e-01 Karn -0.03202 0.968 0.00540-5.924 3.1e-09 factor(cell)2 0.72413 2.063 0.25287 2.864 4.2e-03 factor(cell)3 1.17191 3.228 0.29374 3.990 6.6e-05 factor(cell)4 0.32191 1.380 0.27657 1.164 2.4e-01 exp(coef) exp(-coef) lower.95 upper.95 age 0.994 1.006 0.977 1.012 Karn 0.968 1.033 0.958 0.979 factor(cell)2 2.063 0.485 1.257 3.386 factor(cell)3 3.228 0.310 1.815 5.741 factor(cell)4 1.380 0.725 0.802 2.373 Rsquare= 0.354 (max possible= 0.999 ) Likelihood ratio test= 59.8 on 5 df, p=1.33e-11 Wald test = 60.3 on 5 df, p=1.04e-11 Score (logrank) test = 64 on 5 df, p=1.86e-12 Los antilogaritmos de las razones de riesgo, los límites de confianza y los CIENCIA UANL / VOL. XI, No. 1, ENERO-MARZO 2008 117
TIPS BIOESTADÍSTICOS recíprocos de los antilogaritmos de las razones de riesgo se calculan automáticamente, lo cual simplifica el proceso. Referencias 1. Rand R. Wilcox. (2001). Fundamentals of Modern Statistical Methods: Substantially Improving Power and Accuracy. Springer-Verlag New York, Inc., New York, NY, USA. 2. Douglas G. Altman. (1991). Practical Statistics for Medical Research. Texts in Statistical Science. Chapman & Hall, Ltd., London, UK. 3. Julian J. Faraway. (2006). Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric Regression Models. Texts in Statistical Science. Chapman & Hall/CRC, Boca Raton, FL, USA. 4. Frank E. Harrell, Jr. (2001). Regression Modeling Strategies: With Applications to Linear Models, Logistic Regression, and Survival Analysis. Springer Series in Statistics. Springer- Verlag New York, Inc., New York, NY, USA. 5. R Development Core Team. (2007). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.r-project.org. 6. Abdelmonem Afifi, Virginia A. Clark y Susanne May. (2004). Computer-Aided Multivariate Analysis. Fourth edition. Chapman & Hall/CRC, Boca Raton, FL, USA. 7. Eric Vittinghoff, David V. Glidden, Stephen C. Shiboski y Charles E. McCulloch. (2005). Regression Methods in Biostatistics: Linear, Logistic, Survival, and Repeated Measures Models. Statistics for Biology and Health. Springer Science+Business Media, Inc., New York, NY, USA. 118 CIENCIA UANL / VOL. XI, No. 1, ENERO-MARZO 2008