RE2. Regresión logística binaria, multinomial, de Poisson y binomial negativa Curso 204/5 Solución resumida de la prueba de evaluación Unidad didáctica (D) La regresión logística puede utilizarse en cualquiera de los estudios incluidos en esta pregunta. En la Unidad se ha explicado cómo se interpretan sus resultados en función del tipo de diseño utilizado para la recogida de los datos. 2 (B) Los diferentes estudios comparativos realizados indican que la regresión logística es más robusta que el análisis discriminante porque requiere menos supuestos para su aplicación. 3 (D) La regresión logística permite relacionar una variable dependiente categórica binaria Y con varias variables independientes cuantitativas y/o binarias. 4 (A) Por definición, la función logística (con forma de S) presenta valores entre 0 y. 5 (D) Por definición, la función logit (logaritmo neperiano de una odds) puede tomar valores entre y +. 6 (C) Una característica de la función logística es su rápida convergencia hacia 0 y. Así, para valores Z inferiores a 3 el valor de la función es menor que 0.05, y para valores Z superiores a +3 el valor de la función es mayor que 0.95. 7 (D) Puesto que en el modelo de regresión logística la variable dependiente Y es binaria (/0), su media equivale a la proporción de sujetos que presentan la respuesta. De este modo, la componente sistemática modeliza la proporción x de sujetos con la característica Y= para cada posible valor de X, es decir, la probabilidad condicional de que un sujeto presente la respuesta. 8 (A) Pr (Y= X) = x = ( 0 x ) e Odds = x x = e ( 0 x ) 9 (B) En este caso, e es el factor por el cual se multiplica la odds de la respuesta (Y) cuando la variable predictora X se incrementa en unidad. 0(C) El modelo de regresión logística supone que la distribución de los residuales, para cada posible valor de X, tiene media 0, variancia x ( x ), no constante para diferentes valores de X, y probabilidades dadas por la ley Binomial. (B) Los coeficientes de la regresión logística se estiman con un estimador máximo-verosímil. 2(D) Muchos programas de ordenador dan el valor LL (logaritmo neperiano de la verosimilitud) de cada modelo estimado, que es un valor negativo. Stata lo presenta como Log Likelihood. 3(A) El valor de la verosimilitud L oscila entre 0 y. 4(D) El logaritmo neperiano de la verosimilitud (LL) será un número negativo, que alcanzaría el valor 0 en un hipotético modelo que reprodujera exactamente los datos. 5(B) De LL=0 se deduce el valor: L=. 6(C) De LL = n ln(0.5) se deduce el valor: L = 0.5 n 7(B) Un ensayo clínico, igual que un estudio de cohortes, permite estimar incidencias de manera que su valor será un ROR. Sin embargo, como en un ensayo clínico la respuesta no acostumbra a tener baja prevalencia no podrá ser considerado como una estimación del riesgo relativo RR. Sin embargo, dicho RR podrá ser calculado de forma directa a partir de las estimaciones de las incidencias acumuladas que permite obtener la regresión logística. 8(C) En un estudio transversal las odds estiman prevalencias. En este caso la razón de odds que representa e se denomina razón de odds de prevalencia POR. 9(D) En un estudio de casos y controles, la razón de odds (OR) se puede interpretar como una estimación del riesgo relativo (RR) si la respuesta tiene baja frecuencia. 20(B) En un diseño de cohortes e puede ser interpretado como una medida del efecto del factor X sobre la respuesta Y. La razón de odds se denomina razón de odds de riesgo ROR. 2(A) Ver comentario a pregunta 7. 22(C) En estudios de casos y controles los grupos de sujetos expuestos y no expuestos no reproducen la prevalencia de la respuesta porque el número de casos y controles depende del diseño planteado por el investigador. Así, el RR sólo puede ser estimado de forma indirecta a través de la OR si en la población la respuesta es de baja prevalencia. 0 = e x e UD: El modelo de regresión logística
RE2. Regresión logística binaria, multinomial, de Poisson y binomial negativa Curso 204/5 Solución resumida de la prueba de evaluación Unidad didáctica Problema A 23(C) ROR = e 0.2 =.22. La respuesta B es falsa porque la hipertensión no tiene baja prevalencia. La respuesta A no es correcta porque este coeficiente carece de interpretación clínica. Se trata de una razón de odds de riesgo por ser un estudio de cohortes. 24(C) ROR = e 0.2 20 = e 4 = 54.6 25(A) Z =.8 + 0.2 T + 2.5 O de donde: Z T=20; O = =.8 + 0.2 20 + 2.5 = 4.7; Z T=0; O= =.8 + 0.2 0 + 2.5 = 0.7 26(A) Obesos: 27(C) RR = RR = + e + e 4.7 (.8) + e + e 28(B) Pr (H= t=0; O=) = 4.7 0.990987 = 0.485 + e =.483 = 6.986 = 0.6688 > 0.5 H = Pr(H= t=0; O=0) = = 0.485 < 0.5 H = 0 + e 29(C) OR = e 0.2 =.22. La respuesta B es falsa porque la hipertensión no tiene baja prevalencia y la razón de odds no puede interpretarse como un riesgo relativo. 30(D) Véase comentario a pregunta anterior. En este caso sólo es posible estimar la razón de odds a través del coeficiente b porque no se cumple el supuesto de baja prevalencia: OR = e 0.2 20 = e 4 = 54.6. Problema B 3(B) Se trata de un estudio de seguimiento de dos cohortes con PAS baja y alta. 32(B) OR = (20/95)/(894/73) = 2.4424 33(B) RR = (95/296)/(73/067) =.979 34(C) Odds Ratio = OR = 2.442 35(A) OR = e b b = ln OR = ln 2.4424 = 0.893 36(B) b = 0.893; S E(b) = 0.497 IC 95% de b: b ±.96 S E(b) = 0.893 0.2934 0.5996 a.864 37(D) IC95% OR: e 0.5996 a e.864.82 a 3.275 Solución con Stata. Este problema se debe contestar aplicando las fórmulas. Para comprobar los resultados se presenta la solución con Stata. clear input PAS EC Frec //Introducción de los datos a partir de una tabla 2x2 0 0 894 0 73 0 20 95 end expand Frec label define dec 0 "No" "Sí" label values EC dec label define dpas 0 "<65" ">=65" label values PAS dpas UD: El modelo de regresión logística 2
RE2. Regresión logística binaria, multinomial, de Poisson y binomial negativa Curso 204/5 Solución resumida de la prueba de evaluación Unidad didáctica cs EC PAS, or PAS Exposed Unexposed Total Cases 95 73 268 Noncases 20 894 095 Total 296 067 363 Risk.3209459.62368.96625 Point estimate [95% Conf. Interval] Risk difference.58809.025.264067 Risk ratio.979476.5973 2.453353 Attr. frac. ex..494858.373877.5923945 Attr. frac. pop.7540 Odds ratio 2.44242.822462 3.273429 (Cornfield) logit EC PAS, or chi2() = 37.00 Pr>chi2 = 0.0000 Logistic regression Number of obs = 363 LR chi2() = 33.94 Prob > chi2 = 0.0000 Log likelihood = -658.65427 Pseudo R2 = 0.025 EC Odds Ratio Std. Err. z P> z [95% Conf. Interval] PAS 2.44242.3655496 5.97 0.000.82469 3.275036 _cons.93523.06073-9.77 0.000.644402.2277242 logit EC PAS EC Coef. Std. Err. z P> z [95% Conf. Interval] PAS.892986.496675 5.97 0.000.599643.86329 _cons -.64244.0830597-9.77 0.000 -.805208 -.47962 Problema C import excel "204RE2.xls", sheet("autoevc") firstrow clear label variable MC "Masa corporal (kg/m2)" label variable Trat "Tratamiento" label variable Compl "Complicaciones" label define dtrat "Sólo dieta" 2 "Tabletas" 3 "Insulina" label values Trat dtrat label define dnosi 0 "No" "Sí" label values Compl dnosi logit Compl MC i.trat estimates store Mmax Logistic regression Number of obs = 6 LR chi2(3) = 9.07 Prob > chi2 = 0.0283 Log likelihood = -6.55342 Pseudo R2 = 0.409 Compl Coef. Std. Err. z P> z [95% Conf. Interval] MC.306567.2470896.26 0.209 -.73630.7949435 Trat Tabletas -3.480065.909847 -.82 0.068-7.223296.263668 Insulina -3.28295.764977 -.86 0.063-6.742205.76376 _cons -6.35473 6.3803 -.00 0.39-8.86073 6.52383 UD: El modelo de regresión logística 3
RE2. Regresión logística binaria, multinomial, de Poisson y binomial negativa Curso 204/5 Solución resumida de la prueba de evaluación Unidad didáctica 38(B) Los comandos de lectura y definición de datos, y de estimación del modelo, se encuentran en el listado anterior, junto a la estimación del modelo presentando los coeficientes y presentando las OR. También se almacena el modelo en memoria con el nombre Mmax para posteriores comparaciones. 39(A) La prueba de razón de verosimilitud global se presenta en el listado anterior. 40(D) Se obtiene comparando con el comando lrtest la verosimilitud del modelo máximo (que contiene MC y Trat) con la del modelo reducido sin la variable MC: logit Compl i.trat estimates store Mmc lrtest Mmc Mmax Likelihood-ratio test LR chi2() = 2.4 (Assumption: Mmc nested in Mmax) Prob > chi2 = 0.437 4(B) Se obtiene comparando con el comando lrtest la verosimilitud del modelo máximo (que contiene MC y Trat) con la del modelo reducido sin la variable Trat: logit Comp MC estimates store Mtrat lrtest Mtrat Mmax Likelihood-ratio test LR chi2(2) = 6.80 (Assumption: Mtrat nested in Mmax) Prob > chi2 = 0.0334 Se deduce que Trat es una variable relevante ya que la prueba de razón de verosimilitud es estadísticamente significativa (p=0.033), reflejando una pérdida significativa de verosimilitud al eliminar Trat. logit Compl MC i.trat, or Compl Odds Ratio Std. Err. z P> z [95% Conf. Interval] MC.36432.337095.26 0.209.8406078 2.2436 Trat Tabletas.0308054.0588336 -.82 0.068.0007294.30044 Insulina.037587.066297 -.86 0.063.008.92887 _cons.007395.00996 -.00 0.39 6.44e-09 469.8356 42(D) La opción A es correcta pues presenta el IC95% de OR. La opción B es correcta pues presenta el IC95% de b. La opción C es correcta pues la tendencia indicada es cierta. 43(A) La prueba de razón de verosimilitud es más potente que la prueba de Wald, por lo que, en caso de discrepancia entre ambas, debe ser la prueba de elección. El tratamiento con tabletas o con insulina tiene un efecto similar, pero disminuye (no aumenta) la probabilidad de complicaciones respecto a sólo dieta. 44(C) El efecto de la insulina respecto a sólo la dieta se representa en la variable ficticia Trat2 (Insulina), en el valor de su OR e IC95%. 45(C) Para realizar predicciones se añade un sujeto sin valor en Comp y con MC=25 y Trat=3. Seguidamente se estima la regresión logística con los dos predictores y se ejecuta el comando predict para averiguar la probabilidad de este sujeto de tener complicaciones: preserve set obs 7 replace MC=25 if _n==7 replace Trat=3 if _n==7 logit Comp MC i.trat predict Compl_Pre, p list MC Trat Compl_Pre in 7 restore MC Trat Compl_~e 7. 25 Insulina.334642 UD: El modelo de regresión logística 4
RE2. Regresión logística binaria, multinomial, de Poisson y binomial negativa Curso 204/5 Solución resumida de la prueba de evaluación Unidad didáctica 46(B) La Tabla de clasificación obtenida pone de manifiesto una sensibilidad = 75% y una especificidad = 87.5%, que se pueden considerar valores aceptables: estat classification Logistic model for Compl True Classified D ~D Total + 6 7-2 7 9 Total 8 8 6 Classified + if predicted Pr(D) >=.5 True D defined as Compl!= 0 Sensitivity Pr( + D) 75.00% Specificity Pr( - ~D) 87.50% Positive predictive value Pr( D +) 85.7% Negative predictive value Pr(~D -) 77.78% False + rate for true ~D Pr( + ~D) 2.50% False - rate for true D Pr( - D) 25.00% False + rate for classified + Pr(~D +) 4.29% False - rate for classified - Pr( D -) 22.22% Correctly classified 8.25% 47(B) La curva ROC se obtiene empleando como variable de clasificación la predicción realizada en la pregunta 45. El valor AUC=0.89 obtenido indica una muy buena capacidad diagnóstica: roctab Compl Compl_Pre, graph.0 0.9 0.8 0.7 ROC Asymptotic Normal Obs Area Std. Err. [95% Conf. Interval] 6 0.8906 0.0880 0.786.00000 Sensitivity 0.6 0.5 0.4 0.3 0.2 0. 0.0 0.0 0. 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9.0 - Specificity UD: El modelo de regresión logística 5