Odds = = e. UD1: El modelo de regresión logística 1. 1 e

Documentos relacionados
Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Objetivos del análisis de supervivencia

Universidad de la República, Facultad de Ciencias Económicas y Administración.

Diagnósticos regresión

Estimación del Probit Ordinal y del Logit Multinomial

Bioestadística para Reumatólogos

BIOESTADISTICA ( ) Evaluación de pruebas diagnósticas. 1) Características del diseño en un estudio para evaluar pruebas diagnósticas.

Análisis de datos Categóricos

Ejercicio 1(10 puntos)

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Programa de estudios. 1) Muestra y población. Parámetros estimadores y estadísticos. Distribución de Gauss. Intervalo de confianza

T4. Modelos con variables cualitativas

VI Fórum multidisciplinar

Funciones de Regresión No Lineales (SW Cap. 6)

Análisis de estudios de cohortes en Ciencias de la P005/10. Salud (modelos regresión de Poisson y de Cox)

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Análisis Probit. StatFolio de Ejemplo: probit.sgp

Características operativas de test diagnósticos Sensibilidad y Especificidad

INDICE. Prólogo a la Segunda Edición

DESEMPEÑO ACADEMICO DE ESTUDIANTES DE INGENIERIA: ANALISIS DE FACTORES INCIDENTES

INCIDENCIA Y MORTALIDAD POR CANCER COHORTES Y ETNIAS. Resultados Preliminares del Trabajo Maestría en Epidemiología i Universidad del valle, 2008

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Introducción a la regresión ordinal

Muestreo e inferencia

11 preguntas para ayudarte a entender un estudio de Casos y Controles

CM0244. Suficientable

Cómo obtener un Modelo de Regresión Logística Binaria con SPSS

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Estimar efectos parciales con margins

EVALUACIÓN N DE LA VALIDEZ DE PRUEBAS DIAGNÓSTICAS

Proceso de análisis de regresión múltiple

. gen princ=(faminc-ww*whrs)/ probit lfp wa kl6 k618 we princ

Tercera práctica de REGRESIÓN.

Distribuciones de probabilidad

Aplicación de la norma ANSI/PMI :2004 a la gestión de proyectos de una empresa del Sector de la Construcción.

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

... *Elasticidad ingreso del gasto en electricidad (Modelo Restringido). reg lviv ling

MODELO PREDICTIVO DE RIESGO DE MOROSIDAD PARA CRÉDITOS BANCARIOS USANDO DATOS SIMULADOS

Por ejemplo, si se desea discriminar entre créditos que se devuelven o que presentan

INSTITUTO POLITÉCNICO NACIONAL SECRETARIA ACADEMICA DIRECCIÓN DE ESTUDIOS PROFESIONALES EN INGENIERÍA Y CIENCIAS FÍSICO MATEMÁTICAS

ENUNCIADOS DE PROBLEMAS

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

ESTADÍSTICA, SISTEMAS DE INFORMACIÓN Y NUEVAS TECONOLOGÍAS Código de la Asignatura Créditos

Evaluar, 6 (2006), ISSN

Comparaciones indirectas y metaanálisis en red

Ejercicios T2 y T3.- DISTRIBUCIONES MUESTRALES Y ESTIMACIÓN PUNTUAL

MÓDULO: MÉTODOS CUANTITATIVOS

10 12 CAPÍTULO 10. MODELOS DE VARIABLE DEPENDIENTE DISCRETA

Una metodología para manejar variables

TRABAJO FIN DE MÁSTER MÁSTER OFICIAL EN ESTADÍSTICA APLICADA UNIVERSIDAD DE GRANADA

CLASE 10: RESUMEN DEL CURSO

Presentación de la tercera edición Autores

1. Caso no lineal: ajuste de una función potencial

Medición clínica Diagnóstico Sensibilidad y especificidad

Determinación del tamaño de muestra (para una sola muestra)

PRUEBAS. Sandra Convers-Páez, M.D. Instituto de Investigaciones Médicas Facultad de Medicina 2009

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

Mediciones de ocurrencia: Prevalencia e Incidencia. Dra. M Teresa Valenzuela B. Departamento de Salud Pública y Epidemiología

ANEXOS. 1) Modelo Probit.

INDICE 1. Introducción 2. Recopilación de Datos Caso de estudia A 3. Descripción y Resumen de Datos 4. Presentación de Datos

Métodos Estadísticos Multivariados

CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Universitat Pompeu Fabra Licenciatura de ADE y Economía Econometría I / 10143) Profesor: Javier Coronado Examen Final Diciembre 2011

Regresión y Correlación

La probabilidad de obtener exactamente 2 caras en 6 lanzamientos de una moneda es. 2) (2) (2) "it^g) = 64

Teoría de la decisión

UNIVERSIDAD CENTROCCIDENTAL LISANDRO ALVARADO DECANATO DE INGENIERIA CIVIL ESTADISTICA. CARÁCTER: Obligatoria DENSIDAD HORARIA HT HP HS UCS THS/SEM

Fundamentos de Biología Aplicada I Estadística Curso Práctica 6: Regresión Logística I

Los Ensayos Clínicos (EC) son estudios epidemiológicos caracterizados por ser:

Tema I. Introducción. Ciro el Grande ( A.C.)

ANALISIS DE FRECUENCIA

Modelos de regresión: lineal simple y regresión logística

Técnicas Cuantitativas para el Management y los Negocios I

(.$263*7.5"4+%#,"8..9$ $.$ # "4< $ 8 $ 7

Sesión Práctica 6. Efectos edad, periodo y cohorte.

Repaso de estadística básica. Juan D. Barón Santiago de Chile, 8 de abril de 2013

Generación de variables aleatorias continuas Método de la transformada inversa

ANÁLISIS DISCRIMINANTE APLICADO AL PROBLEMA DE CREDIT SCORING

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES CUAUTITLÁN PLAN DE ESTUDIOS DE LA LICENCIATURA EN QUÍMICA INDUSTRIAL

2. MARCO CONCEPTUAL DE REFERENCIA

Calculemos inicialmente el logaritmo en base 10 de las siguientes potencias de 10:

PRUEBA DE FALTA DE AJUSTE (Lack-of-fit Test) Fortino Vela Peón

Documento de Trabajo. Debo inscribir más de 22 créditos?

Carrera: Integrantes de la Academia de Ingeniería Industrial: M.C. Ramón García González. Integrantes de la

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

REDUCCIONES TEMPORALES DE CONTRIBUCIONES A LA SEGURIDAD SOCIAL Y SUS EFECTOS EN EL EMPLEO EL CASO DE ARGENTINA

ECONOMETRIA APLICADA NOTAS DATOS DE PANEL

Discretas. Continuas

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Datos binomiales beetles$dosis

GUÍA PARA EL ANÁLISIS DE LAS ESTADÍSTICAS VITALES, DE MORBILIDAD Y RECURSOS DE SALUD

> y <- c(19, 57, 29, 63, 29, 49, 27, 53, 23, 47, 33, 66, 47, 55, 23, 50, + 24, 37, 42, 68, 43, 52, 30, 42) > ly <- length( y )

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

CRITERIOS DE EVALUACIÓN ESTÁNDARES DE APRENDIZAJE EVALUABLES

Qué demonios es un Odds Ratio (OR)? Medidas de efecto

ANÁLISIS DISCRIMINANTE

INFORME DE RESULTADO. "Atlas de mortalidad por cáncer de tráquea, bronquios y pulmón" PROYECTO FONIS SA05I20030:

Asignaturas antecedentes y subsecuentes

Econometría Tutorial 6 Ejercicios de Multicolinealidad

EL4005 Principios de Comunicaciones Clase No.24: Demodulación Binaria

Transcripción:

RE2. Regresión logística binaria, multinomial, de Poisson y binomial negativa Curso 204/5 Solución resumida de la prueba de evaluación Unidad didáctica (D) La regresión logística puede utilizarse en cualquiera de los estudios incluidos en esta pregunta. En la Unidad se ha explicado cómo se interpretan sus resultados en función del tipo de diseño utilizado para la recogida de los datos. 2 (B) Los diferentes estudios comparativos realizados indican que la regresión logística es más robusta que el análisis discriminante porque requiere menos supuestos para su aplicación. 3 (D) La regresión logística permite relacionar una variable dependiente categórica binaria Y con varias variables independientes cuantitativas y/o binarias. 4 (A) Por definición, la función logística (con forma de S) presenta valores entre 0 y. 5 (D) Por definición, la función logit (logaritmo neperiano de una odds) puede tomar valores entre y +. 6 (C) Una característica de la función logística es su rápida convergencia hacia 0 y. Así, para valores Z inferiores a 3 el valor de la función es menor que 0.05, y para valores Z superiores a +3 el valor de la función es mayor que 0.95. 7 (D) Puesto que en el modelo de regresión logística la variable dependiente Y es binaria (/0), su media equivale a la proporción de sujetos que presentan la respuesta. De este modo, la componente sistemática modeliza la proporción x de sujetos con la característica Y= para cada posible valor de X, es decir, la probabilidad condicional de que un sujeto presente la respuesta. 8 (A) Pr (Y= X) = x = ( 0 x ) e Odds = x x = e ( 0 x ) 9 (B) En este caso, e es el factor por el cual se multiplica la odds de la respuesta (Y) cuando la variable predictora X se incrementa en unidad. 0(C) El modelo de regresión logística supone que la distribución de los residuales, para cada posible valor de X, tiene media 0, variancia x ( x ), no constante para diferentes valores de X, y probabilidades dadas por la ley Binomial. (B) Los coeficientes de la regresión logística se estiman con un estimador máximo-verosímil. 2(D) Muchos programas de ordenador dan el valor LL (logaritmo neperiano de la verosimilitud) de cada modelo estimado, que es un valor negativo. Stata lo presenta como Log Likelihood. 3(A) El valor de la verosimilitud L oscila entre 0 y. 4(D) El logaritmo neperiano de la verosimilitud (LL) será un número negativo, que alcanzaría el valor 0 en un hipotético modelo que reprodujera exactamente los datos. 5(B) De LL=0 se deduce el valor: L=. 6(C) De LL = n ln(0.5) se deduce el valor: L = 0.5 n 7(B) Un ensayo clínico, igual que un estudio de cohortes, permite estimar incidencias de manera que su valor será un ROR. Sin embargo, como en un ensayo clínico la respuesta no acostumbra a tener baja prevalencia no podrá ser considerado como una estimación del riesgo relativo RR. Sin embargo, dicho RR podrá ser calculado de forma directa a partir de las estimaciones de las incidencias acumuladas que permite obtener la regresión logística. 8(C) En un estudio transversal las odds estiman prevalencias. En este caso la razón de odds que representa e se denomina razón de odds de prevalencia POR. 9(D) En un estudio de casos y controles, la razón de odds (OR) se puede interpretar como una estimación del riesgo relativo (RR) si la respuesta tiene baja frecuencia. 20(B) En un diseño de cohortes e puede ser interpretado como una medida del efecto del factor X sobre la respuesta Y. La razón de odds se denomina razón de odds de riesgo ROR. 2(A) Ver comentario a pregunta 7. 22(C) En estudios de casos y controles los grupos de sujetos expuestos y no expuestos no reproducen la prevalencia de la respuesta porque el número de casos y controles depende del diseño planteado por el investigador. Así, el RR sólo puede ser estimado de forma indirecta a través de la OR si en la población la respuesta es de baja prevalencia. 0 = e x e UD: El modelo de regresión logística

RE2. Regresión logística binaria, multinomial, de Poisson y binomial negativa Curso 204/5 Solución resumida de la prueba de evaluación Unidad didáctica Problema A 23(C) ROR = e 0.2 =.22. La respuesta B es falsa porque la hipertensión no tiene baja prevalencia. La respuesta A no es correcta porque este coeficiente carece de interpretación clínica. Se trata de una razón de odds de riesgo por ser un estudio de cohortes. 24(C) ROR = e 0.2 20 = e 4 = 54.6 25(A) Z =.8 + 0.2 T + 2.5 O de donde: Z T=20; O = =.8 + 0.2 20 + 2.5 = 4.7; Z T=0; O= =.8 + 0.2 0 + 2.5 = 0.7 26(A) Obesos: 27(C) RR = RR = + e + e 4.7 (.8) + e + e 28(B) Pr (H= t=0; O=) = 4.7 0.990987 = 0.485 + e =.483 = 6.986 = 0.6688 > 0.5 H = Pr(H= t=0; O=0) = = 0.485 < 0.5 H = 0 + e 29(C) OR = e 0.2 =.22. La respuesta B es falsa porque la hipertensión no tiene baja prevalencia y la razón de odds no puede interpretarse como un riesgo relativo. 30(D) Véase comentario a pregunta anterior. En este caso sólo es posible estimar la razón de odds a través del coeficiente b porque no se cumple el supuesto de baja prevalencia: OR = e 0.2 20 = e 4 = 54.6. Problema B 3(B) Se trata de un estudio de seguimiento de dos cohortes con PAS baja y alta. 32(B) OR = (20/95)/(894/73) = 2.4424 33(B) RR = (95/296)/(73/067) =.979 34(C) Odds Ratio = OR = 2.442 35(A) OR = e b b = ln OR = ln 2.4424 = 0.893 36(B) b = 0.893; S E(b) = 0.497 IC 95% de b: b ±.96 S E(b) = 0.893 0.2934 0.5996 a.864 37(D) IC95% OR: e 0.5996 a e.864.82 a 3.275 Solución con Stata. Este problema se debe contestar aplicando las fórmulas. Para comprobar los resultados se presenta la solución con Stata. clear input PAS EC Frec //Introducción de los datos a partir de una tabla 2x2 0 0 894 0 73 0 20 95 end expand Frec label define dec 0 "No" "Sí" label values EC dec label define dpas 0 "<65" ">=65" label values PAS dpas UD: El modelo de regresión logística 2

RE2. Regresión logística binaria, multinomial, de Poisson y binomial negativa Curso 204/5 Solución resumida de la prueba de evaluación Unidad didáctica cs EC PAS, or PAS Exposed Unexposed Total Cases 95 73 268 Noncases 20 894 095 Total 296 067 363 Risk.3209459.62368.96625 Point estimate [95% Conf. Interval] Risk difference.58809.025.264067 Risk ratio.979476.5973 2.453353 Attr. frac. ex..494858.373877.5923945 Attr. frac. pop.7540 Odds ratio 2.44242.822462 3.273429 (Cornfield) logit EC PAS, or chi2() = 37.00 Pr>chi2 = 0.0000 Logistic regression Number of obs = 363 LR chi2() = 33.94 Prob > chi2 = 0.0000 Log likelihood = -658.65427 Pseudo R2 = 0.025 EC Odds Ratio Std. Err. z P> z [95% Conf. Interval] PAS 2.44242.3655496 5.97 0.000.82469 3.275036 _cons.93523.06073-9.77 0.000.644402.2277242 logit EC PAS EC Coef. Std. Err. z P> z [95% Conf. Interval] PAS.892986.496675 5.97 0.000.599643.86329 _cons -.64244.0830597-9.77 0.000 -.805208 -.47962 Problema C import excel "204RE2.xls", sheet("autoevc") firstrow clear label variable MC "Masa corporal (kg/m2)" label variable Trat "Tratamiento" label variable Compl "Complicaciones" label define dtrat "Sólo dieta" 2 "Tabletas" 3 "Insulina" label values Trat dtrat label define dnosi 0 "No" "Sí" label values Compl dnosi logit Compl MC i.trat estimates store Mmax Logistic regression Number of obs = 6 LR chi2(3) = 9.07 Prob > chi2 = 0.0283 Log likelihood = -6.55342 Pseudo R2 = 0.409 Compl Coef. Std. Err. z P> z [95% Conf. Interval] MC.306567.2470896.26 0.209 -.73630.7949435 Trat Tabletas -3.480065.909847 -.82 0.068-7.223296.263668 Insulina -3.28295.764977 -.86 0.063-6.742205.76376 _cons -6.35473 6.3803 -.00 0.39-8.86073 6.52383 UD: El modelo de regresión logística 3

RE2. Regresión logística binaria, multinomial, de Poisson y binomial negativa Curso 204/5 Solución resumida de la prueba de evaluación Unidad didáctica 38(B) Los comandos de lectura y definición de datos, y de estimación del modelo, se encuentran en el listado anterior, junto a la estimación del modelo presentando los coeficientes y presentando las OR. También se almacena el modelo en memoria con el nombre Mmax para posteriores comparaciones. 39(A) La prueba de razón de verosimilitud global se presenta en el listado anterior. 40(D) Se obtiene comparando con el comando lrtest la verosimilitud del modelo máximo (que contiene MC y Trat) con la del modelo reducido sin la variable MC: logit Compl i.trat estimates store Mmc lrtest Mmc Mmax Likelihood-ratio test LR chi2() = 2.4 (Assumption: Mmc nested in Mmax) Prob > chi2 = 0.437 4(B) Se obtiene comparando con el comando lrtest la verosimilitud del modelo máximo (que contiene MC y Trat) con la del modelo reducido sin la variable Trat: logit Comp MC estimates store Mtrat lrtest Mtrat Mmax Likelihood-ratio test LR chi2(2) = 6.80 (Assumption: Mtrat nested in Mmax) Prob > chi2 = 0.0334 Se deduce que Trat es una variable relevante ya que la prueba de razón de verosimilitud es estadísticamente significativa (p=0.033), reflejando una pérdida significativa de verosimilitud al eliminar Trat. logit Compl MC i.trat, or Compl Odds Ratio Std. Err. z P> z [95% Conf. Interval] MC.36432.337095.26 0.209.8406078 2.2436 Trat Tabletas.0308054.0588336 -.82 0.068.0007294.30044 Insulina.037587.066297 -.86 0.063.008.92887 _cons.007395.00996 -.00 0.39 6.44e-09 469.8356 42(D) La opción A es correcta pues presenta el IC95% de OR. La opción B es correcta pues presenta el IC95% de b. La opción C es correcta pues la tendencia indicada es cierta. 43(A) La prueba de razón de verosimilitud es más potente que la prueba de Wald, por lo que, en caso de discrepancia entre ambas, debe ser la prueba de elección. El tratamiento con tabletas o con insulina tiene un efecto similar, pero disminuye (no aumenta) la probabilidad de complicaciones respecto a sólo dieta. 44(C) El efecto de la insulina respecto a sólo la dieta se representa en la variable ficticia Trat2 (Insulina), en el valor de su OR e IC95%. 45(C) Para realizar predicciones se añade un sujeto sin valor en Comp y con MC=25 y Trat=3. Seguidamente se estima la regresión logística con los dos predictores y se ejecuta el comando predict para averiguar la probabilidad de este sujeto de tener complicaciones: preserve set obs 7 replace MC=25 if _n==7 replace Trat=3 if _n==7 logit Comp MC i.trat predict Compl_Pre, p list MC Trat Compl_Pre in 7 restore MC Trat Compl_~e 7. 25 Insulina.334642 UD: El modelo de regresión logística 4

RE2. Regresión logística binaria, multinomial, de Poisson y binomial negativa Curso 204/5 Solución resumida de la prueba de evaluación Unidad didáctica 46(B) La Tabla de clasificación obtenida pone de manifiesto una sensibilidad = 75% y una especificidad = 87.5%, que se pueden considerar valores aceptables: estat classification Logistic model for Compl True Classified D ~D Total + 6 7-2 7 9 Total 8 8 6 Classified + if predicted Pr(D) >=.5 True D defined as Compl!= 0 Sensitivity Pr( + D) 75.00% Specificity Pr( - ~D) 87.50% Positive predictive value Pr( D +) 85.7% Negative predictive value Pr(~D -) 77.78% False + rate for true ~D Pr( + ~D) 2.50% False - rate for true D Pr( - D) 25.00% False + rate for classified + Pr(~D +) 4.29% False - rate for classified - Pr( D -) 22.22% Correctly classified 8.25% 47(B) La curva ROC se obtiene empleando como variable de clasificación la predicción realizada en la pregunta 45. El valor AUC=0.89 obtenido indica una muy buena capacidad diagnóstica: roctab Compl Compl_Pre, graph.0 0.9 0.8 0.7 ROC Asymptotic Normal Obs Area Std. Err. [95% Conf. Interval] 6 0.8906 0.0880 0.786.00000 Sensitivity 0.6 0.5 0.4 0.3 0.2 0. 0.0 0.0 0. 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9.0 - Specificity UD: El modelo de regresión logística 5