Modelos Lineales Generalizados. Víctor Moreno 2004

Transcripción

1 Modelos Lineales Generalizados Víctor Moreno

2 Esquema Teoría estadística avanzada: Modelos lineales generalizados. Función de verosimilitud. Prueba de la razón de verosimilitud. Aproximaciones cuadráticas: test del "score" y test de Wald. Modelos para proporciones. Regresión logística. Pruebas de asociación y de tendencia. Control de la confusión. Exploración de interacciones. Bondad de ajuste Aplicaciones específicas: Análisis de casos y controles. Modelo logístico condicional Generación de escalas de pronóstico. Valoración de la capacidad predictiva. Análisis discriminante logístico. Regresión logística politómica: Regresión multinomial Modelos ordinales 2

3 Modelo lineal de regresión E( y x) = α + βx y 2 N( µσ, ) y cuantitativa continua R: {-, + } No hay restricciones sobre X 3

4 Análisis de respuesta binaria Nos interesa un modelo de regresión: E( y x) = α + βx Y: la variable respuesta es binaria: { 1 : evento Y = 0 :no evento Si se agrupan los datos, E(y x) = µ = Σy/n = p : proporción de eventos Modelo para proporciones 4

5 ML general para respuestas binarias p {0,1}, difícilmente normal además no queremos restricciones sobre los parámetros α,β sin ellas, el modelo lineal podría generar predicciones imposibles para p 5

6 Modelos lineales generalizados Extensión del modelo lineal para acomodar: Respuesta con distribución no normal Transformaciones linearizantes Componentes del modelo: Respuesta (Y) observada en unidades independientes con valores fijos de variables explicativas (X) Las variables X afectan la respuesta según un modelo lineal: η = β x β x 1 1 p p 6

7 Puede ser necesario transformar la respuesta para conseguir linealidad: η=g(µ) µ: valor medio de la respuesta La distribución de probabilidad de la respuesta pertenece a la familia exponencial: Transformación g(µ) Normal identidad: = Binomial logit: log(µ/{1 µ }) Poisson log(µ) Gamma inversa: -1/µ 7

8 Utilidad de cada distribución Normal: Binomial: Cuantitativa continua > Regresión lineal Binaria (proporciones) > Regresión logística Poisson: Recuento (discreta >=0 ) > Regresión Poisson / Log-lineal Gamma: Cuantitativa contínua > 0 8

9 Interés de los MLG Comparten la teoría estadística necesaria para: Estimar los coeficientes y sus varianzas Máxima verosimilidtud, mediante iteraciones de ajustes por mínimos cuadrados ponderados Tests de hipótesis sobre coeficientes Análisis de varianza / deviance (desvianza) Tests de bondad de ajuste del modelo R 2 y equivalentes no lineales 9

10 Modelo logístico µ log 1-µ = α + β x β x 1 1 p p Y: la variable respuesta es binaria: { 1 : evento Y = 0 :no evento Si se agrupan los datos, µ: proporción de eventos µ = p = Σy/n Modelo para proporciones 10

11 Función logística z y e = log f ( z) = z y = z e 1+ e z f(z) z 11

12 Propiedades f(z) siempre entre 0 y 1 => Útil para modelar proporciones Permite valores de z entre - y + => Cualquier valor del predictor lineal Simétrica alrededor de 0: z f(z) 1-f(z) Entre -2 y 2 es casi lineal y varía un 80% 12

13 Predicciones del modelo { 1 : evento Y = 0 :no evento Pr(y=1 x,...,x )= 1+e α β 1 k -( + x+...+ β x) k k 13

14 Otras transformaciones Probit: Φ -1 (p) Complementario log-log: log(-log(1-p)) Pr(z) logit cloglog probit z 14

15 Condiciones para aplicar el modelo Observaciones independientes si hay dependencia se genera sobredispersión La varianza de p: var(p) = p(1-p) se puede modelar var(p) = φp(1-p) Si se estudia la aparición de un evento, el tiempo de seguimiento debe ser igual para todos los individuos. Se puede modelar mortalidad al año, pero no puede haber censuras. 15

16 Ejemplos de aplicación Estudios de casos y controles P(ser caso X:factores de riesgo y confusores) Estudios de factores pronóstico, para tiempos de seguimiento corto e igual para todos los individuos P(morir antes de 35 días tras un infarto X) Estudios de métodos diagnósticos P(enfermo resultado de la prueba) Estudios de cualquier característica binaria P(ser fumador X:condiciones) P(ser tratado en el hospital X) 16

17 Variables Respuesta / Dependiente: BINARIA Independientes: cualquier tipo Binarias Categóricas se codifican con variables indicadoras dummy Cuantitativas pueden emplearse transformaciones: logaritmo potencia polinomios splines 17

18 Caso 1. Variable binaria Estudio de la relación entre el virus de la hepatitis B y la cirrosis hepática, a partir de un diseño de casos y controles: HbsAg + HbsAg - Cirrosis Controles

19 Hepatitis B * grupo Crosstabulation grupo Hepatitis B Total HBsAg - HBsAg + Count % within Hepatitis B % within grupo Count % within Hepatitis B % within grupo Count % within Hepatitis B % within grupo control cirrosis Total % 43.8% 100.0% 95.5% 74.5% 85.0% % 85.0% 100.0% 4.5% 25.5% 15.0% % 50.0% 100.0% 100.0% 100.0% 100.0% Chi-Square Tests Risk Estimate Pearson Chi-Square Continuity Correction a Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases Asymp. Sig. Value df (2-sided) b a. Computed only for a 2x2 table Exact Sig. (2-sided) Exact Sig. (1-sided) b. 0 cells (.0%) have expected count less than 5. The minimum expected count is Odds Ratio for Hepatitis B (HBsAg - / HBsAg +) For cohort grupo = control For cohort grupo = cirrosis N of Valid Cases 95% Confidence Interval Value Lower Upper

20 Odds: medida de riesgo odds P( suceso) P( suceso) = = Pno ( suceso) 1 P( suceso) Cuántas veces más probable es que ocurra un suceso respecto a que no ocurra puede tomar valores de {0,+ } odds P( y = 1) P( y = 1) = = P( y = 0) 1 P( y = 1) 20

21 Odds-ratio: medida de asociación OR OR OR OR = = = = odds( enfermedad exp uestos ) odds( enfermedad no exp uestos ) P( y = 1 x = 1)/ P( y = 0 x = 1) P( y = 1 x = 0)/ P( y = 0 x = 0) ( 1 ( α+ β) )/(1 1 ( α+ β) ) 1+ e 1+ e ( 1 ( α) )/(1 1 ( α) ) 1+ e 1+ e β e 21

22 Odds-ratio Por cuánto se multiplica el riesgo de cirrosis si se está infectado respecto a no estar infectado riesgo relativo: razón de odds puede tomar valores de {0,+ } OR P(cirr + )/P(cont + ) = = P(cirr -)/P(cont -) e β = e1.98 = /( ) OR = = /( ) 22

23 Simetria del odds-ratio OR = odds(exp osicion enfermos ) odds(exp osicion no e nfermos ) OR = P( x = 1 y = 1)/ P( x = 0 y = 1) P( x = 1 y = 0)/ P( x = 0 y = 0) OR = e β 23

24 Modelo logístico Logit{ P(cirrosis HBsAg) } = α + βhbsag Variables: Respuesta: grupo 1(cirrosis) 0(control) independiente: HBsAg 1(+) 0(-) Modelo ajustado: Variable B S.E. Wald df Sig R Exp(B) HBSAG Constant

25 25 Verificación /( ) 0.850/( ) OR -) -)/p(cont p(cirr ) )/p(cont p(cirr OR e 1 1 e 1 1 1) HBsAg p(cirrosis e 1 1 e 1 1 0) HBsAg p(cirrosis ) -(-0.25 ) ( -(-0.25) e e = = = + + = = + = + = = = + = + = = = = + + β β α α

26 Interpretación de los coeficientes Constante: α = logit{p(cirrosis HBsAg=0)} logit de P(evento en los no expuestos) En un estudio de casos y controles no tiene interés pues depende del la relación entre el número de casos y de controles, que se fija en el diseño, y de los códigos que se empleen en la variable exposición. En un estudio de cohortes es una estimación de interés Coeficientes: β = log(or) OR = e β : cuantifica la magnitud de la asociación entre la respuesta y el factor de interés El código de la exposición debe ser exp: 1 + no exp 26

27 La codificación es esencial para interpretar los coeficientes exp =1 / no exp=0 OR(evento/exp) = e β exp =0 / no exp=1 OR(evento/exp) = e -β exp =2 / no exp=1 exp =1 / no exp=-1 OR(evento/exp) = e β OR(evento/exp) = e 2β 27

28 28 Estadística en regresión logística Ajustar el modelo: estimar los parámetros Máxima verosimilitud Variable dependiente binaria: distribución binomial: ) e nlog(1 y log p) logl(x e 1 1 p x ) p (1 p L(X p) i i i i i i i i i i x i N 1 y n x y x i i y n y n η η + + = + = β α + = η = η i

29 Parámetros: (α,β) Elementos de interés Matriz de varianza-covarianza: V( α) = C( α, β C( α, β 1 1 ) ) C( α, β V( β C( β ), β 1 ) ) C( α, β1) C( β1, β2) V( β ) 2 Valor de logl cuando es máximo: Likelihood value Tiene asociados unos grados de libertad : g.l. = #observaciones - #parámetros

30 OR = e β Elementos derivados permite interpretar los coeficientes como riesgos Errores estándar de β: ee β = V(β) permite calcular intervalos de confianza y realizar tests de hipótesis Deviance = -2 * logl permite: valorar el ajuste del modelo (datos agrupados) realizar test de hipótesis (comparando modelos) 30

31 Análisis de los coeficientes {β, ee β } Test de Wald: z = β/ee β ~ N(0,1) z > > β 0 -> OR 1 asociación significativa p-valor = Φ -1 (z) Intervalo de confianza (al 95%) para β: β ± 1.96ee β : simétricos para OR: e β±1.96ee β : {e β-1.96ee β ; e β+1.96ee β } asimétricos 31

32 Prueba de asociación global Test de razón de verosimilitud (TRV) Equivale al χ 2 de Pearson Es necesario ajustar 2 modelos y comparar las deviances: Análisis de deviance : Modelo deviance g.l. deviance g.l. α D α g.l. α α + β D α+β g.l. α+β D α D α+β gl α gl α+β deviance ~ χ 2 con g.l. 32

33 Beginning Block Number 0. Initial Log Likelihood Function -2 Log Likelihood * Constant is included in the model. Beginning Block Number 1. Method: Enter Variable(s) Entered on Step Number 1.. NKCAL NTILES of TKCAL -2 Log Likelihood Chi-Square df Significance Model Block Step

34 Aproximaciones al TRV Aproximaciones cuadráticas a la función de verosimilitud: Test de Wald aproxima la función de verosimilitud coincidiendo en el valor del máximo. Test del score aproxima la función de verosimilitud coincidiendo en el valor nulo 34

35 Aproximaciones cuadráticas a LogL logl score Wald p 35

36 Ajuste del modelo Deviance residual. Diferencia con la deviance de un modelo saturado (tantos coeficientes como observaciones). Sólo es interpretable si se trabaja con datos agrupados. Criterio de información de Akaike AIC = -2*logL + 2*#β Criterio de Schwarz (SC) o BIC AIC = -2*logL + #β*log(n) penalizan el uso de parámetros no informativos. Son útiles para comparar modelos no anidados. 36

37 Caso 2. Variable categórica: Relación entre tabaco y cáncer de colon en Mallorca TABAC * GROUP Crosstabulation TABAC Total No fumador Ex-fumador Fumador Count % within GROUP Count % within GROUP Count % within GROUP Count % within GROUP GROUP caso control Total % 55.6% 54.4% % 23.1% 18.1% % 21.4% 27.5% % 100.0% 100.0% 37

38 Codificación con variables auxiliares TABACO Exfuma Fuma Categorias de la variable original No fuma 0 0 Ex fumador 1 0 Fumador 0 1 Son necesarias (k-1) variables auxiliares para el modelo pues la primera corresponde a la constante (siempre vale 0) 38

39 Modelo logístico Parameter Value Freq Coding (1) (2) TABAC No fumador Ex-fumador Fumador Variable B S.E. Wald df Sig R Exp(B) TABAC TABAC(1) TABAC(2) Constant

40 Interpretación del modelo logit(pr(cancer tabaco) = α + β 1 ExFuma + β 2 Fumador exp(β 1 ) = OR de ex-fuma vs no fuma exp(β 2 ) = OR de fuma vs no fuma α = logit(pr(cancer no fuma) ) Si se desea el OR de ex-fuma vs fuma: exp(β 2 -β 1 ) o cambiar la categoría de referencia 40

41 Precaución al analizar variables categóricas Es importante que la categoría de referencia tenga un número suficiente de casos para evitar inestabilidad en el modelo: EDAD N b e OR (IC95%) (0.003;812) (0.004;992) (0.005;1339) 41

42 Caso 3. Variable cuantitativa Estudio de la relación entre la edad y la mortalidad por cardiopatía isquémica en diabéticos: EDAD Causa de muerte N p Otra CI Total

43 P(MCI) 1.0 logit(p) Edad Edad 43

44 Ajuste del modelo logístico Logit{ P(MCI EDAD) } = α + βedad Variables: Respuesta: causa muerte 1(ci) 0(otra) independiente: edad (en años) Modelo ajustado: Variable B S.E. Wald df Sig R Exp(B) EDAD Constant

45 Interpretación de los coeficientes p(mci EDAD) = ( *EDAD) 1 + e 1 Constante: α = logit{p(mci EDAD=0)} α = > P(MCI EDAD=0) = No tiene interés en esta situación, pero puede serlo si cambiamos el 0 de la variable: ED30 = (EDAD-30) α = > P(MCI EDAD=30) =

46 P(MCI) Edad 46

47 Coeficientes: β = log(or) OR = e β : cuantifica la magnitud de la asociación entre la respuesta (mortalidad por CI) y el cambio factor de interés en una unidad (aumento de EDAD en 1 año) OR = 1.11 (para 10 años: e 10β = 2.86) El modelo supone linealidad {en escala logit(mci)} para todos los posibles valores de EDAD Se pueden emplear transformaciones de las variables cuantitativas para conseguir mejorar la linealidad (más adelante) 47

48 Detección rápidad de nolinealidad Ajustar un modelo cuadrático E(Y/X)= α + βx+ β X 2 l c El coeficiente β c permite detectar curvatura en la función de riesgo 48

49 Otras opciones con variables cuantitativas Transformaciones Log(X) potencia: X r Polinomios: logit(p) = α + β 1 X + β 2 X 2 + β 3 X β k X k No deben emplearse grados muy elevados, normalmente sólo 2 ó 3 Los coeficientes son muy difíciles de interpretar, se usan fundamentalmente para ajustar otras variables de manera fina Splines 49

50 Variables cuantitativas categorizadas Si la relación dosis-respuesta no es lineal para una variable cuantitativa, ésta se suele categorizar y modelar como categórica: Ejemplo: la relación entre la ingesta calórica total y cáncer colorrectal Las Kcal pueden categorizarse en 5 grupos según quintiles y comparar cada grupo respecto al primero 50

51 Caso 4. Energía y cancer colorrectal GROUP * NTILES of TKCAL Crosstabulation GROUP Total control caso Count % within NTILES of TKCAL Count % within NTILES of TKCAL Count % within NTILES of TKCAL NTILES of TKCAL Total % 51.7% 50.4% 48.3% 41.4% 50.8% % 48.3% 49.6% 51.7% 58.6% 49.2% % 100.0% 100.0% 100.0% 100.0% 100.0% Variable B S.E. Wald df Sig R Exp(B) TKCAL TKCAL(1) TKCAL(2) TKCAL(3) TKCAL(4) Constant

52 logit(pr(caso)) Total kcal 52

53 1 Modelo de heterogeneidad (categórico) Un coeficiente para cada dummy Test: TRV a ( deviance con k-1 g.l.) Variable B S.E. Wald df Sig R Exp(B) NTKCAL NTKCAL(1) NTKCAL(2) NTKCAL(3) NTKCAL(4) Constant Chi-cuadrado gl Sig. TKCAL

54 2. Test de tendencia para variables ordinales La variable se codifica con valores crecientes en 1 unidad de categoría en categoría (1,2,3,...) Un único coeficiente, que recoge la variación promedio Test: TRV t ( deviance con 1 g.l.) Variable B S.E. Wald df Sig R Exp(B) NTKCAL Constant Chi-cuadrado gl Sig. TKCAL

55 3. Test de desviación de la linealidad Test: diferencia del modelo de heterogeneidad y el de tendencia: TRV DL : deviance con k-2 g.l. Modelo categórico: -2 Log Likelihood Modelo tendencia: -2 Log Likelihood Desviación de la linealidad: Cambio en -2 Log Likelihood = (NS con 3 g.l.) 55

56 Estrategia de análisis multivariante 1º Análisis bivariante cada variable por separado identificar variables de interés (significativas o no) 2º Análisis combinado de las variables equivale a un análisis estratificado cada factor está ajustado por los demás del modelo 3º Análisis de interacciones modificación del efecto de una variable por otra 56

57 Caso 5. Energía y ácido fólico (densidad) en el cáncer colorrectal Tabla de contingencia GROUP * NTILES of DFOLIC GROUP Total control caso Recuento % de GROUP Recuento % de GROUP Recuento % de GROUP NTILES of DFOLIC Total ,0% 23,1% 27,1% 28,8% 100,0% ,0% 26,9% 23,1% 21,0% 100,0% ,0% 25,0% 25,1% 25,0% 100,0% Variables en la ecuación Paso 1 a NDFOLIC NDFOLIC(1) NDFOLIC(2) NDFOLIC(3) Constante B E.T. Wald gl Sig. Exp(B) Inferior Superior 9,050 3,029 -,167,236,502 1,479,846,532 1,344 -,484,236 4,197 1,040,616,388,979 -,640,238 7,236 1,007,527,331,841 a. Variable(s) introducida(s) en el paso 1: NDFOLIC.,292,168 3,020 1,082 1,339 I.C. 95,0% para EXP(B) 57

58 Tendencia Paso 1 a NDFOLIC Constante Variables en la ecuación B E.T. Wald gl Sig. Exp(B) Inferior Superior -,224,075 8,860 1,003,799,690,926,529,206 6,609 1,010 1,696 a. Variable(s) introducida(s) en el paso 1: NDFOLIC. I.C. 95,0% para EXP(B) Tendencia Heterogeneidad Pruebas omnibus sobre los coeficientes del modelo Pruebas omnibus sobre los coeficientes del modelo Paso 1 Paso Bloque Modelo Chi-cuadrado gl Sig. 8,974 1,003 8,974 1,003 8,974 1,003 Paso 1 Paso Bloque Modelo Chi-cuadrado gl Sig. 9,148 3,027 9,148 3,027 9,148 3,027 58

59 Análisis ajustado Si en un modelo se incluye más de una variable, los coeficientes de cada variable se interpretan como ajustados por las demás Ajustado equivale a un promedio ponderado en los estratos de las variables de ajuste Este análisis anula el efecto de confusión que pudiera haber 59

60 Confusión Exposición Enfermedad Variable confusora El análisis crudo de la asociación entre una exposición y una enfermedad no excluye la posibilidad de que interfiera una tercera variable (la confusora) 60

61 Exploración de la confusión 1. Análisis de la asociación en cada estrato de la confusora potencial. Comparar los coeficientes crudos con los de cada estrato. Este método permite también explorar si hay interacción. 2. Comparación del modelo crudo con el ajustado por la confusora. Cambios superiores a un 20% de los coeficientes (β) indican confusión importante 61

62 Análisis del efecto del ac. fólico ajustado por ingesta calórica total Ac. Fólico Cáncer Ingesta calórica 62

63 Análisis estratificado NTILES of TKCAL Paso NDFOLIC 1 a Constante Paso NDFOLIC 1 a Constante Paso NDFOLIC 1 a Constante Paso NDFOLIC 1 a Constante Paso NDFOLIC 1 a Constante a. Variable(s) introducida(s) en el paso 1: NDFOLIC. Variables en la ecuación B E.T. Wald gl Sig. Exp(B) -,072,183,155 1,694,930 -,274,584,221 1,638,760 -,090,161,313 1,576,914,157,444,125 1,724 1,170 -,266,176 2,264 1,132,767,659,487 1,834 1,176 1,933 -,239,172 1,937 1,164,787,638,450 2,009 1,156 1,892 -,196,189 1,078 1,299,822,754,437 2,980 1,084 2,126 En general la estimación por estratos de calorías muestra un efecto protector menor al análisis crudo 63

64 Análisis ajustado Paso 1 a Paso 1 a NDFOLIC Constante Variables en la ecuación B E.T. Wald gl Sig. Exp(B) Inferior Superior -,224,075 8,860 1,003,799,690,926,529,206 6,609 1,010 1,696 a. Variable(s) introducida(s) en el paso 1: NDFOLIC. Variables en la ecuación NDFOLIC NTKCAL NTKCAL(1) NTKCAL(2) NTKCAL(3) NTKCAL(4) Constante I.C. 95,0% para EXP(B) B E.T. Wald gl Sig. Exp(B) Inferior Superior -,171,078 4,787 1,029,842,723,982 6,191 4,185,338,271 1,557 1,212 1,402,825 2,382,397,269 2,169 1,141 1,487,877 2,521,453,272 2,774 1,096 1,573,923 2,681,680,279 5,940 1,015 1,973 1,142 3,408,023,303,006 1,940 1,023 a. Variable(s) introducida(s) en el paso 1: NTKCAL. I.C. 95,0% para EXP(B) El análisis ajustado confirma la confusión 64

65 Interacción Pruebas omnibus sobre los coeficientes del modelo Paso 1 Paso Bloque Modelo Chi-cuadrado gl Sig. 1,008 4,909 1,008 4,909 16,256 9,062 Variables en la ecuación Paso 1 a NDFOLIC NTKCAL NTKCAL(1) NTKCAL(2) NTKCAL(3) NTKCAL(4) NDFOLIC * NTKCAL NDFOLIC by NTKCAL(1) NDFOLIC by NTKCAL(2) NDFOLIC by NTKCAL(3) NDFOLIC by NTKCAL(4) Constante a. Variable(s) introducida(s) en el paso 1: NDFOLIC * NTKCAL. B E.T. Wald gl Sig. Exp(B) Inferior Superior -,072,183,155 1,694,930,649 1,333 2,815 4,589,431,734,345 1,557 1,539,365 6,486,934,760 1,508 1,219 2,543,573 11,286,912,737 1,530 1,216 2,489,587 10,559 1,029,729 1,989 1,158 2,797,670 11,684 1,005 4,909 -,018,244,005 1,942,982,609 1,585 -,193,255,576 1,448,824,500 1,358 -,167,252,442 1,506,846,517 1,385 -,124,263,222 1,638,883,527 1,481 -,274,584,221 1,638,760 I.C. 95,0% para EXP(B) 65

66 Interpretación de la interacción Modificación del efecto (riesgo) de una variable al ira acompañada de otra Cambia la referencia en la comparación: Efectos principales: riesgo promedio entre categorías de la otra variable (Riesgo del a. fólico ajustado por calorías, pero como promedio entre las diferentes categorías de calorías) Interacción: Riesgo específico respecto a una categoría de referencia combinada (consumo bajo fólico y calorías) 66

67 Caso 6. Alcohol y tabaco GRUPO * Alcohol * Tabaco Crosstabulation Count Alcohol Tabaco Fuma No fuma GRUPO Total GRUPO Total control caso control caso no bebe moderado importante Total Variable B S.E. Wald df Sig Exp(B) Lower Upper BEBE BEBE(1) BEBE(2) Constant FUMA(1) Constant

68 Variable B S.E. Wald df Sig R FUMA(1) BEBE BEBE(1) BEBE(2) Constant % CI for Exp(B) Variable Exp(B) Lower Upper FUMA(1) BEBE(1) BEBE(2) FUMA y moder * calculadora FUMA y inten * Variable B S.E. Wald df Sig FUMA(1) BEBE BEBE(1) BEBE(2) BEBE * FUMA BEBE(1) by FUMA(1) BEBE(2) by FUMA(1) Constant

69 Interpretación de modelos con interacciones 95% CI for Exp(B) Variable Exp(B) Lower Upper 1. No fuma No bebe FUMA(1) Fuma No bebe BEBE(1) No fuma Moderado BEBE(2) No fuma Intenso BEBE(1) by FUMA(1) BEBE(2) by FUMA(1) *3.7397*.5515 = Fuma Moderado *6.1154*.3481 = Fuma Intenso Ignorar la interacción supone infraestimar los riesgos respecto a no fumar y no beber 69

70 10 No fuma Fuma 1 10 No bebe moderado intenso No fuma Fuma no interaccion 1 No bebe moderado intenso 70

71 Riesgo para cada combinación Modelo efectos principales: α + β 1 F + β 2 M + β 3 I NB M I β1 β1+ β2 β F e e e β2 β NF 1 e e + β Modelo efectos principales + interacción: α + β 1 F + β 2 M + β 3 I + β 4 F M + β 5 F I NB M I β1 β + β + β β + β + β F e e e β2 β NF 1 e e 3 71

72 Es fundamental emplear modelos jerárquicos: Si hay una interacción, los efectos principales deben estar también: A + B + A.B Modelo SATURADO Tiene tantos parámetros como observaciones Todas las variables y sus interacciones No explica más que los datos Son útiles si se trabaja con datos agrupados (el SPSS no lo permite) 72

73 Intervalos de confianza con interacciones Se pueden calcular si se dispone de la matriz de varianza-covarianza de los parámetros: V(β 1 + β 2 ) = V(β 1 ) + V(β 2 ) -2C(β 1,β 2 ) Es más fácil crear una nueva variable combinación de las categorías de las que interaccionan: FUMABEBE NF-NB; NF-M; NF-I; F-NB; F-M; F-I 73

74 Variable B S.E. Wald df Sig R FUMABEBE FUMABEBE(1) FUMABEBE(2) FUMABEBE(3) FUMABEBE(4) FUMABEBE(5) Constant % CI for Exp(B) Variable Exp(B) Lower Upper 1 NF - NB FUMABEBE(1) NF - M FUMABEBE(2) NF - I FUMABEBE(3) F - NB FUMABEBE(4) F - M FUMABEBE(5) F - I 74

75 Diagnóstico en Regresión logística Verificar que el modelo es adecuado Bondad de ajuste Con datos agrupados: deviance residual Con datos individuales hace falta una referencia, que puede obtenerse a partir del modelo saturado, siempre que se trabaje con pocas variables y éste sea estimable Otros estadísticos: Σ(O-E) 2 /E sobre cada observación Hosmer y Lemeshow: Σ(O-E) 2 /E sobre 10 categorías de p 75

76 Residuales Diferencia (observado - esperado) para cada observación hay múltiples posibilidades: Estandarizados Deviance... Se pueden hacer gráficas para intentar dertectar patrones no aleatorios Son poco útiles a no ser que se trabaje con variables cuantitativas 76

77 Observaciones influyentes Individuos que modifican de manera importante el ajuste del modelo y la estimación de los parámetros Delta-betas: β Modificación de cada parámetro al eliminar una observación cada vez Si son grandes: modelo inestable (típico de N ) 77

78 Dfbeta for BEBE(1) Dfbeta for BEBE(2) -.04 Dfbeta for FUMA(1) Dfbeta for BEBE(1) b Dfbeta for BEBE(2) b NF-NB 78

79 Modelos predictivos El objetivo del modelo puede ser: generar una ecuación con capacidad predictiva, como una clasificación (análisis discriminante) buscar qué factores tienen capacidad predictiva Si la respuesta es la aparición de un evento, pueden llamarse modelos pronósticos En este tipo de estudios es típico contar con un gran número de variables a explorar 79

80 Métodos de selección automática Adelante: 1 Se inicia con un modelo vacío (sólo α) 2 Se ajusta un modelo y se calcula el p valor de incluir cada variable por separado 3 Se selecciona el modelo con la más significativa 4 Se ajusta un modelo con la(s) variable(s) seleccionada(s) y se calcula el p valor de añadir cada variable no seleccionada por separado 5 Se selecciona el modelo con la más significativa 6 Se repite 4-5 hasta que no queden variables significativas para incluir. 80

81 Atrás: 1 Se inicia con un modelo con TODAS las variables candidatas 2 Se eliminanan, una a una, cada variable y se calcula la pérdida de ajuste al eliminar 3 Se selecciona para eliminar la menos significativa 4 Se repite 2-3 hasta que todas las variables incluidas sean significativas y no pueda eliminarse ninguna sin que se pierda ajuste. 81

82 Stepwise Se combinan los métodos adelante y atrás. Puede empezarse por el modelo vacío o por el completo, pero en cada paso se exploran las variables incluidas, por si deben salir y las no seleccionadas, por si deben entrar No todos los métodos llegan a la misma solución necesariamente 82

83 Consideraciones Criterio exclusivamente estadístico: no se tienen en cuenta otros conocimientos sobre las variables más interesantes a incluir (aunque se puede forzar a que algunas variables siempre estén en el modelo) Si hay un conjunto de variables muy correlacionadas, sólo 1 será seleccionada No es fácil tener en cuenta interacciones entre variables (los modelos deben ser jerárquicos) 83

84 Valoración de la capacidad predictiva del modelo Area bajo la curva ROC construída para todos los posibles puntos de corte de η para clasificar los individuos en +/-: + Realidad + - VP FP η = β x β x > 1 1 p p Modelo - FN VN k 84

85 Cálculo de área bajo ROC Guardar los valores que predice el modelo (esperados) Calcular la U de Mann-Whitney respecto a los esperados: AUC = 1 n U + n n + y n - son el número esperado de + y - resp. 85

86 Test Statistics a GROUP Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) Predicted Value Valid control caso Total Frequency Percent a. Grouping Variable: GROUP U AUC = 1 = 1 = n n Un AUC=0.5 corresponde a una capacidad predictiva nula. El máximo es 1. 86

87 Elección del punto de corte óptimo Debe optimizarse la sensibilidad y la especificidad, y elegir un punto según la naturaleza del modelo predictivo El cambio en el punto de corte corresponde a emplear diferentes constantes en el modelo logístico Con frecuencia la constante estimada (α) consigue una sensibilidad y especificidad máxima, pero puede no ser el caso. 87

88 Validación del modelo El cálculo de la capacidad predictiva (CP) del modelo sobre la misma muestra que lo generó siempre es optimista, y debe validarse: Diferentes estrategias: Probar el modelo en otra muestra diferente Elaborar el modelo con un 75% de la muestra y calcular la CP en el 25% restante Usar la misma muestra, pero calcular los indicadores de CP mediante técnicas de bootstrap o validación cruzada, que corrigen el optimismo 88

89 Regresión multinomial La variable dependiente es categórica con más de 2 grupos Puede analizarse con Regresión logística politómica (modelo multinomial) Se elige una categoría como referencia y se modelan varios logits simultáneamente, uno para cada una de las restantes categorías respecto a la de referencia 89

90 Ejemplo: Hábito tabáquico La variable resultado tiene 3 categorías: Fumador Ex-fumador No fumador (referencia) Se modelan 2 logits simultáneamente: logit(fumador/no fumador z) = α 1 + β 1 z logit(ex-fumador/no fumador z) = α 2 + β 2 z Las covariables (z) son comunes pero se estiman coeficientes diferentes para cada logit (incluso diferente constante) 90

91 Caso 7. Acido fólico y tabaco Resumen del procesamiento de los casos N Porcentaje marginal TABAC2 Fumador % Ex-fumador % Fumador % NTILES of TKCAL % % % % % Válidos % Perdidos 0 Total

92 Contrastes de la razón de verosimilitud Efecto -2 logl Chi-cuadrado gl Sig. Intersección (a) NTFOLIC NTKCAL Estimaciones de los parámetros TABAC2(a) B Error típ. Wald gl Sig. Exp(B) Fumador Intersección Intervalo de confianza al 95% para Exp(B) Límite Límite inferior superior NTFOLIC [NTKCAL=1] [NTKCAL=2] [NTKCAL=3] [NTKCAL=4] [NTKCAL=5] 0(b) Ex-fumador Intersección NTFOLIC [NTKCAL=1] [NTKCAL=2] [NTKCAL=3] [NTKCAL=4] [NTKCAL=5] 0(b) a La categoría de referencia es: Fumador. b Este parámetro se ha establecido a cero porque es redundante. 92

93 Regresión ordinal La variable respuesta tiene más de 2 categorías ordenadas Se modela un único logit que recoge la relación (de tendencia) entre la respuesta y las covariables Hay varios modelos posibles según interese modelar la tendencia: odds proporcionales (acumualado) categorías adyacentes (parejas) 93

94 Odds-proporcionales Se compara un promedio de los posibles logit acumulados (respecto a la 1ª categoría): Logit Muy bajo Respuesta Bajo Alto Muy alto Cada logit tiene una constante diferente pero comparten el coeficiente de las covariables 94

95 Modelo de odds proporcionales: logit k (y > y k z) = α k + β z y = 1,2,... C k = 2,3,... C Supone que el cambio entre diferentes puntos de corte de la respuesta es constante (β), pero parte de diferentes niveles (α k ) 95

96 Caso 8. Estudio de la clase funcional En pacientes operados de cirugía cardíaca la clase funcional es una variable importante. Se ha agrupado en 3 categorías ordenadas: CLASEFUN baja / media / alta Un probable determinante de la clase funcional es el hecho de haber sido intervenido previamente: REOPER: sí/no 96

97 3 categorías: 2 logits logit(baja / media-alta) = logit(baja-media / alta) = α + βreoper α βreoper Tabla de contingencia Classe funcional * Reoperació Reoperació Classe funcional Total Classe II Classe III Classe IV NO SI Total Recuento % de Classe funcional 91.6% 8.4% 100.0% Recuento % de Classe funcional 89.3% 10.7% 100.0% Recuento % de Classe funcional 86.2% 13.8% 100.0% Recuento % de Classe funcional 89.3% 10.7% 100.0% 97

98 Response Profile Ordered Total Value CLASEFUN Frequency 1 1-medio-alto bajo 368 Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept REOPER Response Profile Ordered Total Value CLASEFUN Frequency 1 1-alto bajo-medio 965 Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 REOPER

99 Response Profile Ordered Total Value CLASEFUN Frequency 1 2-alto medio bajo 368 Score Test for the Proportional Odds Assumption Chi-Square DF Pr > ChiSq Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 Intercept REOPER

100 ordinal Estimaciones de los parámetros Intervalo de confianza 95% Umbral Estimación Error típ. Wald gl Sig. Límite inferior Límite superior [CLASE = 2.00] [CLASE = 3.00] Ubicación [REOPER=1] [REOPER=2] 0(a) Función de vínculo: Logit. a Este parámetro se establece en cero porque es redundante. multinomial Estimaciones de los parámetros Clase funcional(a) B Error típ. Wald gl Sig. Exp(B) Intervalo de confianza al 95% para Exp(B) Alta Intersección Límite inferior Límite superior [REOPER=1] [REOPER=2] 0(b) Media Intersección [REOPER=1] [REOPER=2] 0(b) a La categoría de referencia es: baja. b Este parámetro se ha establecido a cero porque es redundante. 100

101 Modelos log-lineales Análisis de datos categóricos donde el objetivo es analizar la relaciones entre variables No hay una respuesta y otras covariables Limitaciones del método: No se pueden analizar variable cuantitativas si no se categorizan previamente 101

102 Versión log-lineal del modelo logístico Un modelo logístico en el que las covariables sean categóricas se puede formular como un modelo Poisson: logit(y) = X+Z log(f) = X*Z +Y+ (X+Z)*Y Y~Bin Multinom f~poi f: frecuencias en la tabla de clasificación entre X,Z,Y X*Z = X + Z + X Z 102

103 Ajuste mediante regresión de Poisson Respuesta (Y): la frecuencia observada en cada celda de la tabla de clasificación multidimensional Transformación: log(y) Distribución de probabilidad: Poisson Modelos jerárquicos: log( Y) = α + β X + β Z + β XZ Interesan las interacciones (X Z): valoran la asociación entre variables 103

104 Caso 9. Tablas multidimensionames Estudio de la relación entre el consumo de macronutrientes (aportan energía) Carbohidratos Lípidos Porteínas Se han categorizado según terciles 104

105 Table of NTCARB by NTLIP NTCARB NTLIP Frequency Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total NTLIP Table of NTLIP by NTPROT NTPROT NTCARB Table of NTCARB by NTPROT NTPROT Frequency Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total Frequency Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total

106 proc freq data=glm6.coloncon noprint; tables ntcarb*ntlip*ntprot/out=dieta sparse; run; * efectos principales; proc genmod data=dieta; class ntcarb ntlip ntprot; model count= ntcarb ntlip ntprot /dist=p type3; run; * modelo saturado; proc genmod data=dieta; class ntcarb ntlip ntprot; model count= ntcarb ntlip ntprot /dist=p type3;run; * interacciones de orden 2 máximo; proc genmod data=dieta; class ntcarb ntlip ntprot; model count= ntcarb ntlip ntprot@2 /dist=p type3;run; 106

107 Efectos principales: (Categorías según terciles!) LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq NTCARB NTLIP NTPROT Modelo saturado: LR Statistics For Type 1 Analysis Chi- Source Deviance DF Square Pr > ChiSq Intercept NTCARB NTLIP NTCARB*NTLIP <.0001 NTPROT NTCARB*NTPROT <.0001 NTLIP*NTPROT <.0001 NTCARB*NTLIP*NTPROT

108 Modelo sin la interacción de 3er nivel LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq NTCARB NTLIP NTCARB*NTLIP NTPROT NTCARB*NTPROT NTLIP*NTPROT <.0001 Este modelo tiene muchos parámetros (18): es difícil de interpretar 108

109 Modelo con tendencias data dietat; set dieta; carb=ntcarb; prot=ntprot; lip=ntlip; proc genmod data=dietat; class ntcarb ntlip ntprot; model count= ntcarb ntlip ntprot carb*lip carb*prot lip*prot /dist=p type3; run; tendencias DF Deviance Log Likelihood categórico Deviance Log Likelihood Apenas se pierde ajuste por la diferencia en grados de libertad 109

110 Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 NTCARB <.0001 NTCARB <.0001 NTCARB NTLIP <.0001 NTLIP <.0001 NTLIP NTPROT <.0001 NTPROT <.0001 NTPROT carb*lip carb*prot lip*prot <.0001 Scale LR Statistics For Type 3 Analysis Chi- Source DF Square Pr > ChiSq NTCARB <.0001 NTLIP <.0001 NTPROT <.0001 carb*lip <.0001 carb*prot <.0001 lip*prot <

111 Análisis de conteos Cualquier variable que se derive de contar unidades individuales es susceptible de ser estudiada con modelos de regresión de Poisson Ejemplos: Casos de cáncer en un territorio en un periodo Células con anomalías cromosómicas Accidentes de tráfico 111

112 Modelos para tasas Si las unidades de observación donde se ha realizado el conteo no son comparables por corresponder a diferente tamaño de muestra diferente duración del periodo de observación Se puede realizar una estandarización interna: modelos para tasas 112

113 offset tasa casos y = = personas tiempo ariesgo Nt log y = α + βx Nt lo g( y) = log( Nt ) + α + βx Queremos que log(n t) esté en el predictor, pero sin que se le estime un coeficiente (β=1) Se puede definir como un offset en el modelo 113

114 Caso 10. Modelo para tasas Estimación de la tendencia en la incidencia del cáncer de mama en Tarragona Variables: y: número de casos edat: grupo de edad (de 0 a 35 agrupado) per: año de diagnóstico (80-96) pob: población de cada año y grupo de edad 114

115 data mama; set glm6.mama; if edat<8 then edat=8; lpob=log(pob); per2=per*per; proc genmod data=mama; class edat; model y=edat per/dist=p offset=lpob type1; run; Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq Intercept <.0001 EDAT <.0001 EDAT <.0001 EDAT <.0001 EDAT <.0001 EDAT EDAT EDAT EDAT EDAT EDAT EDAT PER <.0001 Scale

116 Análisis de la desviación de la linealidad proc genmod data=mama; class edat; model x=edat per per2/dist=p offset=lpob type1; run; LR Statistics For Type 1 Analysis Chi- Source Deviance DF Square Pr > ChiSq Intercept EDAT <.0001 PER <.0001 per

117 Estimación del riesgo relativo RR: razón de tasas Cada año el aumento en log(tasa) = RR = exp(β) Porcentage de incremento anual: (RR -1)*100 Parameter RR LCL UCL PIA LCL_PIA UCL_PIA PER

118 proc genmod data=mama; class edat; model x=edat per /dist=p offset=lpob type1; ods output ParameterEstimates=Parms; run; data Parms; set Parms; RR=exp(Estimate); LCL=exp(LowerCL); UCL=exp(UpperCL); PIA=(RR-1)*100; LCL_PIA=(LCL-1)*100; UCL_PIA=(UCL-1)*100; format RR LCL UCL PIA LCL_PIA UCL_PIA f8.3 ; run; proc print data=parms noobs; var parameter RR LCL UCL PIA LCL_PIA UCL_PIA; where parameter='per'; run; 118

119 Análisis de la supervivencia Víctor Moreno 2004

120 Esquema Diseño de estudios de seguimiento Supervivencia: tiempo hasta un evento Censuras Funciones estadísticas Estimación de la probabilidad de sobrevivir Comparación de curvas de supervivencia

121 Diseño de un estudio prospectivo Estudio de cohortes (registros) Ensayo clínico Incio del estudio Fin del Reclutamiento Fin del Estudio 0 t 1 t 2 Reclutamiento Seguimiento

122 Variable de interés Tiempo hasta que ocurre un suceso tiempo tiempo entrada suceso Eventos: muerte: supervivencia recaída/metástasis: tiempo libre de enfermedad curación transplante

123 Std. Dev = Mean = N = TIEMPO Descriptive Statistics TIEMPO Valid N (listwise) N Minimum Maximum Mean Std. Skewness Kurtosis Statistic Statistic Statistic Statistic Deviation Statistic Statistic Std. Error Statistic Std. Error

124 Std. Dev = 1.33 Mean = 4.09 N = LOGT Descriptive Statistics LOGT Valid N (listwise) N Minimum Maximum Mean Std. Skewness Kurtosis Statistic Statistic Statistic Statistic Deviation Statistic Statistic Std. Error Statistic Std. Error

125 Datos Censurados Para algunos pacientes el evento de interés puede no haber ocurrido durante el tiempo de observación (t) Información incompleta: T>t Se necesitan dos variables para caracterizar los datos de supervivencia T: tiempo de observación δ: indicador del estado (binario)

126 Causas de censuras Final programado del estudio para el análisis Pérdidas de seguimiento Abandonos Muerte por otras causas diferentes de la de interés

127 Tipos de censura Tipo I. Todos los individuos se siguen hasta una fecha fin de estudio Por la derecha: Pacientes vivos al finalizar el estudio Pacientes perdidos o abandonos En intervalo: Las visitas de control son espaciadas Por la izquierda: Se desconoce la fecha de inicio Tipo II. Los individuos se siguen hasta que han ocurrido r eventos

128 Truncamiento Los individuos entran en el estudio por un criterio determinado y los que no cumplen el criterio no son visibles al investigador. Ejemplo: Interesa estudiar la edad al morir pero sólo se estudian ancianos de un asilo Inicio: edad al ingresar al asilo (truncamiento) Final: edad al morir Los muertos anteriores a la jubilación no pueden entrar en el asilo, por tanto los datos están truncados por la izquierda

129 Escalas de tiempo Calendario: Inicio a fin del estudio Tiempo del paciente en el estudio: entrada a salida (por muerte o censura) Otras escalas pueden ser de interés: edad en el momento actual duración de una exposición

130 patient calendar time

131 patient survival time

132 sorted patient survival time

133 Descripción de la supervivencia T es cuantitativa continua Descripción: Supervivencia: Probabilidad de sobrevivir t o más: S(t) = Pr (T t) Acumulativa Percentiles: tiempo que sobrevive una proporción de la población

134 Proporción que sobrevive t o más Survival probability S(5)= Survival time

135 Tiempo mediano de supervivencia Survival probability S(t)=0.5 median Survival time

136 Tiempo medio de supervivencia Media = área bajo S(t) No estimable si S(t) no llega a 0 Sesgado (T asimétrico) No es un buen resumen Survival probability Survival time

137 Función de distribución (de la mortalidad): F(t) Pr(morir en t o antes) : acumulada Ejemplos: Pr(morir a los 65 años o antes) Pr(recidivar a los 3 años o antes) F(t) = Pr(T t) Es equivalente a S(t): eventos acumulados

138 Función de distribución: F(t) F(t) Tiempo

139 Función densidad: f(t) Tasa de mortalidad instantánea en t Tiempo en el denominador (δ) f(t) δ = Pr(morir entre t y t+δ) Ejemplos: Pr(morir a los 65 años) Pr(tener un reinfarto a los 2 meses del 1º) Estimación: f(t) = lim δ 0 Pr(t T δ t + δ)

140

141 Función de riesgo (Hazard) Tasa de mortalidad en el momento (t a t+δ) condicional a estar vivo en t h(t) = lim δ 0 Pr(t T t δ + δ t T) Es una tasa de mortalidad instantánea: Tiempo en el denominador (δ) h(t) δ = Pr(morir entre t y t+δ vivo en t) Util para modelar la supervivencia

142 Riesgo integrado Tasa de mortalidad acumulada H( t) h( u)du = t Relacionada directamente con la función de supervivencia: 0 S(t) = exp(-h(t)) H(t) = -log(s(t))

143 Densidad: f(t) vs riesgo: h(t) Las dos son probabilidades instantáneas La diferencia es el denominador: densidad: toda la población riesgo: la población viva antes de t Ejemplo: f(65): Pr(morir a los 65,00-65,99 años) h(65): Pr(morir a los 65,00-65,99 años vivo a los 65) es mayor pues el denominador es menor

144 densidad: f(t) y riesgo: h(t) f(x) Tiempo h(x) Tiempo

145 Relaciones entre funciones h(t) S(t) f(t) S' (t) = = S(t) S(t) dlns(t) = dt = exp[ h(u)du] = exp[ H(t)] t 0

146 Estimación de S(t) Si no hay censuras función de supervivencia empírica: S ~ ( t) = Número de individuos que sobreviven Número de individuos en la muestra t S(t) es una función escalonada. Se mantiene ~ constante entre los tiempos de dos muertes adyacentes

147 Estimador de Kaplan-Meier de S(t) Se divide el tiempo en k intervalos de manera que cada intervalo acaba justo cuando un paciente (o varios si hay empates) muere o queda censurado d d d n 1 n 2 n k 1 2 k Para cada intervalo i = 1 k : n i están vivos al inicio d i mueren al final. d i suele ser 1, pero varios eventos pueden registrarse en el mismo tiempo por problemas de redondeo o es 0 si censura.

148 Probabilidad de morir en el intervalo, T (t i-1,t i ], condicional a estar vivo al inicio p i = d i / n i Probabilidad de sobrevivir al final de intervalo, T>t i, condicional a estar vivo al inicio s i = 1 - p i = 1 - d i / n i Como los intervalos son independientes, la probabilidad acumulada de sobrevivir t desde el tiempo 0 S(t) = t i= 1 s i = t ( ) i i= 1 1-p = t i= 1 di 1- ni

149 Cálculos de Kaplan-Meier Time n i d i c i 1 - d i / n i = s i S(t) / 20 = / 19 = / 17 = / 15 = / 14 = / 13 = / 12 = / 9 = / 6 = / 3 = / 2 =

150 Tiempo mediano de supervivencia Survival probability median Survival time

151 Precisión de S(t) El error estándar de S(t) se puede calcular para cada tiempo mediante la fórmula de Greenwood: ^ e.e S( t) ^ S( t) El intervalo de confianza al 95% se calcula de la manera usual: S(t) ± 1.96 e.e.{s(t)} k i= 1 di n (n d) i i i 1 2

152 Bandas de confianza para S(t)

153 IC 95% para S(t) Para valores de S(t) cercanos a 1 y 0 el IC podría contener valores no válidos para una probabilidad (<0 ó >1) Se debe calcular el e.e. De una transformación de S(t) logaritmo: log(s) logit: log-log: log{s/(1-s)} log{-log(s)}

154 log(s) Var{log(S)} ~ Var(S)/{S log(s)} 2 φ = ee{log(s)} = Var{logS} 1/2 = ee(s)/{slog(s)} IC 95% = S exp(±1.96φ)

155 Estimación de S(t) para datos agrupados. Método de la tabla de vida El tiempo se divide en bandas amplias, usualmente de tamaño fijo (3m, 6m, 1a) Para cada banda i = 1 k : n i están vivos al inicio d i mueren en la banda c i son censurados en la banda Las observaciones censuradas se supone que se distribuyen de manera uniforme a lo largo de la banda

156 Las personas a riesgo se ajustan para tener en cuenta las observaciones censuradas n i = n i - c i / 2 Probabilidad de morir en la banda, condicional a estar vivo al inicio p i = d i / n i Probabilidad de sobrevivir la banda, condicional a estar vivo al inicio s i = 1 - p i = 1 - d i / n i