El modelo de azar proporcional: la regresión de Cox

El modelo de azar proporcional: la regresión de Cox Alfonso Luis Palmer Pol y Jose Maria Losilla Vidal El Análisis de la Supervivencia (Palmer, 1988) engloba una variedad de técnicas estadísticas que permiten analizar variables aleatorias con valores positivos. Estas variables generalmente representan el intervalo de tiempo transcurrido desde el inicio del seguimiento hasta el momento en el que se produce un determinado desenlace. El desenlace es el suceso objeto de estudio que se caracteriza por un cambio cualitativo brusco. Una característica fundamental del análisis es que permite utilizar los denominados datos incompletos, es decir datos que contienen información parcial sobre el suceso estudiado. Las aplicaciones de estas técnicas en ingeniería impulsaron el estudio sobre los modelos paramétricos, que se utilizan cuando puede asumirse un modelo o distribución para la población origen de la muestra, tales como, entre otras, las distribuciones exponencial, Weibull, lognormal o gamma. Por el contrario, las aplicaciones en medicina impulsaron los modelos no paramétricos utilizados cuando se desconoce la distribución teórica. En ellos los sujetos se ordenan en función del valor de la variable aleatoria. Estos últimos son los modelos habituales utilizados en las aplicaciones realizadas en el campo de las Ciencias del Comportamiento. El aspecto descriptivo del análisis consiste en estimar las funciones de supervivencia, de azar y de densidad de la variable estudiada, así como un conjunto de índices estadísticos tales como la media, variancia, cuantilas y representaciones gráficas. Una segunda utilidad del análisis consiste en poder comparar dos o más distribuciones de supervivencia de manera que podemos evaluar estadísticamente su igualdad o diferencias. Identificación de factores pronóstico: dependencia sobre variables explicativas El tercer aspecto fundamental del modelo consiste en estudiar los modelos que pueden utilizarse para representar los efectos de un conjunto de variables explicativas sobre la variable tiempo de supervivencia. Suponemos así que para cada sujeto tenemos un vector de variables explicativas o concomitantes. Las componentes de dicho vector pueden representar tratamientos, propiedades intrínsecas de los sujetos o variables exógenas. Por otra parte dichas variables pueden ser clasificadas como dependientes o independientes del tiempo. En el análisis de datos de supervivencia hay dos familias de modelos que han sido extensamente usados:

En el modelo de vida acelerado ('accelerated life model') la relación entre la función de supervivencia para dos grupos (codificados por 1,0) viene determinada por una constante k tal que En el modelo de azar proporcional ('proportional hazards model') se utiliza la función de azar de manera que Modelo de azar proporcional (proportional hazard model) En los métodos de regresión paramétricos se requiere hipotetizar la forma paramétrica de la distribución de supervivencia. Dicha forma en general se presupone exponencial lo cual produce una función de azar constante. Sin embargo, dicha forma paramétrica será generalmente desconocida. Otro problema presentado por los modelos paramétricos es que no permiten la utilización de variables explicativas dependientes del tiempo. Cox (1972) inició una importante rama del análisis de la supervivencia resolviendo ambos problemas con un modelo de regresión que permite la evaluación no paramétrica de la relación entre funciones de azar. Cox describe la relación como: [11 h(t) = ho(t) exp(x'b) donde h(t) es el valor de la función de riesgo para un individuo con vector concomitante x, h o(t) es una función arbitraria de azar de linea base y B es un vector de coeficientes de regresión desconocidos que parametrizan el modelo. El modelo presupone, en primer lugar, una relación multiplicativa entre la función arbitraria de azar y la función log-lineal de las covariates. Estees el denominado supuesto de proporcionalidad según el cual el ratio de azar es constante, para todo par de observaciones, en cualquier instante t. Asimismo, presupone un efecto log-lineal de las covariates sobre la función de azar, es decir que las covariates actúan sobre la función de azar de forma multiplicativa Una ventaja fundamental de la formulación de Cox radica en el hecho que puede realizarse una inferencia de los efectos de la información concomitante sin conocer la forma de la distribución de supervivencia. A partir de la ecuación [11 dividiendo ambos miembros por h0(t) y tomando logaritmos neperianos obtenemos: [21 Esta ecuación permite obtener soluciones a dos intereses: (1) Permite obtener el subconjunto de variables concomitantes que se relacionan significativamente con la función de azar, es decir con la longitud de supervivenvia individual. Al igual que en los métodos clásicos de regresión múltiple, dichas variables pueden obtenerse utilizando un método stepwise. (2) El modelo de Cox define un índice pronóstico o ratio de azar para cada observación, dado por el miembro izquierdo de la ecuación [21. Si las variables independientes se centran, entonces:

siendo mi el valor medio de la variable i. En la ecuación [2], h0(t) representa el valor de la función de azar para cada individuo cuando todas las variables independientes toman el valor nulo. En la ecuación [3], h0(t) representa el valor de la función de azar cuando todas las variables independientes toman su valor promedio. Así pues el ratio de azar o índice pronóstico representa el ratio de riesgo de cambio para un sujeto con valores pronóstico x l,...,xn, respecto a un sujeto con valores pronóstico promedio para todas las variables (lo que Adolphe Quetelet definió en 1835 como "el hombre promedio"). Estimación de los coeficientes Los parámetros del modelo de Cox no pueden ser estimados por el método de máxima verosimilitud al ser desconocida la forma específica de la función arbitraria de azar. Cox (1975) propuso un método de estimación denominado verosimilitud parcial siendo las verosimilitudes condicionales y marginales casos particulares del anterior. El método de verosimilitud parcial se diferencia del método de verosimilitud ordinario en el sentido de que mientras el método ordinario se basa en el producto de las verosimilitudes para todos los individuos de la muestra, el método parcial se basa en el producto de las verosimilitudes de todos los sucesos ocurridos. Para estimar los coeficientes B en el modelo de Cox, en ausencia de conocimiento de h0(t), éste propuso la siguiente función de verosimilitud: [4] Esta expresión L(B) no es una verdadera función de verosimilitud ya que no puede derivarse como la probabilidad de algún resultado observado bajo el modelo de estudio, si bien, como indica Cox (1975), puede tratarse como una función de verosimilitud ordinaria a efectos de realizar estimaciones de B. Dichas estimaciones son consistentes (Cox, 1975; Tsiatis, 1981) y eficientes (Efron, 1977). Estimación stepwise de los coeficientes La estimación de los parámetros Bj puede realizarse por medio del método de regresión stepwise donde el orden de entrada de cada variable viene determinado por hacer máximo el valor del logaritmo de la función de verosimilitud LL(Bj). La primera variable x 1 en la ecuación será aquella tal que LL(B 1) maximiza la función LL(Bj). La segunda variable x2 incluída en la ecuación será aquella variable de las p-1 restantes cuyo valor LL(B 1,B2) es máximo. El proceso de inclusión continúa hasta que la inclusión de una variable k ya no produce un incremento significativo.

Pruebas de hipótesis del modelo Una vez obtenida la expresión de verosimilitud parcial para el problema de estudio ésta se resuelve como si fuera una expresión de verosimilitud ordinaria completa. Para ello se calcula el vector de puntuaciones o vector de primeras derivadas determinado por: El vector U(B) tiene media=0 y matriz de covariancias I(B) denominada matriz de información esperada o de Fisher, cuyos elementos vienen dados por: La matriz de información observada I,,,(B) tiene elementos definidos por: se distribuye asintóticamente según una distribución de ji- cuadrado con k (número de covariates en el modelo) grados de libertad. Este resultado permite probar la hipótesis nula según la cual el vector B de coeficientes de regresión es un vector nulo. Los coeficientes de regresión indican la relación existente entre la covariate correspondiente y la función de azar. Un valor positivo del coeficiente supone un aumento en el valor de la función de azar para el sujeto, lo que conlleva una relación negativa con el tiempo de supervivencia. Un coeficiente negativo tiene una interpretación opuesta a la explicada. Estratificación El modelo de azar proporcional requiere que para todo par de individuos en cualquier instante t el ratio entre sus tasas de azar sea constante: donde i,j son dos individuos y la constante c puede depender de variables explicativas pero no del tiempo. Cuando tengamos un factor que produce funciones de azar que difieren significativamente de la proporcionalidad en sus diferentes niveles, la estrategia a seguir (Kalbfleisch, Prentice,

1980) consiste en definir una función de azar para cada uno de los k niveles del factor: para j= 1,2,._k. Las funciones de azar de linea base h o,(t) son arbitrarias y no están relacionadas entre sí, mientras que los coeficientes de regresión son iguales para todos los estratos. Referencias COX, D.R. (1972). Regression models and life-tables. Journal of the Royal Statistical Society, Series B 34, 187-202. COX, D.R. (1975). Partial likelihood. Biometrika 62, 269-276. EFRON, B. (1977). The efficiency of Cox's likelihood function for censored data. Journal of the American Statistical Association 72, 557-565. KALBFLEISCH, J.D.- PRENTICE, R.L. (1980). The statistical analysis offailure time data. N.Y.: John Wiley and Sons. PALMER, A. (1988). Análisis de la supervivencia. Barcelona: Universidad Autónoma de Barcelona. TSIATIS, A. (1981). A large sample study of Cox's regression model. Annals of Statistics 9, 93-108.