El modelo de azar proporcional: la regresión de Cox

Documentos relacionados
1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Teorema Central del Límite (1)

DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM

Fase 2. Estudio de mercado: ESTADÍSTICA

INFERENCIA ESTADISTICA

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

MEDIDAS DE TENDENCIA CENTRAL

DISTRIBUCIONES BIDIMENSIONALES

FUNCIONES EXPONENCIAL Y LOGARÍTMICA

Análisis de datos Categóricos

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO. Facultad de Medicina Veterinaria y Zootecnia. Licenciatura en Medicina Veterinaria y Zootecnia

MÓDULO 1: GESTIÓN DE CARTERAS

Ejercicios T2 y T3.- DISTRIBUCIONES MUESTRALES Y ESTIMACIÓN PUNTUAL

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

PROGRAMA ACADEMICO Ingeniería Industrial

Facultad de Ciencias Sociales - Universidad de la República

Tema 4: Probabilidad y Teoría de Muestras

Tercera práctica de REGRESIÓN.

Indicaciones para el lector... xv Prólogo... xvii

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Curva de Lorenz e Indice de Gini Curva de Lorenz

Robusticidad de los Diseños D-óptimos a la Elección. de los Valores Locales para el Modelo Logístico

Tema 1.- Correlación Lineal

Introducción. Flujo Eléctrico.

Tema 7 : DATOS BIVARIADOS. CORRELACION Y REGRESION.

GUÍA DOCENTE DE LA ASIGNATURA ESTADÍSTICA APLICADA

Contenido. 2 Probabilidad 9. Prefacio. 1 Introducci6n a la estadfstica y al an;!llisis de datos

CONTENIDOS MÍNIMOS BLOQUE 2. NÚMEROS

Esquema (1) Análisis de la Varianza y de la Covarianza. ANOVA y ANCOVA. ANOVA y ANCOVA 1. Análisis de la Varianza de 1 Factor

Esta expresión polinómica puede expresarse como una expresión matricial de la forma; a 11 a 12 a 1n x 1 x 2 q(x 1, x 2,, x n ) = (x 1, x 2,, x n )

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I.

Introducción a la regresión ordinal

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

MATEMÁTICASII Curso académico BLOQUE GEOMETRÍA. TEMA 1: VECTORES

1. Caso no lineal: ajuste de una función potencial

La eficiencia de los programas

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Estadística Inferencial. Estadística Descriptiva

CONTENIDOS MÍNIMOS SEPTIEMBRE. DEPARTAMENTO DE MATEMÁTICAS

Determinantes. Determinante de orden uno. a 11 = a 11 5 = 5

Tipos de gráficas y selección según los datos CIENCIA, TECNOLOGIA Y AMBIENTE

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

Variables aleatorias

CAPÍTULO I. INTRODUCCIÓN. Cuando se requiere obtener información de una población, y se desean obtener los mejores

TEMA 3: Contrastes de Hipótesis en el MRL

CAPÍTULO IV TRABAJO DE CAMPO Y PROCESO DE CONTRASTE DE LAS HIPÓTESIS

Números reales Conceptos básicos Algunas propiedades

Unidad 2: Ecuaciones, inecuaciones y sistemas.

Matemáticas 2.º Bachillerato. Intervalos de confianza. Contraste de hipótesis

18 Experimentos aleatorios. Sucesos y espacio muestral. Frecuencia y probabilidad de un suceso.

1º CURSO BIOESTADÍSTICA

TEMA VI ANÁLISIS DE SUPERVIVENCIA

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Ing. Eduardo Cruz Romero w w w. tics-tlapa. c o m

Por ejemplo, si se desea discriminar entre créditos que se devuelven o que presentan

Determinantes. Concepto de determinante A cada matriz cuadrada A se le asigna un número denominado determinante de A, denotado por A o por det (A).

Objetivos del análisis de supervivencia

7.FUNCIÓN REAL DE VARIABLE REAL

Dos matrices son iguales cuando tienen la misma dimensión y los elementos que ocupan el mismo lugar en ambas son iguales

ESTADISTICA APLICADA: PROGRAMA

Conceptos básicos estadísticos

CAPÍTULO 4 TÉCNICA PERT

Tema 5. Contraste de hipótesis (I)

Diagnósticos regresión

CONTENIDOS. 1. Procesos Estocásticos y de Markov. 2. Cadenas de Markov en Tiempo Discreto (CMTD) 3. Comportamiento de Transición de las CMTD

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

Regresión con variables independientes cualitativas

REGRESIÓN LINEAL SIMPLE, COEFICIENTE DE DETERMINACIÓN Y CORRELACIONES (EJERCICIOS RESUELTOS)

Tema 1: Introducción

Cómo llevar a cabo un trabajo empírico

Tema 2. Introducción a la Estadística Bayesiana

Contenidos mínimos Criterios de evaluación Ejemplos de preguntas

c). Conceptos. Son los grupos o conceptos que se enlistan en las filas de la izquierda de la tabla

13. Utilizar la fórmula del término general y de la suma de n términos consecutivos

4.1 CONTENIDOS PARA PRIMERO DE LA ESO. Conceptos

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Multicolinealidad. Universidad de Granada. RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17

Tema 5 Algunas distribuciones importantes

FUNDAMENTOS DEL ÁLGEBRA. Folleto De Trabajo Para La Clase ECUACIONES LINEALES EN DOS VARIABLES

PONTIFICIA UNIVERSIDAD CATOLICA DEL ECUADOR FACULTAD DE INGENIERIA ESCUELA DE INGENIERIA DE SISTEMAS

Prácticas de Ecología Curso 3 Práctica 1: Muestreo

Contrastes de hipótesis paramétricos

PROGRAMACIÓN DE LOS CONTENIDOS DE MATEMÁTICAS EN LA PREPARACIÓN DE LA PARTE COMÚN DE LA PRUEBA DE ACCESO A LOS C.F.G.S. (Opción C)

Apéndice sobre ecuaciones diferenciales lineales

BLOQUE I: GEOMETRÍA PLANA Y FIGURAS GEOMÉTRICAS. Ecuaciones y sistemas. 2 (20 horas) Funciones y gráficas. 2 (20 horas) Estadística y probabilidad

Poblaciones multietáneas

Test de Kolmogorov-Smirnov

CURSO: Métodos estadísticos de uso frecuente en salud

Distribuciones de probabilidad

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

PROGRAMA DE ESTUDIOS. - Nombre de la asignatura : Taller de herramientas Estadísticas. - Pre requisitos : LCP 219 Estadística

3.1. Administración de la medición y de la información estratégica:

Diplomatura en Ciencias Empresariales X Y

UNIVERSIDAD DEL NORTE

OTRAS HERRAMIETAS ESTADISTICAS UTILES. Dra. ALBA CECILIA GARZON

Conceptos Básicos de Inferencia

Transcripción:

El modelo de azar proporcional: la regresión de Cox Alfonso Luis Palmer Pol y Jose Maria Losilla Vidal El Análisis de la Supervivencia (Palmer, 1988) engloba una variedad de técnicas estadísticas que permiten analizar variables aleatorias con valores positivos. Estas variables generalmente representan el intervalo de tiempo transcurrido desde el inicio del seguimiento hasta el momento en el que se produce un determinado desenlace. El desenlace es el suceso objeto de estudio que se caracteriza por un cambio cualitativo brusco. Una característica fundamental del análisis es que permite utilizar los denominados datos incompletos, es decir datos que contienen información parcial sobre el suceso estudiado. Las aplicaciones de estas técnicas en ingeniería impulsaron el estudio sobre los modelos paramétricos, que se utilizan cuando puede asumirse un modelo o distribución para la población origen de la muestra, tales como, entre otras, las distribuciones exponencial, Weibull, lognormal o gamma. Por el contrario, las aplicaciones en medicina impulsaron los modelos no paramétricos utilizados cuando se desconoce la distribución teórica. En ellos los sujetos se ordenan en función del valor de la variable aleatoria. Estos últimos son los modelos habituales utilizados en las aplicaciones realizadas en el campo de las Ciencias del Comportamiento. El aspecto descriptivo del análisis consiste en estimar las funciones de supervivencia, de azar y de densidad de la variable estudiada, así como un conjunto de índices estadísticos tales como la media, variancia, cuantilas y representaciones gráficas. Una segunda utilidad del análisis consiste en poder comparar dos o más distribuciones de supervivencia de manera que podemos evaluar estadísticamente su igualdad o diferencias. Identificación de factores pronóstico: dependencia sobre variables explicativas El tercer aspecto fundamental del modelo consiste en estudiar los modelos que pueden utilizarse para representar los efectos de un conjunto de variables explicativas sobre la variable tiempo de supervivencia. Suponemos así que para cada sujeto tenemos un vector de variables explicativas o concomitantes. Las componentes de dicho vector pueden representar tratamientos, propiedades intrínsecas de los sujetos o variables exógenas. Por otra parte dichas variables pueden ser clasificadas como dependientes o independientes del tiempo. En el análisis de datos de supervivencia hay dos familias de modelos que han sido extensamente usados:

En el modelo de vida acelerado ('accelerated life model') la relación entre la función de supervivencia para dos grupos (codificados por 1,0) viene determinada por una constante k tal que En el modelo de azar proporcional ('proportional hazards model') se utiliza la función de azar de manera que Modelo de azar proporcional (proportional hazard model) En los métodos de regresión paramétricos se requiere hipotetizar la forma paramétrica de la distribución de supervivencia. Dicha forma en general se presupone exponencial lo cual produce una función de azar constante. Sin embargo, dicha forma paramétrica será generalmente desconocida. Otro problema presentado por los modelos paramétricos es que no permiten la utilización de variables explicativas dependientes del tiempo. Cox (1972) inició una importante rama del análisis de la supervivencia resolviendo ambos problemas con un modelo de regresión que permite la evaluación no paramétrica de la relación entre funciones de azar. Cox describe la relación como: [11 h(t) = ho(t) exp(x'b) donde h(t) es el valor de la función de riesgo para un individuo con vector concomitante x, h o(t) es una función arbitraria de azar de linea base y B es un vector de coeficientes de regresión desconocidos que parametrizan el modelo. El modelo presupone, en primer lugar, una relación multiplicativa entre la función arbitraria de azar y la función log-lineal de las covariates. Estees el denominado supuesto de proporcionalidad según el cual el ratio de azar es constante, para todo par de observaciones, en cualquier instante t. Asimismo, presupone un efecto log-lineal de las covariates sobre la función de azar, es decir que las covariates actúan sobre la función de azar de forma multiplicativa Una ventaja fundamental de la formulación de Cox radica en el hecho que puede realizarse una inferencia de los efectos de la información concomitante sin conocer la forma de la distribución de supervivencia. A partir de la ecuación [11 dividiendo ambos miembros por h0(t) y tomando logaritmos neperianos obtenemos: [21 Esta ecuación permite obtener soluciones a dos intereses: (1) Permite obtener el subconjunto de variables concomitantes que se relacionan significativamente con la función de azar, es decir con la longitud de supervivenvia individual. Al igual que en los métodos clásicos de regresión múltiple, dichas variables pueden obtenerse utilizando un método stepwise. (2) El modelo de Cox define un índice pronóstico o ratio de azar para cada observación, dado por el miembro izquierdo de la ecuación [21. Si las variables independientes se centran, entonces:

siendo mi el valor medio de la variable i. En la ecuación [2], h0(t) representa el valor de la función de azar para cada individuo cuando todas las variables independientes toman el valor nulo. En la ecuación [3], h0(t) representa el valor de la función de azar cuando todas las variables independientes toman su valor promedio. Así pues el ratio de azar o índice pronóstico representa el ratio de riesgo de cambio para un sujeto con valores pronóstico x l,...,xn, respecto a un sujeto con valores pronóstico promedio para todas las variables (lo que Adolphe Quetelet definió en 1835 como "el hombre promedio"). Estimación de los coeficientes Los parámetros del modelo de Cox no pueden ser estimados por el método de máxima verosimilitud al ser desconocida la forma específica de la función arbitraria de azar. Cox (1975) propuso un método de estimación denominado verosimilitud parcial siendo las verosimilitudes condicionales y marginales casos particulares del anterior. El método de verosimilitud parcial se diferencia del método de verosimilitud ordinario en el sentido de que mientras el método ordinario se basa en el producto de las verosimilitudes para todos los individuos de la muestra, el método parcial se basa en el producto de las verosimilitudes de todos los sucesos ocurridos. Para estimar los coeficientes B en el modelo de Cox, en ausencia de conocimiento de h0(t), éste propuso la siguiente función de verosimilitud: [4] Esta expresión L(B) no es una verdadera función de verosimilitud ya que no puede derivarse como la probabilidad de algún resultado observado bajo el modelo de estudio, si bien, como indica Cox (1975), puede tratarse como una función de verosimilitud ordinaria a efectos de realizar estimaciones de B. Dichas estimaciones son consistentes (Cox, 1975; Tsiatis, 1981) y eficientes (Efron, 1977). Estimación stepwise de los coeficientes La estimación de los parámetros Bj puede realizarse por medio del método de regresión stepwise donde el orden de entrada de cada variable viene determinado por hacer máximo el valor del logaritmo de la función de verosimilitud LL(Bj). La primera variable x 1 en la ecuación será aquella tal que LL(B 1) maximiza la función LL(Bj). La segunda variable x2 incluída en la ecuación será aquella variable de las p-1 restantes cuyo valor LL(B 1,B2) es máximo. El proceso de inclusión continúa hasta que la inclusión de una variable k ya no produce un incremento significativo.

Pruebas de hipótesis del modelo Una vez obtenida la expresión de verosimilitud parcial para el problema de estudio ésta se resuelve como si fuera una expresión de verosimilitud ordinaria completa. Para ello se calcula el vector de puntuaciones o vector de primeras derivadas determinado por: El vector U(B) tiene media=0 y matriz de covariancias I(B) denominada matriz de información esperada o de Fisher, cuyos elementos vienen dados por: La matriz de información observada I,,,(B) tiene elementos definidos por: se distribuye asintóticamente según una distribución de ji- cuadrado con k (número de covariates en el modelo) grados de libertad. Este resultado permite probar la hipótesis nula según la cual el vector B de coeficientes de regresión es un vector nulo. Los coeficientes de regresión indican la relación existente entre la covariate correspondiente y la función de azar. Un valor positivo del coeficiente supone un aumento en el valor de la función de azar para el sujeto, lo que conlleva una relación negativa con el tiempo de supervivencia. Un coeficiente negativo tiene una interpretación opuesta a la explicada. Estratificación El modelo de azar proporcional requiere que para todo par de individuos en cualquier instante t el ratio entre sus tasas de azar sea constante: donde i,j son dos individuos y la constante c puede depender de variables explicativas pero no del tiempo. Cuando tengamos un factor que produce funciones de azar que difieren significativamente de la proporcionalidad en sus diferentes niveles, la estrategia a seguir (Kalbfleisch, Prentice,

1980) consiste en definir una función de azar para cada uno de los k niveles del factor: para j= 1,2,._k. Las funciones de azar de linea base h o,(t) son arbitrarias y no están relacionadas entre sí, mientras que los coeficientes de regresión son iguales para todos los estratos. Referencias COX, D.R. (1972). Regression models and life-tables. Journal of the Royal Statistical Society, Series B 34, 187-202. COX, D.R. (1975). Partial likelihood. Biometrika 62, 269-276. EFRON, B. (1977). The efficiency of Cox's likelihood function for censored data. Journal of the American Statistical Association 72, 557-565. KALBFLEISCH, J.D.- PRENTICE, R.L. (1980). The statistical analysis offailure time data. N.Y.: John Wiley and Sons. PALMER, A. (1988). Análisis de la supervivencia. Barcelona: Universidad Autónoma de Barcelona. TSIATIS, A. (1981). A large sample study of Cox's regression model. Annals of Statistics 9, 93-108.