Métodos estadísticos para evaluar el acuerdo entre dos métodos de mediciones clínicas Paula E. Cuffaro Sección Hipertensión arterial y Área de Investigación en Medicina Interna Servicio de Clínica Médica Hospital Italiano de Buenos Aires Hospital Italiano de Buenos Aires
Statistical methods for assessing agreement between two methods of clinical measurement, (Lancet 1986) hasta Agosto 2011, 25 años luego de su publicación fue citado más de 18 000 veces Keim HJ, Wallace JM, Thurston H, Case DB, Drayer JI, Laragh JH: Impedance cardiography for determination of stroke index. J Appl Physiol 1976; 41:797 9 J. M. Bland and D. G. Altman. Anesthesiology 2012; 116:182 5.
Introducción En medicina realizamos mediciones indirectas de variables biológicas como PA, VDS, etc. Asumimos que existe un método gold standar que es el método estándar de medición pero que no está libre de error. Cuando necesitamos evaluar un nuevo método de medición lo comparamos contra el método estándar de medida. J Martin Bland and Douglas G Altman. Stat Methods Med Res 1999 8: 135.
Introducción Asumimos a priori que ambos métodos no presentarán un acuerdo exacto. Cuál es la diferencia clínicamente aceptable para decir que ambos métodos son intercambiables? (No en el sentido de causalidad sino de uso) Cuál es el criterio que utilizaremos? Ej. Diferencia que cambiaría una conducta, clasificación o estratificación de riesgo. Ej. dif 2 mmhg PA. Este punto no lo puede resolver los métodos estadísticos sino el criterio clínico.
Planteo del Problema Métodos inapropiados para evaluar acuerdo entre dos métodos de medición Comparación de medias Coeficiente de correlación (r) Influido por: la variabilidad entre individuos e intraindividuos. la selección de los individuos. Regresión (aunque no totalmente descartado) Altman DG, Bland JM.Statistician 1983; 32: 307 17
El Coeficiente de correlación es una medida de Asociación y NO de acuerdo
Propuesta de B&A B&A Tradicional - Método gráfico y de estadística simple - Variación de la diferencia entre ambos métodos en los pacientes individuales. Extensión de B&A tradicional - Cambio en la variación según el tamaño de la medición. - Medidas repetidas - Aproximación No paramétrica
Límites de Acuerdo Diferencia entre las dos mediciones en el mismo individuo. Tendencia consistente de un método en exceder al otro (Sesgo) y estimado por la diferencia de medias. Variación alrededor de esta diferencia (DS de la diferencia de medias). Ej. Diferencias de mediciones de PA por un operador vs. máquina. Estas estimaciones son válidas si asumimos que sesgo y variabilidad son distribuidas uniformemente a través de distintos rangos de mediciones.
Límites de Acuerdo. Ejemplo Comparción de mediciones de PA realizadas con un operador vs máquina N= 85 (pares de mediciones) Diferencias de medias (operador-máquina) Si las diferencias son N (0,1) 95% de las diferencias 95% límite de acuerdo
Gráfico de dispersión entre las dos mediciones Línea de igualdad No se grafica la línea de regresión ya que no se predente estimar una medición a partir de la otra.
Representación gráfica y tratamiento de los valores extremos Un 5% de los valores se encontrarán por fuera del 95% del límite de acuerdo. 5% de n =4,7 4/85 Se excluyeron los 2 valores más extremos. Dif.: -14 mmhg (95% acuerdo -43,6 a + 15 mmhg) Reducción de extensión de 77 a 59 mmhg.
Precisión de los límites de acuerdo estimados Cálculo del error estándar e IC para los límites de acuerdo. http://martinbland.co.uk/ 12
l Cálculo del ES e IC 95% de la diferencia
IC 95% del límite de acuerdo ES 95% acuerdo= 1,71ES = 1,71 x2,13= 3,64 IC 95% límite superior 22,1-1,99 x 3,64=14,9 22,1+1,99 x 3,64= 29,3 IC 95% limite inferior -54,7-1,99 x 3,64 = -61,9-54,7 + 1,99 x 3,64= -47,5
Extensión B&A I- Relación entre diferencia y magnitud
Transformación logarítmica 1) Tranformación logarítmica (log) de ambas mediciones 2) Expresar los datos inv log 16
La tasa es similar a la tranformación log Promedio de la tasa N/H fue 1,11 (95% límite de acuerdo de 1,06 a 1,15. El método Nadler excede al Hurley entre 1,06 and 1,15 veces, es decir entre 6% y 15% para muchas mediciones. Como la dispersión en torno a la media es pequeña podemos tener un excelente acuerdo si aplicamos un factor de corrección multiplicando el metodo H o dividiendo N por 1,11. Calcular la tasa para cada valor y luego calcular la diferencia y el 95% de límite acuerdo. 17
La regresión como aproximación para diferencias No Uniformes 18
La importancia de la Repetibilidad La repetibilidad indica una línea de base para juzgar variabilidad entre métodos. La repetibilidad (precisión) de ambos métodos limita el grado de acuerdo. Incluso los dos métodos pueden coincidir en los promedios pero con escasa repetibilidad, llevan a un mal acuerdo a nivel individual La falta de acuerdo de un nuevo método comparado con el gold standar inclusive puede deverse a la baja repetibilidad del mismo. Por esta razón se recomienda la estimación simultánea de la repetibilidad y el acuerdo mediante la recopilación de los datos replicados.
Datos replicados Datos Replicados: repeticiones de dos o más mediciones del mismo individuo tomados en idénticas condiciones. En general este requisito significa que el/las mediciones se toman en rápida sucesión. Las observaciones repetidas deben ser independientes unas de otras. Se logra asegurándose de que el observador hace que cada una de las mediciones independiente del conocimiento del valor previo (s). Puede ser difícil en la práctica.
Estimación de la Repetibilidad ANOVA de un factor DS intra-sujeto Utilizar la variabilidad intra-sujeto para evaluar repetibilidad Calcular límites de confianza l Observador J ( esfingomanómetro) variaza intrasujeto es 37.408. Observador R (esfingomanometro) varianza intrasujeto es 37,980 y para el equipo semiautomático 83,141. Coeficiente de Repetibilidad 2 lecturas por el mismo método para el 95% de los individuos. J: Coef. Rep: Equipo: Coef. Rep: 21
Estimación de la Repetibilidad Podemos comparar el 95% del Coef Rep con el 95% del límite de acuerdo. 95% -2,77 Sw a + 2,77Sw Si estos son similares, entonces la falta de acuerdo entre los métodos se explica por la falta de repetibilidad. Si los límites de acuerdo son considerablemente más anchos que la repetibilidad, indicaría que debe haber algún otro factor que influye en la reducción de la concordancia entre los métodos.
Extensión B&A II- Medidas Repetidas Igual número de mediciones por individuo Diferente número de mediciones por individuo Tomar mediciones de a pares
Extensión B&A III-Aproximación No paramétrica Las diferencias entre los métodos no siempre tienen una distribución normal. Esto no tendrá un gran impacto en los límites de acuerdo. Sin embargo, si hay uno o más extremos discrepancias entre los métodos, un enfoque no paramétrico puede resultar preferible. 24
Cálculo del tamaño de muestra Sample Size Calculations: Practical Methods for Engineers and Scientists By Paul Mathews
Sample Size Calculations: Practical Methods for Engineers and Scientists By Paul Mathews
How can I decide the sample size for a study of agreement between two methods of measurement? l 27
How can I decide the sample size for a study of agreement between two methods of measurement? l If you think of the 95% CI as +/- 1.96 root(3/n)s, you can see that a sample of 12 gives a 95% CI approximately +/- s. This seems pretty big. If we draw a little picture: 28
How can I decide the sample size for a study of agreement between two methods of measurement? l we can see that these confidence intervals are indeed wide. I usually recommend 100 as a good sample size, which gives a 95% CI about +/- 0.34s, which looks something like this: l A sample of 200 subjects is even better, giving a 95% CI about +/- 0.24s. As with all estimation, to determine the appropriate sample size the researcher must decide what accuracy is required. 29
Ej. 1: Diastolic Pressure Underestimates Age- Related Hemodynamic Impairment Methods Validation of Impedance Cardiography In our work, the correlation coefficient between simultaneous impedance cardiography and thermodilution determinations of CO in patients with coronary artery disease, severe hypertension, aortic stenosis, mitral stenosis, and congestive heart failure was.94, and the mean paired difference was 0.08 L/min (95% CI, 0.12 to 0.27 L/min). The regression equation for the two methods wasy= 0.76+1.17x, where y=co by impedance cardiography and x=co by thermodilution. 21 In our laboratory, the variation coefficient between two consecutive measurements of CO was 3.9%. 30 In addition, we evaluated the long-term interassay variation of CO in 35 hypertensive patients (1-month interval). The mean paired difference was 0.05 L/min (95% CI, 0.16 to 0.05 L/min). 31 Galarza C. et al. Hypertens 1997; 30: 809-816.
Ej. 2: Grado de acuerdo entre AASI VOP En este estudio se consideraron diferencias clínicamente importante 4 m/seg. Son necesarios estudios que muestren en forma aislada o combinadas el valor en el pronóstico y estratificación de Riesgo. Jerrard-Dunne P. J of Hypertens 2008, 26:529 534
Ej. 3: Reproducibilidad n= 126 (HTA no tratados) Edad: 48±11 Hombres 70% Repr. 2-4 semanas. No hay dif. significativas en el promedio AASI entre las 2 mediciones. Repetibilidad MODERADA (todos) AASI 24 Hs es más reproducible que los otros. La reproducibilidad del S- AASI mejora en los RC consistente. Determinantes de la diferencia: PAM % declinación nocturna de MAP (AASI y S-AASI) Stergiou G et al. Am J Hypertens. 2010;23:129-134. Dechering DG et al. Hipertens.2008;26:1993-2000. Gosse P et al.j Hypertens. 2008;26:1138-1146. Gosse P et al. 2007;20:831-838.
Muchas gracias.
Bibliografía Altman DG, Bland JM: Measurement in medicine: The analysis of method comparison studies. Statistician 1983; 32: 307 17. Bland JM, Altman DG: Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 1986; 1(8476):307 10. Bland JM, Altman DG: Comparing methods of measurement: Why plotting difference against standard method is misleading. Lancet 1995; 346:1085 7. Bland JM, Altman DG: Measuring agreement in method comparison studies. Stat Methods Med Res 1999; 8:135 60. Bland JM, Altman DG: Agreed Statistics Measurement Method Comparison. Anesthesiology 2012; 116:182 5.