Validación de pruebas diagnósticas

Capítulo 9 Validación de pruebas diagnósticas Miguel Cordero Coma, Raquel Salazar Méndez 1. Introducción 2. Validez interna de un test diagnóstico a) Sensibilidad b) Especificidad c) balance entre sensibilidad y especificidad d) las razones de probabilidad 3. Uso de test múltiples a) Test secuenciales b) Test simultáneos c) Cómo los aplicamos? 4. Valores predictivos a) Valor predictivo positivo b) Valor predictivo negativo c) relación con la prevalencia y la especificidad 5. Reproducibilidad del test 6. Odds preprueba y postprueba historia clínica (3). No obstante, con mucha frecuencia precisamos de diversas herramientas que orienten y confirmen nuestras sospechas. Decidir qué pruebas solicitar y más aún, cómo interpretarlas, son, cada día, las preguntas más frecuentes y difíciles de contestar (3). Desgraciadamente, con una frecuencia mayor de la deseada, resolvemos estas eternas dudas solicitando un sinfín de baterías y test diagnósticos, que no sólo son costosos sino que nos sobrecargan de información irrelevante (3). A la hora de decidir qué pruebas solicitar y cómo interpretarlas, hemos de plantearnos una serie de cuestiones acerca de la validez de dicha prueba, basándonos fundamentalmente en su sensibilidad, especificidad y probabilidad pre- y postprueba; así como evaluar su reproducibilidad (4-7). Estos mismos conceptos son los que en el campo de la investigación clínica nos permiten validar un test diagnóstico. 2. VALIDEZ INTERNA DE UN TEST DIAGNÓSTICO 1. INTRODUCCIÓN Según la Real Academia de la Lengua Española, el diagnóstico se define como el arte o acto de conocer la naturaleza de una enfermedad mediante la observación de sus síntomas y signos (1). Representa quizás la parte más importante de nuestra profesión y la clave que orienta nuestras decisiones terapéuticas. El diagnóstico no deja de ser una hipótesis derivada de nuestras observaciones y obtener una certeza absoluta resulta una meta inalcanzable (2). Una correcta, completa y dirigida anamnesis representa la piedra angular sobre la que establecer nuestras presunciones diagnósticas, de tal forma que casi el 90% de los diagnósticos que se realizan a diario en la práctica médica proceden exclusiva o fundamentalmente de la La validez interna de un test se define como su capacidad para distinguir entre aquellos sujetos afectados por la enfermedad o condición a estudio y aquellos que no lo están (7). Como vimos en el capítulo 8 acerca de la elección de variables, corresponde al grado en que los resultados de la medición se ajustan al fenómeno real que se mide (la «verdad») (5). Está determinada por dos componentes: la sensi-

74 9. Validación de pruebas diagnósticas bilidad (que representa su capacidad para identificar correctamente a los enfermos con un resultado positivo en la prueba) y la especificidad (o habilidad para discriminar como tales a los sanos por medio de un resultado negativo) (7,8). Para conocer los valores de estos indicadores de validez interna es preciso comparar los resultados obtenidos mediante la prueba a estudio con aquellos procedentes de la aplicación del gold-standard (o prueba de referencia), que asumimos como una fuente externa de verdad. El gold-standard constituiría para cada patología específica el mejor método disponible para su diagnóstico, permitiendo, al menos teóricamente, detectar todos los casos (enfermos) como positivos y todos los controles (sanos) como negativos (7,8). Podemos representar los datos obtenidos en la prueba de forma esquemática en una tabla 2x2 (tabla I). Tabla I. Tabla de contingencia 2x2 Enfermo Sano Total Test positivo a (VP) b (FP) a+b (VP+FP) Test negativo Total De acuerdo con los datos recogidos en la tabla, podremos clasificar a todos los sujetos estudiados en cuatro grupos, en función de los resultados obtenidos: 1. Verdaderos positivos (VP): enfermos identificados como tales en la prueba a estudio por medio de un resultado positivo. 2. Falsos positivos (FP): sanos incorrectamente identificados por la prueba con un resultado positivo. 3. Falsos negativos (FN): enfermos incorrectamente clasificados por la prueba con un resultado negativo. 4. Verdaderos negativos (VN): sanos correctamente identificados como tales en la prueba con un resultado negativo. a) Sensibilidad c (FN) a+c (VP+FN) d (VN) b+d (FP+VN) c+d (FN+VN) a+b+c+d (VP+FP+ FN+VN) La sensibilidad (S) indica la proporción del total de enfermos que el test es capaz de detectar (5,6). Según la tabla de contingencia se expresaría como: a S = a+c b) Especificidad La especificidad (E) indica la proporción de sujetos sanos confirmados como tales con un resultado negativo de la prueba (5). De acuerdo con la tabla de contingencia, se expresaría como: d E = b+d c) Balance entre sensibilidad y especificidad Idealmente, ambos parámetros deberían ser estables si las condiciones en las que se valoraran fueran absolutamente uniformes. Desgraciadamente no es así, y cuando un nuevo test diagnóstico sale al mercado, con frecuencia su sensibilidad y especificidad son variables según las condiciones de su aplicación (5). En general se asume una cierta relación inversa entre ambos parámetros, de tal forma que la mejora en uno de ellos empeora las cifras del otro, si bien es cierto que ciertas pruebas disponen de una alta sensibilidad y especificidad, como sucede con los instrumentos diagnósticos en el VIH (5). En la práctica, no siempre los resultados de las pruebas son categóricos (positivo o negativo), sino que con frecuencia se expresan como variables cuantitativas continuas. Qué sucede cuando el resultado de la prueba no es un sí o un no, sino un valor numérico? En este caso la decisión de tratar o no al paciente, dependerá del establecimiento previo de un punto de corte que nos permita clasificar cada caso como positivo o negativo. Definir un punto de corte alto supondrá un incremento de la especificidad en detrimento de la sensibilidad (es decir, detectaremos correctamente los casos negativos, pero perderemos muchos casos positivos por el camino) (5). Por el contrario, establecer un punto de corte bajo comprometerá la especificidad en favor de la sensibilidad. Así, el dilema sobre el punto de corte (alto o bajo), debe resolverse tras considerar las implicaciones de los resultados FP y FN (4,7). Por ejemplo, no es lo mismo aplicar un cierto punto de corte de presión intraocular a una población de pacientes con alta sospecha de glaucoma (por tener más factores de riesgo, por ejemplo antecedentes familiares), que hacerlo en la comunidad general, donde no se debe sacrificar la especificidad por el riesgo de aumentar los FP y así la carga sanitaria (5). En general, se recomienda elegir una prueba sensible (punto de corte bajo) cuando la enfermedad es grave, no debe permanecer ignorada y es tratable o cuando no siéndolo, existe riesgo de

9. Validación de pruebas diagnósticas transmisión (por ejemplo, la sífilis) (5). Las pruebas altamente específicas (punto de corte alto) son de elección cuando la enfermedad es grave y difícilmente tratable o cuando el hecho de saberse no afectado por la enfermedad posee importancia sanitaria o psicológica (por ejemplo, un tumor) (5). Por último, las pruebas altamente eficientes (elevada sensibilidad y especificidad) serán precisas en aquellos casos en los que el tratamiento de los FP o la negligencia de un resultado FN tuvieran consecuencias catastróficas (6). Las curvas ROC (del inglés «receiver operating characteristic») facilitan la elección de puntos de corte, permiten comparar pruebas diagnósticas de forma gráfica y conocer la capacidad diagnóstica global de una prueba a lo largo de todo su espectro de valores (5). En ellas se representa la sensibilidad en ordenadas y el complementario de la especificidad (1-E) en abscisas (5,6). El área bajo la curva representa todos los diagnósticos correctos (VP y VN), quedando los incorrectos (FP y FN) por encima. Así, cuanto mayor es el área, mejor y más exacta será la prueba (5). d) Las razones de probabilidad o verosimilitud Relacionan la sensibilidad con la especificidad, comparando la probabilidad de que un resultado provenga de un enfermo respecto de un sano. Como la misma sensibilidad y especificidad, tampoco dependen de la prevalencia de la condición que se estudia. La razón de probabilidad positiva (RPP) expresa el 75 número de veces que resulta más probable que un resultado positivo provenga de un enfermo respecto de un sano por lo que, lógicamente, interesa que sea un valor alto (6). Se expresa como: S RPP = 1 E La razón de probabilidad negativa (RPN) por su parte, expresa, el número de veces que es más probable que un resultado negativo provenga de un enfermo que de un sano, por lo que en este caso interesa que sea un valor bajo (6). Se expresa como: 1 S RPN = E 3. USO DE TEST MÚLTIPLES a) Test secuenciales En los test secuenciales se aplica una primera prueba (test A), reservándose la segunda (test B), habitualmente más invasiva y/o costosa pero más sensible y específica, sólo para aquellos sujetos con un resultado positivo en la primera prueba. Al calcular la sensibilidad y especificidad globales de ambas, observaremos una pérdida de la sensibilidad neta frente a un incremento de la especificidad (fig. 1) (7). Los test secuenciales o en serie (como sucede en el diagnóstico del VIH) mejoran la especificidad al afinarse Fig. 1: Test secuenciales: cálculo de sensibilidad y especificidad netas.

76 9. Validación de pruebas diagnósticas los resultados positivos de la primera prueba con la aplicación de una segunda (se reducen los FP aunque no se descubren casos adicionales). b) Test simultáneos En el caso de los test simultáneos o paralelos, a cada paciente se le aplicarán al mismo tiempo, ambas pruebas (test A y test B). El cálculo de la sensibilidad y especificidad globales revelará el efecto inverso, es decir, una ganancia de la sensibilidad neta en detrimento de la especificidad (figs. 2 y 3) (6,7). c) Cómo los aplicamos? En la práctica diaria con frecuencia recurrimos a la solicitud de múltiples baterías de forma simultánea para certificar o descartar nuestra sospecha. En tal caso, entendemos que es preciso obtener un resultado positivo en ambas pruebas para considerar al individuo como enfermo. Del mismo modo, sólo lo consideraremos definitivamente sano si en ambas pruebas el resultado es negativo. En el caso de los test secuenciales, por el contrario, sólo sometemos a la segunda prueba a aquellos individuos con un resultado positivo en la prueba inicial, lo que supone una pérdida de sensibilidad a favor de la especificidad. Ejemplo 9.1 En la práctica diaria recurrimos con frecuencia a la realización de pruebas de forma secuencial, como sucede en el caso de la sífilis. Los test no treponémicos o inespecíficos (RPR, VDRL) son baratos y rápidos de realizar, por lo que se utilizan como pruebas de screening. Precisan entre 1-2 semanas tras el contacto para positivizarse, detectándose luego en el 99% de los pacientes con sífilis secundaria (9). Su reactividad disminuye posteriormente, siendo positivos en sólo el 70% de los pacientes con formas de sífilis terciaria (neurosífilis o sífilis cardiovascular). Además, se negativizan tras un tratamiento adecuado al cabo de 6-12 meses y existen diversas causas de resultados FP como infecciones por otras espiroquetas o enfermedades del tejido conectivo (10). Por su parte, los test treponémicos (FTA.ABS, TPH, TP.PA) detectan anticuerpos específicos frente a polipéptidos de Treponema pallidum, lo que les permite confirmar los resultados positivos obtenidos con las pruebas de screening. Comparativamente, son test más específicos y sensibles, pero también más caros y más difíciles de realizar técnicamente. Pese a sus ventajas, también presentan diversas causas de resultados FP como sucede en los pacientes con lupus, cirrosis biliar o artritis reumatoide, entre otros (10). Aunque la sensibilidad del VDRL es del 99% en pacientes con sífilis secundaria (9), todo resultado positivo precisará de su confirmación posterior con un test treponémico. En el caso de formas terciarias o latentes tardías, dada la relativa baja sensibilidad de los test no treponémicos, se solicitará siempre una prueba treponémica de confirmación (11). La pregunta lógica que nos hacemos es cómo aplicar las herramientas de las que disponemos: de forma secuencial o simultánea? Y también, cómo interpretar en cada caso los resultados obtenidos? La decisión de usar los test de una u otra forma estará basada en los objetivos pretendidos con la prueba (no es lo mismo un test empleado como herramienta de screening que aquel con la finalidad de proporcionar una confirmación diagnóstica) así como en las consideraciones sobre los costes de la prueba (parece recomendable limitar aquellas más costosas sólo a individuos con una prueba previa positiva), su grado de invasividad (tampoco parece lógico recurrir a pruebas con alto riesgo de complicaciones para el sujeto de forma rutinaria o simultánea), o el contexto clínico en el que se realiza (no es lo mismo una prueba empleada sobre un grupo de enfermos que aquella que se va a aplicar a una comunidad) (7). 4. VALORES PREDICTIVOS Hasta ahora sólo nos hemos preguntado por la capacidad del test para distinguir adecuadamente a los sujetos enfermos de los sanos. No obstante, también nos planteamos otra pregunta igual de importante, pero más enfocada a la práctica clínica: si el resultado de la prueba es positivo, qué probabilidad tiene el paciente de tener verdaderamente la enfermedad?

9. Validación de pruebas diagnósticas 77 Fig. 2: Test simultáneos: cálculo de sensibilidad neta. Fig. 3: Test simultáneos: cálculo de especificidad neta.

78 9. Validación de pruebas diagnósticas A esta pregunta nos dan respuesta el valor predictivo positivo (VPP) y negativo (VPN). a) Valor predictivo positivo Expresa la probabilidad de que un sujeto con un resultado positivo tenga realmente la enfermedad (5,6). Es el parámetro más interesante a la hora de seleccionar un test de screening, de tal forma que una prueba con un alto VPP reducirá el número de casos FP y así, los gastos derivados de otras pruebas confirmatorias, por otro lado innecesarias (5,6). Se calcula como: a VPP = a+b b) Valor predictivo negativo Expresa la probabilidad de que un individuo con un resultado negativo en la prueba esté verdaderamente sano (5,6). De nuevo según la tabla 2x2, se expresaría como: d VPP = c+d c) relación con la prevalencia y la especificidad A diferencia de la sensibilidad y la especificidad, los valores predictivos sí se ven influenciados tanto por la prevalencia de la enfermedad, como por la especificidad del test (7). Respecto a la prevalencia, cuando ésta es alta en la población estudiada, se observa un marcado y lógico incremento del VPP (es decir, aumenta la probabilidad de que el resultado positivo realmente lo sea). Supongamos de nuevo un test empleado en un programa de screening. Aplicado de forma intempestiva a una población donde la enfermedad es poco frecuente e incluso excepcional, supone una pérdida y malgasto de recursos, pues el esfuerzo invertido no compensará la detección de unos pocos casos. Por el contrario, aplicar el mismo programa sólo a una muestra de pacientes con alta sospecha clínica, mejorará notablemente su rendimiento. Así, es necesario saber interpretar cuidadosamente los resultados en función de la prevalencia de la enfermedad a estudio (6,7). Ejemplo 9.2 Ejemplo 9.3 El servicio de medicina preventiva de nuestro hospital realiza sistemáticamente la prueba del VIH al personal sanitario. Tanto la sensibilidad como la especificidad de la prueba son muy altas, del orden del 99,5%. Con estos datos, el riesgo de tener la enfermedad parece ser muy alto si el resultado del test es positivo. Sin embargo, debido a que la prevalencia estimada de la enfermedad entre el personal sanitario es baja, alrededor del 0,2%, la probabilidad real de tener la enfermedad (factor predictivo positivo) es sólo del 30%. En ausencia de otros datos clínicos que apoyen el diagnóstico, es más probable que el resultado de la prueba sea un falso positivo que un positivo verdadero. La enfermedad de Lyme constituye un adversario frecuente en la práctica oftalmológica, especialmente entre aquellos dedicados al manejo de la inflamación intraocular. Son muchos los autores que muestran su preocupación por el exceso de casos diagnosticados o atribuidos a esta patología en zonas de baja prevalencia de la enfermedad, como sucede en nuestro medio (11-13). En estas regiones en las que la enfermedad es muy poco frecuente, aún con una sensibilidad y especificidad cercanas al 100%, el valor predictivo de una serología positiva es baja, probablemente menor del 20% (10), en aquellos pacientes con formas de presentación atípica y en donde no se ha podido constatar una anamnesis positiva ( el antecedente reconocido de una

9. Validación de pruebas diagnósticas picadura o la presencia de eritema crónico migrans, suelen estar ausentes en más de la mitad de los pacientes) (10). Por otro lado las técnicas serológicas en esta patología no están estandarizadas y existen numerosas causas de resultados tanto FN como FP, y una notable variabilidad entre los laboratorios (14-16). Por todo ello, la enfermedad de Lyme representa un verdadero reto en la interpretación de resultados, siendo preciso en su caso considerar aspectos que habitualmente olvidamos, como los valores predictivos, la influencia de la prevalencia y la presencia de datos clínicos compatibles. Un segundo factor importante a considerar en la interpretación del valor predictivo es la especificidad del test. Un incremento de la sensibilidad solo producirá un discreto aumento sobre el valor predictivo (7). Por el contrario el aumento de la especificidad produce un incremento mucho mayor (7). 5. REPRODUCIBILIDAD DEL TEST Otro aspecto esencial a la hora de valorar la utilidad de los test diagnósticos es su reproducibilidad (6,7). La reproducibilidad es un paso previo para determinar la validez interna de la prueba (5,6). Son varios los factores que contribuyen a la variabilidad de los resultados obtenidos al repetir cualquier test (7). 79 Variación intraobservador: Representa el grado de coincidencia que mantiene consigo mismo el evaluador (5). Con frecuencia un mismo observador puede resolver una misma muestra con dos resultados distintos, en función de sus condiciones particulares en el momento de la evaluación (estrés, agotamiento, condiciones externas ). Cuanto más subjetiva sea la determinación, más influenciada estará por esta variabilidad particular (7). Variación interobservador: índice kappa. También resulta importante considerar la frecuente variabilidad que se observa cuando una misma muestra se expone ante dos observadores distintos. El grado de concordancia o discordancia entre ambos es otro factor a considerar, que hoy podemos cuantificar mediante el conocido como índice kappa o test de Cohen (17). Esta medida de acuerdo global tiene en cuenta la coincidencia esperada por el azar (5,7). Se expresa según la fórmula siguiente: (% concordancia observado) (% concordancia esperado por azar) Kappa = 100% (% concordancia esperado por azar) Para interpretar su valor se han publicado una serie de directrices (5). Así, Fleiss (18) considera que un valor de kappa mayor de 0,75 representa un nivel de acuerdo excelente, moderado para valores entre 0,4-0,75 y deficiente por debajo de 0,4. Por su parte, Landis y Koch (19) valoran la concordancia como muy buena por encima de 0,8, buena entre 0,61-0,8, moderada entre 0,4-0,61, baja entre 0,21-0,4 y deficiente por debajo de 0,21. Relación con la validez: La pretensión de cualquier clínico es disfrutar de una prueba cuyos resultados no sólo sean válidos sino también reproducibles, si bien una buena validez interna no asegura la reproducibilidad de sus resultados. Cuando esta reproducibilidad es pobre, la validez de la prueba para un individuo concreto suele ser también limitada (7). Variación individual: Muchos de los valores obtenidos en la medición de variables humanas varían a lo largo del tiempo, incluso durante cortos periodos (7). Así, reconocemos las oscilaciones que se producen a lo largo del día en la presión intraocular (PIO). También los resultados pueden variar por otras causas, como sucede con los test serológicos y microbiológicos en función del intervalo transcurrido desde el inicio de los síntomas hasta la obtención de la muestra. 6. ODDS PREPRUEBA Y POSTPRUEBA La odds de una enfermedad es la razón de probabilidad de que un sujeto tenga la enfermedad entre la probabilidad de que no la tenga (prevalencia/1- prevalencia) (6). Específicamente, la odds preprueba representa junto con la especificidad y la sensibilidad, la tercera pieza esencial en la interpretación de pruebas diagnósticas. Se define como la probabilidad de que un paciente presente una determinada enfermedad antes de que la prueba en cuestión sea

80 9. Validación de pruebas diagnósticas realizada, basándonos esencialmente en la historia clínica compatible y la exploración, pero también en la prevalencia de ese determinado trastorno en la población a la que pertenece el sujeto (4,6). En la odds postprueba, la razón de probabilidad estará condicionada a conocerse el resultado de una cierta prueba diagnóstica de la que sabemos su sensibilidad y especificidad. Su cálculo está basado en la fórmula del teorema de Bayes de probabilidad condicionada (4,6). Todos somos «bayesianos» intuitivos en el día a día del diagnóstico clínico cuando interpretamos los síntomas y las pruebas diagnósticas: «Si este paciente tiene antecedentes familiares de glaucoma y además presenta una cifra de PIO alta y además muestra una excavación papilar de aspecto patológico y además obtiene valores patológicos en una prueba anatómica, como el HRT, y además presenta defectos característicos en una prueba funcional, como el campo visual, determinamos que dicho paciente tiene una probabilidad cercana a la certeza de tener un glaucoma». Esta concatenación intuitiva de hechos puede expresarse en ciertos casos de forma matemática (20) BIBLIOGRAFÍA 1. Diccionario de la Lengua Española. Real Academia Española. Vigésimo segunda edición. Espasa. 2007. Madrid. 2. Kassirer JP. Our stubborn quest for diagnostic certainty. A cause of excessive testing. N Engl J Med 1989; 320(22): 1489-91. 3. Whitcup SM. Medical history in the patient with uveitis. In: Nussenblatt RB, Whitcup SM, eds. Uveitis Fundamentals and Clinical Practice, 4th ed. Philadelphia, Mosby-Elsevier, 2010, pp 34-40. 4. Whitcup SM. Diagnostic testing. In: Nussenblatt RB, Whitcup SM, eds. Uveitis Fundamentals and Clinical Practice, 4th ed. Philadelphia, Mosby-Elsevier, 2010, pp 59-71. 5. Delgado Rodríguez M, Hernández Aguado I, Lumberas Lacarra B, Gómez Mata ML. Estudio de las pruebas diagnósticas. En: Sierra López A, Sáenz González MC, Fernández- Crehuet Navajas J, Salleras Sanmartí L, Cueto Espinar A, Gestal Otero JJ et al editores. Piedrola Gil Medicina preventiva y salud pública, 11ª edición. Barcelona, Elsevier- Masson, 2008, pp 173-184. 6. Jenicek M, Cleroux R. Identificación de los casos de enfermedad. En: Jenicek M, Cleroux R, editores. Epidemiología: la lógica de la medicina moderna, 1ª edición. Barcelona, Masson, 1996, pp 79-120. 7. Gordis L. Assessing the validity and reliability of diagnostic and screening test. In: Gordis L, ed. Epidemiology, 4th edition. Philadelphia, WB Saunders- Elsevier, 2009, pp 85-108. 8. Leeflang MM, Deeks JJ, Gatsonis C, Bossuyt PM. Systematic reviews of diagnostic test accuracy. Ann Intern Med 2008; 149(12): 889-897. 9. Tramont EC. Treponema pallidum (syphilis). In: Mandell GL, Bennett JE, Dolin R, eds. Mandell, Douglas and Bennett s Principles and Practice of Infectious Diseases, 6th ed. New York, Churchill Livingstone, 2005, pp 2768-2785. 10. Whitcup SM. Spirochetal Diseases. In: Nussenblatt RB, Whitcup SM, eds. Uveitis Fundamentals and Clinical Practice, 4th ed. Philadelphia, Mosby-Elsevier, 2010, pp 34-40. 11. Wormser GP, Nadelman RB, Dattwyler RL, et al. Practice guidelines for the treatment of Lyme disease. Clin Infect Dis 2000; 31(Suppl 1):S1-14. 12. Verdon ME, Sigal LH. Recognition and management of Lyme disease. Am Fam Phys 1997; 56: 427-436. 13. Steere AC, Taylor E, McHugh GL, et al. The overdiagnosis of Lyme disease. JAMA 1993; 269: 1812-1816. 14. Schwartz BS, Goldstein MD, Ribeiro JMC, et al. Antibody testing in Lyme disease: a comparison of results in four laboratories. JAMA 1989; 262: 3431-3434. 15. Luger SW, Krauss E. Serologic test for Lyme disease: interlaboratory variability. Arch Intern Med 1990; 150: 761-763. 16. Barbour AG. The diagnosis of Lyme disease: rewards and perils. Ann Intern Med 189; 110: 501-502. 17. Cohen J. A coefficient of agreement for nominal scales. Educational and Psychological Measurement 1960; 20(1): 37-46. 18. Fleiss JL. Statistical methods for rates and proportions, 2nd edition. New Yorik, John Wiley, 1981. 19. Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics 1977; 33(1): 159-174. 20. Beneyto, P. Fernández MJ, García A, Ibáñez M, García- Aparicio A, Morente P. Aproximación diagnóstica a la ciclitis heterocrómica de Fuchs en ausencia de heterocromía. Arch Soc Esp Oftalmol 2007; 82, (6): 355-359.