LAS PRUEBAS DIAGNÓSTICAS
OBJETIVOS DE APRENDIZAJE
- Definir los términos: sensibilidad, especificidad, valores predictivos y cocientes de probabilidad (likelihood ratios).
- Aplicar la literatura médica a las probabilidades de entidades clínicas y a la toma de decisiones.
- Conocer la evaluación crítica hacia una prueba diagnóstica (STARD).
COMPETENCIAS
- Realiza una crítica científica y determina la validez de un estudio clínico sobre una prueba diagnóstica, confirmando que conoce los términos sensibilidad, especificidad, cocientes de probabilidad, curvas ROC y valores predictivos.
- Aplica correctamente los cocientes de probabilidad a un caso clínico y obtiene la probabilidad post-test.
- Interpreta una curva ROC y describe su uso.
INTRODUCCIÓN
Es necesario familiarizarnos primero con ciertos términos. Muchos tal vez usted ya los conoce o ha oído hablar de ellos. Más adelante explico estos términos en un lenguaje más ameno, pero primero vea las definiciones:
Sensibilidad (sensitivity)
Es la probabilidad de obtener una prueba positiva entre los pacientes con la enfermedad. Para acordarse de esto, los sajones utilizan una nemotecnia, PID (positive in disease.)
Especificidad (specificity)
Probabilidad de obtener una prueba negativa entre aquellos pacientes sin la enfermedad; para esto, la nemotecnia sajona sería NIH (negative in health.)
Prevalencia (prevalence)
Proporción de personas afectadas con una enfermedad particular en un determinado tiempo. También podría definirse como la probabilidad de encontrar la enfermedad en una población en cualquier período de tiempo. Es decir, los casos viejos más los nuevos.
Incidencia (incidence)
Probabilidad de que un paciente sin la enfermedad, la desarrolle en un determinado tiempo, es decir, los casos nuevos.
Valor predictivo positivo (positive predictive value)
Proporción de pacientes con una prueba positiva, que en realidad tienen la enfermedad de interés.
Valor predictivo negativo (negative predictive value)
Proporción de pacientes con una prueba negativa que están en realidad, libres de la enfermedad de interés.
Cociente de probabilidad (o razón de verosimilitud, o likelihood ratio, LR)
La probabilidad de que el resultado de una prueba sea visto en un paciente con la enfermedad de interés, comparado con la probabilidad de que el mismo resultado sea visto en un paciente sin la enfermedad de interés. Existen cocientes de probabilidad para pruebas positivas y para pruebas negativas, como veremos más adelante.
EJEMPLOS PRÁCTICÓS Y USO DE LA TABLA DE CONTINGENCIA
Para entender un poco más estos términos, podemos iniciar con un ejemplo que en lo personal uso mucho en la enseñanza de la MBE. Usando la figura siguiente podemos darnos una idea más visual.

Figura 1. En este cuadro se despliegan cien pacientes (cada paciente es un círculo) todos con dolor abdominal agudo y sospecha de apendicitis. Los círculos de negro son los pacientes con apendicitis (claro que nadie lo sabe aún) y los círculos en blanco son los pacientes que NO tienen apendicitis, sino algún otro diagnóstico, por ejemplo, adenitis mesentérica, gastroenteritis, etc. Note usted que el 30% de los pacientes tiene apendicitis.
Ahora supongamos que en este grupo de pacientes llevamos a cabo la realización de un ultrasonido para detectar la apendicitis. Tarde o temprano sabremos el diagnóstico final de apendicitis o no apendicitis en todo el grupo, mediante ya sea la cirugía y análisis de patología o la evolución clínica, es decir, tendremos el estándar de oro.
Al aplicar el ultrasonido al grupo de cien pacientes, se obtiene lo siguiente. He pintado de gris el área donde el ultrasonido es positivo y he dejado en blanco donde el ultrasonido resultó negativo o dudoso. Vea la siguiente figura.

Figura 2. De gris el área del ultrasonido positivo y de blanco el área de ultrasonido negativo o dudoso.
Ahora llegan las preguntas importantes.
¿Cuántos pacientes de entre los enfermos (los círculos negros) resultaron con la prueba positiva (área gris)?
La respuesta es que de entre 30 pacientes enfermos, 24 resultaron con la prueba positiva, y a esto le llamamos SENSIBILIDAD, recuerde, PID (positive in disease). En este caso, el porcentaje es 80% (24/30), es decir, su sensibilidad.
¿Cuántos de entre los sanos, resultaron con la prueba negativa?
La respuesta es que de entre 70 pacientes sanos (sin apendicitis, los círculos blancos), el ultrasonido resultó negativo en 63, lo que resulta en la definición de la ESPECIFICIDAD (NIH, negative in health); en este caso es 63 de 70 (63/70= 0.9) ó 90%
Como seguramente ya notó, en estas dos definiciones solo vemos los sanos y los enfermos, separados entre sí. Ahora separemos las zonas grises de las zonas blancas, es decir, las pruebas positivas de las negativas. Vea la siguiente figura.

Figura 3. Aquí estamos separando las pruebas positivas (área gris) de las negativas (área blanca).
Observe que entre las pruebas positivas, en este caso, los ultrasonidos positivos, hay tanto pacientes enfermos como sanos. La pregunta a hacer entonces es:
¿Cuántos pacientes enfermos hay entre los que resultaron con la prueba positiva?
En este caso, existen 31 pacientes con la prueba positiva (área gris, ultrasonido positivo para apendicitis), sin embargo, de este grupo, 24 tienen realmente apendicitis (están enfermos) y 7 están “sanos” (tienen otra enfermedad). A este porcentaje de pacientes se le llama VALOR PREDICTIVO POSITIVO, que en este caso es de 24 de 31 (24/31=0.774) ó 77%. Y seguro ya habrá anticipado la pregunta que le sigue:
¿Cuántos pacientes sanos hay entre los que resultaron con la prueba negativa?
A este porcentaje se le llama VALOR PREDICTIVO NEGATIVO. Vea que entre 69 pacientes con un ultrasonido negativo, 63 realmente están “sanos”, es decir, no tienen apendicitis sino algún otro diagnóstico. Esto es, 63 de 69 (63/69=0.913) ó 91.3%
También lo podemos ver con una herramienta que nos seguirá por mucho tiempo y es de gran utilidad para todos. La tabla de contingencia, ó “2 x 2”. La cual luce así:

Tabla 1. De esta obtenemos las fórmulas de los términos arriba descritos; se dará cuenta que es lo mismo que en la figura, siendo las zonas grises el equivalente en la tabla a la fila superior, y la zona blanca a la fila inferior. La zona de círculos negros a los pacientes enfermos o la primera columna de izquierda a derecha de la pantalla, y la zona de círculos blancos corresponde a la columna de la derecha de pacientes sanos.
Sensibilidad = a/(a+c)
Especificidad = d/(b+d)
Prevalencia (ó probabilidad pre-test)= (a+c)/ (a+b+c+d)
Valor predictivo positivo= a /(a+b)
Valor predictivo negativo = d/(c+d)
Cociente de probabilidad para un test positivo = LRpos = sens/(1-espec)
Cociente de probabilidad para un test negativo= LRneg =(1-sens)/espec
Aunque la mayoría de nosotros entró a medicina para no volver a ver matemáticas, verá que es sencillo; vea el siguiente ejemplo:
Supongamos que llega a su consulta un paciente con disnea de esfuerzo… usted se pregunta si la persona frente a usted tiene insuficiencia cardiaca congestiva (ICC). ¿Cuál es la probabilidad de que este paciente tenga esa enfermedad? Para estar seguro al cien por ciento, deberíamos idealmente realizar una prueba que nos asegure el diagnóstico, conocida como estándar de oro (Gold Standard). Pero frente a usted está un paciente y necesita saber si el síntoma le habla o no de esta enfermedad. En pacientes con insuficiencia cardiaca congestiva, ¿qué tanto poder tiene el síntoma “disnea de esfuerzo” para aseverar el diagnóstico?
El estándar de oro es usualmente otra prueba ya conocida o confiable que nos confirme el diagnóstico casi al 100%. A veces es la misma evolución clínica, algún estudio caro de laboratorio o imagen. Primero veremos los términos antes descritos. Obtendremos la sensibilidad y especificidad de la disnea de esfuerzo para diagnosticar insuficiencia cardiaca viendo la siguiente tabla de contingencia.

Tabla 2.
En esta tabla podemos obtener la sensibilidad de la disnea de esfuerzo para detectar o descartar la insuficiencia cardiaca en un paciente. Este fue un estudio de 259 pacientes, de los cuales 41 presentaron insuficiencia cardiaca (enfermos) y 218 no la presentaron (sanos o con otro diagnóstico). De los 41 pacientes con ICC, todos presentaron disnea de esfuerzo, es decir, sensibilidad del 100%.
La sensibilidad sólo nos sirve si es muy alta, como en este ejemplo, ya que puede descartar la enfermedad. En este ejemplo, el no tener disnea de esfuerzo podría descartar la insuficiencia cardiaca. A esto le llamamos SnOut, lo que es una nemotecnia sajona útil, y viene de decir “un resultado negativo en una prueba con alta sensibilidad, descarta la enfermedad” (high sensitivity = rule out disease).
Con la especificidad pasa algo similar, ya que es útil solo si ésta es muy alta; recordando la definición, es “la probabilidad de obtener una prueba negativa entre aquellos pacientes sin la enfermedad”. Una prueba positiva con alta especificidad asevera la enfermedad en el paciente, a esto se le llama SpIn, (high specificity = rule in disease).
Trate de imaginar otras pruebas que representen Spin´s y Snout´s, tome en cuenta, sin embargo, que clínicamente son útiles solo en ciertas ocasiones.
LOS VALORES PREDICTIVOS
Los valores predictivos nos ayudan a responder la pregunta:
“Dado un resultado positivo (o negativo) de esta prueba diagnóstica, ¿cuál es la probabilidad de que tenga (o no tenga) la enfermedad?”
Consideremos otro ejemplo. La prevalencia de sordera en niños recién nacidos sanos es de 1 por cada 1,000. Esta prevalencia aumenta aproximadamente a 3 de cada 100 niños que se hallan en la terapia intensiva, y a 3 de cada 10 que padecen meningitis y no reciben tratamiento adecuado. Esto lo definimos también como probabilidad pre-test, la probabilidad de tener una condición, antes de realizar cualquier prueba.
Ahora supongamos que existe una prueba auditiva para todos estos niños. La especificidad de esta prueba es del 95%, y la sensibilidad es de un 90%. Hagamos la siguiente pregunta. Si un niño no “pasa” la prueba, es decir, es positiva para sordera, ¿qué probabilidad tiene ahora de padecer sordera? Esta prueba es usada sólo como un escrutinio, y no es considerada “gold estándar” o estándar de oro, es decir, no es la prueba definitiva que dirá con toda seguridad (o al menos al máximo) que el niño es o no sordo. Ahora supongamos que usted realiza un estudio con 100 mil niños sanos, utilizando esta prueba y obtiene los siguientes resultados en una tabla de contingencia.
Tabla 3
Saquemos cálculos…
Sensibilidad = a/a+c = 90/100 = 0.9 ó 90%
Especificidad = d/b+d = 94,905/99,900=0.95 ó 95%
Probabilidad pre-test (prevalencia)= (a+c)/(a+b+c+d) = 100/100,000 = 0.001 ó 0.1% ó 1 en 1,000.
VPP (valor predictivo positivo)= a/(a+b)= 90/5,085 = 0.018 (este número está en fracción, si usa porcentaje, sólo multiplique por cien, y queda…) 1.8% de VPP.
VPN (valor predictivo negativo)= d/(c+d)= 94,905/94,915 = 0.99 ó 99%
El valor predictivo positivo queda en el 1.8%. Si un niño resulta con la prueba positiva, y la madre nos pregunta “¿qué probabilidad hay de que en verdad mi hijo sea sordo?” la respuesta es esa, “aproximadamente un 1.8%”, dada esta prevalencia de 1 en 1 000.
Ahora modifiquemos la prevalencia ¿Qué pasaría si el niño fuese un paciente que tuvo meningitis y ha estado en la terapia intensiva por un buen tiempo y que por cualquier razón no se le administró esteroide para prevenir sordera? El riesgo de sordera en este grupo de pacientes es mucho mayor; la prevalencia de la hipoacusia (probabilidad pre-test) aumenta, aproximadamente a un 40% según algunos estudios. Supongamos que usted ve a uno de estos niños y decide aplicarle esta misma prueba (Recordemos que la sensibilidad es de un 90% y la especificidad es de un 95%). De ser la prueba positiva, ¿tiene también un 1.8% de probabilidad de tener sordera como en el caso anterior (es decir, una probabilidad post-test de 1.8%)?
La respuesta es un rotundo NO. ¿Por qué? Hagamos un ejercicio parecido al anterior, con la tabla 2 x 2.

Tabla 4.
La sensibilidad [a/(a+c)] queda igual, 90%, así como la especificidad, en un 95% [d/(b+d)]. Lo que en este caso cambia es la prevalencia (o sea, los niños con sordera), que es del 40%. Y el valor predictivo positivo queda así:
VPP= a/a+b = 36/39 = 0.92 ó 92%
El niño tiene un 92% de valor predictivo positivo, con la misma prueba, que presenta la misma sensibilidad y la misma especificidad. Esto nos lleva a una conclusión importante: el VPP varía, de acuerdo a la probabilidad pre-test o prevalencia.
La sensibilidad y la especificidad no dependen de la prevalencia, es por esto que muchas veces no nos son de gran ayuda clínica.
Ahora veamos qué pasa si no conocemos con exactitud la prevalencia de cierta condición en nuestra población en particular. Es decir, si queremos mover la probabilidad pre-test.
LIKELIHOOD RATIOS
El señor González tiene una faringitis y usted no está seguro si es de origen viral o bacteriano. Para usted, mediante su examen físico y experiencia, el señor presenta una probabilidad pre-test (prevalencia en pacientes como él) del 30% de padecer una faringitis estreptocóccica.
Pero, ¿qué pasaría si el señor González, además de estos síntomas, tuviese rinorrea profusa, conjuntivitis bilateral, tos y estornudos? El diagnóstico de faringitis por estreptococo sería menos probable, tal vez tan poco probable que usted considere mejor no iniciar tratamiento con antibiótico y no realizar examen de laboratorio alguno simplemente dar anti-inflamatorios y muchos líquidos en casa. O podemos ir al otro extremo, donde el señor tiene exudado blanquecino en faringe, petequias en paladar, linfadenomegalia, ausencia de tos y un exantema escarlatiniforme. En este caso la probabilidad de una faringitis por estreptococo es tan alta que no es necesario tampoco hacer exámenes de laboratorio para confirmarla, sea cual fuere el resultado, de todas formas iniciará antibiótico o al menos estará seguro del diagnóstico de estreptococo.
Cuando usted pensó “la probabilidad de que sea un estreptococo es demasiado baja que no tiene caso hacer exámenes” se hallaba en ese momento por debajo de un umbral para hacer pruebas diagnósticas. A esta marca, se le llama umbral de pruebas diagnósticas. Por arriba de este umbral, usted considera que la probabilidad de la enfermedad es lo suficientemente alta como para iniciar exámenes de laboratorio o gabinete, pero no tanto como para iniciar tratamiento. Por el contrario, por debajo de este umbral, no es necesario usar los exámenes ya que la probabilidad es lo suficientemente baja. Se puede mover este umbral de acuerdo a cada caso, por ejemplo, en el caso de una enfermedad peligrosa, que ponga en peligro la vida del paciente y sea muy difícil para usted que existan falsos negativos. Tan solo imagine un paciente con apendicitis o la sospecha de meningitis, en donde este umbral se halla usualmente muy debajo de este ejemplo, y el clínico realiza exámenes de manera temprana por el temor de dejar pasar una enfermedad como esta.
Ahora vayamos al otro extremo de la línea, done el señor González llegó con todos los datos clínicos de una faringitis por estreptococo. ¿Dónde pondría usted la probabilidad pre-test?
La probabilidad pre-test del señor González, con estos síntomas, de tener un estreptococo grupo A beta hemolítico como causante de sus síntomas, es casi del 100%. Y aquí también existe un umbral, el umbral de tratamiento. Cuando nuestra probabilidad pre-test es demasiado alta (estamos muy seguros del diagnóstico) no tiene objeto realizar exámenes de gabinete, simplemente puede usted iniciar el manejo, como en este caso. También puede “jugar” con este umbral, de acuerdo a cada caso en particular. Por ejemplo, si se tratase de un caso en donde el tratamiento es muy riesgoso (por ejemplo, una quimioterapia, una cirugía riesgosa, etc.) necesitamos estar muy seguros de nuestro diagnóstico, y mover este umbral lo más alto que podamos, es decir, toleramos muy pocas falsas positivas.
Vea la figura para que aprecie como queda cuando colocamos todo en conjunto.

Figura 4. Los umbrales diagnósticos
Todo esto nos sirve para entender mejor los cocientes de probabilidad, o likelihood ratios (LR).
Los cocientes de probabilidad nos dicen qué tanto se movería nuestra probabilidad diagnóstica de ser la prueba positiva o negativa. Por esto existen dos cocientes de probabilidad, uno para una prueba positiva y otro para una prueba negativa. En inglés, son: LR+ y LR-. Por ejemplo, si nos hallamos en la zona de incertidumbre, y una prueba diagnóstica resulta positiva y tiene un LR+ alto, seguramente nos mueve nuestra probabilidad a un lugar más allá del umbral de tratamiento, y podemos estar tranquilos de iniciar la medicación o intervención para nuestro paciente.
¿Cómo obtenemos los cocientes de probabilidad o LR? Es sencillo, usando la misma tabla de 2 x 2 que ya conocemos. La fórmula es la siguiente:
LR+ = sensibilidad / 1-especificidad
LR - = 1-sensibilidad / especificidad
Donde LR+ es el cociente de probabilidad para una prueba positiva. Pongamos de nuevo el ejemplo del estreptococo en nuestro paciente, el señor González. La prueba resultó positiva. Usted ve la caja de la prueba del estreptococo y lee en el instructivo (o en alguna referencia bibliográfica) que tiene una sensibilidad del 90% y una especificidad del 95%. De estos dos derivamos el cociente de probabilidad para una prueba positiva:
LR+ = sens/1-espec
= 0.9/1-0.95
= 0.9/0.05
LR+ = 18
Lo primero que hay que saber de los cocientes de probabilidad, es que si se halla por arriba de 1, nos indica un aumento en la probabilidad de que la enfermedad se halle presente. Un LR menor a 1, nos indica una disminución de la probabilidad de que la enfermedad se halle presente. Un LR = 1 nos dice que el resultado de la prueba no nos cambia en nada esta probabilidad y por lo tanto, esta prueba es inútil. Para esto nos apoyamos en una herramienta conocida como nomograma de Fagan que a continuación se expone:

Figura 5. El nomograma de Fagan.
Del lado izquierdo, la probabilidad pre-test, que en nuestro ejemplo era de un 30%. Con la prueba positiva, determinamos que el LR+ era de 18. En la columna central se hallan los cocientes de probabilidad, o LR. Mediante la línea una el 30% de la probabilidad pre-test con el 18 del LR y continuamos esta línea y observemos a dónde “va a caer”. Este punto es la probabilidad post-test, que en el ejemplo es de aproximadamente un 90%, es decir, nuestro paciente tiene aproximadamente un 90% de probabilidad de tener una infección por estreptococo, probabilidad que derivó del 30% previo, y ahora es decisión del clínico si con esta probabilidad inicia tratamiento o no. En algunos casos usted se enfrentará a una enfermedad distinta (por ejemplo, un tromboembolismo pulmonar o un infarto al miocardio) y es probable que no esté tranquilo con una prueba con estas mismas características; tal vez requiera que la prueba lo lleve al 99%, para estar lo más seguro posible del diagnóstico.
Más adelante hablaremos de las curvas ROC y en el curso presencial se practican ejercicios sobre la crítica adecuada de un ensayo clínico sobre un procedimiento diagnóstico con herramientas como el STARD.
Material agregado
Una liga con un nomograma de Fagan interactivo, juegue con él para que vea la interacción entre probabilidades previas y LRs.
Check-list para evaluar un estudio sobre una prueba diagnóstica.
Una hoja para imprimir, enmicar y llevar consigo en el bolsillo
Presentación impartida en las clases y talleres (en PDF).
Dr. Carlos Cuello
