Perspectiva general sobre el proceso de desarrollo de fármacos…
553
3.5. Métricas de desempeño
Existe un debate en curso en la literatura sobre “puntajes de mérito”
adecuados (o indicadores de desempeño) para evaluar los ensayos de cribado
virtual retrospectivos. Una métrica popular es el “factor de enriquecimiento”, que
es intuitivo y sencillo de interpretar. Un problema asociado con el cálculo de los
factores de enriquecimiento simples es la dependencia de un valor de corte
elegido, por lo general el 1 o 5% de la base de datos para cribado. Nicholls (2008)
aboga firmemente por el uso de medidas estándares, incluyendo la curva de la
Característica en Operación del Receptor (ROC, del inglés Receiver Operating
Characteristics) y el área bajo la curva AUC[ROC] (121), que se aplican
habitualmente en otros campos que emplean el análisis estadístico, minería de
datos, o las técnicas de aprendizaje automático (122). Sin embargo, Truchon y
Bayly (2007) detectaron que la curva ROC no tiene en cuenta explícitamente el
llamado “problema de la detección temprana”, i.e., la propiedad de un método para
recuperar compuestos activos “tempranamente”, i.e., al principio de la lista de
clasificación. Específicamente, este fenómeno es ejemplificado en tres situaciones
donde el algoritmo de búsqueda: 1-‐) ranquea la mitad de los candidatos positivos
al principio de la lista y la mitad al final, 2-‐) distribuye los candidatos positivos
uniformemente por toda la lista, 3-‐) ranquea todos los candidatos positivos
exactamente en la mitad de la lista. Para todos los casos anteriores AUC[ROC] = 0.5
aunque,
si solo algunos pocos primeros hits pueden ser probados
experimentalmente, el caso 1-‐) es claramente mejor que el caso 2-‐) que, a su vez, es
mejor que el caso 3-‐). En este sentido, los autores desarrollaron un mejoramiento
de la curva ROC a través de la métrica Discriminación Mejorada por (la
distribución de) Boltzmann de la ROC (BEDROC, del inglés Boltzmann-‐Enhanced
Discrimination of ROC), que utiliza una ponderación exponencial para asignar
mayor peso a la detección temprana (123). Esta medida es esencialmente una
versión normalizada de la medida Mejora Inicial Robusta (RIE, del inglés Robust
Initial Enhancement) (124). Del mismo modo, se ha sugerido el escalado
semilogarítmico de la ROC, pROC (125). Sin embargo, Nicholls (2008) también
presenta evidencias de una fuerte correlación entre el AUC[ROC] y AUC[BEDROC],
lo que sugiere a AUC[ROC] como una medida suficiente para evaluar la eficiencia
de cribado virtual. Este mismo autor recomienda se aplique un ponderado
exponencial a la curva ROC preferentemente a los rangos individuales de los
compuestos activos dentro de los inactivos para mejorar algunas de las
deficiencias de las métricas AUC[RIE] y AUC[BEDROC] (121).
3.5.1. Curva ROC concentrada
Basados en la idea de Nicholls (2008), aunque no lo citan explícitamente,
Swamidass et al. (2010) proponen la curva ROC Concentrada (CROC, del inglés
Concentrated ROC) que consiste en magnificar uno de los ejes de la curva ROC [
X