Óscar Miguel Rivera Borroto & col.
540
conjuntos de datos de la Academia Internacional de Química Matemática,
disponibles gratuitamente (53); la base de datos MDDR (MDL Drug Data Report),
comercial; la base de datos WDI (World Drug Index), comercial (54); y la base de
datos WOMBAT (World of Molecular Bioactivity Data), comercial (55). La
tendencia actual de las bases de datos quimioinformáticas es pasar al dominio
público (56, 57).
Especial atención merecen los conjuntos de datos para propósitos de
comparación de nuevas herramientas de cribado. En la literatura se recomienda el
uso de los conjuntos de datos MUV diseñadas por Rohrer et al. (2009). Estos
conjuntos de datos de compuestos activos y señuelos de activos “
decoys
” (inactivos
confirmados) fueron construidos usando herramientas estadísticas de diseño
experimental basadas en la técnica del
análisis refinado de los vecinos más cercanos
y están orientadas a minimizar problemas encontrados con el uso de las métricas
de desempeño (
vide infra
) en otros conjuntos de validación como el
enriquecimiento artificial
, donde la clasificación es causada por diferencias en
propiedades simples y usualmente irrelevantes entre activos y decoys; el
sesgo de
análogos
, causada por la tendencia de los conjuntos de datos a sobre representar
las clases de activos y deriva en una clasificación sobreestimada de los mismos.
Estos dos problemas se tienden a englobar en el problema denominado
sesgo de
conjuntos de datos de referencia
. El último problema de este tipo se refiere a la
varianza de los resultados de validación
, causada por usar conjuntos indebidamente
desbalanceados que conducen al
efecto de saturación
de las curvas ROC
correspondientes (58). En los últimos años, algunos autores han alertado acerca de
otro tipo de problemas más sutiles que concierne la calidad de conjuntos de datos
altamente referenciados como son los errores estructurales, presencia de
compuestos duplicados, errores de correspondencia de los datos estructurales con
las mediciones experimentales, falta de reproducibilidad en las mediciones
experimentales, etc. Los hallazgos sugieren que el tener estructuras erróneas
representadas por descriptores erróneos deriva en un efecto perjudicial para el
desempeño y la fiabilidad de las predicciones de los modelos de cribado. Para
solucionar estos problemas los investigadores proponen se utilicen un buen
número de potentes herramientas de software libre así como una última etapa de
inspección “manual” (59).
Hasta el momento, la comunidad científica internacional no ha adoptado
ningún conjunto de datos estándar para la comparación de medidas de similitud,
probablemente por la imposibilidad de encontrar un grupo único de moléculas que
reagrupe todas las necesidades de cribado de la Quimioinformática moderna (39).
Por este motivo se ha sugerido que, para validar un método nuevo, los
investigadores deben presentar al menos 10 conjuntos con actividades diversas
con más de un estándar de comparación (47).