An. Real. Acad. Farm. vol 79 nº 4 2013 - page 25

Óscar Miguel Rivera Borroto & col.

540

conjuntos de datos de la Academia Internacional de Química Matemática,

disponibles gratuitamente (53); la base de datos MDDR (MDL Drug Data Report),

comercial; la base de datos WDI (World Drug Index), comercial (54); y la base de

datos WOMBAT (World of Molecular Bioactivity Data), comercial (55). La

tendencia actual de las bases de datos quimioinformáticas es pasar al dominio

público (56, 57).

Especial atención merecen los conjuntos de datos para propósitos de

comparación de nuevas herramientas de cribado. En la literatura se recomienda el

uso de los conjuntos de datos MUV diseñadas por Rohrer et al. (2009). Estos

conjuntos de datos de compuestos activos y señuelos de activos “

decoys

” (inactivos

confirmados) fueron construidos usando herramientas estadísticas de diseño

experimental basadas en la técnica del

análisis refinado de los vecinos más cercanos

y están orientadas a minimizar problemas encontrados con el uso de las métricas

de desempeño (

vide infra

) en otros conjuntos de validación como el

enriquecimiento artificial

, donde la clasificación es causada por diferencias en

propiedades simples y usualmente irrelevantes entre activos y decoys; el

sesgo de

análogos

, causada por la tendencia de los conjuntos de datos a sobre representar

las clases de activos y deriva en una clasificación sobreestimada de los mismos.

Estos dos problemas se tienden a englobar en el problema denominado

sesgo de

conjuntos de datos de referencia

. El último problema de este tipo se refiere a la

varianza de los resultados de validación

, causada por usar conjuntos indebidamente

desbalanceados que conducen al

efecto de saturación

de las curvas ROC

correspondientes (58). En los últimos años, algunos autores han alertado acerca de

otro tipo de problemas más sutiles que concierne la calidad de conjuntos de datos

altamente referenciados como son los errores estructurales, presencia de

compuestos duplicados, errores de correspondencia de los datos estructurales con

las mediciones experimentales, falta de reproducibilidad en las mediciones

experimentales, etc. Los hallazgos sugieren que el tener estructuras erróneas

representadas por descriptores erróneos deriva en un efecto perjudicial para el

desempeño y la fiabilidad de las predicciones de los modelos de cribado. Para

solucionar estos problemas los investigadores proponen se utilicen un buen

número de potentes herramientas de software libre así como una última etapa de

inspección “manual” (59).

Hasta el momento, la comunidad científica internacional no ha adoptado

ningún conjunto de datos estándar para la comparación de medidas de similitud,

probablemente por la imposibilidad de encontrar un grupo único de moléculas que

reagrupe todas las necesidades de cribado de la Quimioinformática moderna (39).

Por este motivo se ha sugerido que, para validar un método nuevo, los

investigadores deben presentar al menos 10 conjuntos con actividades diversas

con más de un estándar de comparación (47).

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1...,15,16,17,18,19,20,21,22,23,24 26,27,28,29,30,31,32,33,34,35,...190