Óscar Miguel Rivera Borroto & col.
552
métodos más simples para el cribado virtual por el cual una molécula es punteada
con su similitud más alta a una molécula activa de la multi consulta. Formalmente,
si una consulta múltiple de activos es denotada por
!
,
!
, … ,
!
, el puntaje
asignado a una molécula del conjunto de datos
!
viene dado por:
! !
= |
! ! !
,
!
(
7
) Donde,
!
,
!
es la similitud de la molécula del conjunto de datos
!
a la
referencia
!
de la multi consulta,
S
es la función de similitud y algunas de ellos han
demostrado ser eficaces en la operación. Sin embargo, en un estudio abarcador
Chen et al. (2010) mostraron recientemente que la regla “suma de rangos
inversos” se comporta superiormente a la regla MAX-‐SIM en los dominios de datos
examinados, esto es:
! !
= 1
!
,
!
! !!!
(
8
) Donde,
r
es el “ranking” asignado al puntaje de similitud
!
,
!
, relativo a
los puntajes de las moléculas del conjunto con respecto a una consulta especifica.
Esta regla de fusión procede del área de Recuperación de Información y su
efectividad se debe a la cercana relación que existe entre el rango reciproco de la
estructura de la base de datos con respecto a una búsqueda de similitud simple y la
probabilidad de que esta estructura comparta la misma actividad que la estructura
de referencia (119).
Como alternativa a las técnicas de fusión de datos anteriores, algunos
investigadores han trabajado la ponderación de rasgos binarios orientados por
clases de actividad sobre la base de compuestos de referencia múltiples y aplicados
para enfatizar algunas posiciones de
bits
específicas durante la búsqueda de
similitud. Algunas técnicas de ponderación de rasgos se basan en el análisis de
frecuencia de bits en huellas dactilares o “fingerprints” de molecular activas y/o
inactivas, perfilando, escalando y promediando los
fingerprints
para derivar en el
cálculo de los
fingerprints de consenso.
Un grupo de técnicas más reciente se basan
en el
acallado de bits
“bit silencing” y difiere de los enfoques estadísticos en que
monitorean directamente el cambio en la calidad de la recuperación cuando se
omiten
bits
individuales en moléculas de referencia activas (120). En esencia, estas
técnicas también pudieran considerarse como una cuarta estrategia de fusión de
datos, más específicamente
fusión de representación
,
y
, actualmente constituyen un
área de investigación activa por la facilidad con que pueden calcularse,
manipularse y almacenarse los descriptores binarios. Por otra parte, estas técnicas
también pueden ser extendidas al caso no binario.