An. Real. Acad. Farm. vol 79 nº 4 2013 - page 36

Perspectiva general sobre el proceso de desarrollo de fármacos…
551
en un pequeño vector , de tamaño
n
siendo
n
potencia de 2 (esto es, si
tiene
tamaño
= 2
!
entonces el tamaño de
=
). El vector se obtiene aplicando
el operador XOR (eXclusive OR, del inglés) al vector . Esta información adicional
puede ser vista como una guía que precede al vector , la cual puede ser usada
para derivar los límites útiles en las medidas de similitud lo cual permite explorar
menos del 50% de la base de datos y acelera la búsqueda significativamente (113).
Más recientemente, Cao et al. (2010) han reportado un algoritmo de búsqueda y
agrupamiento acelerado basado en técnicas de empotramiento e indexado
multidimensional que mejora en 20-­‐400 veces a los métodos secuenciales en
cuanto al tiempo de búsqueda de los 100 primeros vecinos más cercanos (el
algoritmo de Baldi et al. (2008) los mejora en 5.5 veces) en conjuntos de datos de
260 000-­‐19 millones de compuestos, mientras que mantiene exactitudes
comparables. Además, este algoritmo es aplicable a un amplio espectro de medidas
de similitud y puede ser escalable a conjuntos de datos de hasta cientos de
millones de objetos químicos (114).
3.4. Fusión de datos
La fusión de datos se utilizó por primera vez en la búsqueda de similitud a
finales de los años noventa (115,116). Básicamente, existen tres técnicas de fusión
de datos y una de estas es la
fusión de similitud
, que implica la búsqueda con una
estructura de referencia y varias medidas de similitud. Otra variante es la
fusión de
grupo
, que consiste en buscar múltiples estructuras de referencia con una sola
medida de similitud y se ha mostrado que es más eficaz que la fusión de similitud.
El tercer enfoque es la
turbo similitud
, en analogía a los motores turbos que
reutilizan los gases de escape y le imprimen una potencia mayor al vehículo; esta
técnica utiliza una estructura de referencia y una medida de similitud, sin embargo,
es más efectiva que la
búsqueda simple
porque utiliza los primeros vecinos más
cercanos recuperados como estructuras de referencias, ya que estos es probable
que también sean bioactivos y al mismo tiempo introducen otros rasgos
estructurales que aumentan el éxito de la búsqueda al encontrar otros quimiotipos
en el espacio químico (48). Actualmente, las nuevas técnicas de búsqueda de
similitud son validadas usando la técnica fusión de datos
embebida
en algún
mecanismo de validación cruzada. Para ello, una vez obtenidas las listas de
recuperación como producto de aplicar las
multi consultas
, es necesario combinar
dicha información para derivar un puntaje fusionado y útil para cada molécula del
repositorio que permita el ordenamiento final del conjunto de datos. En este
sentido Hert et al. (2004) introdujeron la regla de fusión MAX-­‐SIM (máxima
similitud) que por su probada alta efectividad se ha usado durante varios años
como el multi clasificador
de facto
para los estudios quimioinformáticos por su
eficacia y simplicidad matemática y computacional en el cribado de conjunto de
datos farmacológicos (117, 118). Básicamente, el algoritmo MAX-­‐SIM es uno de los
1...,26,27,28,29,30,31,32,33,34,35 37,38,39,40,41,42,43,44,45,46,...190
Powered by FlippingBook