Perspectiva general sobre el proceso de desarrollo de fármacos…
549
bioactivas de tamaño relativamente grande, el coeficiente de Tanimoto por
moléculas bioactivas de tamaño mediano y el coeficiente de Forbes por moléculas
bioactivas de tamaño pequeño (102).
Aún cuando el coeficiente de Tanimoto continua siendo la medida de
similitud estándar en la industria y se ha usado en innumerables trabajos de
investigación, la evidencia indica que ningún modelo de proximidad es
universalmente superior a los demás, sino que su utilidad práctica depende del
problema o grupo de problemas a tratado (92). Esta conclusión parece estar de
acorde a la dialéctica resultante de la complementación de los teoremas
Ningún
Almuerzo es Gratis
(NFL, del inglés No Free Lunch) (103, 104), y la
Longitud
Mínima de la Descripción
[MDL del inglés Minimun Description Length] (105),
correspondientemente.
3.3. Alg ritmos de emparejamiento o “matching”
El concepto de emparejamiento “match” exacto y parcial, y los algoritmos de
búsqueda de emparejamiento son ampliamente utilizados en sistemas de
información química basados en ordenadores con el fin de buscar una
subestructura idéntica. Una facilidad menos común es la provisión para la
búsqueda del mejor par, o vecino más cercano, en la cual se recupera la
estructura(s) más similar a una estructura de consulta, donde la similitud se define
sobre la base de alguna función de coeficiente de similitud o de distancia que
refleja el número de fragmentos comunes de la consulta y de una molécula en el
fichero. La búsqueda del mejor par es la base para la clasificación del
k-‐(ésimo)
vecino más cercano
(kNN, del inglés
k
-‐Nearest Neighbor) y juega un papel
importante en el uso de árboles de expansión y técnicas de clasificación automática
(106). El problema general de encontrar las mejores pares se define por Friedman
et al. (107) como: "... dado un fichero de
m
instancias (cada uno de los cuales es
descrito por
n
atributos con valores reales) y una medida de similitud/disimilitud,
encontrar las
k
instancias más cercanas a la instancia de consulta (es posible que
no esté dentro del fichero) con los atributos especificados". Es obvio que el
algoritmo de fuerza bruta para la búsqueda del mejor par es calcular la distancia
entre la consulta y cada uno de las instancias del fichero y luego elegir las
m
distancias más cortas, este algoritmo tiene una complejidad temporal
O(mn)
para
el caso de una consulta simple, pero en el caso de consulta múltiple sería un
O(mnc),
siendo
c
el número de consultas con igual cantidad de atributos
n
, el cual
consume demasiado tiempo para ficheros considerablemente grandes.
Un algoritmo eficiente del vecino más cercano será uno que evite el cálculo
de la mayoría de las distancias, calculando solamente las distancias de las escasas
instancias que rodean la instancia o estructura de consulta. Existen varios tipos de