An. Real. Acad. Farm. vol 79 nº 4 2013 - page 34

Perspectiva general sobre el proceso de desarrollo de fármacos…

549

bioactivas de tamaño relativamente grande, el coeficiente de Tanimoto por

moléculas bioactivas de tamaño mediano y el coeficiente de Forbes por moléculas

bioactivas de tamaño pequeño (102).

Aún cuando el coeficiente de Tanimoto continua siendo la medida de

similitud estándar en la industria y se ha usado en innumerables trabajos de

investigación, la evidencia indica que ningún modelo de proximidad es

universalmente superior a los demás, sino que su utilidad práctica depende del

problema o grupo de problemas a tratado (92). Esta conclusión parece estar de

acorde a la dialéctica resultante de la complementación de los teoremas

Ningún

Almuerzo es Gratis

(NFL, del inglés No Free Lunch) (103, 104), y la

Longitud

Mínima de la Descripción

[MDL del inglés Minimun Description Length] (105),

correspondientemente.

3.3. Alg ritmos de emparejamiento o “matching”

El concepto de emparejamiento “match” exacto y parcial, y los algoritmos de

búsqueda de emparejamiento son ampliamente utilizados en sistemas de

información química basados en ordenadores con el fin de buscar una

subestructura idéntica. Una facilidad menos común es la provisión para la

búsqueda del mejor par, o vecino más cercano, en la cual se recupera la

estructura(s) más similar a una estructura de consulta, donde la similitud se define

sobre la base de alguna función de coeficiente de similitud o de distancia que

refleja el número de fragmentos comunes de la consulta y de una molécula en el

fichero. La búsqueda del mejor par es la base para la clasificación del

k-‐(ésimo)

vecino más cercano

(kNN, del inglés

-‐Nearest Neighbor) y juega un papel

importante en el uso de árboles de expansión y técnicas de clasificación automática

(106). El problema general de encontrar las mejores pares se define por Friedman

et al. (107) como: "... dado un fichero de

instancias (cada uno de los cuales es

descrito por

atributos con valores reales) y una medida de similitud/disimilitud,

encontrar las

instancias más cercanas a la instancia de consulta (es posible que

no esté dentro del fichero) con los atributos especificados". Es obvio que el

algoritmo de fuerza bruta para la búsqueda del mejor par es calcular la distancia

entre la consulta y cada uno de las instancias del fichero y luego elegir las

distancias más cortas, este algoritmo tiene una complejidad temporal

O(mn)

para

el caso de una consulta simple, pero en el caso de consulta múltiple sería un

O(mnc),

siendo

el número de consultas con igual cantidad de atributos

, el cual

consume demasiado tiempo para ficheros considerablemente grandes.

Un algoritmo eficiente del vecino más cercano será uno que evite el cálculo

de la mayoría de las distancias, calculando solamente las distancias de las escasas

instancias que rodean la instancia o estructura de consulta. Existen varios tipos de

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

1...,24,25,26,27,28,29,30,31,32,33 35,36,37,38,39,40,41,42,43,44,...190