Óscar Miguel Rivera Borroto & col.
548
Cuando los valores de atributo se limitan a 0 y 1, las expresiones utilizadas
por varias similitudes y medidas de distancia pueden a menudo ser simplificadas
considerablemente. Si los objetos A y B que se caracterizan por vectores
X
e
Y
que
contienen
n
valores binarios (tales como huellas digitales) se pueden definir las
cantidades
a
,
b
,
c
,
d
o elementos de la
matriz de confusión
como:
=
! !!!!
, es el número de bits activos en A
(
1
)
=
! !!!!
, es el número de bits activos en B
(
2
)
=
! !
!!!!
, es el número de bits activos en A y B
(
3
)
= 1 −
!
−
!
+
! !
!!!!
, es el número de bits inactivos en A y B
(
4
) Por tanto,
= + − +
(
5
) Estas cantidades anteriores también se pueden expresar en notación de
teoría de conjuntos dando lugar a otras formulaciones basadas en este tipo de
representación (101).
Como ejemplo ilustrativo tenemos el coeficiente de Tanimoto para el caso
binario dado por:
!"
= [ + − ]
(
6
) Este coeficiente aplicado a las huellas dactilares 2D constituye actualmente
la medida de elección de los sistemas de software comerciales para la gestión de la
información química. También forma parte de sistemas de acceso público
importantes como el PubChem (50).
En un artículo revisión reciente Willet (2006) resume los resultados de los
estudios de comparación y combinación de coeficientes de similitud usando
huellas dactilares en conjuntos de datos apropiados. Estos resultados muestran
que algunos coeficientes se comportan monotónicamente entre sí, lo que significa
que producen clasificaciones u ordenamientos idénticos o muy similares de los
compuestos de la base de datos frente a una estructura de referencia determinada,
a pesar de que los valores del coeficiente real son diferentes. También se ha
mostrado que algunos coeficientes tienen una marcada preferencia a funcionar
bien en la búsqueda de moléculas activas de un tamaño determinado dado
aproximadamente por el número de bits activos en el vector de representación;
por ejemplo, el coeficiente de Russel-‐Rao “muestra preferencia” por moléculas