Óscar Miguel Rivera Borroto & col.
544
Desde el punto de vista estadístico, de acorde a la fortaleza de la medición
de las variables o DMs, estos pueden clasificarse en las escalas de proporción,
intervalo, ordinal y categórica (el caso binario para dos categorías). Una práctica
común en quimioinformática consiste en transformar descriptores continuos y
discretos (proporción/intervalo) en binarios (categórica) a través de un valor de
corte como la mediana, o simplemente trabajar con huellas dactilares, para
aumentar la eficiencia de los algoritmos de clasificación/predicción; sin embargo,
esta práctica también conduce a una pérdida de información estadística que se
traduce en la aparición de ataduras en los valores de similitud y disminución de la
potencia de las técnicas, resultando además en una menor versatilidad de las
mismas (70).
La presentación que se muestra en la Tabla 1 está lejos de ser
representativa, por lo que para una presentación detallada los lectores interesados
pueden referirse a la última versión del manual de descriptores moleculares de
Todeschini y Consonni (2009) donde se trata este tema con profundidad (71). El
número de descriptores moleculares propuestos en la literatura hasta el momento
es realmente amplio, para ello recientemente se han desarrollado sistemas para el
cálculo de grandes conjuntos de descriptores algunos de ellos son el software
DRAGON, comercial (72); PaDEL, disponible gratuitamente (73); y MODEL, en
plataforma web y disponible gratuitamente (74). Una lista más ampliada de
programas para este fin puede encontrarse en el sitio web de la ref. (75).
3.2.3. Selección de rasgos
Actualmente, existe un número realmente grande de descriptores
desarrollados que pueden ser usados en los cálculos de similitud (76). Sin
embargo, a medida que la dimensionalidad de los datos incrementa, muchos tipos
de análisis de datos y problemas de clasificación se vuelven computacionalmente
difíciles. En ocasiones, también los datos se vuelven crecientemente dispersos en el
espacio que ocupan. Esto puede conducir a grandes problemas para ambos, para el
aprendizaje supervisado y no supervisado. En la literatura este fenómeno se
refiere como
la maldición de la dimensionalidad
(77). Para propósitos de búsqueda
de similitud, el aspecto más relevante de la maldición de la dimensionalidad
concierne a la medida de distancia o similitud.
Para ciertas distribuciones de datos, la diferencia relativa entre las
distancias de los puntos más cercanos y lejanos a un punto, independientemente
seleccionado, tiende a cero a medida que la dimensionalidad aumenta (78). Por
otra parte, un número grande de descriptores en la representación pueden
contener rasgos irrelevantes o débilmente relevantes, que se conoce afectan
negativamente la exactitud de los algoritmos de predicción (79), el caso extremo
de este fenómeno se ilustra en
el teorema del patito feo
de Watanabe; basicamente,
si uno considera el universo de rasgos de los objetos y no tiene algún sesgo