BORIS GUZMÁN FERNÁNDEZ & col
520
La matriz de clasificación obtenida para el modelo matemático-‐topológico
seleccionado (ver Tabla 2), es muy significativa: el 100% de los compuestos activos
(28 de 28 compuestos) son clasificados correctamente, así como el 85,7% del
grupo inactivo (18 de 21 compuestos) lo que representa un porcentaje de acierto
medio del 93%.
El modelo fue sometido a dos análisis de validación interna: método de
Jack-‐knife o leave-‐one-‐out, así como una cross-‐validation o validación cruzada. El
primero tal y cómo explicamos en párrafos anteriores, consistió en una validación
interna con pérdida de un compuesto y posterior predicción del mismo por el
modelo. La validación del modelo siguiendo el método de Jack-‐knifed, para el grupo
de entrenamiento, muestra una matriz de clasificación en la que 26 de 28
compuestos activos son clasificados correctamente (93%) y 18 de 21 compuestos
inactivos fueron correctamente dispuestos por el modelo (86%). Obteniendo por
tanto, un porcentaje de correcta clasificación global del 90 %. Por lo que la FD
(Ec.1) para la búsqueda de compuestos con actividad anti-‐tripanosómica supera
claramente este primer test de validación interna, demostrando ser un modelo
robusto. Asimismo, se realizó una segunda prueba de validación interna al modelo
(Ec.1). Para llevar a cabo este test de validación cruzada, se dividió el grupo
estudiado en cinco subgrupos (CV1-‐CV5): serie CV1 (1, 5, 7, 13, 20, 21, 28, 30, 36,
40, 45), serie CV2 (2, 8, 9, 15, 22, 23, 31, 34, 38, 42, 46), serie CV3 (3, 10, 14, 16, 24,
25, 32, 37, 41, 43, 47), serie CV4 (4, 11, 17, 18, 26, 29, 33, 39, 44, 48), serie CV5 (6,
12, 19, 21, 27, 30, 35, 40, 45, 49). Estas series corresponden en el estudio de
validación cruzada al grupo de test (es decir, no participan en la elaboración del
modelo), mientras que los compuestos restantes se asignan al grupo de
entrenamiento.
En la Tabla 2, se muestran los valores de λ (lambda de Wilks) y la matriz de
clasificación para los compuestos pertenecientes tanto al grupo de entrenamiento
como al grupo test.
La variabilidad de λ es pequeña para cada serie y el valor promedio de λ
tras cinco ensayos de validación cruzada, es muy similar al obtenido con el modelo
seleccionado (0,349). Por lo que podemos afirmar que el modelo seleccionado para
la búsqueda de compuestos con actividad anti-‐tripanosómica es robusto.
La Figura 1, muestra el diagrama de distribución de la actividad anti-‐
trypanosómica obtenido a partir del análisis lineal discriminante realizado.