YANETSY MACHADO TUGORES & col
466
manera que si Δ
P
%>0, se considera antimalárico. Por el contrario, valores de Δ
P
%<0, indica la presencia de casos inactivos.
Se han evaluado diferentes parámetros estadísticos para comprobar la
calidad
y
robustez
de los modelos obtenidos como la
λ
de Wilks, el valor de F de
Fisher (
F
) y el cuadrado de la distancia de Mahalanobis (
D
2
). De igual forma se
calcularon los parámetros: exactitud total (
Q
), coeficiente de correlación de
Mattews (
C
), sensibilidad (
Sens
), especificidad (
Spec
) y razón de falsa alarma (
FAR)
(29-‐30). Para probar la
robustez
y el poder predictivo de los modelos, no sólo se
comparó la predicción obtenida por los modelos con la real de la SP (
validación
externa
); sino que también se llevó a cabo la validación cruzada (
VC
) dejando un 15
% de los compuestos fuera de la SE generando nuevos modelos de predicción y
comprobando el comportamiento de la exactitud del mismo. Este proceder se
repite tantas veces hasta que todos los casos son retirados una vez.
El principio de parsimonia (“
Occam’s Razor
”) fue tomado en cuenta para la
selección del número óptimo de variables en cada modelo (31).
2.1.3.1. Sistema multiclasificador ensamblado (SMCs) basado en modelos
QSAR.
No existe todavía un clasificador por excelencia; para un problema
determinado es difícil seleccionar cual será el clasificador que logre encontrar una
mejor frontera de decisión para separar las clases. Por ello, se utilizó un
clasificador ensamblado o multiclasificador, a partir de todos los modelos QSAR
considerados. Este sistema tiene una tendencia general a mejorar los resultados de
las clasificaciones combinando adecuadamente varios clasificadores (en nuestro
caso son los modelos individuales) (32, 33).
Una de las condiciones para obtener buenos resultados es lograr la
diversidad de los modelos individuales, y para “cuantificar” las correlaciones entre
ellos fueron seleccionadas las medidas de diversidad de
desacuerdo
(D) y de
doble
fallo
(
DF
) (34). El
desacuerdo
se basó en aquellos casos que fueron clasificados de
manera diferente por dos modelos individuales (se escoge el valor máximo) y el
doble fallo
tiene en cuenta aquellos casos en que ambos modelos se equivocan en
su clasificación (escogiéndose el mínimo valor). De esta forma quedan
seleccionados los modelos con mayor diversidad en la información brindada (34,
35).
El método escogido para realizar el
SMCs
se denomina no entrenado (
voto
no ponderado
) donde se combina, en una matriz, los ΔP de los casos por todos los
modelos analizados (expresando la probabilidad de ser activos o inactivos).
Mediante la fusión de diferentes funciones matemáticas (media, mediana, valor