Óscar Miguel Rivera Borroto & col.
554
representa la razón de falsos positivos (
fpr
) e
Y
representa la razón de verdaderos
positivos (
tpr
)] a través de una transformación de magnificación suave ya sea
exponencial, de potencia o logarítmica. La lógica de su trabajo se basa en el
“comportamiento del usuario” que se observa en la recuperación de páginas web
donde se conoce, como promedio, la frecuencia con que el primero, segundo, …,
n-‐
ésimo
registro son pinchados (“cliqueados”); la curva decreciente correspondiente
de cuán relevante es cada rango provee información valiosa para los niveles de
intervalo y magnificación requeridos; a partir de aquí es razonable requerir que el
factor de magnificación local sea proporcional a la relevancia correspondiente. Por
la analogía de estos sistemas con los sistemas de recuperación en el
descubrimiento de fármacos,
se propone se emplee una relevancia
exponencialmente decreciente del “ranqueo” final. Finalmente, a través de
resultados gráficos y empleando pruebas estadísticas robustas los autores
concluyen que las variantes CROC son más potentes que los métodos de umbrales
de corte fijo, que las variantes Curva de Acumulación Concentrada (CAC, del inglés
Concentrated Acumulation Curve), pROC y ROC (126).
La variante más potente de la curva CROC se obtiene aplicando una
transformación de magnificación exponencial del eje
X
(
fpr
) de la curva ROC dada
por:
ℎ =
!!!
!!"
!!!
!!
(
9
)
Donde, α es el factor de magnificación, que para caso recomendado toma el
valor α = 20 que corresponde aproximadamente a un 8% de enriquecimiento
temprano (123).
Una vez establecida la función de magnificación
ℎ
, el área bajo la curva
CROC puede calcularse fácilmente como el promedio de los valores de
fpr
transformados correspondientes a las posiciones de las instancias positivas en la
lista de recuperación como:
=
!!! !"#
!
!!!!
!
(
10
)
Donde,
!
es la razón de falsos positivos al nivel (rango) de cada instancia
positiva
i
del total
n
.
Por último, valores del área bajo CROC se pueden comparar con el valor
correspondiente al clasificador aleatorio a través de la formula:
!"#!$
=
! !
−
!
!!
!!!
!!
(
11
)