#Header1_HeaderTitle{ font-size:50px }

ROC与AUC

一、AUC

AUC:随机挑选一个正样本和一个负样本,分类算法将这个正样本排在负样本前面的概率就是AUC。AUC越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。

计算方法:

1、绘制ROC曲线,ROC曲线下的面积就是AUC的值

2. 假设总共有(m+n)个样本。其中正样本m个,负样本n个,总共有m*n个样本对。计数,正样本预测为正样本的概率大于负样本预测为正样本的概率值记为1,累加计数,然后除以(m*n)就是AUC的值

 

二、ROC曲线

ROC曲线:接收者操作特征(Receiver Operating Characteristic),ROC曲线上每个点反映着对同一信号刺激的感受性。

介绍一下混淆矩阵。实际中的正例、负例,预测产生的正例、负例。因此两两组合,会产生四种情况

(1)若一个实例是正例,且预测为正例,即为真正例(True Postive TP)

(2)若一个实例是正例,且预测为负例,即为假反例(False Negative FN)

(3)若一个实例是负例,且预测为正例,即为假正例(False Postive FP)

(4)若一个实例是负例,且预测为负例,即为真负例(True Negative TN)

横轴:假正例率,假正例占真实反例的比重(FPR)

纵轴:真正例率,真正例占真实正例的比重(TPR)(和召回率的公式一模一样,反映的是分类器将所有正例找出来的能力)

如下面这幅图,图中实现为ROC曲线,线上每个点对应一个阈值

横轴:FPR越大,预测正例中真实的反例越多(希望它小)

纵轴:TPR越大,预测正例中真实的正例越多(希望它大)

理想目标:TPR=1,FPR=0,即图中(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45°对角线,效果越好

ROC的取值范围应该是0.5到1,如果小于0.5,那分类器的分类效果还不如瞎蒙,这个分类器就是失败的。

 

posted @ 2019-03-22 10:51  墨麟非攻  阅读(327)  评论(0编辑  收藏  举报