ROC与AUC

AUC：随机挑选一个正样本和一个负样本，分类算法将这个正样本排在负样本前面的概率就是AUC。AUC越大，当前的分类算法越有可能将正样本排在负样本前面，即能够更好的分类。

计算方法：

1、绘制ROC曲线，ROC曲线下的面积就是AUC的值

2. 假设总共有（m+n）个样本。其中正样本m个，负样本n个，总共有m*n个样本对。计数，正样本预测为正样本的概率大于负样本预测为正样本的概率值记为1，累加计数，然后除以（m*n）就是AUC的值

ROC曲线：接收者操作特征（Receiver Operating Characteristic），ROC曲线上每个点反映着对同一信号刺激的感受性。

介绍一下混淆矩阵。实际中的正例、负例，预测产生的正例、负例。因此两两组合，会产生四种情况

（1）若一个实例是正例，且预测为正例，即为真正例（True Postive TP）

（2）若一个实例是正例，且预测为负例，即为假反例（False Negative FN）

（3）若一个实例是负例，且预测为正例，即为假正例（False Postive FP）

（4）若一个实例是负例，且预测为负例，即为真负例（True Negative TN）

横轴：假正例率，假正例占真实反例的比重（FPR）

纵轴：真正例率，真正例占真实正例的比重（TPR）（和召回率的公式一模一样，反映的是分类器将所有正例找出来的能力）

如下面这幅图，图中实现为ROC曲线，线上每个点对应一个阈值

横轴：FPR越大，预测正例中真实的反例越多（希望它小）

纵轴：TPR越大，预测正例中真实的正例越多（希望它大）

理想目标：TPR=1，FPR=0，即图中（0，1）点，故ROC曲线越靠拢（0，1）点，越偏离45°对角线，效果越好

ROC的取值范围应该是0.5到1，如果小于0.5，那分类器的分类效果还不如瞎蒙，这个分类器就是失败的。

posted @ 2019-03-22 10:51 墨麟非攻阅读(359) 评论(0) 收藏举报

刷新页面返回顶部

墨麟非攻