混淆矩阵，ROC曲线和AUC

作者：无涯
链接：https://www.zhihu.com/question/39840928/answer/241440370
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

混淆矩阵中有着Positive、Negative、True、False的概念，其意义如下：

称预测类别为1的为Positive（阳性），预测类别为0的为Negative（阴性）。
预测正确的为True（真），预测错误的为False（伪）。

对上述概念进行组合，就产生了如下的混淆矩阵：

然后，由此引出True Positive Rate（真阳率）、False Positive（伪阳率）两个概念：

$TPRate=\frac{TP}{TP+FN}$
$FPRate=\frac{FP}{FP+TN}$

仔细看这两个公式，发现其实TPRate就是TP除以TP所在的列，FPRate就是FP除以FP所在的列，二者意义如下：

TPRate的意义是所有真实类别为1的样本中，预测类别为1的比例。
FPRate的意义是所有真实类别为0的样本中，预测类别为1的比例。

二者均是对真实类别情况为基础的

准确率(accuracy)=(TP+TN)/(TP+FN+FP+TN)

通俗解释：在所有样本中，预测正确的概率

精确率(precision)=TP/(TP+FP)

通俗解释：你认为的正样本中，有多少是真的正确的概率

召回率(recall)=TP/(TP+FN)

通俗解释：正样本中有多少是被找了出来

作者：奶茶喝不胖
链接：https://zhuanlan.zhihu.com/p/146711298
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

如果上述概念都弄懂了，那么ROC曲线和AUC就so easy了：

按照定义，AUC即ROC曲线下的面积，而ROC曲线的横轴是FPRate，纵轴是TPRate，当二者相等时，即y=x，如下图:

表示的意义是：对于不论真实类别是1还是0的样本，分类器预测为1的概率是相等的。

换句话说，分类器对于正例和负例毫无区分能力，和抛硬币没什么区别，一个抛硬币的分类器是我们能想象的最差的情况，因此一般来说我们认为AUC的最小值为0.5（当然也存在预测相反这种极端的情况，AUC小于0.5，这种情况相当于分类器总是把对的说成错的，错的认为是对的，那么只要把预测类别取反，便得到了一个AUC大于0.5的分类器）。

而我们希望分类器达到的效果是：对于真实类别为1的样本，分类器预测为1的概率（即TPRate），要大于真实类别为0而预测类别为1的概率（即FPRate），即y＞x，因此大部分的ROC曲线长成下面这个样子：

最理想的情况下，既没有真实类别为1而错分为0的样本——TPRate一直为1，也没有真实类别为0而错分为1的样本——FP rate一直为0，AUC为1，这便是AUC的极大值。

auc只反应模型对正负样本排序能力强弱，auc越高模型的排序能力越强，理论上，当模型把所有正样本排在负样本之前时，auc为1.0，是理论最大值。

AUC的计算方法同时考虑了分类器对于正例和负例的分类能力，在样本不平衡的情况下，依然能够对分类器作出合理的评价。

例如在反欺诈场景，设欺诈类样本为正例，正例占比很少（假设0.1%），如果使用准确率评估，把所有的样本预测为负例，便可以获得99.9%的准确率。

但是如果使用AUC，把所有样本预测为负例，TPRate和FPRate同时为0（没有Positive），与(0,0) (1,1)连接，得出AUC仅为0.5，成功规避了样本不均匀带来的问题。

AUC的实际计算：

https://www.cnblogs.com/peizhe123/p/5081559.html

posted @ 2021-03-11 14:46 小小马进阶笔记阅读(680) 评论(0) 收藏举报

刷新页面返回顶部

混淆矩阵，ROC曲线和AUC

公告