分类指标小结
有很多分类指标,在分类任务,检测任务,和图像分割任务都有不同的评价指标,每个指标都有各自的优点,常常是用多个指标来衡量一个模型。现在对分类和检测任务的指标做一个小结。
1.分类任务
对于分类任务,有这样一个表:
1.1 Accuray
它指正确预测样本数占总数的多少
即,TP + TN / TP + FN + FP + TN
1.2 Precision
它指正确预测的正样本数占所有预测为正样本数量的比值,即预测为正样本里有多少本身是正样本,
即,TP / TP + FP
1.3 Recall
它指预测标签为正样本里有多少是正样本,即,
TP / TP + FN
1.4 F—score
F-score相当于precision和recall的调和平均,用意是要参考两个指标。从公式可以看出,recall和precision任何一个数值减小,F-score都会减小,反之,亦然。
即,2/(1/precison + 1/recall)
1.5 P-R曲线与ROC
P-R: 纵轴设置为precison,横轴设置成recall,改变阈值就能获得一系列的pair并绘制出曲线。对于不同的模型在相同数据集上的预测效果,我们可以画出一系列的PR曲线。一般来说如果一个曲线完全“包围”另一个曲线,我们可以认为该模型的分类效果要好于对比模型。
ROC:在实际的数据集中经常会出现类别不平衡现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间而变化。而在这种情况下,ROC曲线能够保持不变。同时,我们可以断言,ROC曲线越接近左上角,即面积越大,该分类器效果更好。
1.6 AUC
用来衡量ROC的面积
2. 目标检测任务
2.1 AP
即Average Precision平均准确率,是对不同召回率点上的准确率进行平均,在PR
曲线图上表现为PR
曲线下面的面积。AP
的值越大,则说明模型的平均准确率越高。
2.2 mAP
即mean average precision
平均精度均值,我们知道AP是对不同召回率点上的准确率进行平均,可以理解为目标检测一般会检测很多类,AP只是表示其中一类,而很多类综合起来,则是用mAP来衡量,即一个模型通常会检测很多种物体,那么每一类都能绘制一个PR
曲线,进而计算出一个AP
值。那么多个类别的AP
值的平均就是mAP
.
一般来说mAP
针对整个数据集而言的,AP
针对数据集中某一个类别而言的,而percision
和recall
针对单张图片某一类别的。
2.3IOU
交并比