(遇到了这么一个关于评价分类器的题,想偷个懒,但是发现网上的解释都很抽象,当然也是我愚钝,于是自己琢磨了琢磨,稍微有了点苗头,赶紧写下来以供分享)
数据挖掘中当建立起分类模型/分类器后,希望能够对该分类器进行准确率的评估。那么,什么是准确率?如何评估它?如何得到可靠的准确率估计?接下来对分类器的评估问题进行详述。
1.评估分类器性能的度量
|
度量 |
符号/公式 |
备注 |
|
真正例/真阳性 |
TP(True Positives) |
预测为正,真实为正 |
|
真负例/真阴性 |
TN(True Negatives) |
预测为负,真实为负 |
|
假正例/假阳性 |
FP(False Positives) |
预测为正,真实为负 |
|
假负例/假阴性 |
FN(False Negatives) |
预测为负,真实为正 |
|
准确率/识别率 |
|
正确分类百分比 |
|
错误率/误分类率 |
|
误分类百分比 |
|
敏感度/真正例率/召回率 |
|
真正例率,正确识别的正元组的百分比 |
|
特效性/真负例率 |
|
真负例率,正确识别的负元组百分比 |
|
精度 |
|
标记为正类的元组实际为正类所占的百分比 |
|
召回率 |
|
正元组标记为正的百分比
|
2.各度量值的计算
如何将上表所述度量值应用到具体实例中,接下来借助一个例题详细介绍。
eg:
The data tuples of the figure are sorted by decreasing probability value, as returned by a classifier. For each tuple, compute the values for the number of true positives (TP), false positives (FP), true negatives (TN), and false negatives (FN).
Compute the true positive rate (TPR), and false positive rate (FPR).
|
ID |
Class |
Probability |
TP |
FP |
TN |
FN |
TPR |
FPR |
|
1 |
P |
0.95 |
1 |
0 |
5 |
4 |
0.2 |
0 |
|
2 |
N |
0.85 |
1 |
1 |
4 |
4 |
0.2 |
0.2 |
|
3 |
P |
0.78 |
2 |
1 |
4 |
3 |
0.4 |
0.2 |
|
4 |
P |
0.66 |
3 |
1 |
4 |
2 |
0.6 |
0.2 |
|
5 |
N |
0.60 |
3 |
2 |
3 |
2 |
0.6 |
0.4 |
|
6 |
P |
0.55 |
4 |
2 |
3 |
1 |
0.8 |
0.4 |
|
7 |
N |
0.53 |
4 |
3 |
2 |
1 |
0.8 |
0.6 |
|
8 |
N |
0.52 |
4 |
4 |
1 |
1 |
0.8 |
0.8 |
|
9 |
N |
0.51 |
4 |
5 |
0 |
1 |
0.8 |
1 |
|
10 |
P |
0.40 |
5 |
5 |
0 |
0 |
1 |
1
|
(黑色部分是题目,红色部分是答案。这是一个按照概率由大到小进行排序的表格)
【解题思路】
1.概率值含义:当前概率值即为当前阈值,即样本预测结果为正类样本的概率范围是[Probability,1]。例如,Probability=0.95表示,概率值≥0.95的样本都是预测结果为正类样本。
2.Class含义:Class表示当前样本的真实类别,P为正类,N为负类。
3.因此表格含义为:(以6号样本为例)当进行到6号样本这里时,此时阈值为0.55,即,概率≥0.55的样本预测结果为正类,概率<0.55的样本为负类。
【解题步骤】(以6号样本为例)
1.TP:预测为正,真实为正,阈值为0.55,此时1号到6号预测结果都是正类,而2号5号实际结果却是负类,因此正确分类正类的个数是4。(为什么不考虑7号到10号?因为TP是正确分类,且分出的必须是正类,7号搭配10号的预测结果都是负类,仅这一点就已经无法满足,所以无需考虑7号之后的样本)
2.FP:预测为正,真实为负。预测结果是正类的是1号到6号样本,在这些样本中,真实值是负类的样本为2号5号,所以FP=2。
3.TN:预测为负,真实为负。预测为负的样本是7号到10号,在这当中真实值为负的是7号8号9号,所以TN=3。
4.FN:预测为负,真实为正。预测为负的样本是7号到10号,在这当中真实值为正的是10号,所以FN=1 。
5.TPR=TP/(TP+FN)
6.FPR=FP/(FP+TN)
OVER~






浙公网安备 33010602011771号