离线评价指标
评价指标
首先在介绍二分类的评价指标之前,先介绍几个常见概念用于计算其中的accuracy,precision,recall,F1
TP、FP、FN、TN
TP:True Positive,FP:False Positive,FN:False Negative,TN:True Negative
后面的p或是n分别代表预测情况,即预测是正样本还是负样本;然后前者t或是f则代表预测值正确与否。
TP:分类器预测结果为正样本,实际预测正确,是正样本。(即正样本被正确识别的数量)
FP:分类器预测结果为正样本,实际预测错误,是负样本。(即误报的负样本数量)
FN:分类器预测结果是负样本,实际预测错误,是正样本。(即漏报的正样本的数量)
TN:分类器预测结果是负样本,实际预测正确,是负样本。(即负样本被正确识别的数量)
常见的评价指标是由上述构成
Precision精确率
P指标表示预测正确的正样本的准确率,预测为真但是实际为假的样本越少,precision的值越大。
Recall召回率
R指标表示预测正确的样本的覆盖率,TP+FN的数量实际上为Ground Truth的数量,recall的值越大,漏检的数量就越小。
关于上述介绍的两个评价指标如果使用上面的指标进行计算,可能不是很直观,但如果使用下图去理解可能会帮助理解。
F1值
精确率越高越好,召回率也越高越好。
Accuracy精确率
Accuracy指标表示预测正确的样本比例。
另外还有一些额外的指标:二分类常用area under curve(AUC),多分类常用macro F1和micro F1。
Area Under Curve(AUC)
ROC曲线(Receiver Operator Characteristic Curve,译为接收者操作特性曲线)。ROC曲线以FPR为X轴;TPR为Y轴,如下图所示。
macro F1宏平均
micro F1微平均
微平均(Micro- average)。是计算数据集总体的TP、FP、TN、FN (类别 1.2. ....对应的TP、FP、TN、FN样例个数都分别加起来,同样地,这些样例个数计算方式是将多分类转为n个二分类,(即one-vs-all),建立全局混淆矩阵,然后计算相应指标。

浙公网安备 33010602011771号