P,R,F1 等性能度量（二分类、多分类）

总结自《机器学习》周志华 2.3

最常用的是查准率P（precision），查全率R（recall），F1

一、对于二分类问题

二、对于多分类问题

1.macro

2.micro

最常用的是查准率P（precision），查全率R（recall），F1

混淆矩阵（confusion matrix）：

$P = \frac{TP}{TP+FP}$ 查准率=真正 / (真正+假正) = predicted and true positive/ predicted positive

$R= \frac{TP}{TP+FN}$ 查全率= 真正 /(真正+假反) = predicted and true positive/ true positive

P , R是一对矛盾的度量，一般一个的值高了，另一个的值就会降低，

P-R图：

若学习器A的 P-R曲线将学习器B的 P-R曲线完全包住，则学习器A 在该问题上优于 B

若A B的P-R曲线有交叉，则比较P-R曲线下面积的大小，越大越好

平衡点 break even point BEP，是P==R 时的取值

F值度量：

$F1=\frac{2\times P\times R}{P+R}$ $F1=\frac{2\times TP}{n+TP-TN}$ ,n为样例总数

$F_{\beta }=\frac{(1+\beta^{2})\times P\times R}{(\beta^{2}\times P)+R}$ β>1，R有更大影响，β<1,P有更大影响

多分类问题，每两两类别组合，构成n个二分类问题，每个二分类问题对应一个混淆矩阵

先在各个混淆矩阵上分别计算P,R, 再求平均得到宏查准率macro-P, 宏查全率macro-R,

基于宏查准率macro-P, 宏查全率macro-R,计算宏F1 macro-F1

$macro-P=\frac{1}{n}\sum_{i=1}^{n}P_i$ $macro-R=\frac{1}{n}\sum_{i=1}^{n}R_i$

$marco-F1=\frac{2\times macroP\times macroR}{marcoP+marcoR}$

将各个混淆矩阵的对应元素进行平均，得到TP,FP,TN,FN的平均值： $\overline{TP} , \overline{FP}, \overline{TN}, \overline{FN}$

$micro-P=\frac{\overline{TP}}{\overline{TP}+\overline{FP}}$ $micro-R=\frac{\overline{TP}}{\overline{TP}+\overline{FN}}$

$micro-F1=\frac{2\times microP\times microR }{microP+microR}$

posted @ 2019-09-05 17:02 算法技术前沿阅读(1219) 评论(0) 编辑收藏举报

刷新页面返回顶部