机器学习第二章

2.3 性能度量

ROC和RUC

学习器为测试样本产生一个实值或概率预测，然后将这个预测值与一个分类阈值进行比较，若大于阈值则分为正类，否则分为反类；

ROC（受试者工作特征横轴-真正例率（TPR）纵轴-假正例率（FPR））

TPR=TP/(TP+FN) FPR=FP/(TN + FP);

绘图过程：

给定m+个正例和m-个反例，根据学习器的预测结果对样例进行排序，然后把分类阈值设为最大，即把所有样例均预测为反例；

若为真正例，则上移1/m+单位；

若为假正例，则右移1/m-单位。

这样恰恰说明了为什么横轴就表示FPR，纵轴就表示TPR。

经过(m+ add m-)次的猜测，就得到从(0,0)到(1,1)的折线ROC。

对每个点作关于x,y轴的直线，将该区域分成 m+ mulpitly m- 块小矩形。

在ROC曲线之下的面积是AUC（Area Under ROC Curve）

经过(m+ add m-)次的猜测，就得到从(0,0)到(1,1)的折线ROC。

对每个点作关于x,y轴的直线，将该区域分成 m+ mulpitly m- 块小矩形。

，

思考：对于不同的排序而言会产生灰色区域的误差；因此需要考虑f（x+）=f（x-）的误差；

ROC曲线上方的面积等于m-块底为1/m-,高为1/m+ multiple (剩余的正例数目)，并考虑排序带来的影响

故得到书上的损失公式。

2.3.4代价敏感错误率和代价曲线

为了衡量不同类型错误所造成的不同损失，可以赋予“非均等代价” 对于代价而言，重要的是代价比值而不是代价绝对值

在非均等代价下，ROC曲线不能直接反映出学习器的期望总体代价，而“代价曲线”可以达到目的；

costij表示将第i类样本预测为第j类样本的代价，若预测正确则代价为0，设置代价矩阵如下：

因此模型代价敏感错误率为：

不管使用何种代价损失函数，构建模型最优化都等价与最小代价敏感错误率

代价曲线：期望总体代价越小，则模型的泛化能力越强；

代价曲线的横坐标是样例为归一化的正例概率代价，正例概率为p，给定的正例概率为先验概率，范围为0~1，纵轴是归一化的损失代价。

归一化的正例代价概率为：

这里用1代表正样本，0代表负样本；（西瓜书里面假设0代表正例，1代表反例）

正概率代价为

总概率代价为：

发表于 2019-10-31 15:22 Damocless 阅读(394) 评论(0) 收藏举报

公告