2.3  性能度量

ROC和RUC

学习器为测试样本产生一个实值或概率预测,然后将这个预测值与一个分类阈值进行比较,若大于阈值则分为正类,否则分为反类;

ROC(受试者工作特征  横轴-真正例率(TPR)  纵轴-假正例率(FPR))

TPR=TP/(TP+FN)     FPR=FP/(TN + FP);

绘图过程:

给定m+个正例和m-个反例,根据学习器的预测结果对样例进行排序,然后把分类阈值设为最大,即把所有样例均预测为反例;

若为真正例,则上移1/m+单位;

若为假正例,则右移1/m-单位。

这样恰恰说明了为什么横轴就表示FPR,纵轴就表示TPR。

经过(m+ add m-)次的猜测,就得到从(0,0)到(1,1)的折线ROC。

对每个点作关于x,y轴的直线,将该区域分成 m+ mulpitly m- 块小矩形。

在ROC曲线之下的面积是AUC(Area Under ROC Curve)

经过(m+ add m-)次的猜测,就得到从(0,0)到(1,1)的折线ROC。

对每个点作关于x,y轴的直线,将该区域分成 m+ mulpitly m- 块小矩形。

 

 思考:对于不同的排序而言会产生灰色区域的误差;因此需要考虑f(x+)=f(x-)的误差;

ROC曲线上方的面积等于m-块底为1/m-,高为1/m+ multiple (剩余的正例数目),并考虑排序带来的影响

故  得到书上的损失公式。

 

 

2.3.4代价敏感错误率和代价曲线

为了衡量不同类型错误所造成的不同损失,可以赋予“非均等代价”    对于代价而言,重要的是代价比值而不是代价绝对值

在非均等代价下,ROC曲线不能直接反映出 学习器的期望总体代价,而“代价曲线”可以达到目的;

costij表示将第i类样本预测为第j类样本的代价,若预测正确则代价为0,设置代价矩阵如下:

 

 因此模型代价敏感错误率为:

 

 不管使用何种代价损失函数,构建模型最优化都等价与最小代价敏感错误率

代价曲线:期望总体代价越小,则模型的泛化能力越强;

代价曲线的横坐标是样例为归一化的正例概率代价,正例概率为p,给定的正例概率为先验概率,范围为0~1,纵轴是归一化的损失代价。

归一化的正例代价概率为:

 

 

这里  用1代表正样本,0代表负样本;      (西瓜书里面假设0代表正例,1代表反例)

正概率代价为

 

总概率代价为: