机器学习评价指标

机器学习与深度学习中常见的评价指标

 

 一、分类任务

  混淆矩阵的介绍

  在介绍评价指标之前,我们首先要介绍一下混淆矩阵(confusion matrix)。混淆矩阵本身是对于预测结果的一个粗略评价,可以让我们对预测结果和原始数据有一个宏观的了解。同时我们也会在计算后面的评价指标时用到混淆矩阵中的数。

     

 

  TP(True Positive, 真阳性):实际为正,预测正确

  TN(True Negative, 真阴性):实际为负,预测正确

  FP(False Positive, 假阳性):实际为负,预测错误

  FN(False Negative, 假阴性):实际为正,预测错误

 1.准确率(Accuracy)

  定义:(TP+TN)/(TP+FN+FP+TN)
    即所有分类正确的样本占全部样本的比例

2.精确率(Precision、查准率)

  定义:(TP)/(TP+FP)
  即预测是正例的结果中,实际是正例的比例

3.召回率(Recall、查全率)

  定义:(TP)/(TP+FN)
  即所有正例的样本中,预测正确的比例

 4. F1-socre

  其实精确率和召回率之间是存在矛盾的,很多场景下,模型最终结果往往实在精确率和召回率之间找到平衡点。

  F1-socre是兼顾精确率和召回率的参数,之所以使用调和平均而不是算术平均,是因为在算术平均中,任何一方对数值增长的贡献相当,任何一方对数值下降的责任也相当;而调和平均在增长的时候会偏袒较小值,也会惩罚精确率和召回率相差巨大的极端情况,很好地兼顾了精确率和召回率。

  F1-socre计算方法如下:F1=Precision+Recall2∗Precision∗Recall

​5.ROC-AUC

  ROC曲线(receiver operating characteristic curve, 接收者操作特征曲线)有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类别不平衡(Class Imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化,ROC以及AUC可以很好的消除样本类别不平衡对指标结果产生的影响

  许多分类器会为每个样本产生一个实值分数或概率预测,将这个预测的值和一个分类阈值(threshold)相比,大于阈值则预测为真,小于阈值则预测为假。在输出为概率分布的分类模型中,如果仅使用准确率、精确率、召回率作为评价指标进行模型对比时,都必须是基于某一个给定阈值的,对于不同的阈值,各模型的指标(Metrics)结果也会有所不同,这样就很难得出一个很置信的结果。
  其中横坐标为假正率(FPR),纵坐标为真正率(TPR)。AUC为曲线下面的面积,一般AUC值越大,说明模型越好。

 

二、回归任务

    回归或预测问题常见评价指标如下:平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),均方根误差(Root Mean Square Error, RMSE),均方根误差(Root Mean Squared Error) , R2(R-Square).

1 平均绝对误差(Mean Absolute Error,MAE)

  平均绝对误差(Mean Absolute Error,MAE)是预测值与真实值之差的绝对值,反映了预测值与真实值误差的实际情况

2 均方误差(Mean Squared Error, MSE)

  均方误差(Mean Squared Error, MSE)是预测值与真实值之差平方的期望值。MSE的值越小,说明预测模型描述实验数据具有越好的精确度。

 

3 均方根误差(Root Mean Square Error, RMSE)

  均方根误差(Root Mean Square Error, RMSE)是MSE的平方根,为预测值和真实值差异的样本标准差。均⽅根误差为了说明样本的离散程度,拟合时,RMSE越小越好。均方根误差与标准差的研究对象不同,均方根误差用来衡量预测值与真实值之间的偏差,而标准差用于衡量一组数据的离散程度。

4 R平方值(R-Squared)

  R平方值(R-Squared)又称拟合优度,反映了回归模型对数据的拟合程度,取值范围为(0,1],R 2 R^2R2越接近1,表明用x的变化来解释y值变化的部分就越多,回归的拟合程度就越好。

 

 


 

posted @ 2022-10-26 09:53  hungry_J  阅读(20)  评论(0)    收藏  举报