分类模型的评估与选择

1.应用背景

在进行分类器构建后，要对其分类性能进行评估，或新构建的分类器相对于其他分类器对数据集的分类效果进行评估，这时就会用到相应的评估方法

2.常见的评估方法

2.1评估分类器性能的度量

基本概念理解：

正元组：在一个分类问题中我们感兴趣的元组；
负元组：其他元组；
真比例/真阳性(TP)：指被分类器正确划分的正元组，令TP为真阳性的个数；
真负例/真阴性(TN)：指被分类器正确划分的负元组，令TN为真阴性的个数；
假正例/假阳性(FP)：被错误地标记为正元组的负元组；令FP为假阳性的个数；
假负例/假阴性(FN)：被错误地标记为负元组的正元组；令FN为假阴性的个数；
混淆矩阵：是一个分析分类器识别不同元组的一种有用工具，TP、TN可以表示分类器正确分类，FN、FP表示分类器错误分类，一个好的分类器，混淆矩阵中值应大部分集中于对角线上。混淆矩阵是一个至少为m*m的表（m≥2）表中CM_ij，表示i类被分为j类的数目。下图表示一个二分类模型的混淆矩阵

准确率：被分类器正确分类的元组所占百分比

$accuracy=\frac{TP+TN}{P+N}$

错误率（误分率）：1-accuracy

$error rate=\frac{FP+FN}{P+N}$

类不平衡问题：指在一次分类任务中，感兴趣的类是少的，如，在电子欺诈中，我们感兴趣的类为欺诈（正类），相比于正常（负类）来说，正类远远小于负类，这时的精度度量指标可以用灵敏度（sensitivity）和特效性（specificity）度量
灵敏度：正确识别的正元组的百分比

$sensitivity=\frac{TP}{P}$

特效性：正确识别负元组的百分比

$specificity=\frac{TN}{N}$

$accuracy=sensitivity(\frac{P}{P+N})+specificity(\frac{N}{P+N})$

精度(precision)：标记为正类的元组实际为正类所占百分比

$precision=\frac{TP}{TP+FP}$

召回率(recall)：正元组标记为正的百分比

$recall=\frac{TP}{TP+FN}$

当类C的精度为1，仅能说明该分类器将所有标记为C的每个元组都正确地分为C，但对于其他分类而言，有没有其他类被划分为C仅仅从精度并不能检测出来，所以仅仅凭借精度并不能很好的度量分类器的性能，简单来说，就算类C的分类精度为1，也不能认为该分类器性能好；通常将精度和召回率联合在一起来进行评价，常用的有两种度量方法，F，F_β。

$F=\frac{2*precision*recall}{precision+recall}$

$F_{\beta }=\frac{(1+\beta ^{2})*precision*recall}{\beta ^{2}*precision+recall}$

2.2保持方法和随机二次抽样

保持法（holdout）：在这种方法中，给定数据随机划分为两个独立的集合：训练集和检验集，通常2/3为训练集，1/3为检验集；

随机二次抽样（random subsampling）：是保持方法的变形，将保持方法重复k次，总准确率估计取每次迭代准确率的平均值。

2.3交叉验证

在k-折交叉验证（k-flod cross-validation）中，初始数据集被划分为k个互不交叉的子集或“折”D₁,D₂,D₃,...D_k。每个折大小大致相等。训练集和检验进行k次。在第i次迭代，分区D_i为检验集，其余分区均为训练集，即在第一次迭代中，子集D₂,D₃,...D_k，一起作为训练集，得到一个模型，并在D₁对该模型进行检验；在第二次迭代中D₁,D₃,...D_k为训练集，得到一个模型，在D₂上进行检验，以此进行重复。对于分类，准确率估计是k次迭代正确分类的元组的总数除以初始数据中的元组总数。

2.4自助法（bootstrap）

从给定的数据集中有放回地进行均匀抽样，即每选择一个元组后再放回原数据集中，这就会导致已经被选中的元组可能还会被再次被选中，以此方法选出训练集，剩下没被选择的数据为测试集。

2.5ROC曲线

接收者操作特征（Receiver Operating Characteristic）曲线是比较两个分类器模型有用的可视化工具，ROC曲线显示了给定模型的真正例率（TPR）和假正例率（FPR）之间的权衡

TPR：该模型正确标记的正元组的比例

FPR：该模型错误地标记为正的负元组比例

TP、FP、P、N分别表示真正例，假正率、正、负元组

$TPR=\frac{TP}{P}$

$FPR=\frac{FP}{N}$

在理想的情况下，最佳的分类器应该尽可能地处于左上角，即分类器在假阳率很低的同时获得了很高的真阳率，对于不同模型的ROC曲线进行比较的指标是该曲线下的面积。面积越大，该模型越大越好。

如下图所示，图中过原点直线表示随机猜测过程，即不同类被划分正确的概率均为0.5，右图表示两个模型M₁、M₂的ROC曲线，从图中可以看出M₁的性能优于M₂

主要来源<<数据挖掘概念与技术>>

posted @ 2020-07-03 18:57 阿贝尔阅读(695) 评论(0) 收藏举报

刷新页面返回顶部