CAN：借助先验分布提升分类性能的简单后处理技巧

顾名思义，本文将会介绍一种用于分类问题的后处理技巧——CAN（Classification with Alternating Normalization），出自论文《When in Doubt: Improving Classification Performance with Alternating Normalization》。经过笔者的实测，CAN确实多数情况下能提升多分类问题的效果，而且几乎没有增加预测成本，因为它仅仅是对预测结果的简单重新归一化操作。

有趣的是，其实CAN的思想是非常朴素的，朴素到每个人在生活中都应该用过同样的思想。然而，CAN的论文却没有很好地说清楚这个思想，只是纯粹形式化地介绍和实验这个方法。本文的分享中，将会尽量将算法思想介绍清楚。

思想例子 #

假设有一个二分类问题，模型对于输入 $a$

但是，假如我告诉你：1、类别必然是0或1其中之一；2、两个类别的出现概率各为0.5。在这两点先验信息之下，由于前一个样本预测结果为1，那么基于朴素的均匀思想，我们是否更倾向于将后一个样本预测为0，以得到一个满足第二点先验的预测结果？

这样的例子还有很多，比如做10道选择题，前9道你都比较有信心，第10题完全不会只能瞎蒙，然后你一看发现前9题选A、B、C的都有就是没有一个选D的，那么第10题在蒙的时候你会不会更倾向于选D？

这些简单例子的背后，有着跟CAN同样的思想，它其实就是用先验分布来校正低置信度的预测结果，使得新的预测结果的分布更接近先验分布。

不确定性 #

准确来说，CAN是针对低置信度预测结果的后处理手段，所以我们首先要有一个衡量预测结果不确定性的指标。常见的度量是“熵”，对于 $p = [p_{1}, p_{2}, \dots, p_{m}]$

H (p) = - \sum i = 1 m p i log p i

然而，虽然熵是一个常见选择，但其实它得出的结果并不总是符合我们的直观理解。比如对于 $p^{(a)} = [0.5, 0.25, 0.25]$

一个简单的修正是只用前top- $k$

H top- k (p) = - \sum i = 1 k p ~ i log p ~ i

$p^{(a)} = [0.5, 0.25, 0.25]$

算法步骤 #

现在假设我们有 $N$

1 N \sum i = 1 N p ( i ) = p ~ (3)

$p^{(a)} = [0.5, 0.25, 0.25]$

具体来说，我们选定一个阈值 $τ$

具体来说，对于 $\forall j \in {n + 1, n + 2, \dots, N}$

p (k) \leftarrow p (k) / p ¯ \times p ~,

$p^{(a)} = [0.5, 0.25, 0.25]$

p (k) \leftarrow p ( k ) i \sum i = 1 m p ( k ) i (5)

$p^{(a)} = [0.5, 0.25, 0.25]$

注意，这个过程需要我们遍历每个低置信度结果 $j \in {n + 1, n + 2, \dots, N}$

参考实现 #

这是笔者给出的参考实现代码：

# 预测结果，计算修正前准确率
y_pred = model.predict(
    valid_generator.fortest(), steps=len(valid_generator), verbose=True
)
y_true = np.array([d[1] for d in valid_data])
acc_original = np.mean([y_pred.argmax(1) == y_true])
print('original acc: %s' % acc_original)

# 评价每个预测结果的不确定性
k = 3
y_pred_topk = np.sort(y_pred, axis=1)[:, -k:]
y_pred_topk /= y_pred_topk.sum(axis=1, keepdims=True)
y_pred_uncertainty = -(y_pred_topk * np.log(y_pred_topk)).sum(1) / np.log(k)

# 选择阈值，划分高、低置信度两部分
threshold = 0.9
y_pred_confident = y_pred[y_pred_uncertainty < threshold]
y_pred_unconfident = y_pred[y_pred_uncertainty >= threshold]
y_true_confident = y_true[y_pred_uncertainty < threshold]
y_true_unconfident = y_true[y_pred_uncertainty >= threshold]

# 显示两部分各自的准确率
# 一般而言，高置信度集准确率会远高于低置信度的
acc_confident = (y_pred_confident.argmax(1) == y_true_confident).mean()
acc_unconfident = (y_pred_unconfident.argmax(1) == y_true_unconfident).mean()
print('confident acc: %s' % acc_confident)
print('unconfident acc: %s' % acc_unconfident)

# 从训练集统计先验分布
prior = np.zeros(num_classes)
for d in train_data:
    prior[d[1]] += 1.

prior /= prior.sum()

# 逐个修改低置信度样本，并重新评价准确率
right, alpha, iters = 0, 1, 1
for i, y in enumerate(y_pred_unconfident):
    Y = np.concatenate([y_pred_confident, y[None]], axis=0)
    for j in range(iters):
        Y = Y**alpha
        Y /= Y.mean(axis=0, keepdims=True)
        Y *= prior[None]
        Y /= Y.sum(axis=1, keepdims=True)
    y = Y[-1]
    if y.argmax() == y_true_unconfident[i]:
        right += 1

# 输出修正后的准确率
acc_final = (acc_confident * len(y_pred_confident) + right) / len(y_pred)
print('new unconfident acc: %s' % (right / (i + 1.)))
print('final acc: %s' % acc_final)

实验结果 #

那么，这样的简单后处理，究竟能带来多大的提升呢？原论文给出的实验结果是相当可观的：

原论文的实验结果之一

笔者也在CLUE上的两个中文文本分类任务上做了实验，显示基本也有点提升，但没那么可观（验证集结果）：

BERT BERT + CAN RoBERTa RoBERTa + CAN IFLYTEK(类别数:119) 60.06 % 60.52 % 60.64 % 60.95 % TNEWS(类别数:15) 56.80 % 56.86

大体上来说，类别数目越多，效果提升越明显，如果类别数目比较少，那么可能提升比较微弱甚至会下降（当然就算下降也是微弱的），所以这算是一个“几乎免费的午餐”了。超参数选择方面，上面给出的中文结果，只迭代了1次， $k$

还有的读者可能想问前面说的“高置信度那部分结果更可靠”这个情况是否真的成立？至少在笔者的两个中文实验上它是明显成立的，比如IFLYTEK任务，筛选出来的高置信度集准确率为0.63+，而低置信度集的准确率只有0.22+；TNEWS任务类似，高置信度集准确率为0.58+，而低置信度集的准确率只有0.23+。

个人评价

最后再来综合地思考和评价一下CAN。

首先，一个很自然的疑问是为什么不直接将所有低置信度结果跟高置信度结果拼在一起进行修正，而是要逐个进行修正？笔者不知道原论文作者有没有对比过，但笔者确实实验过这个想法，结果是批量修正有时跟逐个修正持平，但有时也会下降。其实也可以理解，CAN本意应该是借助先验分布，结合高置信度结果来修正低置信度的，在这个过程中，如果掺入越多的低置信度结果，那么最终的偏差可能就越大，因此理论上逐个修正会比批量修正更为可靠。

说到原论文，读过CAN论文的读者，应该能发现本文介绍与CAN原论文大致有三点不同：

1、不确定性指标的计算方法不同。按照原论文的描述，它最终的不确定性指标计算方式应该是

- 1 log m \sum i = 1 k p i log p i

$p^{(a)} = [0.5, 0.25, 0.25]$

2、对CAN的介绍方式不同。原论文是纯粹数学化、矩阵化地陈述CAN的算法步骤，而且没有介绍算法的思想来源，这对理解CAN是相当不友好的。如果读者没有自行深入思考算法原理，是很难理解为什么这样的后处理手段就能提升分类效果的，而在彻底弄懂之后则会有一种故弄玄虚之感。

3、CAN的算法流程略有不同。原论文在迭代过程中还引入了参数 $α$

p (k) \leftarrow [p (k)] α / p ¯ \times p ~,

$p^{(a)} = [0.5, 0.25, 0.25]$

文章小结 #

本文介绍了一种名为CAN的简单后处理技巧，它借助先验分布来将预测结果重新归一化，几乎没有增加多少计算成本就能提高分类性能。经过笔者的实验，CAN确实能给分类效果带来一定提升，并且通常来说类别数越多，效果越明显。

posted @ 2021-11-12 14:07 咖啡陪你阅读(101) 评论(0) 收藏举报

刷新页面返回顶部

咖啡陪你

CAN：借助先验分布提升分类性能的简单后处理技巧

思想例子 #

不确定性 #

算法步骤 #

参考实现 #

实验结果 #

个人评价

文章小结 #

公告