关于CRF层的学习率【转载以学习、回忆】

面试的时候会有人问你针对BERT+CRF这种模型做出了什么调参？

这里其实可以答换用不同的BERT 比说哈工大版本的wwm这种整词遮蔽的BERT天然适合识别词级别的任务。

还可以答优化了CRF层的学习率参数，这里呢是以前看到苏神的帖子了解到的，不过又记不太清了，因此转载苏神的文章以学习、回忆。

来源：苏剑林. (Feb. 07, 2020). 《你的CRF层的学习率可能不够大》[Blog post]. Retrieved from https://kexue.fm/archives/7196

转载开始，有删改。

CRF是做序列标注的经典方法，它理论优雅，实际也很有效，如果还不了解CRF的读者欢迎阅读旧作《简明条件随机场CRF介绍（附带纯Keras实现）》。在BERT模型出来之后，也有不少工作探索了BERT+CRF用于序列标注任务的做法。然而，很多实验结果显示（比如论文《BERT Meets Chinese Word Segmentation》）不管是中文分词还是实体识别任务，相比于简单的BERT+Softmax，BERT+CRF似乎并没有带来什么提升，这跟传统的BiLSTM+CRF或CNN+CRF的模型表现并不一样。

这两天给bert4keras增加了用CRF做中文分词的例子（task_sequence_labeling_cws_crf.py），在调试过程中发现了CRF层可能存在学习不充分的问题，进一步做了几个对比实验，结果显示这可能是CRF在BERT中没什么提升的主要原因，遂在此记录一下分析过程，与大家分享。

糟糕的转移矩阵 #

由于笔者用的是自己实现的CRF层，所以为了证明自己的实现没有错误，笔者跑完BERT+CRF的实验（BERT用的是base版本）后，首先观察了转移矩阵，大体数值如下：

其中第 $i$

然而，直观来看，这并没有学到一个好的转移矩阵，甚至可能会带来负面影响。比如我们看第一行， $S_{s \to b} = - 0.459$

$S_{s \to b} = - 0.459$

这样不合理的转移矩阵一度让笔者觉得是自己的CRF实现得有问题，但经过反复排查以及对比Keras官方的实现，最终还是确认自己的实现并没有错误。那么问题出现在哪呢？

学习率的不对等 #

如果我们先不管这个转移矩阵的合理性，直接按照模型的训练结果套上Viterbi算法去解码预测，然后用官方的脚本去评测，发现F1有96.1%左右（PKU任务上），已经是当前最优水平了。

转移矩阵很糟糕，最终的结果却依然很好，这只能说明转移矩阵对最终的结果几乎没有影响。什么情况下转移矩阵几乎没影响呢？可能的原因是模型输出的每个字的标签分数远远大于转移矩阵的数值，并且区分度已经很明显了，所以转移矩阵就影响不到整体的结果了，换言之这时候直接Softmax然后取argmax就很好了。为了确认，我随机挑了一些句子，观察模型输出的每个字的标签分布，确实发现每个字的分数最高的标签分数基本都在6～8之间，而其余的标签分数基本比最高的要低上3分以上，这相比转移矩阵中的数值大了一个数量级以上，显然就很难被转移矩阵影响到了。这就肯定了这个猜测。

一个好的转移矩阵显然会对预测是有帮助的，至少能帮助我们排除不合理的标签转移，或者说至少能保证不会带来负面影响。所以值得思考的是：究竟是什么阻止了模型去学一个好的转移矩阵呢？笔者猜测答案可能是学习率。

BERT经过预训练后，针对下游任务进行finetune时，只需要非常小的学习率（通常是 $10^{- 5}$

这说明什么呢？首先，我们知道，每个字的标签分布是直接由BERT模型算出来的，而转移矩阵是附加的，与BERT没直接关系。当我们以 $10^{- 5}$

$10^{- 5}$