RLHF不擅长推理、事实等固定答案的优化,擅长自由度更高的生成;RLHF的上限取决于预训练模型本身的能力,对于多项选择这种需要推理、知识和输出格式固定的任务,预训练后的GPT-4[2]能到73.7%,RLHF之后只到了74%,单独看很多任务还有下降。

当奖励模型从 SFT 模型或预训练的 GPT-3 模型初始化时,其性能是相似的。这表明针对特定任务的奖励模型微调比初始起点更重要。

 

SFT 模型是针对给定任务生成指令的任务进行微调的模型。最终的 SFT 模型是根据验证集上的 RM 分数选择的,该分数是用于评估模型在数据子集上的性能的指标。移除了最终未嵌入层的 SFT 模型用作训练奖励模型的起点。

 

使用强化学习(而非监督学习)的方式更新语言模型,最大的优势是在于能够使得「模型更加自由的探索更新方向,从而突破监督学习的性能天花板」。 

 

We find that preference modeling improves on and scales more favorably than imitation learning when prefer- ences are part of a ranked hierarchy or continuum (e.g. rank these responses in order of helpfulness), rather than associated with a binary choice (e.g. does this python function pass tests).

 

模型效果评测

关于 Language Modeling 的量化指标,较为普遍的有 [PPL],[BPC] 等,

可以简单理解为在生成结果和目标文本之间的 Cross Entropy Loss 上做了一些处理。

这种方式可以用来评估模型对「语言模板」的拟合程度,

即给定一段话,预测后面可能出现哪些合法的、通顺的字词。

但仅仅是「生成通顺句子」的能力现在已经很难满足现在人们的需求,

大部分 LLM 都具备生成流畅和通顺语句能力,很难比较哪个好,哪个更好。

为此,我们需要能够评估另外一个大模型的重要能力 —— 知识蕴含能力。

一个很好的中文知识能力测试数据集是 [C-Eval],涵盖1.4w 道选择题,共 52 个学科。

posted on 2023-05-30 17:24  风生水起  阅读(58)  评论(0编辑  收藏  举报