一文读懂「RLHF」：基于人类反馈的强化学习

RLHF（Reinforcement Learning fromHuman Feedback，人类反馈强化学习）

引言

在人工智能领域，尤其是自然语言处理（NLP）技术迅猛发展的今天，如何让机器更好地理解和满足人类的需求成为了一个关键问题。传统的训练方法依赖于大规模的语料库和基于规则的损失函数，但在处理复杂、主观和依赖上下文的任务时存在局限性。因此，基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，简称RLHF）应运而生，为模型的训练提供了一种新的思路。

什么是RLHF？

RLHF是一种结合了机器学习中的强化学习算法与人类主观判断的训练技术。这种方法旨在利用人类的直觉和判断力来指导人工智能系统学习更复杂、更贴近人类期望的行为模式，尤其是在自然语言处理（NLP）和决策制定等领域。

原理介绍

RLHF的训练过程可以分解为三个核心步骤：

1、预训练一个语言模型 (LM) ；

2、聚合问答数据并训练一个奖励模型 (Reward Model，RM) ；

3、用强化学习 (RL) 方式微调 LM。

Step 1：预训练语言模型+有标签数据微调（可选）

首先需要一个预训练语言模型，通过大量的语料去训练出基础模型。对于ChatGPT来说就是GPT-3。还有一个可选的Human Augmented Text，又叫Fine-tune。这里直白点说就是招人给问题（prompt）写示范回答（demonstration），然后给GPT-3上学习。

Step 2：训练奖励模型

我们需要一个模型来定量评判模型输出的回答在人类看来是否质量不错，即输入[提示(prompt)，模型生成的回答]，奖励模型输出一个能表示回答质量的标量数字。

RM 的训练是 RLHF 区别于旧范式的开端。这一模型接收一系列文本并返回一个标量奖励，数值上对应人的偏好。我们可以用端到端的方式用 LM 建模，或者用模块化的系统建模 (比如对输出进行排名，再将排名转换为奖励) 。这一奖励数值将对后续无缝接入现有的 RL 算法至关重要。

关于模型选择方面，RM 可以是另一个经过微调的 LM，也可以是根据偏好数据从头开始训练的 LM。例如 Anthropic 提出了一种特殊的预训练方式，即用偏好模型预训练 (Preference Model Pretraining，PMP) 来替换一般预训练后的微调过程。因为前者被认为对样本数据的利用率更高。但对于哪种 RM 更好尚无定论。

关于训练文本方面，RM 的提示 - 生成对文本是从预定义数据集中采样生成的，并用初始的 LM 给这些提示生成文本。Anthropic 的数据主要是通过 Amazon Mechanical Turk 上的聊天工具生成的，并在 Hub 上可用，而 OpenAI 使用了用户提交给 GPT API 的 prompt。

关于训练奖励数值方面，这里需要人工对 LM 生成的回答进行排名。起初我们可能会认为应该直接对文本标注分数来训练 RM，但是由于标注者的价值观不同导致这些分数未经过校准并且充满噪音。通过排名可以比较多个模型的输出并构建更好的规范数据集。

　　对具体的排名方式，一种成功的方式是对不同 LM 在相同提示下的输出进行比较，然后使用 Elo 系统建立一个完整的排名。这些不同的排名结果将被归一化为用于训练的标量奖励值。

　　这个过程中一个有趣的产物是目前成功的 RLHF 系统使用了和生成模型具有不同大小的 LM (例如 OpenAI 使用了 175B 的 LM 和 6B 的 RM，Anthropic 使用的 LM 和 RM 从 10B 到 52B 大小不等，DeepMind 使用了 70B 的 Chinchilla 模型分别作为 LM 和 RM) 。一种直觉是，偏好模型和生成模型需要具有类似的能力来理解提供给它们的文本。

Step 3：通过强化学习微调语言模型

基于强化学习（RL）去优化调整语言模型。利用 RM 输出的奖励，用强化学习方式微调优化 LM。具体来说，policy是给GPT输入文本后输出结果的过程（输出文本的概率分布），Action Space是词表所有token（可以简单理解为词语）在所有输出位置的排列组合，Observation space是可能输入的token序列，也就是Prompt。Reward Function则是基于上面第二步得到的奖励模型，配合一些策略层面的约束。

PPO 算法确定的奖励函数具体计算如下：将提示 x 输入初始 LM 和当前微调的 LM，分别得到了输出文本 y1, y2，将来自当前策略的文本传递给 RM 得到一个标量的奖励 rθ。将两个模型的生成文本进行比较计算差异的惩罚项，在来自 OpenAI、Anthropic 和 DeepMind 的多篇论文中设计为输出词分布序列之间的 Kullback–Leibler (KL) divergence散度的缩放，即 KLr=rθ−λrKL 。这一项被用于惩罚 RL 策略在每个训练批次中生成大幅偏离初始模型，以确保模型输出合理连贯的文本。如果去掉这一惩罚项可能导致模型在优化中生成乱码文本来愚弄奖励模型提供高奖励值。此外，OpenAI 在 InstructGPT 上实验了在 PPO 添加新的预训练梯度，可以预见到奖励函数的公式会随着 RLHF 研究的进展而继续进化。

最后根据 PPO 算法，我们按当前批次数据的奖励指标进行优化 (来自 PPO 算法 on-policy 的特性) 。PPO 算法是一种信赖域优化 (Trust Region Optimization，TRO) 算法，它使用梯度约束确保更新步骤不会破坏学习过程的稳定性。DeepMind 对 Gopher 使用了类似的奖励设置，但是使用 A2C (synchronous advantage actor-critic)算法来优化梯度。

作为一个可选项，RLHF 可以通过迭代 RM 和策略共同优化。随着策略模型更新，用户可以继续将输出和早期的输出进行合并排名。Anthropic 在他们的论文中讨论了迭代在线 RLHF，其中策略的迭代包含在跨模型的 Elo 排名系统中。这样引入策略和 RM 演变的复杂动态，代表了一个复杂和开放的研究问题。

缺点

尽管RLHF在训练AI代理执行复杂任务方面取得了令人印象深刻的成果，但使用RLHF并非没有局限性。主要问题包括：

1、人类偏好数据成本高昂：收集第一手人类反馈的需求可能会造成一个代价高昂的瓶颈。

2、标注者偏好影响：参与培训过程的标注人员和研发人员可能并不代表语言模型的所有潜在最终用户。

3、缺乏对照研究：比较数据缺乏基本事实。

4、人类的偏好并不一致：这导致模型训练过程中的一致性和稳定性问题。

5、较为看重基础模型：reward model 和 LM的好坏很大程度能决定效果如何

RLHF 的未来

尽管 RLHF 取得了一定的成果和关注，但依然存在局限。这些模型依然会毫无不确定性地输出有害或者不真实的文本。这种不完美也是 RLHF 的长期挑战和动力 —— 在人类的固有领域中运行意味着永远不会到达一个完美的标准。

收集人类偏好数据的质量和数量决定了 RLHF 系统性能的上限。RLHF 系统需要两种人类偏好数据：人工生成的文本和对模型输出的偏好标签。生成高质量回答需要雇佣兼职人员 (而不能依赖产品用户和众包) 。另一方面，训练 RM 需要的奖励标签规模大概是 50k 左右，所以并不那么昂贵 (当然远超了学术实验室的预算) 。目前相关的数据集只有一个基于通用 LM 的 RLHF 数据集 (来自 Anthropic和几个较小的子任务数据集 (如来自 OpenAI 的摘要数据集) 。另一个挑战来自标注者的偏见。几个人类标注者可能有不同意见，导致了训练数据存在一些潜在差异。

除开数据方面的限制，一些有待开发的设计选项可以让 RLHF 取得长足进步。例如对 RL 优化器的改进方面，PPO 是一种较旧的算法，但目前没有什么结构性原因让其他算法可以在现有 RLHF 工作中更具有优势。另外，微调 LM 策略的一大成本是策略生成的文本都需要在 RM 上进行评估，通过离线 RL 优化策略可以节约这些大模型 RM 的预测成本。最近，出现了新的 RL 算法如隐式语言 Q 学习 (Implicit Language Q-Learning，ILQL) 也适用于当前 RL 的优化。在 RL 训练过程的其他核心权衡，例如探索和开发 (exploration-exploitation) 的平衡也有待尝试和记录。探索这些方向至少能加深我们对 RLHF 的理解，更进一步提升系统的表现。

PPO Training 常见问题:

(1) 应该关注哪些metrics?

当对语言模型进行经典的监督微调时，损失(尤其是验证损失validation loss)可以作为训练进度的一个很好的指标。然而，在强化学习(RL)中，损失对模型性能的信息变得越来越少，而且它的值可能会随着实际性能的提高而波动。

为了解决这个问题，我们建议首先关注两个关键指标: Mean Reward 和 Objective KL Divergence

平均奖励Mean Reward: 主要目标是使模型在强化学习训练期间获得的奖励最大化。目标KL散度Objective KL Divergence: KL散度(Kullback-Leibler Divergence)衡量两个概率分布之间的不相似性。在强化学习训练的背景下，我们用它来量化当前模型和参考模型之间的差异。理想情况下，我们希望将KL散度保持在0到10之间，以确保模型生成的文本与参考模型生成的文本保持接近。其他指标：https://huggingface.co/docs/trl/logging

（2）我们为什么要使用参考模型? KL散度的目的是什么?

当训练RL模型时，仅针对奖励进行优化可能会导致意想不到的行为，其中模型以与良好语言生成不一致的方式利用环境。在RLHF的情况下，我们使用一个奖励模型来预测生成的文本是否被人类高度排名。

然而，针对奖励模型进行优化的强化学习模型可能会学习到产生高奖励但不代表好的语言的模式。这可能会导致极端情况，即模型生成带有过多感叹号或表情符号的文本，以最大化奖励。在一些最坏的情况下，该模型可能生成与自然语言完全无关的模式，但却获得了很高的回报，类似于对抗性攻击。

为了解决这个问题，我们基于当前模型和参考模型之间的KL分歧，在奖励函数中添加了一个惩罚。通过这样做，我们鼓励模型与参考模型生成的模型保持接近。

（3）对负KL散度的关注是什么?

如果你纯粹通过从模型分布中抽样来生成文本，一般情况下工作得很好。但是当你使用生成方法时，有一些注意事项，因为它并不总是纯粹的采样取决于可能导致kl散度为负的设置。本质上，当活动模型达到log_p_token_active < log_p_token_ref时，我们得到负KL-div。这可能在几种情况下发生：

Top-k采样:模型可以平滑概率分布，导致Top-k个令牌的概率小于参考模型的概率，但仍然被选中；

min_length:忽略EOS令牌，直到达到min_length。因此，该模型可以为EOS token分配非常高的日志概率，为所有其他令牌分配非常低的日志概率，直到达到min_length；

批处理生成:批处理中已完成的序列被填充，直到所有生成都完成。模型可以学习为padding tokens 分配非常低的概率，除非它们被适当地屏蔽或删除。

这只是几个例子。为什么负KL是一个问题? 总奖励R被计算为R = R - beta * KL，所以如果模型能够学习如何驱动KL-divergence为负，它就能有效地获得正奖励。在许多情况下，在生成过程中利用这种漏洞比实际学习奖励函数要容易得多。此外，KL可以变得任意小，因此实际奖励可能非常小。

总结

RLHF (基于人类反馈的强化学习) 分为三步：

SFT (Supervised Fine-Tuning): 有监督的微调，使用正常的 instruction following 或者对话的样本，来训练模型的基础对话、听从 prompt 的能力；

RM (Reward Modeling): 基于人类的偏好和标注，来训练一个能模拟人偏好的打分模型；

RL (Reinforcement Learning): 在前面的 SFT 模型的基础上，借助 RM 提供反馈，来不断通过 PPO 的强化学习框架来调整模型的行为。

posted on 2025-03-06 16:08 ExplorerMan 阅读(3013) 评论(0) 收藏举报

刷新页面返回顶部

一文读懂「RLHF」：基于人类反馈的强化学习

导航

公告