补全llm知识体系的地基：RL&RLHF

强化学习在LLM上的部分应用

偏好学习：向人类的对齐

LLM需要学习到人类的偏好，提供人类更喜欢的输出
没有一个明确的指标可以用于计算“一段输出是否足够好”
人类现场标注不可能跟得上LLM的优化节奏

奖励模型Reward Model

收集人类的偏好对
根据偏好对输入同一个网络的分差与实际分差作为loss
训练得到一个能模拟人类喜欢的reward model

Proximal Policy Optimization on RLHF

Stage 1：SFT

Stage 2：Reward model

Stage 3：RLHF-PPO

Actor model：待对齐的目标模型，参数可训练，由SFT model初始化
Reference model：参考模型防止训练走偏太多，参数冻结，也由SFT model初始化
reward model：用偏好对训练的RW，参数冻结，提供“生成当前token的奖励R”
Critic model：预测“直至生成结束的总计奖励V”，可训练参数

Loss：Actor loss与critic loss

actor loss：
- 如果当前输出对应的总奖励>0，则强化输出当前输出的概率
- 计算actor输出token的对数概率分布与ref的差（即二者分布的kl散度），来判断输出是否偏离ref
critic收益：
- 预估收益：Vt
- 实际收益：Rt+V(t+1)
- 两者限制范围后做类似MSELoss

过程

Actor拿到一个batch的数据，输出回复
输入+回复一起给其他三个模型，生成RL的各个部分，用于计算两个loss
计算loss并更新两个待训练模型

DPO：Direct Preference Optimization

PPO等方法要训练一个reward model
DPO直接通过对loss的数学推导，把基于reward的梯度变成了基于Policy的梯度
相当于直接在Policy上“记住”偏好
数学推导我是真看不懂

GRPO：Group Relative Policy Optimization

出发点：数学任务（多步依赖、部分正确、奖励集中），RM难以建模
操作方法：对于一个prompt生成多个response，构成一个group
组内利用奖励值计算标准化优势与排名优势，加权得到最终优势
目标是最大化所有组的平均最终优势，其余处理和PPO基本一致

posted @ 2025-05-22 01:04 Phile-matology 阅读(27) 评论(0) 收藏举报

刷新页面返回顶部