强化学习
目录
RL - Reinforcement Learning 强化学习
使用场景对比
1️⃣ 结构化任务(推荐 LoRA)
- 意图识别
- 分类
- 信息抽取
- 格式生成
原因:
答案明确,监督信号清晰。
2️⃣ 行为对齐(推荐 RL)
- 价值观对齐
- 说话风格控制
- 推理路径优化
- 数学推理提升
因为这些任务:
- 没有唯一标准答案
- 更适合 reward 约束
这个问题本质是在比较参数高效微调(PEFT)与策略优化训练(Policy Optimization)两条完全不同的技术路径。下面我从目标函数、优化方式、数据形态、参数更新范围、适用场景五个维度系统对比。
一、核心本质区别
| 维度 | LoRA 微调 | 强化学习(RL) |
|---|---|---|
| 优化目标 | 拟合标注数据(监督学习) | 最大化奖励函数 |
| 训练信号 | 真实标签(ground truth) | reward(可能来自人类或模型) |
| 训练范式 | Supervised Fine-tuning (SFT) | Policy Optimization |
| 是否需要环境反馈 | 不需要 | 需要 |
| 是否涉及探索 | 不涉及 | 涉及 exploration |
一句话概括:
LoRA 是“拟合数据”
RL 是“优化行为”
二、LoRA 是什么?
LoRA(Low-Rank Adaptation)是一种参数高效微调方法(PEFT)。
它的技术原理:
原始权重:
[
W
]
LoRA 训练的是:
[
W + BA
]
其中:
- A ∈ ℝ^(d×r)
- B ∈ ℝ^(r×k)
- r ≪ d,k
特点:
- 不更新原始模型参数
- 只训练低秩矩阵
- 显存占用极低
- 适合小数据定向微调
本质:
LoRA 只是“如何更新参数”的一种工程方法
它不是一种训练范式
三、强化学习是什么?
强化学习优化的是:
[
\max_\theta \mathbb{E}[R]
]
在大模型中常见的是:
- PPO
- DPO
- RLHF
- GRPO
训练流程:
- 模型生成回答
- 奖励模型打分
- 根据奖励更新策略
本质:
RL 不是拟合固定答案
而是优化“生成策略”
四、训练信号的本质区别
LoRA(SFT)
数据形式:
{
"input": "问题",
"output": "标准答案"
}
loss:
[
L = - \log P(y|x)
]
是 token-level cross entropy。
RL
数据形式:
{
"input": "问题",
"output": "模型生成答案",
"reward": 0.83
}
loss 类似:
[
L = - \log \pi_\theta(a|s) \cdot R
]
是 sequence-level reward。
五、更新粒度差异
| LoRA | RL | |
|---|---|---|
| 优化对象 | token 概率 | 整个序列 |
| 是否考虑长程依赖 | 弱 | 强 |
| 是否可优化推理路径 | 很有限 | 可以 |
| 是否能改变模型偏好 | 不明显 | 非常明显 |
七、能不能一起用?
可以,而且主流做法是:
预训练
→ SFT(可能用 LoRA)
→ RLHF / DPO
举例:
OpenAI
Anthropic
都是:
SFT 打基础
RL 做对齐
八、你在做 agent 项目时怎么选?
结合你之前做的:
- 意图识别(10 类以内)
- action 分类(几十类)
- 结构化输出
这些场景:
✅ LoRA 完全足够
❌ RL 过度设计
但如果你想优化:
- 多步推理
- 复杂决策流程
- agent 行为策略
那 RL 才有价值。
九、一句话总结
LoRA 解决的是“怎么高效更新参数”
RL 解决的是“模型应该学会什么行为”
两者不是替代关系,而是不同层级的问题。

浙公网安备 33010602011771号