[agent] Self-rewarding for Self-upgrading
如何 自我改进循环?本篇的课题。
同时,我想找到一种不需要微调模型,只需要微调prompt的方案 来解决PDF reader agent的问题。可行么?
// Implementation...
LLM 自我改进之路 — Jason Weston 讲座摘要
课件:https://rdi.berkeley.edu/adv-llm-agents/slides/Jason-Weston-Reasoning-Alignment-Berkeley-Talk.pdf
只对下面的几个图有兴趣:
[一]
做一个尽可能“自我训练”的 AI。让 模型升级形成一个闭环:(自进化)
-
自己生成训练任务
-
自己尝试回答
-
自己评估回答好不好
-
再根据这些结果继续训练自己
1. Self-instruction 模型自己造题、造任务。
2. Self-rewarding 模型自己给答案打分。
3. Preference pairs 把“更好答案 / 更差答案”构造成 偏好训练数据。
4. DPO (Direct Preference Optimization)用 偏好数据直接训练下一代模型,让它更偏向优质回答。
问题:“如何拒绝同事一个不合理请求?”
模型有两个回答:
-
-
-
A:“你这要求不合理,我没空,别来烦我。”
-
B:“我这周手头任务已经排满了,可能没法及时支持你。要不我们一起看看下周有没有合适时间?”
-
-
人类显然更喜欢 B。
DPO 做的事就是:
-
-
-
提高模型生成 B 这种回答的概率
-
降低模型生成 A 这种回答的概率
-
-
而且是直接做这件事,不需要中间再搞一个“奖励模型裁判”。

[二]

上图
模型直接生成多个 回答 yyy。
流程是:
-
-
给一个 prompt xix_ixi
-
模型生成多个候选回答 yi1,yi2,...,yiNy_i^1, y_i^2, ..., y_i^Nyi1,yi2,...,yiN
-
打分 / 排序
-
选出偏好对
-
用 DPO 训练
-
也就是说,它优化的是:哪个回答更好
下图
考虑 CoT后,有了推理过程,变成如下:
模型不是只生成回答,而是生成:
-
-
CoT(思维链) ccc
-
Answer(最终答案) yyy
-
流程变成:
-
-
给一个 prompt xix_ixi
-
模型先生成多个推理过程 ci1,ci2,...c_i^1, c_i^2, ...ci1,ci2,...
-
再生成对应答案 yi1,yi2,...y_i^1, y_i^2, ...yi1,yi2,...
-
根据答案质量打分
-
选出 winner / loser
-
用 DPO + NLL 训练
-
它优化的是:哪条“推理链 + 最终答案”的组合更好

课后学习:
Self-Rewarding 场景
-
-
有问题
-
有模型生成的多个候选答案
-
没有现成 gold answer 可直接核对
-
所以 reward 来自:LLM judge 主观评分
-
IRPO 场景
-
-
通常有固定 reasoning 题集
-
也有模型生成的多个候选 CoT + 最终答案
-
但这次题目本身有 标准答案
-
所以 reward 来自:最终答案是否匹配 gold answer
-
[三]

上面的流程类比:你参加作文比赛,写了 4 篇不同风格的作文,然后自己给自己打分,选出最好和最差的那篇。
下面的流程类比:论文中通常用 temperature 0.7~1.0 来采样多次(评语),这样每次的评语都有差异但质量大致在线。另外,"评判"其实比"生成"容易。这是一个关键洞察。你可能写不出一首完美的诗,但你大概率能分辨两首诗哪首更好。模型也一样 — 它评分时的准确率往往比它生成时的质量"高出一个档次"。所以自己评自己并不像听起来那么荒谬。
两条线汇入 DPO 训练,Meta-Rewarding 的突破是同时训练了 "写回答"能力 and "打分"能力。
上图虽然聪明,但还是有个老问题:Meta-Judge 也还是模型
也就是说:
-
Judge 是模型
-
Meta-Judge 也是模型
于是可能出现一种风险:
模型在一层一层“自己评自己”
这就像:
-
学生批卷
-
老师再批学生的批卷
-
教研员再批老师的批卷
听起来很厉害,但你会担心:那到底有没有一个“真正客观的标准”?
[四]

重点在于:培训一个更专业的评委。因为可以通过“答非所问”的方式批量制造高可性的"有标准答案"的评估考试题。
New Instructions {xi}\{x_i\}{xi}
新的题目 / 指令
比如:
“写一段介绍 Transformer 的话”
Synthetic Preference Pairs {(ai,bi)}\{(a_i,b_i)\}{(ai,bi)}
这是最关键的新东西。它表示:
- aia_iai:人为制造的“较好回答”
- bib_ibi:人为制造的“较差回答” (通过“答非所问”的方式)
也就是说,这一对回答的优劣是事先知道的。
因为现在我们已经知道:
-
A 本来就该比 B 好
所以我们也能知道:
-
哪些 eval plan + execution 最后判断对了,哪些是错了。于是够成了下一代 training data。
[五]
在开源DeepSeek系列中找到以上方案的痕迹:
至于 R1 之后又发布了什么,我这次查官方公开 news,主线大致是这样:
-
2025-03-25:DeepSeek-V3-0324,主打 reasoning 提升、前端开发更强、tool-use 更聪明。
-
2025-05-28:DeepSeek-R1-0528,是 R1 的后续更新版,官方写的是 benchmark 更好、幻觉更少、支持 JSON output 和 function calling。
- 简评:DeepSeek R1 的发展过程确实是 self-improvement loop 的典型工业案例,但它更多依赖“可验证奖励”而不是纯粹的 self-rewarding judge。
-
2025-08-21:DeepSeek-V3.1,开始明显往 agent 方向走,官方说是 Think / Non-Think 双模式,并强化了工具使用和多步 agent 任务。
- 简评:循环蒸馏的策略的边际收益下降,但仍然要继续,顺便开始把重点转向工具的调用。
-
2025-09-22:DeepSeek-V3.1-Terminus,是 V3.1 的稳定性更新版,强调语言一致性和 agent 能力更稳。
-
2025-09-29:DeepSeek-V3.2-Exp,实验版,引入 DeepSeek Sparse Attention (DSA),主打长上下文更高效。
- 简评:为了让 Agent 在多步任务中保存完整历史。
-
2025-12-01:DeepSeek-V3.2 / V3.2-Speciale,官方直接定位成 reasoning-first、built for agents,而且写明把 thinking 直接整合进 tool-use。
LLM 自我改进之路
Jason Weston 讲座完整摘要 — 从 1950s 语言模型到 2025 DeepSeek R1,梳理大语言模型如何学会「自己教自己」
发展时间线
核心概念速查
语言模型预训练
在海量文本上预测下一个 token,学习语言的概率分布。这是 LLM 名字的由来,也是一切的基础。
监督微调 (SFT)
用人工标注的「指令-回复」对微调预训练模型,使其学会遵循指令。是 RLHF 流程的第一步。
RLHF
收集人类对回复的偏好排序 → 训练奖励模型 → 用 RL(如 PPO)优化策略模型。让模型超越 SFT 基线。
DPO
直接偏好优化:不需要奖励模型,直接从偏好对训练,推高好回复概率、压低差回复概率。更简单但在某些场景下效果相当。
Chain-of-Thought (CoT)
让模型在输出最终答案前先生成中间推理步骤。可通过提示(few-shot 或 "let's think step by step")或训练实现。
LLM-as-a-Judge
让 LLM 评估其他模型(或自己)的回复质量。本质上就是一个特殊的指令遵循任务:"这两个回复哪个更好?"
可验证奖励
对于数学、代码等有确定答案的任务,直接匹配最终答案作为奖励信号,无需 LLM 评判。DeepSeek R1 的核心方法。
Self-Instruct
用 few-shot 提示让 LLM 生成新的训练指令/任务,实现训练数据的自动扩展。是自我改进循环的数据源。
System 1 (快速直觉)vs System 2 (深度思考)
System 1 — 快速直觉
类比人类的直觉反应。在 LLM 中就是 Transformer 网络本身:输入 → 隐藏层运算 → 直接输出答案。每个 token 固定计算量。
System 1 的四大问题
System 2 — 深度思考
刻意的、费力的思考。在 LLM 中通过生成 Chain-of-Thought tokens 实现:模型先"想"再回答。虽然是自回归左到右生成,但可以实现规划、搜索、验证、多步推理。
System 2 的四种应用
数学推理
逐步解题,GSM8K 从 10% → 50%
事实验证
Chain of Verification:草稿 → 自问 → 修正
去偏见
S2 Attention:重写指令去除暗示
评估
Branch-Solve-Merge:多维度独立评估
自我改进循环
为什么需要自我改进?
模型越来越强,人类标注者跟不上了 — 需要顶级数学家才能判断复杂数学回复的正确性,需要顶级程序员才能评估代码质量。解决方案:让模型自己评价自己、训练自己。
自我改进循环(核心流程)
Self-Rewarding
模型同时是执行者和评判者。通用指令遵循任务上效果好,但数学推理提升有限。
IRPO / DeepSeek R1
用可验证奖励训练 CoT 推理。数学代码效果极好。R1 是大规模版本。
TPO
对所有任务(不限数学)训练 CoT + LLM-as-a-Judge 评估。初期变差但迭代后超越基线。
Meta-Rewarding
三角色:执行者 + 评判者 + 元评判者。显式提升评估能力,突破 Self-Rewarding 的瓶颈。
未来方向
接下来的研究重点
LLM 正在从「人类教它」转向「自己教自己」,关键是让模型同时学会 做事 和 评价自己做得好不好,然后不断迭代。

浙公网安备 33010602011771号