[agent] Self-rewarding for Self-upgrading

如何 自我改进循环?本篇的课题。

同时,我想找到一种不需要微调模型,只需要微调prompt的方案 来解决PDF reader agent的问题。可行么?

// Implementation... 

 

 

 

LLM 自我改进之路 — Jason Weston 讲座摘要

课件:https://rdi.berkeley.edu/adv-llm-agents/slides/Jason-Weston-Reasoning-Alignment-Berkeley-Talk.pdf

只对下面的几个图有兴趣:

 

[一]

做一个尽可能“自我训练”的 AI。让 模型升级形成一个闭环:(自进化)

  1. 自己生成训练任务

  2. 自己尝试回答

  3. 自己评估回答好不好

  4. 再根据这些结果继续训练自己

 

1. Self-instruction 模型自己造题、造任务。

2. Self-rewarding 模型自己给答案打分。

3. Preference pairs 把“更好答案 / 更差答案”构造成 偏好训练数据

4. DPO (Direct Preference Optimization)用 偏好数据直接训练下一代模型,让它更偏向优质回答。

 

问题:“如何拒绝同事一个不合理请求?”

模型有两个回答:

      • A:“你这要求不合理,我没空,别来烦我。”

      • B:“我这周手头任务已经排满了,可能没法及时支持你。要不我们一起看看下周有没有合适时间?”

人类显然更喜欢 B

DPO 做的事就是:

      • 提高模型生成 B 这种回答的概率

      • 降低模型生成 A 这种回答的概率

而且是直接做这件事不需要中间再搞一个“奖励模型裁判”。

 
效果:竟然在部分测评中可以赶上 GPT-4

image

 

 

[二]

image

上图

模型直接生成多个 回答 yyy。

流程是:

    • 给一个 prompt xix_ixi

    • 模型生成多个候选回答 yi1,yi2,...,yiNy_i^1, y_i^2, ..., y_i^Nyi1,yi2,...,yiN

    • 打分 / 排序

    • 选出偏好对

    • DPO 训练

也就是说,它优化的是:哪个回答更好

 

下图

考虑 CoT后,有了推理过程,变成如下:

模型不是只生成回答,而是生成:

    • CoT(思维链) ccc

    • Answer(最终答案) yyy

流程变成:

    • 给一个 prompt xix_ixi

    • 模型先生成多个推理过程 ci1,ci2,...c_i^1, c_i^2, ...ci1,ci2,...

    • 再生成对应答案 yi1,yi2,...y_i^1, y_i^2, ...yi1,yi2,...

    • 根据答案质量打分

    • 选出 winner / loser

    • DPO + NLL 训练

它优化的是:哪条“推理链 + 最终答案”的组合更好

image

 

课后学习:

Self-Rewarding 场景

    • 有问题

    • 有模型生成的多个候选答案

    • 没有现成 gold answer 可直接核对

    • 所以 reward 来自:LLM judge 主观评分

IRPO 场景

    • 通常有固定 reasoning 题集

    • 也有模型生成的多个候选 CoT + 最终答案

    • 但这次题目本身有 标准答案

    • 所以 reward 来自:最终答案是否匹配 gold answer

 

 

[三]

image

上面的流程类比你参加作文比赛,写了 4 篇不同风格的作文,然后自己给自己打分,选出最好和最差的那篇。

下面的流程类比:论文中通常用 temperature 0.7~1.0 来采样多次(评语),这样每次的评语都有差异但质量大致在线。另外,"评判"其实比"生成"容易。这是一个关键洞察。你可能写不出一首完美的诗,但你大概率能分辨两首诗哪首更好。模型也一样 — 它评分时的准确率往往比它生成时的质量"高出一个档次"。所以自己评自己并不像听起来那么荒谬。

两条线汇入 DPO 训练,Meta-Rewarding 的突破是同时训练了 "写回答"能力 and "打分"能力。

 

上图虽然聪明,但还是有个老问题:Meta-Judge 也还是模型

也就是说:

  • Judge 是模型

  • Meta-Judge 也是模型

于是可能出现一种风险:

模型在一层一层“自己评自己”

这就像:

  • 学生批卷

  • 老师再批学生的批卷

  • 教研员再批老师的批卷

听起来很厉害,但你会担心:那到底有没有一个“真正客观的标准”?

 

 

[四]

image

重点在于:培训一个更专业的评委。因为可以通过“答非所问”的方式批量制造高可性的"有标准答案"的评估考试题。

New Instructions {xi}\{x_i\}{xi}

新的题目 / 指令

比如:

“写一段介绍 Transformer 的话”

 

Synthetic Preference Pairs {(ai,bi)}\{(a_i,b_i)\}{(ai​,bi​)}

这是最关键的新东西它表示:

  • aia_iai:人为制造的“较好回答”
  • bib_ibi:人为制造的“较差回答” (通过“答非所问”的方式)

也就是说,这一对回答的优劣是事先知道的

 

因为现在我们已经知道:

  • A 本来就该比 B 好

所以我们也能知道:

  • 哪些 eval plan + execution 最后判断对了,哪些是错了。于是够成了下一代 training data。

 

 

[五]

在开源DeepSeek系列中找到以上方案的痕迹:

至于 R1 之后又发布了什么,我这次查官方公开 news,主线大致是这样:

  • 2025-03-25:DeepSeek-V3-0324,主打 reasoning 提升、前端开发更强、tool-use 更聪明。

  • 2025-05-28:DeepSeek-R1-0528,是 R1 的后续更新版,官方写的是 benchmark 更好、幻觉更少、支持 JSON output 和 function calling。

    • 简评:DeepSeek R1 的发展过程确实是 self-improvement loop 的典型工业案例,但它更多依赖“可验证奖励”而不是纯粹的 self-rewarding judge。
  • 2025-08-21:DeepSeek-V3.1,开始明显往 agent 方向走,官方说是 Think / Non-Think 双模式,并强化了工具使用和多步 agent 任务。

    • 简评:循环蒸馏的策略的边际收益下降,但仍然要继续,顺便开始把重点转向工具的调用。
  • 2025-09-22:DeepSeek-V3.1-Terminus,是 V3.1 的稳定性更新版,强调语言一致性和 agent 能力更稳。

  • 2025-09-29:DeepSeek-V3.2-Exp,实验版,引入 DeepSeek Sparse Attention (DSA),主打长上下文更高效。

    • 简评:为了让 Agent 在多步任务中保存完整历史。
  • 2025-12-01:DeepSeek-V3.2 / V3.2-Speciale,官方直接定位成 reasoning-first、built for agents,而且写明把 thinking 直接整合进 tool-use

 

 

 

讲座笔记

LLM 自我改进之路

Jason Weston 讲座完整摘要 — 从 1950s 语言模型到 2025 DeepSeek R1,梳理大语言模型如何学会「自己教自己」

Jason Weston · Meta AI Research

01

发展时间线

1950s — 2003
语言模型的起源
Shannon 提出语言建模概念(预测下一个词)。2003年 Bengio 等人首次用神经网络做语言建模:词嵌入 → tanh层 → softmax 预测。当时受限于算力,仅能处理百万词级别的语料。
前神经网络时代
2008
端到端神经网络 NLP
Weston & Collobert 在 ICML 发表统一 NLP 架构:词嵌入 → 卷积层 → max-over-time(原型注意力)→ softmax。证明可以在 Wikipedia 上预训练,再微调到 POS、NER 等任务。当时被斯坦福 NLP 组称为 "bullshit",2018 年获 ICML 时间检验奖,被称为 "prescient work"。
System 1 基础
2014 — 2015
注意力机制 & 推理任务
Bahdanau/Cho/Bengio 提出注意力机制(用于机器翻译对齐)。Weston 等设计 "baby tasks" 简单推理任务,发现堆叠注意力层可实现多步推理(Memory Networks)。Sutskever 等的 Seq2Seq 论文提出缩放假说:"大模型 + 大数据 = 成功"。
注意力机制诞生
2017 — 2018
Transformer & BERT
2017 Transformer 架构出现(多头注意力、自注意力、归一化),至今仍是主流。2018 BERT 证明掩码语言模型 + Transformer 效果极佳。OpenAI 沿缩放假说推出 GPT-1/2/3/4。
现代架构确立
2019 — 2020
对话系统 & 监督微调
2019 Self-Feeding Chatbot:用奖励模型筛选对话数据,自动扩展训练集。2020 BlenderBot:预训练 + 人工对话数据微调,评估显示与普通人一样有趣。这是 RLHF 的早期雏形。
早期 RL 方法
2022
InstructGPT & RLHF & Chain-of-Thought
InstructGPT:三步流程 — ① 收集人类演示数据做 SFT ② 收集偏好对比数据 ③ 训练奖励模型 + RL 优化。DPO:简化替代方案,直接推高好回复、压低差回复的概率。Chain-of-Thought:few-shot 示例或 "let's think step by step" 即可让模型逐步推理,GSM8K 从 10% → 40-50%。
RLHF / DPOCoT 提示
2023
System 2 提示方法群
Chain of Verification:先写草稿 → 自问验证问题 → 发现矛盾 → 修正(解决幻觉)。System 2 Attention:让模型重写指令去除偏见,解决语义泄露和谄媚问题。Branch-Solve-Merge:将评估分解为多个标准独立评估再合并。
System 2 提示
2024 年初
Self-Rewarding Language Models
核心突破:模型同时担任"执行者"和"评判者"。流程:生成新任务 → 生成多个回复 → LLM-as-a-Judge 打分 → 构建 DPO 偏好对 → 训练 → 迭代。基于 LLAMA-2-70B,AlpacaEval 胜率从 10% → 20%,接近 GPT-4。
自我改进
2024 年中
Iterative Reasoning Preference Optimization (IRPO)
扩展到推理任务:生成 CoT + 答案 → 用可验证奖励(数学题答案匹配)→ 构建 DPO 对 → 迭代。GSM8K 提升近 10%。关键发现:DPO 的负例惩罚必不可少,纯 SFT 不够。
自我改进CoT 训练
2024.09 — 2025.01
O1 & DeepSeek R1
OpenAI O1:未公开方法,推理能力显著提升。DeepSeek R1:公开论文,与 IRPO 思路相似 — 生成 CoT → 可验证奖励 → GRPO 优化 → 迭代。关键:从 671B 强模型出发 + 大量推理数据。训练中 CoT 自动变长,出现 "wait, let me reevaluate" 的自我纠错行为。
自我改进大规模 RL
2024.10+
TPO, Meta-Rewarding, Thinking Judge
TPO(Thought Preference Optimization):对所有任务(不仅数学)训练 CoT,用 LLM-as-a-Judge 评估。Meta-Rewarding:模型扮演三角色 — 执行者、评判者、元评判者。Thinking LLM-as-a-Judge:为评估任务训练长 CoT,使用合成可验证评估数据。
自我改进深度推理
02

核心概念速查

语言模型预训练

在海量文本上预测下一个 token,学习语言的概率分布。这是 LLM 名字的由来,也是一切的基础。

监督微调 (SFT)

用人工标注的「指令-回复」对微调预训练模型,使其学会遵循指令。是 RLHF 流程的第一步。

RLHF

收集人类对回复的偏好排序 → 训练奖励模型 → 用 RL(如 PPO)优化策略模型。让模型超越 SFT 基线。

DPO

直接偏好优化:不需要奖励模型,直接从偏好对训练,推高好回复概率、压低差回复概率。更简单但在某些场景下效果相当。

Chain-of-Thought (CoT)

让模型在输出最终答案前先生成中间推理步骤。可通过提示(few-shot 或 "let's think step by step")或训练实现。

LLM-as-a-Judge

让 LLM 评估其他模型(或自己)的回复质量。本质上就是一个特殊的指令遵循任务:"这两个回复哪个更好?"

可验证奖励

对于数学、代码等有确定答案的任务,直接匹配最终答案作为奖励信号,无需 LLM 评判。DeepSeek R1 的核心方法。

Self-Instruct

用 few-shot 提示让 LLM 生成新的训练指令/任务,实现训练数据的自动扩展。是自我改进循环的数据源。

03

System 1 (快速直觉)vs System 2 (深度思考)

System 1 — 快速直觉

类比人类的直觉反应。在 LLM 中就是 Transformer 网络本身:输入 → 隐藏层运算 → 直接输出答案。每个 token 固定计算量。

System 1 的四大问题

幻觉 — 自信地编造不存在的事实(如把 Bloomberg 列为纽约出生的政客)
谄媚 — 倾向于同意用户的错误前提(如"太阳从太空看是黄色的")
语义泄露 — 上下文中不相关的词影响输出("他喜欢蚂蚁,最爱的食物是 → 蚂蚁巧克力")
虚假关联 — 学习到训练数据中的虚假模式
↓ System 2 来修复 ↓

System 2 — 深度思考

刻意的、费力的思考。在 LLM 中通过生成 Chain-of-Thought tokens 实现:模型先"想"再回答。虽然是自回归左到右生成,但可以实现规划、搜索、验证、多步推理。

System 2 的四种应用

数学推理

逐步解题,GSM8K 从 10% → 50%

事实验证

Chain of Verification:草稿 → 自问 → 修正

去偏见

S2 Attention:重写指令去除暗示

评估

Branch-Solve-Merge:多维度独立评估

04

自我改进循环

为什么需要自我改进?

模型越来越强,人类标注者跟不上了 — 需要顶级数学家才能判断复杂数学回复的正确性,需要顶级程序员才能评估代码质量。解决方案:让模型自己评价自己、训练自己。

自我改进循环(核心流程)

1生成新任务 — Self-Instruct 从种子指令生成新指令
2生成多个回复 — 对每个任务生成 N 个候选回复
3自我评估 — LLM-as-a-Judge 打分 或 可验证奖励匹配
4构建偏好对 — 最高分 = chosen,最低分 = rejected
5DPO / GRPO 训练 — 推高好回复概率、压低差回复概率
6迭代 — 新模型重复 ①-⑤,每轮都更强

Self-Rewarding

模型同时是执行者和评判者。通用指令遵循任务上效果好,但数学推理提升有限。

IRPO / DeepSeek R1

用可验证奖励训练 CoT 推理。数学代码效果极好。R1 是大规模版本。

TPO

对所有任务(不限数学)训练 CoT + LLM-as-a-Judge 评估。初期变差但迭代后超越基线。

Meta-Rewarding

三角色:执行者 + 评判者 + 元评判者。显式提升评估能力,突破 Self-Rewarding 的瓶颈。

05

未来方向

接下来的研究重点

自我改进与自我评估 — 评估能力是性能瓶颈,提升评估 = 提升一切
交互学习 — 通过与人、互联网或自身交互来学习推理
改进 System 1 — 更好的注意力机制或全新的神经网络层,改变缩放定律
连续向量推理 (COCONUT) — 用向量代替文字 token 做 System 2 推理,某些搜索任务上已超越传统 CoT
Agent 系统 — 模型执行多步任务并与外部工具交互
合成数据 — 模型生成自己的训练数据
自我意识 — 理解自己知道什么、不知道什么(Ilya Sutskever 提出)
Jason Weston 的核心观点:这些方法(自我奖励、元奖励、思维链训练、思维评判)需要整合到一个系统中。目前还是独立的研究论文,真正的突破在于把它们组合起来并在大规模模型上运行。

LLM 正在从「人类教它」转向「自己教自己」,关键是让模型同时学会 做事评价自己做得好不好,然后不断迭代。

 

posted @ 2026-03-16 11:32  郝壹贰叁  阅读(4)  评论(0)    收藏  举报