[agent] Self-rewarding for Self-upgrading

如何自我改进循环？本篇的课题。

同时，我想找到一种不需要微调模型，只需要微调prompt的方案来解决PDF reader agent的问题。可行么？

// Implementation...

LLM 自我改进之路 — Jason Weston 讲座摘要

课件：https://rdi.berkeley.edu/adv-llm-agents/slides/Jason-Weston-Reasoning-Alignment-Berkeley-Talk.pdf

只对下面的几个图有兴趣：

[一]

做一个尽可能“自我训练”的 AI。让 模型升级形成一个闭环：（自进化）

自己生成训练任务
自己尝试回答
自己评估回答好不好
再根据这些结果继续训练自己

1. Self-instruction 模型自己造题、造任务。

2. Self-rewarding 模型自己给答案打分。

3. Preference pairs 把“更好答案 / 更差答案”构造成偏好训练数据。

4. DPO （Direct Preference Optimization）用偏好数据直接训练下一代模型，让它更偏向优质回答。

问题：“如何拒绝同事一个不合理请求？”

模型有两个回答：

- - A：“你这要求不合理，我没空，别来烦我。”
  - B：“我这周手头任务已经排满了，可能没法及时支持你。要不我们一起看看下周有没有合适时间？”

人类显然更喜欢 B。

DPO 做的事就是：

- - 提高模型生成 B 这种回答的概率
  - 降低模型生成 A 这种回答的概率

而且是直接做这件事，不需要中间再搞一个“奖励模型裁判”。

效果：竟然在部分测评中可以赶上 GPT-4

[二]

上图

模型直接生成多个回答

流程是：

- 给一个 prompt $xix_ixi$
- 模型生成多个候选回答 $yi1,yi2,...,yiNy_i^1, y_i^2, ..., y_i^Nyi1,yi2,...,yiN$
- 打分 / 排序
- 选出偏好对
- 用 DPO 训练

也就是说，它优化的是：哪个回答更好

下图

考虑 CoT后，有了推理过程，变成如下：

模型不是只生成回答，而是生成：

- CoT（思维链）
- Answer（最终答案）

流程变成：

- 给一个 prompt $xix_ixi$
- 模型先生成多个推理过程 $ci1,ci2,...c_i^1, c_i^2, ...ci1,ci2,...$
- 再生成对应答案 $yi1,yi2,...y_i^1, y_i^2, ...yi1,yi2,...$
- 根据答案质量打分
- 选出 winner / loser
- 用 DPO + NLL 训练

它优化的是：哪条“推理链 + 最终答案”的组合更好

课后学习：

Self-Rewarding 场景

- 有问题
- 有模型生成的多个候选答案
- 没有现成 gold answer 可直接核对
- 所以 reward 来自：LLM judge 主观评分

IRPO 场景

- 通常有固定 reasoning 题集
- 也有模型生成的多个候选 CoT + 最终答案
- 但这次题目本身有 标准答案
- 所以 reward 来自：最终答案是否匹配 gold answer

[三]

上面的流程类比：你参加作文比赛，写了 4 篇不同风格的作文，然后自己给自己打分，选出最好和最差的那篇。

下面的流程类比：论文中通常用 temperature 0.7~1.0 来采样多次（评语），这样每次的评语都有差异但质量大致在线。另外，"评判"其实比"生成"容易。这是一个关键洞察。你可能写不出一首完美的诗，但你大概率能分辨两首诗哪首更好。模型也一样 — 它评分时的准确率往往比它生成时的质量"高出一个档次"。所以自己评自己并不像听起来那么荒谬。

两条线汇入 DPO 训练，Meta-Rewarding 的突破是同时训练了 "写回答"能力 and "打分"能力。

上图虽然聪明，但还是有个老问题：Meta-Judge 也还是模型

也就是说：

Judge 是模型
Meta-Judge 也是模型

于是可能出现一种风险：

模型在一层一层“自己评自己”

这就像：

学生批卷
老师再批学生的批卷
教研员再批老师的批卷

听起来很厉害，但你会担心：那到底有没有一个“真正客观的标准”？

[四]

重点在于：培训一个更专业的评委。因为可以通过“答非所问”的方式批量制造高可性的"有标准答案"的评估考试题。

New Instructions ${xi}\{x_i\}{xi}$

新的题目 / 指令

比如：

“写一段介绍 Transformer 的话”

Synthetic Preference Pairs {(ai,bi)}\{(a_i,b_i)\}{(ai,bi)}

这是最关键的新东西。它表示：

$aia_iai：人为制造的“较好回答”$
$bib_ibi：人为制造的“较差回答” （通过“答非所问”的方式）$

也就是说，这一对回答的优劣是事先知道的。

因为现在我们已经知道：

A 本来就该比 B 好

所以我们也能知道：

哪些 eval plan + execution 最后判断对了，哪些是错了。于是够成了下一代 training data。

[五]

在开源DeepSeek系列中找到以上方案的痕迹：

至于 R1 之后又发布了什么，我这次查官方公开 news，主线大致是这样：

2025-03-25：DeepSeek-V3-0324，主打 reasoning 提升、前端开发更强、tool-use 更聪明。
2025-05-28：DeepSeek-R1-0528，是 R1 的后续更新版，官方写的是 benchmark 更好、幻觉更少、支持 JSON output 和 function calling。
- 简评：DeepSeek R1 的发展过程确实是 self-improvement loop 的典型工业案例，但它更多依赖“可验证奖励”而不是纯粹的 self-rewarding judge。
2025-08-21：DeepSeek-V3.1，开始明显往 agent 方向走，官方说是 Think / Non-Think 双模式，并强化了工具使用和多步 agent 任务。
- 简评：循环蒸馏的策略的边际收益下降，但仍然要继续，顺便开始把重点转向工具的调用。
2025-09-22：DeepSeek-V3.1-Terminus，是 V3.1 的稳定性更新版，强调语言一致性和 agent 能力更稳。
2025-09-29：DeepSeek-V3.2-Exp，实验版，引入 DeepSeek Sparse Attention (DSA)，主打长上下文更高效。
- 简评：为了让 Agent 在多步任务中保存完整历史。
2025-12-01：DeepSeek-V3.2 / V3.2-Speciale，官方直接定位成 reasoning-first、built for agents，而且写明把 thinking 直接整合进 tool-use。

讲座笔记

LLM 自我改进之路

Jason Weston 讲座完整摘要 — 从 1950s 语言模型到 2025 DeepSeek R1，梳理大语言模型如何学会「自己教自己」

Jason Weston · Meta AI Research

发展时间线

1950s — 2003

语言模型的起源

Shannon 提出语言建模概念（预测下一个词）。2003年 Bengio 等人首次用神经网络做语言建模：词嵌入 → tanh层 → softmax 预测。当时受限于算力，仅能处理百万词级别的语料。

前神经网络时代

2008

端到端神经网络 NLP

Weston & Collobert 在 ICML 发表统一 NLP 架构：词嵌入 → 卷积层 → max-over-time（原型注意力）→ softmax。证明可以在 Wikipedia 上预训练，再微调到 POS、NER 等任务。当时被斯坦福 NLP 组称为 "bullshit"，2018 年获 ICML 时间检验奖，被称为 "prescient work"。

System 1 基础

2014 — 2015

注意力机制 & 推理任务

Bahdanau/Cho/Bengio 提出注意力机制（用于机器翻译对齐）。Weston 等设计 "baby tasks" 简单推理任务，发现堆叠注意力层可实现多步推理（Memory Networks）。Sutskever 等的 Seq2Seq 论文提出缩放假说："大模型 + 大数据 = 成功"。

注意力机制诞生

2017 — 2018

Transformer & BERT

2017 Transformer 架构出现（多头注意力、自注意力、归一化），至今仍是主流。2018 BERT 证明掩码语言模型 + Transformer 效果极佳。OpenAI 沿缩放假说推出 GPT-1/2/3/4。

现代架构确立

2019 — 2020

对话系统 & 监督微调

2019 Self-Feeding Chatbot：用奖励模型筛选对话数据，自动扩展训练集。2020 BlenderBot：预训练 + 人工对话数据微调，评估显示与普通人一样有趣。这是 RLHF 的早期雏形。

早期 RL 方法

2022

InstructGPT & RLHF & Chain-of-Thought

InstructGPT：三步流程 — ① 收集人类演示数据做 SFT ② 收集偏好对比数据 ③ 训练奖励模型 + RL 优化。DPO：简化替代方案，直接推高好回复、压低差回复的概率。Chain-of-Thought：few-shot 示例或 "let's think step by step" 即可让模型逐步推理，GSM8K 从 10% → 40-50%。

RLHF / DPOCoT 提示

2023

System 2 提示方法群

Chain of Verification：先写草稿 → 自问验证问题 → 发现矛盾 → 修正（解决幻觉）。System 2 Attention：让模型重写指令去除偏见，解决语义泄露和谄媚问题。Branch-Solve-Merge：将评估分解为多个标准独立评估再合并。

System 2 提示

2024 年初

Self-Rewarding Language Models

核心突破：模型同时担任"执行者"和"评判者"。流程：生成新任务 → 生成多个回复 → LLM-as-a-Judge 打分 → 构建 DPO 偏好对 → 训练 → 迭代。基于 LLAMA-2-70B，AlpacaEval 胜率从 10% → 20%，接近 GPT-4。

自我改进

2024 年中

Iterative Reasoning Preference Optimization (IRPO)

扩展到推理任务：生成 CoT + 答案 → 用可验证奖励（数学题答案匹配）→ 构建 DPO 对 → 迭代。GSM8K 提升近 10%。关键发现：DPO 的负例惩罚必不可少，纯 SFT 不够。

自我改进CoT 训练

2024.09 — 2025.01

O1 & DeepSeek R1

OpenAI O1：未公开方法，推理能力显著提升。DeepSeek R1：公开论文，与 IRPO 思路相似 — 生成 CoT → 可验证奖励 → GRPO 优化 → 迭代。关键：从 671B 强模型出发 + 大量推理数据。训练中 CoT 自动变长，出现 "wait, let me reevaluate" 的自我纠错行为。

自我改进大规模 RL

2024.10+

TPO, Meta-Rewarding, Thinking Judge

TPO（Thought Preference Optimization）：对所有任务（不仅数学）训练 CoT，用 LLM-as-a-Judge 评估。Meta-Rewarding：模型扮演三角色 — 执行者、评判者、元评判者。Thinking LLM-as-a-Judge：为评估任务训练长 CoT，使用合成可验证评估数据。

自我改进深度推理

核心概念速查

语言模型预训练

在海量文本上预测下一个 token，学习语言的概率分布。这是 LLM 名字的由来，也是一切的基础。

监督微调 (SFT)

用人工标注的「指令-回复」对微调预训练模型，使其学会遵循指令。是 RLHF 流程的第一步。

RLHF

收集人类对回复的偏好排序 → 训练奖励模型 → 用 RL（如 PPO）优化策略模型。让模型超越 SFT 基线。

DPO

直接偏好优化：不需要奖励模型，直接从偏好对训练，推高好回复概率、压低差回复概率。更简单但在某些场景下效果相当。

Chain-of-Thought (CoT)

让模型在输出最终答案前先生成中间推理步骤。可通过提示（few-shot 或 "let's think step by step"）或训练实现。

LLM-as-a-Judge

让 LLM 评估其他模型（或自己）的回复质量。本质上就是一个特殊的指令遵循任务："这两个回复哪个更好？"

可验证奖励

对于数学、代码等有确定答案的任务，直接匹配最终答案作为奖励信号，无需 LLM 评判。DeepSeek R1 的核心方法。

Self-Instruct

用 few-shot 提示让 LLM 生成新的训练指令/任务，实现训练数据的自动扩展。是自我改进循环的数据源。

System 1 （快速直觉）vs System 2 （深度思考）

System 1 — 快速直觉

类比人类的直觉反应。在 LLM 中就是 Transformer 网络本身：输入 → 隐藏层运算 → 直接输出答案。每个 token 固定计算量。

System 1 的四大问题

幻觉 — 自信地编造不存在的事实（如把 Bloomberg 列为纽约出生的政客）

谄媚 — 倾向于同意用户的错误前提（如"太阳从太空看是黄色的"）

语义泄露 — 上下文中不相关的词影响输出（"他喜欢蚂蚁，最爱的食物是 → 蚂蚁巧克力"）

虚假关联 — 学习到训练数据中的虚假模式

↓ System 2 来修复 ↓

System 2 — 深度思考

刻意的、费力的思考。在 LLM 中通过生成 Chain-of-Thought tokens 实现：模型先"想"再回答。虽然是自回归左到右生成，但可以实现规划、搜索、验证、多步推理。

System 2 的四种应用

数学推理

逐步解题，GSM8K 从 10% → 50%

事实验证

Chain of Verification：草稿 → 自问 → 修正

去偏见

S2 Attention：重写指令去除暗示

评估

Branch-Solve-Merge：多维度独立评估

自我改进循环

为什么需要自我改进？

模型越来越强，人类标注者跟不上了 — 需要顶级数学家才能判断复杂数学回复的正确性，需要顶级程序员才能评估代码质量。解决方案：让模型自己评价自己、训练自己。

自我改进循环（核心流程）

1生成新任务 — Self-Instruct 从种子指令生成新指令

2生成多个回复 — 对每个任务生成 N 个候选回复

3自我评估 — LLM-as-a-Judge 打分或可验证奖励匹配

4构建偏好对 — 最高分 = chosen，最低分 = rejected

5DPO / GRPO 训练 — 推高好回复概率、压低差回复概率

6迭代 — 新模型重复 ①-⑤，每轮都更强

Self-Rewarding

模型同时是执行者和评判者。通用指令遵循任务上效果好，但数学推理提升有限。

IRPO / DeepSeek R1

用可验证奖励训练 CoT 推理。数学代码效果极好。R1 是大规模版本。

TPO

对所有任务（不限数学）训练 CoT + LLM-as-a-Judge 评估。初期变差但迭代后超越基线。

Meta-Rewarding

三角色：执行者 + 评判者 + 元评判者。显式提升评估能力，突破 Self-Rewarding 的瓶颈。

未来方向

接下来的研究重点

自我改进与自我评估 — 评估能力是性能瓶颈，提升评估 = 提升一切

交互学习 — 通过与人、互联网或自身交互来学习推理

改进 System 1 — 更好的注意力机制或全新的神经网络层，改变缩放定律

连续向量推理 (COCONUT) — 用向量代替文字 token 做 System 2 推理，某些搜索任务上已超越传统 CoT

Agent 系统 — 模型执行多步任务并与外部工具交互

合成数据 — 模型生成自己的训练数据

自我意识 — 理解自己知道什么、不知道什么（Ilya Sutskever 提出）

Jason Weston 的核心观点：这些方法（自我奖励、元奖励、思维链训练、思维评判）需要整合到一个系统中。目前还是独立的研究论文，真正的突破在于把它们组合起来并在大规模模型上运行。

LLM 正在从「人类教它」转向「自己教自己」，关键是让模型同时学会做事和 评价自己做得好不好，然后不断迭代。

posted @ 2026-03-16 11:32 郝壹贰叁阅读(4) 评论(0) 收藏举报

刷新页面返回顶部

机器学习水很深

We all have two lives. The second one starts when we realize that we only have one. --- Tom Hiddleston

[agent] Self-rewarding for Self-upgrading

LLM 自我改进之路 — Jason Weston 讲座摘要

[一]

[二]

上图

下图

Self-Rewarding 场景

IRPO 场景

[三]

[四]

[五]

LLM 自我改进之路

发展时间线

核心概念速查

语言模型预训练

监督微调 (SFT)

RLHF

DPO

Chain-of-Thought (CoT)

LLM-as-a-Judge

可验证奖励

Self-Instruct

System 1 （快速直觉）vs System 2 （深度思考）

System 1 — 快速直觉

System 1 的四大问题

System 2 — 深度思考

System 2 的四种应用

数学推理

事实验证

去偏见

评估

自我改进循环

为什么需要自我改进？

自我改进循环（核心流程）

Self-Rewarding

IRPO / DeepSeek R1

TPO

Meta-Rewarding

未来方向

接下来的研究重点

公告