[agent] From Prompt Learning to SIPDO: A Shift Toward Closed-Loop Self-Evolution

从 Prompt Engineering 到 Prompt Learning / Prompt Optimization

这是最直观的一种做法。就是人自己去改 prompt。

这是更“研究化”“系统化”的做法。

- prompt 能不能被优化？
- 优化有没有方法论？
- 能不能自动改？
- 能不能持续变强？
- 能不能形成闭环？

Prompt Engineering 是手工调参；Prompt Learning 是把调 prompt 本身做成一个研究领域。

Jeff: 有点类似大模型的手动调参到自动调参的研究进化过程。

Prompt optimization 的发展，很像早年 parameter learning（参数学习）的发展。

自动化起步，Textual Gradients

核心特征：开始有“方向感”

ProTeGi：可以让 LLM 用自然语言给出一种“批评”或“改进建议”，把这种建议当成“文本梯度”来使用。

比如：

当前 prompt 在某类题上经常错。
那模型可能会给出类似反馈：

- 你的 prompt 没有明确要求区分事实和推测
- 你的 prompt 没要求先识别关键约束
- 你的 prompt 容易让模型忽略反例

这些文字反馈本身不是数学梯度，
但它起到了类似梯度的作用：它告诉你“该朝哪个语义方向改”。

ProTeGi 像是在改“题目前的说明书”，
TextGrad 像是在改“整个做题过程里所有可写下来的东西”。

在普通深度学习里，被优化的是参数。
在 TextGrad 这种框架里，被优化的是一种“文本变量”。

例如：

例子 1：Prompt

原始 prompt：

Answer the question carefully.

反馈：

The instruction is too vague. Tell the model to identify constraints first and avoid unsupported assumptions.

更新后：

First identify all explicit constraints in the question, then answer carefully without making unsupported assumptions.

这里被优化的对象就是 prompt。

例子 2：一段推理链

原始推理：

The company revenue increased, so profits must have increased too.

反馈：

Revenue growth does not necessarily imply profit growth. The reasoning ignores cost changes.

更新后：

Revenue increased, but profit may or may not have increased because costs could also have risen.

这里被优化的对象不是 prompt，
而是中间推理文本。

例子 3：一段代码

原始代码：

if x:
    　　return y / x

反馈：

This may fail when x is zero or None. Add input validation before division.

更新后代码就更稳。

这里被优化的对象变成了代码文本。

例子 4：一个 agent 的执行计划

原计划：

1. Search web
2. Summarize result
3. Answer user

反馈：

The plan lacks a verification step and may hallucinate if the search results are weak.

更新后：

1. Search web
2. Check source quality
3. Summarize result
4. Verify key claims
5. Answer user

这里被优化的是计划文本。

更像是一个Agent self-improvement architecture。

SIPDO: Self-Improving Prompts through Data-Augmented Optimization

[Submitted on 26 May 2025 (v1), last revised 27 Jan 2026 (this version, v4)]

论文把它定义为一种把合成数据生成引入 prompt 优化过程的 closed-loop framework。

用一句最人话的话来说：

SIPDO 不是只在旧题上改 prompt，
它会主动造出能打穿当前 prompt 的新题，
再根据这些失败去修 prompt，
然后继续造更难的题，继续修。
这就形成了一个闭环。

这就是 SIPDO 最核心的思想。

核心是：

失败 → 生成新挑战 → 修改策略 → 再挑战

整个系统变成：

学生做题 ->发现弱点 ->老师出新题（专门针对弱点） ->学生再做 ->修改解题策略 ->再出更难题

How？
另外，生成题目的同时，也会生成对应的答案么？如果是同一个模型，只是角色不同（因为不同的prompt 设置），那凭什么认为生成的时候，答案就是正确的呢？

通过投票啦，

1 generator 生成题目
2 generator 生成答案
3 solver 再解一次
4 verifier 检查（更强模型，规则系统，总之是可靠性更好的一个第三方角色）
5 consensus 检查（投票）
6 通过的数据进入训练

代码任务是最容易验证的。因为函数的定义可以很详细，包括return的各种可能值。

所以 coding synthetic data 非常可靠。

LLM 有一个特点：

生成问题通常比解决问题容易。

一个完整例子，这次把角色写死

角色

Learner（学生）：当前要改进的模型 + 当前 prompt
Generator（出题人）：根据学生错误生成类似新题
Checker（复算者）：独立求解新题
Verifier（裁判）：判断题目和答案是否一致可用

第 1 步：学生先做旧题

题目：

Tom is older than Mike. Mike is older than John. Who is the youngest?

学生答错了。

系统发现学生弱点是：

传递关系推理差

第 2 步：出题人生成新题

Generator 生成：（因为传递关系推理差而生成对应的新题）

Alice is taller than Bob. Bob is taller than Carol. Carol is taller than David. Who is the shortest?

并给出候选答案：

David

注意，这里还只是候选答案。

第 3 步：复算者独立求解

Checker 再独立求一次：

Alice > Bob
Bob > Carol
Carol > David
所以最矮是 David

得到同样答案：David

第 4 步：裁判确认可用

Verifier 看：

题目逻辑自洽
generator 答案与 checker 一致
没有明显歧义

于是这道题通过。

第 5 步：拿这道题去继续考学生

Learner 再做这道题。

如果它还错，说明弱点真实存在。
然后 optimizer 根据这些失败来改 prompt：

First derive the full order before answering.

SIPDO 这种闭环优化，最后得到的是“更强的 prompt”和一堆“错误—修正日志”。那这些东西在真实公司里接下来会怎么用？难道光靠更好的 prompt，就足够发布下一代产品了吗？

闭环日志不是终点，而是“中间资产”。

它们往往会被继续用于：

改在线系统的 prompt / policy
建 eval 基准
筛选成训练数据
做 SFT / distillation / reinforcement fine-tuning
最后再决定哪些能力进入下一代模型，哪些只作为产品层策略保留。

整个工业流程理解成“两阶段”

阶段 A：先在系统层把正确行为“跑出来”

这一步靠：

prompt engineering
critique / self-revision
SIPDO 这类闭环优化
synthetic data
evaluator / verifier
agentic workflow

目标不是立刻训练新底座模型，
而是先回答一个问题：

“这个任务上，正确行为到底长什么样？”

也就是先把：

好 prompt
好中间步骤
好错误修正方式
好拒答风格
好工具调用模式

都跑出来。

这一步更像探索和提纯。

阶段 B：再把这些结果“蒸馏”进模型

这一步才会进入：

supervised fine-tuning
distillation
reinforcement fine-tuning
preference learning / model grader
安全对齐训练

OpenAI 官方把模型优化工作流明确写成一个“反馈飞轮”：
evals + prompt engineering + fine-tuning 一起运转，而不是只做其中一个。

OpenAI 也明确提供了 distillation 和 reinforcement fine-tuning 这类路径，用于把更强模型或更好策略的输出，转成更便宜、更稳定或更贴任务的模型行为。

为下一代模型训练、蒸馏、强化微调和评估体系的重要原材料。

OpenAI 在 2025 年 8 月发布 GPT-5，强调它是一个 unified system，知道何时快速回答、何时更深入思考。

这个阶段的粗对应是：行业越来越像在做“会持续迭代、会路由、会在系统里自我改进”的智能体/工作流，而不只是一个静态聊天模型。 这和 SIPDO 的精神是很贴的，但仍然不能说“GPT-5/Claude 4 就是 SIPDO 产品化

posted @ 2026-03-07 16:09 郝壹贰叁阅读(24) 评论(0) 收藏举报

刷新页面返回顶部

机器学习水很深

We all have two lives. The second one starts when we realize that we only have one. --- Tom Hiddleston

[agent] From Prompt Learning to SIPDO: A Shift Toward Closed-Loop Self-Evolution

从 Prompt Engineering 到 Prompt Learning / Prompt Optimization

自动化起步，Textual Gradients

例子 4：一个 agent 的执行计划

SIPDO: Self-Improving Prompts through Data-Augmented Optimization

角色

第 1 步：学生先做旧题

第 2 步：出题人生成新题

第 3 步：复算者独立求解

第 4 步：裁判确认可用

第 5 步：拿这道题去继续考学生

整个工业流程理解成“两阶段”

阶段 A：先在系统层把正确行为“跑出来”

阶段 B：再把这些结果“蒸馏”进模型

公告