From Prompt Learning to SIPDO: A Shift Toward Closed-Loop Self-Evolution
从 Prompt Engineering 到 Prompt Learning / Prompt Optimization
这是最直观的一种做法。就是人自己去改 prompt。
这是更“研究化”“系统化”的做法。
-
-
prompt 能不能被优化?
-
优化有没有方法论?
-
能不能自动改?
-
能不能持续变强?
-
能不能形成闭环?
-
Prompt Engineering 是手工调参;Prompt Learning 是把调 prompt 本身做成一个研究领域。
Jeff: 有点类似大模型的 手动调参到自动调参的研究进化过程。
Prompt optimization 的发展,很像早年 parameter learning(参数学习)的发展。
自动化起步,Textual Gradients
核心特征:开始有“方向感”
ProTeGi:可以让 LLM 用自然语言给出一种“批评”或“改进建议”,把这种建议当成“文本梯度”来使用。
比如:
当前 prompt 在某类题上经常错。
那模型可能会给出类似反馈:
-
-
你的 prompt 没有明确要求区分事实和推测
-
你的 prompt 没要求先识别关键约束
-
你的 prompt 容易让模型忽略反例
-
这些文字反馈本身不是数学梯度,
但它起到了类似梯度的作用:它告诉你“该朝哪个语义方向改”。
ProTeGi 像是在改“题目前的说明书”,
TextGrad 像是在改“整个做题过程里所有可写下来的东西”。
在普通深度学习里,被优化的是参数。
在 TextGrad 这种框架里,被优化的是一种“文本变量”。
例如:
例子 1:Prompt
原始 prompt:
Answer the question carefully.
反馈:
The instruction is too vague. Tell the model to identify constraints first and avoid unsupported assumptions.
更新后:
First identify all explicit constraints in the question, then answer carefully without making unsupported assumptions.
这里被优化的对象就是 prompt。
例子 2:一段推理链
原始推理:
The company revenue increased, so profits must have increased too.
反馈:
Revenue growth does not necessarily imply profit growth. The reasoning ignores cost changes.
更新后:
Revenue increased, but profit may or may not have increased because costs could also have risen.
这里被优化的对象不是 prompt,
而是中间推理文本。
例子 3:一段代码
return y / x
This may fail when x is zero or None. Add input validation before division.
更新后代码就更稳。
这里被优化的对象变成了代码文本。
例子 4:一个 agent 的执行计划
原计划:
-
Search web
-
Summarize result
-
Answer user
-
反馈:
The plan lacks a verification step and may hallucinate if the search results are weak.
更新后:
-
Search web
-
Check source quality
-
Summarize result
-
Verify key claims
-
Answer user
-
这里被优化的是计划文本。
更像是一个Agent self-improvement architecture。
SIPDO: Self-Improving Prompts through Data-Augmented Optimization
[Submitted on 26 May 2025 (v1), last revised 27 Jan 2026 (this version, v4)]
论文把它定义为一种把合成数据生成引入 prompt 优化过程的 closed-loop framework。
用一句最人话的话来说:
SIPDO 不是只在旧题上改 prompt,
它会主动造出能打穿当前 prompt 的新题,
再根据这些失败去修 prompt,
然后继续造更难的题,继续修。
这就形成了一个闭环。
这就是 SIPDO 最核心的思想。
核心是:
失败 → 生成新挑战 → 修改策略 → 再挑战
整个系统变成:
- How?
- 另外,生成题目的同时,也会生成对应的答案么?如果是同一个模型,只是角色不同(因为不同的prompt 设置),那凭什么 认为生成的时候,答案就是正确的呢?
通过投票啦,
1 generator 生成题目
2 generator 生成答案
3 solver 再解一次
4 verifier 检查(更强模型,规则系统,总之是可靠性更好的一个第三方角色)
5 consensus 检查 (投票)
6 通过的数据进入训练
代码任务是最容易验证的。因为函数的定义可以很详细,包括return的各种可能值。
所以 coding synthetic data 非常可靠。
LLM 有一个特点:
生成问题通常比解决问题容易。
一个完整例子,这次把角色写死
角色
-
Learner(学生):当前要改进的模型 + 当前 prompt
-
Generator(出题人):根据学生错误生成类似新题
-
Checker(复算者):独立求解新题
-
Verifier(裁判):判断题目和答案是否一致可用
第 1 步:学生先做旧题
题目:
Tom is older than Mike. Mike is older than John. Who is the youngest?
学生答错了。
系统发现学生弱点是:
传递关系推理差
第 2 步:出题人生成新题
Generator 生成:(因为传递关系推理差而生成对应的新题)
Alice is taller than Bob. Bob is taller than Carol. Carol is taller than David. Who is the shortest?
并给出候选答案:
David
注意,这里还只是候选答案。
第 3 步:复算者独立求解
Checker 再独立求一次:
-
Alice > Bob
-
Bob > Carol
-
Carol > David
-
所以最矮是 David
得到同样答案:David
第 4 步:裁判确认可用
Verifier 看:
-
题目逻辑自洽
-
generator 答案与 checker 一致
-
没有明显歧义
于是这道题通过。
第 5 步:拿这道题去继续考学生
Learner 再做这道题。
如果它还错,说明弱点真实存在。
然后 optimizer 根据这些失败来改 prompt:
First derive the full order before answering.
SIPDO 这种闭环优化,最后得到的是“更强的 prompt”和一堆“错误—修正日志”。那这些东西在真实公司里接下来会怎么用?难道光靠更好的 prompt,就足够发布下一代产品了吗?
闭环日志不是终点,而是“中间资产”。
它们往往会被继续用于:
-
改在线系统的 prompt / policy
-
建 eval 基准
-
筛选成训练数据
-
做 SFT / distillation / reinforcement fine-tuning
-
最后再决定哪些能力进入下一代模型,哪些只作为产品层策略保留。
整个工业流程理解成“两阶段”
阶段 A:先在系统层把正确行为“跑出来”
这一步靠:
-
prompt engineering
-
critique / self-revision
-
SIPDO 这类闭环优化
-
synthetic data
-
evaluator / verifier
-
agentic workflow
目标不是立刻训练新底座模型,
而是先回答一个问题:
“这个任务上,正确行为到底长什么样?”
也就是先把:
-
好 prompt
-
好中间步骤
-
好错误修正方式
-
好拒答风格
-
好工具调用模式
都跑出来。
这一步更像探索和提纯。
阶段 B:再把这些结果“蒸馏”进模型
这一步才会进入:
-
supervised fine-tuning
-
distillation
-
reinforcement fine-tuning
-
preference learning / model grader
-
安全对齐训练
OpenAI 官方把模型优化工作流明确写成一个“反馈飞轮”:
evals + prompt engineering + fine-tuning 一起运转,而不是只做其中一个。
OpenAI 也明确提供了 distillation 和 reinforcement fine-tuning 这类路径,用于把更强模型或更好策略的输出,转成更便宜、更稳定或更贴任务的模型行为。
为下一代模型训练、蒸馏、强化微调和评估体系的重要原材料。
OpenAI 在 2025 年 8 月发布 GPT-5,强调它是一个 unified system,知道何时快速回答、何时更深入思考。
这个阶段的粗对应是:行业越来越像在做“会持续迭代、会路由、会在系统里自我改进”的智能体/工作流,而不只是一个静态聊天模型。 这和 SIPDO 的精神是很贴的,但仍然不能说“GPT-5/Claude 4 就是 SIPDO 产品化

浙公网安备 33010602011771号