From Prompt Learning to SIPDO: A Shift Toward Closed-Loop Self-Evolution

从 Prompt Engineering 到 Prompt Learning / Prompt Optimization

这是最直观的一种做法。就是人自己去改 prompt。

这是更“研究化”“系统化”的做法。

    • prompt 能不能被优化?

    • 优化有没有方法论?

    • 能不能自动改?

    • 能不能持续变强?

    • 能不能形成闭环?

Prompt Engineering 是手工调参;Prompt Learning 是把调 prompt 本身做成一个研究领域。

Jeff: 有点类似大模型的 手动调参到自动调参的研究进化过程。

Prompt optimization 的发展,很像早年 parameter learning(参数学习)的发展。

 

 

自动化起步,Textual Gradients

核心特征:开始有“方向感”

ProTeGi:可以让 LLM 用自然语言给出一种“批评”或“改进建议”,把这种建议当成“文本梯度”来使用。

比如:

当前 prompt 在某类题上经常错。
那模型可能会给出类似反馈:

    • 你的 prompt 没有明确要求区分事实和推测

    • 你的 prompt 没要求先识别关键约束

    • 你的 prompt 容易让模型忽略反例

这些文字反馈本身不是数学梯度,
它起到了类似梯度的作用它告诉你“该朝哪个语义方向改”。

 

ProTeGi 像是在改“题目前的说明书”,
TextGrad 像是在改“整个做题过程里所有可写下来的东西”。

 

在普通深度学习里,被优化的是参数。
在 TextGrad 这种框架里,被优化的是一种“文本变量”。

例如:

例子 1:Prompt

原始 prompt:

Answer the question carefully.

反馈:

The instruction is too vague. Tell the model to identify constraints first and avoid unsupported assumptions.

更新后:

First identify all explicit constraints in the question, then answer carefully without making unsupported assumptions.

这里被优化的对象就是 prompt。

 

例子 2:一段推理链

原始推理:

The company revenue increased, so profits must have increased too.

反馈:

Revenue growth does not necessarily imply profit growth. The reasoning ignores cost changes.

更新后:

Revenue increased, but profit may or may not have increased because costs could also have risen.

这里被优化的对象不是 prompt,
而是中间推理文本

 

例子 3:一段代码

原始代码:
 
if x:
  return y / x
 
反馈:

This may fail when x is zero or None. Add input validation before division.

更新后代码就更稳。

这里被优化的对象变成了代码文本

 

例子 4:一个 agent 的执行计划

原计划:

    1. Search web

    2. Summarize result

    3. Answer user

反馈:

The plan lacks a verification step and may hallucinate if the search results are weak.

更新后:

    1. Search web

    2. Check source quality

    3. Summarize result

    4. Verify key claims

    5. Answer user

这里被优化的是计划文本

 

更像是一个Agent self-improvement architecture。

 

 

SIPDO: Self-Improving Prompts through Data-Augmented Optimization

[Submitted on 26 May 2025 (v1), last revised 27 Jan 2026 (this version, v4)]

论文把它定义为一种把合成数据生成引入 prompt 优化过程的 closed-loop framework

用一句最人话的话来说:

SIPDO 不是只在旧题上改 prompt,
它会主动造出能打穿当前 prompt 的新题
再根据这些失败去修 prompt,
然后继续造更难的题,继续修。
这就形成了一个闭环。

这就是 SIPDO 最核心的思想。

 

核心是:

失败 → 生成新挑战 → 修改策略 → 再挑战

整个系统变成:

学生做题 ->发现弱点 ->老师出新题(专门针对弱点) ->学生再做 ->修改解题策略 ->再出更难题
  • How?
  • 另外,生成题目的同时,也会生成对应的答案么?如果是同一个模型,只是角色不同(因为不同的prompt 设置),那凭什么 认为生成的时候,答案就是正确的呢?

通过投票啦, 

1 generator 生成题目
2 generator 生成答案
3 solver 再解一次
4 verifier 检查(更强模型,规则系统,总之是可靠性更好的一个第三方角色)
5 consensus 检查 (投票)
6 通过的数据进入训练

 

代码任务是最容易验证的。因为函数的定义可以很详细,包括return的各种可能值。

所以 coding synthetic data 非常可靠

LLM 有一个特点:

生成问题通常比解决问题容易。

 

 

一个完整例子,这次把角色写死 

角色

  • Learner(学生):当前要改进的模型 + 当前 prompt

  • Generator(出题人):根据学生错误生成类似新题

  • Checker(复算者):独立求解新题

  • Verifier(裁判):判断题目和答案是否一致可用


第 1 步:学生先做旧题

题目:

Tom is older than Mike. Mike is older than John. Who is the youngest?

学生答错了。

系统发现学生弱点是:

传递关系推理差


第 2 步:出题人生成新题

Generator 生成:(因为传递关系推理差而生成对应的新题

Alice is taller than Bob. Bob is taller than Carol. Carol is taller than David. Who is the shortest?

并给出候选答案:

David

注意,这里还只是候选答案


第 3 步:复算者独立求解

Checker 再独立求一次:

  • Alice > Bob

  • Bob > Carol

  • Carol > David

  • 所以最矮是 David

得到同样答案:David


第 4 步:裁判确认可用

Verifier 看:

  • 题目逻辑自洽

  • generator 答案与 checker 一致

  • 没有明显歧义

于是这道题通过。


第 5 步:拿这道题去继续考学生

Learner 再做这道题。

如果它还错,说明弱点真实存在。
然后 optimizer 根据这些失败来改 prompt

First derive the full order before answering.

 

 SIPDO 这种闭环优化,最后得到的是“更强的 prompt”和一堆“错误—修正日志”。那这些东西在真实公司里接下来会怎么用?难道光靠更好的 prompt,就足够发布下一代产品了吗?

 闭环日志不是终点,而是“中间资产”。

它们往往会被继续用于:

  1. 改在线系统的 prompt / policy

  2. 建 eval 基准

  3. 筛选成训练数据

  4. 做 SFT / distillation / reinforcement fine-tuning

  5. 最后再决定哪些能力进入下一代模型,哪些只作为产品层策略保留。

 

 

整个工业流程理解成“两阶段”

阶段 A:先在系统层把正确行为“跑出来”

这一步靠:

  • prompt engineering

  • critique / self-revision

  • SIPDO 这类闭环优化

  • synthetic data

  • evaluator / verifier

  • agentic workflow

目标不是立刻训练新底座模型,
而是先回答一个问题:

这个任务上,正确行为到底长什么样?”

也就是先把:

  • 好 prompt

  • 好中间步骤

  • 好错误修正方式

  • 好拒答风格

  • 好工具调用模式

都跑出来。

这一步更像探索和提纯

 

阶段 B:再把这些结果“蒸馏”进模型

这一步才会进入:

  • supervised fine-tuning

  • distillation

  • reinforcement fine-tuning

  • preference learning / model grader

  • 安全对齐训练

OpenAI 官方把模型优化工作流明确写成一个“反馈飞轮”:
evals + prompt engineering + fine-tuning 一起运转,而不是只做其中一个。

OpenAI 也明确提供了 distillationreinforcement fine-tuning 这类路径,用于把更强模型或更好策略的输出,转成更便宜、更稳定或更贴任务的模型行为。

为下一代模型训练蒸馏强化微调评估体系的重要原材料。

OpenAI 在 2025 年 8 月发布 GPT-5,强调它是一个 unified system,知道何时快速回答、何时更深入思考。

这个阶段的粗对应是:行业越来越像在做“会持续迭代、会路由、会在系统里自我改进”的智能体/工作流,而不只是一个静态聊天模型 这和 SIPDO 的精神是很贴的,但仍然不能说“GPT-5/Claude 4 就是 SIPDO 产品化

 

 

posted @ 2026-03-07 16:09  郝壹贰叁  阅读(5)  评论(0)    收藏  举报