自监督提示优化SPO

SPO(Self-Supervised Prompt Optimization)是一个无需外部参考即可为封闭式和开放式任务发现有效提示的高效框架。受提示质量直接体现在LLM输出中以及LLM能够有效评估对任务要求的遵循程

度的观察启发,我们仅从输出比较中得出评估和优化信号。具体来说,SPO通过LLM评估器评估的成对输出比较来选择更优的提示,然后通过LLM优化器将输出

与任务要求对齐。大量实验表明,SPO在性能上优于现有的最先进的提示优化方法,同时成本显著降低(例如,仅为现有方法的1.1%到5.6%),并且所需的样本

更少(例如,仅需三个样本)。代码可在https://github.com/geekan/MetaGPT获取。

SPO在基本的优化-执行-评估循环基础上,引入了几个创新机制:

1)。输出作为成对评估参考:SPO的核心是采用成对比较方法,评估不同提示的输出的相对质量。这种评估机制利用了LLM理解任务要求的固有能力,在没有外部参考的情况下验证优化的有效性。
2)。输出作为优化指导:SPO通过LLM对当前最佳输出的更好解决方案的理解来优化提示。这个过程自然地将提示修改与模型对最佳任务解决方案的理解保持一致,而不是依赖明确的优化信号。

主要优化:

1).自监督提示优化框架。我们介绍了SPO,这是一个新颖的框架,它利用LLM输出的成对比较来指导提示优化,无需外部参考。
2).成本效益优化。SPO以最少的计算开销(每个数据集0.15美元)和样本需求(3个样本)优化提示,显著降低了资源需求。
3).广泛的评估。如图2所示,SPO仅需现有方法1.1%到5.6%的成本,同时在封闭式和开放式任务中保持卓越的性能。

提示优化中的评估框架

提示优化评估框架,涵盖了三个关键组成部分:评估来源、评估方法和反馈类型

SPO 的理论基础建立在两个关键观察之上:

1)输出作为优化指导。

2)输出作为成对评估参考。 

摘自有删改:SPO:自监督提示词优化

posted @ 2025-10-21 18:49  PKICA  阅读(9)  评论(0)    收藏  举报