提示工程:大语言模型的新特征工程

EMNLP:提示工程是新特征工程

某中心网络服务AI实验室的首席应用科学家Miguel Ballesteros表示,为了最大化效用,大语言模型需要生成连贯一致的输出,并能够识别以不同方式表达的提示。

提示工程的兴起

Ballesteros指出:“过去,我们通常进行特征工程,即使用统计模型并添加不同类型的表示或特征,然后需要与特征一起调整模型。如今,随着大语言模型的出现,新兴的概念是提示及其各种变体,作为引导模型的一种方式。”

提示的类型与应用

像GPT-3这样的大语言模型经过训练,可以根据上下文预测序列中的单词。足够大的模型在足够多的数据上训练后,最终能够编码整个语言中的单词序列概率。提示是模型用于生成文本的输入。

Ballesteros解释道:“有时提示本质上是一个单词序列,就像提示计算机终端——一个命令。但‘提示’也用于指代软提示,即向量;这些也称为任务特定嵌入或任务嵌入。任务嵌入帮助模型执行模式切换。例如,指示生成文本应使用一种语言或另一种语言的向量称为语言向量。”

挑战与改进

尽管大语言模型长期以来一直作为自然语言处理(NLP)模型的基础,但在典型场景中,预训练的语言模型会在针对特定任务标注的数据上进行微调。提示是直接访问大语言模型中编码知识的一种方式。

然而,问题在于,虽然信息可能存在于模型中,但提取它可能是一个成败参半的事情:当提示断言一个事实时,大语言模型可能会提供可靠的信息,也可能会输出无意义的内容。Ballesteros认为,这些只是年轻技术不可避免的成长痛苦。

“提示工程是为自然语言生成寻找与特定模型最配合的提示的过程,”Ballesteros说。“然而,经过训练预测序列中下一个单词的模型可以改进。有一些替代方案可以实现更好的结果,甚至可能包含人在环组件,即对输出进行排名的人。什么是正确的响应,什么是错误的?这可以帮助模型将提示与正确的响应对齐,融入所有新的归纳偏差。”

一致性与鲁棒性

然而,引导模型生成事实准确且避免冒犯性语言的输出并不能解决一个问题:两个不同的提示对人类读者来说显然表达相同的语义内容,但仍可能从大语言模型中引发不同的响应。

Ballesteros说:“需要更多关于如何构建和评估对提示具有鲁棒性的模型的工作。‘提示工程’一词的存在意味着当前可用的模型只有在给出最佳命令时才能工作。有一些论文研究通用提示的概念——关于提示鲁棒性的论文,以及如何测量提示释义鲁棒性。”

少样本泛化与多任务组合

提示工程还为大语言模型提供了一种进行少样本泛化的方式,即在一个通用任务集上训练的机器学习模型仅从几个示例中学习新任务或相关任务。

Ballesteros解释说:“你可以提供由示例支持的提示。如果我想提取这次对话的摘要,并且我有另外三个对话的文本,我提供这些对话和一个人工摘要,模型将根据该上下文条件生成更好的摘要。”

“这些模型还可以执行任务的组合性。在大型语言模型深度学习时代之前,你受到数据的限制。但现在有了提示的概念,大语言模型实际上可以组合多个任务。我可以说,‘从两岁孩子的角度总结这份文档’或‘从科学家的角度总结这份文档’,模型应该产生非常不同的输出。模型学会根据输入中提供的单词进行组合。例如,它们可以进行风格转换和摘要,甚至可以用多种语言完成。”

其他研究趋势

在EMNLP上,Ballesteros还注意到了其他一些研究趋势。其中之一是推理。

“最近变得非常活跃,”他说。“有一些有趣的论文展示了如何训练模型,以便在响应提示之前生成思维链。思维链生成帮助这些模型提供更好的答案,因此在某种程度上,就好像模型在大声思考。我在这里看到的挑战是如何自动评估在输出中提供推理的模型。”

结构信息的丰富

最后,尽管单词序列预测在自然语言处理中取得了成功,但添加其他类型的结构信息可能会带来更好的模型。Ballesteros说:“模型依赖于单词的位置信息,这种位置信息可以通过多种方式丰富——它们在句法树中的位置,或者它们是否在文档中的表格内。有很多优秀的工作研究如何使我们的模型意识到语言结构甚至文档结构,而不仅仅依赖于简单的单词序列。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-08-21 17:22  CodeShare  阅读(9)  评论(0)    收藏  举报