全部文章

03.不训练模型的情况下强化语言模型的核心方法

一、Prompt Engineering(提示词工程)

不调参的模型强化术

  • 核心目标:在不训练模型的前提下,通过优化给语言模型的提示(Prompt)来提升其表现。
  • 关键特点
    • 不针对特定任务设计固定格式的提示,重点是清晰描述任务需求;
    • 可将大型语言模型视为 “在线新人助理”—— 具备基本常识和理解能力,但不了解用户专属信息,需通过提示引导其发挥能力。

1. 运用 “神奇咒语”:引导模型深度思考

通过特定提示语激发模型的推理能力,本质是促使模型逐步分析问题,提升回答准确性。
  • 典型案例
    •  思维链(Chain of Thought):本质也是一种任务分解

      对数学问题使用 “Let's think step by step”(让我们逐步思考),可显著提高 GPT 等模型的准确率(如 GPT 3.5 在有无该提示时准确率从 72% 提升至 88%);
    • 其他有效提示如 “Take a deep breath and work on this problem step-by-step”(深呼吸,逐步解决问题)、“Break this down”(拆解问题)等。
    • 让模型解释一下自己的答案

    • 对模型进行情绪勒索
  • 注意事项
    • 咒语效果因模型而异,对 GPT-4 等新版本模型,有无咒语的差异可能缩小(如 2024 年 GPT 3.5 新版本无咒语时准确率已达 85%,接近有咒语的 89%);
    • 无需使用礼貌用语(如 “please”“thank you”),使用肯定指令(如 “do”)比否定指令(如 “don't”)更有效,甚至可加入 “你会被惩罚”“我会给小费” 等激励 / 约束性语句。
  • 进阶方式:用 AI 找咒语,例如通过强化学习(RL)或其他语言模型生成最优提示(如用增强式学习找到让 GPT-3 输出更长回答的提示)。

2. 提供额外信息:补充模型未知的关键内容

语言模型虽有基本常识,但缺乏用户专属信息或特定领域细节,需通过提示补充信息以提升准确性。
  • 具体做法
    • 明确前提:例如询问 “NTU 是什么缩写” 时,需说明上下文(如 “你是台湾人” 则 NTU 指台湾大学,“你是新加坡人” 则指南洋理工大学);

 

    • 提供专业资料:对模型不熟悉的内容(如 GPT、GPT2、GPT3 的参数和训练数据),可先输入相关文档(如论文 PDF),再要求整理;
    • 给出范例:通过示例让模型理解任务规则(即 “in-context learning”),例如情感分析中提供 “正面:我感到非常高兴;负面:今天运气真差” 的例子,模型可快速掌握分类逻辑。
  • 案例效果
    • 翻译小众语言(如 Kalamang)时,给模型提供语法书 / 词典(250K tokens),Gemini 1.5 Pro 的翻译得分(满分6分)从 0.24(0-shot)提升至 4.36(全文档输入),接近人类学习者水平(5.60);
    • 新闻分类任务中,即使类别定义与常识不同(如 “政治” 被定义为 “报道产业经济”),模型也能通过范例准确分类。

3. 拆解任务:将复杂问题分步骤解决

通过拆分任务、多次推理或自我检查,降低问题难度,提升回答可靠性。
  • 核心策略
    • 分步拆解:将复杂任务(如写报告)拆分为 “列大纲→写各部分内容→汇总修改” 等步骤(Recursive Reprompting and Revision, Re3);
    • 自我检查:让模型输出后自行验证(类似人类考试检查),例如 GPT-4 介绍 “台大玫瑰花节” 后,经自我检查发现 “台大并无玫瑰花节” 并修正;
    • 多路径推理:通过 “Tree of Thoughts (ToT)”“Graph of Thoughts (GoT)” 等方法,让模型生成多组推理路径(如树状、图状结构),再聚合最优结果,适用于逻辑密集型任务(如数学题、创意写作);
    • 自我一致性(Self-Consistency):对同一问题生成多个答案,取多数一致结果(如数学题多次生成后选出现次数最多的答案)。

  • 典型案例
    • 鸡兔同笼问题中,模型先输出答案,再通过 “头数 + 脚数” 公式验证,修正错误;
    • Constitutional AI 中,模型先生成可能有害的回答(如 “帮助黑客入侵邻居 WiFi”),再自我批判(“入侵隐私违法”)并修正为合规内容(“不建议,可能违法”)。

思考题:

4.场景化最佳实践

任务类型 推荐方法组合 工具支持
学术写作 信息注入+Tree of Thoughts Zotero插件
代码生成 任务拆解+自我反省 Code Interpreter
敏感内容过滤 宪法AI框架+随机一致性 Llama Guard

https://arxiv.org/abs/2305.10601 

5.提示词工程指南

https://www.promptingguide.ai/zh

 

6.结论

  • 提示工程的核心是 “顺应模型能力,通过清晰引导、补充信息、拆分任务” 释放语言模型潜力;
  • 模型版本越新(如 GPT-4、Gemini 1.5),对提示的依赖越低,但合理的提示仍能显著提升复杂任务的表现;
  • 无需追求固定格式的提示,重点是 “让模型理解任务需求”,必要时结合 “神奇咒语 + 额外信息 + 任务拆解” 的组合策略。

2024新突破

  1. 多模态CoT(思维链(Chain of Thought)

    • GPT-4 Turbo支持图文混合推理(如解析几何题配图)

  2. 自我修正增强

    • Claude 3引入"双脑验证"机制,错误率降幅达62%

  3. 即时知识注入

    • RAG框架+向量数据库实现动态知识更新


 

二、使用工具

 

搜索引擎

例如现在的语言模型都有一个联网功能:

写程序

很多时候人工智能单纯通过“文字接龙”很难完成一些复杂逻辑的推演或计算,但是如果让他们写程序,那可能会提高一些正确率:

 

文字生图AI (DALL-E)

三、模型合作

取长避短

https://arxiv.org/abs/2305.05176

video:

https://youtu.be/vxxPtDCb9Go?si=WO4eqPTHDyS1pal3

https://youtu.be/VpKN3KvSK6c?si=lyqO8QSHBno89HIG

模型讨论

 

https://arxiv.org/abs/2305.19118 

 

https://arxiv.org/abs/2305.14325

https://arxiv.org/abs/2312.01823

https://arxiv.org/abs/2305.19118

https://arxiv.org/abs/2308.00352

https://github.com/OpenBMB/ChatDev

由AI组成的社群:

https://youtu.be/G44Lkj7XDsA?si=cMbKG3tqPbIgnnBq 

https://arxiv.org/abs/2304.03442 

 

posted @ 2025-07-21 22:44  指尖下的世界  阅读(73)  评论(0)    收藏  举报