上下文学习(In-Context Learning, ICL)

如何通过 “上下文学习(In-Context Learning, ICL)” 定义评估任务,明确了 ICL 方法的两大关键组成(输入设计、提示设计)及具体实践维度,本质是为 “让 LLM 理解‘评什么’‘怎么评’” 提供可操作的框架。以下从 “ICL 的核心作用→输入设计的 3 个维度→提示设计的 4 类方法” 逐层拆解:

一、先明确:为什么 LLM-as-a-Judge 要依赖 “上下文学习(ICL)”?


“To apply LLM-as-a-Judge, evaluation tasks are typically specified using In-Context Learning methods, which provide instructions and examples to guide the model’s reasoning and judgment.”

  • 核心逻辑:LLM 本身不会 “天生知道如何评估”(比如不会默认按 “1-10 分评摘要质量”),而上下文学习(ICL)是 “无需训练、仅通过提示” 就让 LLM 掌握评估规则的关键手段—— 通过在提示中加入 “指令(评估标准)” 和 “示例(参考案例)”,引导 LLM 模仿人类的推理逻辑,输出符合需求的评估结果。
  • 优势:相比 “微调模型”,ICL 无需额外标注数据和训练成本,能快速适配不同评估场景(比如今天评作文、明天评代码,只需换提示,不用改模型),是 LLM-as-a-Judge 最常用的 “零样本 / 少样本” 落地方式。
  • 通俗举例:想让 GPT-3.5 评 “回答的事实一致性”,直接问 “这个回答对吗?” 可能得到模糊结果;但用 ICL 方法,在提示中加入 “指令:判断回答是否符合事实,输出‘是’或‘否’+ 示例 1:问题‘地球是方的’→回答‘是’→输出‘否’;示例 2:问题‘水是液体’→回答‘是’→输出‘是’”,GPT-3.5 就能精准判断新回答。

二、输入设计:决定 “待评估内容怎么喂给 LLM”(3 个核心维度)


“This process involves two key aspects: input design and prompt design. For input design, it is important to consider the type of variables to be evaluated (such as text, image, or video), the manner of input (e.g., individually, in pairs, or in batches), and its position (e.g., at the beginning, middle, or end).”
输入设计是 “把‘待评估对象’合理嵌入提示” 的过程,直接影响 LLM 对任务的理解,需关注 3 个维度,具体选择需匹配评估目标:

设计维度核心考虑点场景示例(评估文本 / 多模态内容)
1. 待评估变量类型 明确 “评什么” 的格式 ——LLM(尤其是单模态 LLM)仅能处理适配的输入类型,多模态 LLM 需注意格式兼容性。 - 文本:待评估的回答、摘要、代码(直接输入文本字符串);
- 图像 / 视频:多模态 LLM(如 GPT-4V)需输入图像链接或 Base64 编码,提示中注明 “请评估以下图像的清晰度”;
- 混合类型:如 “评估‘文本描述 + 图像’是否匹配”,需按 LLM 要求的格式拼接(如 “文本:‘红色苹果’;图像:[链接]”)。
2. 输入方式 明确 “一次评多少”—— 平衡评估效率与 LLM 的上下文窗口限制(避免输入过多导致遗忘)。 - 单独输入(Individually):一次评 1 个对象(如 “评这 1 篇摘要的流畅性”),适合需要详细反馈的场景;
- 成对输入(In pairs):一次评 2 个对象并对比(如 “评摘要 A 和摘要 B,哪个更贴合原文”),是 LLM-as-a-Judge 中 “偏好判断” 的核心方式(如 RLHF 中的 pairwise 数据评估);
- 批量输入(In batches):一次评多个对象(如 “评以下 5 个回答的事实一致性,分别输出‘是’或‘否’”),适合大规模快速筛选(如数据集质量检查)。
3. 输入位置 避免 “位置偏差”——LLM 可能对 “开头 / 结尾” 的输入更关注,需合理安排待评估内容在提示中的位置。 - 开头:适合待评估内容较短的场景(如 “评以下句子是否正确:‘2+2=5’”);
- 中间:适合需要先给 “评估标准” 的场景(如 “评分标准:1-5 分评帮助性…… 待评估回答:‘今天天气很好’”);
- 结尾:适合提示较长(如含多个示例)的场景,避免 LLM 遗忘待评估内容(如 “示例 1:…… 示例 2:…… 待评估代码:[代码片段]”)。
⚠️ 关键提醒:成对 / 批量输入时,需随机打乱位置(如先放 A 再放 B,再放 B 再放 A),避免 LLM 默认 “第一个更好” 的位置偏差。

三、提示设计:决定 “LLM 按什么规则评”(4 类核心方法)


“For the prompt design, four different methods can be adopted, as illustrated in Figure 2. These methods include generating scores, solving true/false questions, conducting pairwise comparisons, and making multiple-choice selections. Further details will be presented in the following sections.”
提示设计是 “告诉 LLM‘怎么输出评估结果’” 的核心,4 类方法覆盖了绝大多数评估场景,选择需匹配 “评估目标的颗粒度”(是要分数、简单判断,还是对比 / 多选):

1. 生成分数(Generating Scores):量化评估结果

  • 核心:让 LLM 输出 “数值分数”,适合需要 “精细区分质量等级” 的场景(如作文评分、回答质量排序);
  • 关键设计:必须明确 “分数范围” 和 “评分维度”,避免 LLM 随意输出;
  • 示例提示:“请从‘事实一致性(1-5 分)’和‘帮助性(1-5 分)’两个维度评估以下回答,总分 =(事实分 + 帮助分)/2,最终输出‘总分:X,事实分:X,帮助分:X’。回答:‘地球绕太阳转,周期约 365 天’。”
  • 常见形式:离散分(1-3/1-5/1-10 分)、连续分(0-1/0-100 分,需 LLM 输出小数)。

2. 解决是非题(Solving True/False Questions):二元判断

  • 核心:让 LLM 输出 “是 / 否”“对 / 错” 等二元结果,适合 “明确有标准答案” 或 “只需判断是否符合单一规则” 的场景;
  • 关键设计:问题需清晰,避免歧义,可补充 “判断依据” 提升可解释性;
  • 示例提示:“判断以下回答是否符合事实,输出‘是’或‘否’,并简要说明理由。问题:‘水的沸点是 100℃’;回答:‘在标准大气压下,水的沸点是 100℃’。”
  • 延伸:可扩展为 “自定义二元判断”(如 “输出‘符合规范’或‘不符合规范’”“输出‘需要修改’或‘无需修改’”)。

3. 成对比较(Conducting Pairwise Comparisons):相对优劣判断

  • 核心:让 LLM 对比两个对象,选出 “更优的一个”,适合 “无绝对标准、仅需相对偏好” 的场景(如人类偏好对齐、模型输出对比);
  • 关键设计:需明确 “比较维度”(如 “更贴合原文”“更符合伦理”),可增加 “平局” 选项;
  • 示例提示:“对比以下两个摘要,判断哪个更贴合原文(输出‘摘要 A 更优’‘摘要 B 更优’或‘平局’)。原文:‘苹果是红色的水果,富含维生素 C’;摘要 A:‘苹果是红色水果’;摘要 B:‘香蕉是黄色水果’。”
  • 价值:是 LLM-as-a-Judge 中 “最接近人类决策逻辑” 的方式,研究表明其结果与人类判断的一致性高于 “直接打分”。

4. 多选题(Making Multiple-Choice Selections):多选项中选最优

  • 核心:让 LLM 从 “3 个及以上选项” 中选 “最符合要求的一个 / 多个”,适合 “有明确候选集” 的场景(如多摘要筛选、多方案评估);
  • 关键设计:选项需清晰区分,可注明 “单选” 或 “多选”;
  • 示例提示:“以下 3 个回答中,哪些符合‘回答问题且无事实错误’的要求(多选,输出选项编号)。问题:‘太阳系有几大行星?’;选项 1:‘8 大行星’;选项 2:‘9 大行星’;选项 3:‘10 大行星’。”
  • 注意:相比前 3 种方法,多选题在 LLM-as-a-Judge 中使用较少,因 “设计候选集” 需额外成本,更适合 “已有固定候选对象” 的场景。

总结


这段话的核心是 “把‘LLM 做评估’的模糊需求,拆解为‘输入设计 + 提示设计’的可操作步骤”:

  • 输入设计解决 “待评估内容怎么喂”,需考虑 “类型、方式、位置”,避免格式错误和位置偏差;
  • 提示设计解决 “LLM 怎么评”,4 类方法覆盖从 “量化分数” 到 “二元判断” 再到 “相对对比” 的全场景,关键是 “规则明确、格式固定”,让 LLM 输出可解析的结果。
    按这两个维度设计 ICL 提示,就能快速让 LLM 具备 “评估能力”,无需复杂训练,是 LLM-as-a-Judge 落地的 “入门关键”。
  • image

  • image

     

     

posted on 2025-08-29 13:18  limingqi  阅读(4)  评论(0)    收藏  举报

导航