上下文学习(In-Context Learning, ICL)
如何通过 “上下文学习(In-Context Learning, ICL)” 定义评估任务,明确了 ICL 方法的两大关键组成(输入设计、提示设计)及具体实践维度,本质是为 “让 LLM 理解‘评什么’‘怎么评’” 提供可操作的框架。以下从 “ICL 的核心作用→输入设计的 3 个维度→提示设计的 4 类方法” 逐层拆解:
一、先明确:为什么 LLM-as-a-Judge 要依赖 “上下文学习(ICL)”?
“To apply LLM-as-a-Judge, evaluation tasks are typically specified using In-Context Learning methods, which provide instructions and examples to guide the model’s reasoning and judgment.”
二、输入设计:决定 “待评估内容怎么喂给 LLM”(3 个核心维度)
“This process involves two key aspects: input design and prompt design. For input design, it is important to consider the type of variables to be evaluated (such as text, image, or video), the manner of input (e.g., individually, in pairs, or in batches), and its position (e.g., at the beginning, middle, or end).”
输入设计是 “把‘待评估对象’合理嵌入提示” 的过程,直接影响 LLM 对任务的理解,需关注 3 个维度,具体选择需匹配评估目标:
设计维度 | 核心考虑点 | 场景示例(评估文本 / 多模态内容) |
---|---|---|
1. 待评估变量类型 | 明确 “评什么” 的格式 ——LLM(尤其是单模态 LLM)仅能处理适配的输入类型,多模态 LLM 需注意格式兼容性。 | - 文本:待评估的回答、摘要、代码(直接输入文本字符串); - 图像 / 视频:多模态 LLM(如 GPT-4V)需输入图像链接或 Base64 编码,提示中注明 “请评估以下图像的清晰度”; - 混合类型:如 “评估‘文本描述 + 图像’是否匹配”,需按 LLM 要求的格式拼接(如 “文本:‘红色苹果’;图像:[链接]”)。 |
2. 输入方式 | 明确 “一次评多少”—— 平衡评估效率与 LLM 的上下文窗口限制(避免输入过多导致遗忘)。 | - 单独输入(Individually):一次评 1 个对象(如 “评这 1 篇摘要的流畅性”),适合需要详细反馈的场景; - 成对输入(In pairs):一次评 2 个对象并对比(如 “评摘要 A 和摘要 B,哪个更贴合原文”),是 LLM-as-a-Judge 中 “偏好判断” 的核心方式(如 RLHF 中的 pairwise 数据评估); - 批量输入(In batches):一次评多个对象(如 “评以下 5 个回答的事实一致性,分别输出‘是’或‘否’”),适合大规模快速筛选(如数据集质量检查)。 |
3. 输入位置 | 避免 “位置偏差”——LLM 可能对 “开头 / 结尾” 的输入更关注,需合理安排待评估内容在提示中的位置。 | - 开头:适合待评估内容较短的场景(如 “评以下句子是否正确:‘2+2=5’”); - 中间:适合需要先给 “评估标准” 的场景(如 “评分标准:1-5 分评帮助性…… 待评估回答:‘今天天气很好’”); - 结尾:适合提示较长(如含多个示例)的场景,避免 LLM 遗忘待评估内容(如 “示例 1:…… 示例 2:…… 待评估代码:[代码片段]”)。 ⚠️ 关键提醒:成对 / 批量输入时,需随机打乱位置(如先放 A 再放 B,再放 B 再放 A),避免 LLM 默认 “第一个更好” 的位置偏差。 |
三、提示设计:决定 “LLM 按什么规则评”(4 类核心方法)
“For the prompt design, four different methods can be adopted, as illustrated in Figure 2. These methods include generating scores, solving true/false questions, conducting pairwise comparisons, and making multiple-choice selections. Further details will be presented in the following sections.”
提示设计是 “告诉 LLM‘怎么输出评估结果’” 的核心,4 类方法覆盖了绝大多数评估场景,选择需匹配 “评估目标的颗粒度”(是要分数、简单判断,还是对比 / 多选):
1. 生成分数(Generating Scores):量化评估结果
2. 解决是非题(Solving True/False Questions):二元判断
3. 成对比较(Conducting Pairwise Comparisons):相对优劣判断
4. 多选题(Making Multiple-Choice Selections):多选项中选最优
总结
这段话的核心是 “把‘LLM 做评估’的模糊需求,拆解为‘输入设计 + 提示设计’的可操作步骤”:
本文来自博客园,作者:limingqi,转载请注明原文链接:https://www.cnblogs.com/limingqi/p/19064375