这部分内容聚焦 LLM-as-a-Judge 中 “以分数形式呈现评估结果” 的核心逻辑,从 “分数的本质特性” 到 “不同复杂度的评分设计方法” 展开,核心是解决 “如何让 LLM 输出既直观又符合评估目标的分数” 这一问题,以下分维度拆解:
“It is quite intuitive to represent an evaluation using a corresponding score.”
用分数量化评估结果的核心优势是 **“直观易懂、可比较、可量化”**:
- 相比模糊的文字描述(如 “这个回答还不错”),分数(如 “8 分”)能直接体现 “质量等级”,便于横向对比(如 A 回答 8 分、B 回答 5 分,可明确 A 更优);
- 便于后续自动化处理(如用分数筛选高质量数据、计算模型整体评估准确率),是 LLM-as-a-Judge 中 “最常用的结果形式之一”,尤其适合需要 “精细区分质量差异” 的场景(如作文评分、LLM 输出排序)。
“What requires more careful consideration, however, is the nature and range of the score used for evaluation.”
分数设计的核心是明确 “分数类型(本质)” 和 “分数区间(范围)”,二者需匹配评估目标的 “颗粒度需求”,不能随意设定(如简单任务用 1-3 分即可,复杂任务需 1-10 分):
- 关键提醒:LLM 对 “离散分” 的处理更稳定(因整数输出符合其生成习惯),“连续分” 需在提示中明确 “保留小数位数”(如 “输出 0-1 的连续分,保留 2 位小数”),避免 LLM 输出无意义的极端值(如 0.9999)。
- 简单范围(1-3 分):适合 “仅需区分‘差 / 中 / 好’” 的基础评估(如判断文本是否有脏话:1 = 有,2 = 模糊,3 = 无);
- 中等范围(1-5/1-10 分):适合 “需细分质量等级” 的场景(如 1-10 分评摘要质量,可区分 “1-2 差、3-5 中、6-8 好、9-10 优”);
- 高精度范围(0-1/0-100 分):适合 “科研级评估” 或 “与其他指标融合” 的场景(如 0-100 分的 F1 分数校准、RLHF 中连续奖励值生成)。
论文按 “复杂度递增”,将评分设计分为 3 类,覆盖从 “快速落地” 到 “精细评估” 的需求:
“The simplest way to score is through the context, setting the range of scores and the main criteria for scoring.”
- 核心逻辑:不提供复杂示例,仅在提示中明确 “评什么维度”“分数范围”“分数含义”,适合 “简单评估任务” 或 “快速验证效果”;
- 示例(源自 [220]):
“请从‘帮助性(Helpfulness)、相关性(Relevance)、准确性(Accuracy)、详细程度(Level of Details)’四个维度评估助手的回答,最终给出 1-10 分的总分(分数越高表示整体表现越好)。”
- 优势:设计成本低、提示简洁,LLM 易理解;
- 适用场景:初步筛选数据、快速对比不同模型的输出质量。
“A slightly more complex way is to provide more detailed scoring criteria.”
- 核心逻辑:在 “范围 + 维度” 基础上,为每个 “分数区间” 或 “维度” 补充具体定义,减少 LLM 的主观偏差(如明确 “什么情况得 3 分,什么情况得 5 分”);
- 示例(评 “事实一致性”):
“1-5 分评事实一致性:1 分 = 完全错误(如‘地球是方的’);2 分 = 大部分错误(仅 1 个事实正确);3 分 = 部分正确(一半事实正确);4 分 = 大部分正确(仅 1 个事实错误);5 分 = 完全正确(所有事实符合常识)。请评估回答:‘地球绕太阳转,周期约 365 天’。”
- 优势:减少 LLM 的判断模糊性,评分一致性更高;
- 适用场景:需要相对规范的评估(如团队内部数据标注、产品级 LLM 输出评估)。
“More complex scoring situations can be as Language-Model-as-an-Examiner [9], which use Likert scale scoring functions as an absolute evaluative measure... The evaluator assigns scores to a given response along predefined dimensions including accuracy, coherence, factuality and comprehensiveness. Each of these dimensions is scored on a scale of 1 to 3...”
- 核心逻辑:这是 “最精细的评分方式”,需满足两个条件 ——
- 多维度拆分:将 “整体质量” 拆分为多个独立维度(如准确性、连贯性、事实性、完整性),避免单维度评分的片面性;
- Likert 量表:每个维度用固定量级的量表评分(如 1-3 分,对应 “差 / 中 / 好”),最后可通过 “加权求和” 得到总分;
- 示例(源自论文 Figure 4 的逻辑):
“请以‘考官’身份评估以下回答,按 3 个维度各评 1-3 分(1 = 最差,3 = 最好),最后计算总分(总分 = 准确性 + 连贯性 + 完整性):
- 准确性(Accuracy):回答是否符合事实?
- 连贯性(Coherence):句子间逻辑是否顺畅?
- 完整性(Comprehensiveness):是否覆盖问题的所有核心点?
回答:‘水的沸点是 100℃,它是生命必需的物质,可用于饮用和清洁。’”
- 优势:评分最全面、最客观,能定位具体质量问题(如 “准确性 3 分,但完整性 1 分”,说明回答正确但不全面);
- 适用场景:科研级评估(如论文中 LLM 性能对比)、高要求的专业领域评估(如法律文本、医疗 QA)。
- 维度不能过多:多维度评分虽好,但维度超过 5 个会导致 LLM 遗忘(如同时评 10 个维度),建议控制在 3-5 个核心维度;
- 分数含义需明确:必须说明 “分数高低的意义”(如 “分数越高越好”,避免 LLM 误解为 “分数越低越好”);
- 结合 ICL 示例:复杂评分(如 Likert 量表)需加入 1-2 个示例(如 “示例 1:回答 A 在准确性得 3 分、连贯性得 2 分→总分 5 分”),LLM 才能准确模仿;
- 避免极端范围:不建议用 1-1000 分等过大范围,LLM 难以把握细微差异,易输出随机值。
1.1.1 节的核心是 “教会 LLM‘如何科学打分’”:
- 先明确分数的 “类型(离散 / 连续)” 和 “范围”,匹配评估精度需求;
- 再按 “简单→复杂” 选择评分方法:基础级适合快速落地,进阶级适合规范评估,高级级(多维度 Likert 量表)适合精细科研场景;
- 核心原则是 “规则明确、维度合理”,避免 LLM 因 “不知道怎么评” 而输出无效分数。
-
![image]()
-
![image]()