大模型生成分数(Generating scores)深度解析

这部分内容聚焦 LLM-as-a-Judge 中 “以分数形式呈现评估结果” 的核心逻辑,从 “分数的本质特性” 到 “不同复杂度的评分设计方法” 展开,核心是解决 “如何让 LLM 输出既直观又符合评估目标的分数” 这一问题,以下分维度拆解:

一、核心前提:为什么用 “分数” 做评估?

“It is quite intuitive to represent an evaluation using a corresponding score.”
用分数量化评估结果的核心优势是 **“直观易懂、可比较、可量化”**:
  • 相比模糊的文字描述(如 “这个回答还不错”),分数(如 “8 分”)能直接体现 “质量等级”,便于横向对比(如 A 回答 8 分、B 回答 5 分,可明确 A 更优);
  • 便于后续自动化处理(如用分数筛选高质量数据、计算模型整体评估准确率),是 LLM-as-a-Judge 中 “最常用的结果形式之一”,尤其适合需要 “精细区分质量差异” 的场景(如作文评分、LLM 输出排序)。

二、关键考量:分数的 “本质与范围”(2 大核心属性)

“What requires more careful consideration, however, is the nature and range of the score used for evaluation.”
分数设计的核心是明确 “分数类型(本质)” 和 “分数区间(范围)”,二者需匹配评估目标的 “颗粒度需求”,不能随意设定(如简单任务用 1-3 分即可,复杂任务需 1-10 分):

1. 分数类型:离散分(Discrete Scores)vs 连续分(Continuous Scores)

类型定义常见范围适用场景优势示例(评估 “回答质量”)
离散分 分数为 “整数或固定间隔的数值”,不可取中间值 1-3、1-5 [59]、1-10 [81,220] 评估目标 “无需极高精度”,或人类判断难以细分的场景(如 “帮助性”“相关性”) 易理解、易标注、LLM 输出更规整(不易出现极端值) “1-5 分评事实一致性:1 = 完全错误,3 = 部分正确,5 = 完全正确”
连续分 分数为 “任意小数”,可覆盖区间内所有值 0-1、0-100 [175] 评估目标 “需要高精度区分”,或需与其他量化指标融合的场景(如 RLHF 奖励模型) 精度高、能捕捉细微质量差异 “0-1 分评流畅性:0.2 = 极不流畅,0.8 = 非常流畅”

  • 关键提醒:LLM 对 “离散分” 的处理更稳定(因整数输出符合其生成习惯),“连续分” 需在提示中明确 “保留小数位数”(如 “输出 0-1 的连续分,保留 2 位小数”),避免 LLM 输出无意义的极端值(如 0.9999)。

2. 分数范围:需匹配 “评估复杂度”

  • 简单范围(1-3 分):适合 “仅需区分‘差 / 中 / 好’” 的基础评估(如判断文本是否有脏话:1 = 有,2 = 模糊,3 = 无);
  • 中等范围(1-5/1-10 分):适合 “需细分质量等级” 的场景(如 1-10 分评摘要质量,可区分 “1-2 差、3-5 中、6-8 好、9-10 优”);
  • 高精度范围(0-1/0-100 分):适合 “科研级评估” 或 “与其他指标融合” 的场景(如 0-100 分的 F1 分数校准、RLHF 中连续奖励值生成)。

三、评分设计方法:从 “简单” 到 “复杂” 的 3 个层级

论文按 “复杂度递增”,将评分设计分为 3 类,覆盖从 “快速落地” 到 “精细评估” 的需求:

1. 基础级:仅指定 “分数范围 + 核心标准”(最简单)

“The simplest way to score is through the context, setting the range of scores and the main criteria for scoring.”
  • 核心逻辑:不提供复杂示例,仅在提示中明确 “评什么维度”“分数范围”“分数含义”,适合 “简单评估任务” 或 “快速验证效果”;
  • 示例(源自 [220]):
    “请从‘帮助性(Helpfulness)、相关性(Relevance)、准确性(Accuracy)、详细程度(Level of Details)’四个维度评估助手的回答,最终给出 1-10 分的总分(分数越高表示整体表现越好)。”
  • 优势:设计成本低、提示简洁,LLM 易理解;
  • 适用场景:初步筛选数据、快速对比不同模型的输出质量。

2. 进阶级:提供 “详细评分标准”

“A slightly more complex way is to provide more detailed scoring criteria.”
  • 核心逻辑:在 “范围 + 维度” 基础上,为每个 “分数区间” 或 “维度” 补充具体定义,减少 LLM 的主观偏差(如明确 “什么情况得 3 分,什么情况得 5 分”);
  • 示例(评 “事实一致性”):
    “1-5 分评事实一致性:1 分 = 完全错误(如‘地球是方的’);2 分 = 大部分错误(仅 1 个事实正确);3 分 = 部分正确(一半事实正确);4 分 = 大部分正确(仅 1 个事实错误);5 分 = 完全正确(所有事实符合常识)。请评估回答:‘地球绕太阳转,周期约 365 天’。”
  • 优势:减少 LLM 的判断模糊性,评分一致性更高;
  • 适用场景:需要相对规范的评估(如团队内部数据标注、产品级 LLM 输出评估)。

3. 高级级:多维度 Likert 量表评分(Language-Model-as-an-Examiner [9])

“More complex scoring situations can be as Language-Model-as-an-Examiner [9], which use Likert scale scoring functions as an absolute evaluative measure... The evaluator assigns scores to a given response along predefined dimensions including accuracy, coherence, factuality and comprehensiveness. Each of these dimensions is scored on a scale of 1 to 3...”
  • 核心逻辑:这是 “最精细的评分方式”,需满足两个条件 ——
    1. 多维度拆分:将 “整体质量” 拆分为多个独立维度(如准确性、连贯性、事实性、完整性),避免单维度评分的片面性;
    2. Likert 量表:每个维度用固定量级的量表评分(如 1-3 分,对应 “差 / 中 / 好”),最后可通过 “加权求和” 得到总分;
  • 示例(源自论文 Figure 4 的逻辑):
    “请以‘考官’身份评估以下回答,按 3 个维度各评 1-3 分(1 = 最差,3 = 最好),最后计算总分(总分 = 准确性 + 连贯性 + 完整性):
    1. 准确性(Accuracy):回答是否符合事实?
    2. 连贯性(Coherence):句子间逻辑是否顺畅?
    3. 完整性(Comprehensiveness):是否覆盖问题的所有核心点?
      回答:‘水的沸点是 100℃,它是生命必需的物质,可用于饮用和清洁。’”
  • 优势:评分最全面、最客观,能定位具体质量问题(如 “准确性 3 分,但完整性 1 分”,说明回答正确但不全面);
  • 适用场景:科研级评估(如论文中 LLM 性能对比)、高要求的专业领域评估(如法律文本、医疗 QA)。

四、关键注意事项(避免评分失效)

  1. 维度不能过多:多维度评分虽好,但维度超过 5 个会导致 LLM 遗忘(如同时评 10 个维度),建议控制在 3-5 个核心维度;
  2. 分数含义需明确:必须说明 “分数高低的意义”(如 “分数越高越好”,避免 LLM 误解为 “分数越低越好”);
  3. 结合 ICL 示例:复杂评分(如 Likert 量表)需加入 1-2 个示例(如 “示例 1:回答 A 在准确性得 3 分、连贯性得 2 分→总分 5 分”),LLM 才能准确模仿;
  4. 避免极端范围:不建议用 1-1000 分等过大范围,LLM 难以把握细微差异,易输出随机值。

总结

1.1.1 节的核心是 “教会 LLM‘如何科学打分’”:
  • 先明确分数的 “类型(离散 / 连续)” 和 “范围”,匹配评估精度需求;
  • 再按 “简单→复杂” 选择评分方法:基础级适合快速落地,进阶级适合规范评估,高级级(多维度 Likert 量表)适合精细科研场景;
  • 核心原则是 “规则明确、维度合理”,避免 LLM 因 “不知道怎么评” 而输出无效分数。
  • image

  • image

     

posted on 2025-08-29 13:30  limingqi  阅读(85)  评论(0)    收藏  举报

导航