大模型生成分数（Generating scores）深度解析

这部分内容聚焦 LLM-as-a-Judge 中 “以分数形式呈现评估结果” 的核心逻辑，从 “分数的本质特性” 到 “不同复杂度的评分设计方法” 展开，核心是解决 “如何让 LLM 输出既直观又符合评估目标的分数” 这一问题，以下分维度拆解：

一、核心前提：为什么用 “分数” 做评估？

“It is quite intuitive to represent an evaluation using a corresponding score.”
用分数量化评估结果的核心优势是 **“直观易懂、可比较、可量化”**：

相比模糊的文字描述（如 “这个回答还不错”），分数（如 “8 分”）能直接体现 “质量等级”，便于横向对比（如 A 回答 8 分、B 回答 5 分，可明确 A 更优）；
便于后续自动化处理（如用分数筛选高质量数据、计算模型整体评估准确率），是 LLM-as-a-Judge 中 “最常用的结果形式之一”，尤其适合需要 “精细区分质量差异” 的场景（如作文评分、LLM 输出排序）。

二、关键考量：分数的 “本质与范围”（2 大核心属性）

“What requires more careful consideration, however, is the nature and range of the score used for evaluation.”
分数设计的核心是明确 “分数类型（本质）” 和 “分数区间（范围）”，二者需匹配评估目标的 “颗粒度需求”，不能随意设定（如简单任务用 1-3 分即可，复杂任务需 1-10 分）：

1. 分数类型：离散分（Discrete Scores）vs 连续分（Continuous Scores）

类型	定义	常见范围	适用场景	优势	示例（评估 “回答质量”）
离散分	分数为 “整数或固定间隔的数值”，不可取中间值	1-3、1-5 [59]、1-10 [81,220]	评估目标 “无需极高精度”，或人类判断难以细分的场景（如 “帮助性”“相关性”）	易理解、易标注、LLM 输出更规整（不易出现极端值）	“1-5 分评事实一致性：1 = 完全错误，3 = 部分正确，5 = 完全正确”
连续分	分数为 “任意小数”，可覆盖区间内所有值	0-1、0-100 [175]	评估目标 “需要高精度区分”，或需与其他量化指标融合的场景（如 RLHF 奖励模型）	精度高、能捕捉细微质量差异	“0-1 分评流畅性：0.2 = 极不流畅，0.8 = 非常流畅”

关键提醒：LLM 对 “离散分” 的处理更稳定（因整数输出符合其生成习惯），“连续分” 需在提示中明确 “保留小数位数”（如 “输出 0-1 的连续分，保留 2 位小数”），避免 LLM 输出无意义的极端值（如 0.9999）。

2. 分数范围：需匹配 “评估复杂度”

简单范围（1-3 分）：适合 “仅需区分‘差 / 中 / 好’” 的基础评估（如判断文本是否有脏话：1 = 有，2 = 模糊，3 = 无）；
中等范围（1-5/1-10 分）：适合 “需细分质量等级” 的场景（如 1-10 分评摘要质量，可区分 “1-2 差、3-5 中、6-8 好、9-10 优”）；
高精度范围（0-1/0-100 分）：适合 “科研级评估” 或 “与其他指标融合” 的场景（如 0-100 分的 F1 分数校准、RLHF 中连续奖励值生成）。

三、评分设计方法：从 “简单” 到 “复杂” 的 3 个层级

论文按 “复杂度递增”，将评分设计分为 3 类，覆盖从 “快速落地” 到 “精细评估” 的需求：

1. 基础级：仅指定 “分数范围 + 核心标准”（最简单）

“The simplest way to score is through the context, setting the range of scores and the main criteria for scoring.”

核心逻辑：不提供复杂示例，仅在提示中明确 “评什么维度”“分数范围”“分数含义”，适合 “简单评估任务” 或 “快速验证效果”；
示例（源自 [220]）：
“请从‘帮助性（Helpfulness）、相关性（Relevance）、准确性（Accuracy）、详细程度（Level of Details）’四个维度评估助手的回答，最终给出 1-10 分的总分（分数越高表示整体表现越好）。”
优势：设计成本低、提示简洁，LLM 易理解；
适用场景：初步筛选数据、快速对比不同模型的输出质量。

2. 进阶级：提供 “详细评分标准”

“A slightly more complex way is to provide more detailed scoring criteria.”

核心逻辑：在 “范围 + 维度” 基础上，为每个 “分数区间” 或 “维度” 补充具体定义，减少 LLM 的主观偏差（如明确 “什么情况得 3 分，什么情况得 5 分”）；
示例（评 “事实一致性”）：
“1-5 分评事实一致性：1 分 = 完全错误（如‘地球是方的’）；2 分 = 大部分错误（仅 1 个事实正确）；3 分 = 部分正确（一半事实正确）；4 分 = 大部分正确（仅 1 个事实错误）；5 分 = 完全正确（所有事实符合常识）。请评估回答：‘地球绕太阳转，周期约 365 天’。”
优势：减少 LLM 的判断模糊性，评分一致性更高；
适用场景：需要相对规范的评估（如团队内部数据标注、产品级 LLM 输出评估）。

3. 高级级：多维度 Likert 量表评分（Language-Model-as-an-Examiner [9]）

“More complex scoring situations can be as Language-Model-as-an-Examiner [9], which use Likert scale scoring functions as an absolute evaluative measure... The evaluator assigns scores to a given response along predefined dimensions including accuracy, coherence, factuality and comprehensiveness. Each of these dimensions is scored on a scale of 1 to 3...”

核心逻辑：这是 “最精细的评分方式”，需满足两个条件 ——
1. 多维度拆分：将 “整体质量” 拆分为多个独立维度（如准确性、连贯性、事实性、完整性），避免单维度评分的片面性；
2. Likert 量表：每个维度用固定量级的量表评分（如 1-3 分，对应 “差 / 中 / 好”），最后可通过 “加权求和” 得到总分；
示例（源自论文 Figure 4 的逻辑）：
“请以‘考官’身份评估以下回答，按 3 个维度各评 1-3 分（1 = 最差，3 = 最好），最后计算总分（总分 = 准确性 + 连贯性 + 完整性）：
1. 准确性（Accuracy）：回答是否符合事实？
2. 连贯性（Coherence）：句子间逻辑是否顺畅？
3. 完整性（Comprehensiveness）：是否覆盖问题的所有核心点？
  回答：‘水的沸点是 100℃，它是生命必需的物质，可用于饮用和清洁。’”
优势：评分最全面、最客观，能定位具体质量问题（如 “准确性 3 分，但完整性 1 分”，说明回答正确但不全面）；
适用场景：科研级评估（如论文中 LLM 性能对比）、高要求的专业领域评估（如法律文本、医疗 QA）。

四、关键注意事项（避免评分失效）

维度不能过多：多维度评分虽好，但维度超过 5 个会导致 LLM 遗忘（如同时评 10 个维度），建议控制在 3-5 个核心维度；
分数含义需明确：必须说明 “分数高低的意义”（如 “分数越高越好”，避免 LLM 误解为 “分数越低越好”）；
结合 ICL 示例：复杂评分（如 Likert 量表）需加入 1-2 个示例（如 “示例 1：回答 A 在准确性得 3 分、连贯性得 2 分→总分 5 分”），LLM 才能准确模仿；
避免极端范围：不建议用 1-1000 分等过大范围，LLM 难以把握细微差异，易输出随机值。

总结

1.1.1 节的核心是 “教会 LLM‘如何科学打分’”：

先明确分数的 “类型（离散 / 连续）” 和 “范围”，匹配评估精度需求；
再按 “简单→复杂” 选择评分方法：基础级适合快速落地，进阶级适合规范评估，高级级（多维度 Likert 量表）适合精细科研场景；
核心原则是 “规则明确、维度合理”，避免 LLM 因 “不知道怎么评” 而输出无效分数。

posted on 2025-08-29 13:30 limingqi 阅读(238) 评论(0) 收藏举报

刷新页面返回顶部