如何评测一个模型的能力

评测类型

开放性

  1. 人工测评：关键是制定评价规则，人工打分是金标准
  2. 大模型测评：使用大模型进行打分，辅助降低人工成本

封闭性

  1. 根据模型的输出和标准答案 使用脚本完成模型测评
     1. 意图识别 关键词提取 实体抽取 （要求大模型返回json labal和reason 方便溯源）
     2. 准确率 = 正确的个数 / 总样本数
     3. 例子：评论 正向负向

评分标准

人设遵循: 言行是否符合角色设定的身份，特色，语气等。文风是否符合场景的需求。
回答质量：回答十分与上文对话相符，内容丰富有建设性。

计分方法

GSB打分: 用于评判对同一评估集的两份预测结果之间的好坏。
绝对值分值：按照一定的评分标准直接堆大模型的输出结果进行评分。用于横向比较多个模型的结果。
裁判员模型打分
1. prompt 裁判员模型打分降低人工打分的成功进行人工抽查。
2. 英文测评集合 MT-Bench
  1. 写作角色扮演提取信息推理数学编程
3. 中文测评集合 AlignBench
  1. 知识问答写作生成角色扮演

posted @ 2025-06-29 21:14 贺艳峰阅读(220) 评论(0) 收藏举报

刷新页面返回顶部