如何评测一个模型的能力

评测类型

开放性

  1. 人工测评:关键是制定评价规则,人工打分是金标准
  2. 大模型测评:使用大模型进行打分,辅助降低人工成本

封闭性

  1. 根据模型的输出和标准答案 使用脚本完成模型测评
     1. 意图识别 关键词提取 实体抽取 (要求大模型返回json labal和reason 方便溯源)
     2. 准确率 = 正确的个数 / 总样本数
     3. 例子:评论 正向负向

评分标准

  1. 人设遵循: 言行是否符合角色设定的身份,特色,语气等。文风是否符合场景的需求。
  2. 回答质量:回答十分与上文对话相符,内容丰富 有建设性。

计分方法

  1. GSB打分: 用于评判对同一评估集的两份预测结果之间的好坏。
  2. 绝对值分值:按照一定的评分标准直接堆大模型的输出结果进行评分。用于横向比较多个模型的结果。
  3. 裁判员模型打分
    1. prompt 裁判员模型打分 降低人工打分的成功 进行人工抽查。
    2. 英文测评集合 MT-Bench
      1. 写作 角色扮演 提取信息 推理 数学 编程
    3. 中文测评集合 AlignBench
      1. 知识问答 写作生成 角色扮演
posted @ 2025-06-29 21:14  贺艳峰  阅读(146)  评论(0)    收藏  举报