如何评测一个模型的能力
评测类型
开放性
1. 人工测评:关键是制定评价规则,人工打分是金标准
2. 大模型测评:使用大模型进行打分,辅助降低人工成本
封闭性
1. 根据模型的输出和标准答案 使用脚本完成模型测评
1. 意图识别 关键词提取 实体抽取 (要求大模型返回json labal和reason 方便溯源)
2. 准确率 = 正确的个数 / 总样本数
3. 例子:评论 正向负向
评分标准
- 人设遵循: 言行是否符合角色设定的身份,特色,语气等。文风是否符合场景的需求。
- 回答质量:回答十分与上文对话相符,内容丰富 有建设性。
计分方法
- GSB打分: 用于评判对同一评估集的两份预测结果之间的好坏。
- 绝对值分值:按照一定的评分标准直接堆大模型的输出结果进行评分。用于横向比较多个模型的结果。
- 裁判员模型打分
- prompt 裁判员模型打分 降低人工打分的成功 进行人工抽查。
- 英文测评集合 MT-Bench
- 写作 角色扮演 提取信息 推理 数学 编程
- 中文测评集合 AlignBench
- 知识问答 写作生成 角色扮演