随笔档案「2025年9月24日」：自动构建高质量测试集 ... - wangssd

2025年9月24日

摘要：基于文档自动生成 QA 对（文档 - 问题 - 答案三元组）是构建高质量测试集、知识库评估或模型微调数据的核心方法，其核心流程围绕 “文档采样→内容解析→LLM 生成→质量过滤→格式输出” 展开。一、核心目标与前置准备在启动前需明确目标，避免后续流程偏离需求：核心目标：生成 “高质量” QA 阅读全文

posted @ 2025-09-24 11:01 wangssd 阅读(87) 评论(0) 推荐(0)

大模型评估方法-微调模型/评估性能

摘要： 1. 检索质量评估通常在开发/验证集上进行。命中率：对于一个问题，系统是否至少检索到了一个相关文档？这是一个二元指标（是/否）。它衡量了检索的召回能力。平均精度@K：这是信息检索中的核心指标。它衡量在前K个检索结果中，相关文档的比例和排名位置。例如，MRR@5 表示前5个结果中，第一个相关文档阅读全文

posted @ 2025-09-24 10:38 wangssd 阅读(53) 评论(0) 推荐(0)

BM25 关键词检索算法

摘要： BM25 BM25，全称是 Best Matching 25，是一种用于信息检索的排名函数。它用来计算一个查询（Query）与一组文档（Documents）的相关性得分，并按照得分从高到低对文档进行排序。简单来说，它的核心任务是：给定一个用户搜索词（如“苹果手机”），从海量文档中找出最相关的文档，阅读全文

posted @ 2025-09-24 10:25 wangssd 阅读(504) 评论(0) 推荐(0)

wangssd

公告