RAG指标评估
1.RAG效果评估的必要性
- 评估出RAG对大模型能力改善的程度
- RAG优化过程,通过评估可以知道改善的方向和参数调整的程度
2.RAG评估方法
人工评估
最Low的方式是进行人工评估:邀请专家或人工评估员对RAG生成的结果进行评估。他们可以根据预先定义的标准对生成的答案进行质量评估,如准确性、连贯性、相关性等。这种评估方法可以提供高质量的反馈,但可能会消耗大量的时间和人力资源。
自动化评估
自动化评估肯定是RAG评估的主流和发展方向。
LangSmith
需要准备测试数据集
不仅可以评估RAG效果,对于LangChain中的Prompt模板等步骤都可进行测试评估。
RAGAS
RAGAs (Retrieval-Augmented Generation Assessment) 是一个评估框架,文档。考虑检索系统识别相关和重点上下文段落的能力,LLM以忠实方式利用这些段落的能力,以及生成本身的质量。
数据集格式
- question: 作为RAG管道输入的用户查询。输入。
- answer: 从RAG管道生成的答案。输出。
- contexts: 从用于回答question外部知识源中检索的上下文。
- ground_truths: question的基本事实答案。这是唯一人工注释的信息。
3.评估指标
评估检索质量:
- context_relevancy(上下文相关性,也叫 context_precision)
- context_recall(召回性,越高表示检索出来的内容与正确答案越相关)
评估生成质量:
- faithfulness(忠实性,越高表示答案的生成使用了越多的参考文档(检索出来的内容))
- answer_relevancy(答案的相关性)
Context Recall:上下文召回量检索到的上下文(contexts)与标准答案(ground_truths)的匹配程度。

浙公网安备 33010602011771号