RAG指标评估

1.RAG效果评估的必要性

  • 评估出RAG对大模型能力改善的程度
  • RAG优化过程,通过评估可以知道改善的方向和参数调整的程度

2.RAG评估方法

人工评估

最Low的方式是进行人工评估:邀请专家或人工评估员对RAG生成的结果进行评估。他们可以根据预先定义的标准对生成的答案进行质量评估,如准确性、连贯性、相关性等。这种评估方法可以提供高质量的反馈,但可能会消耗大量的时间和人力资源。

自动化评估
自动化评估肯定是RAG评估的主流和发展方向。

LangSmith
需要准备测试数据集
不仅可以评估RAG效果,对于LangChain中的Prompt模板等步骤都可进行测试评估。

RAGAS

RAGAs (Retrieval-Augmented Generation Assessment) 是一个评估框架,文档。考虑检索系统识别相关和重点上下文段落的能力,LLM以忠实方式利用这些段落的能力,以及生成本身的质量。

数据集格式

  • question: 作为RAG管道输入的用户查询。输入。
  • answer: 从RAG管道生成的答案。输出。
  • contexts: 从用于回答question外部知识源中检索的上下文。
  • ground_truths: question的基本事实答案。这是唯一人工注释的信息。

3.评估指标

评估检索质量:

  • context_relevancy(上下文相关性,也叫 context_precision)
  • context_recall(召回性,越高表示检索出来的内容与正确答案越相关)

评估生成质量:

  • faithfulness(忠实性,越高表示答案的生成使用了越多的参考文档(检索出来的内容))
  • answer_relevancy(答案的相关性)

Context Recall:上下文召回量检索到的上下文(contexts)与标准答案(ground_truths)的匹配程度。

posted @ 2025-03-12 12:08  Michael_Z  阅读(287)  评论(0)    收藏  举报