自动生成试题评估RAG流水线技术
在快速演进的大语言模型(LLM)领域,准确评估检索增强生成(RAG)模型至关重要。本文介绍了一种开创性方法,采用自动化试题生成流程,并通过项目反应理论(IRT)增强,以评估RAG模型在特定任务上的事实准确性。该方法不仅稳健、可解释,而且成本效益高,能够战略性地识别模型优势并优化试题以最大化评估效用。
试题生成流程
RAG是一种处理自然语言查询的方法,通过检索相关文档并使用其中的文本来引导LLM生成响应。期望来自可靠文档的事实断言能够抑制LLM的“幻觉”倾向,即生成听起来合理但错误的句子。
为了评估特定任务上的RAG模型,使用LLM从任务特定知识库中生成多项选择题。该方法对RAG系统和试题生成任务中使用的检索器和生成模型均不可知。
方法概述
该方法包含两个步骤:首先,为知识库中的每个文档,使用LLM和多种提示工程策略创建候选问题;然后,使用多种自然语言处理过滤器沿多个维度(如长度、不正确性和自包含性)移除低质量问题。
研究分析了多种RAG流水线变体,包括闭卷(不向LLM提供文档知识)、预言机(考试者可以访问用于生成问答对的特定文档)以及经典检索模型(如MultiQA嵌入、Siamese网络嵌入和BM25)。评估还扩展到不同规模的LLM,从70亿参数到700亿参数,以理解模型规模对性能的影响。
多领域应用
为展示该方法的实用性,在多个领域进行了部署测试,包括某机构云服务的DevOps故障排除指南、arXiv摘要、StackExchange问题和SEC文件。这种多领域方法不仅增强了评估的稳健性,还确保了模型在各种实际应用中的多功能性和可靠性。
试题生成模型评估
通过实验得出四个关键发现:首先,没有一刀切的解决方案,检索方法的选择(在较小程度上LLM的选择)通常依赖于任务;其次,选择合适的检索方法比单纯使用更大的LLM能带来更大的性能提升;第三,对于涉及闭源知识的任务,准确性瓶颈通常是LLM而非检索方法;最后,未对齐的检索器组件可能导致比完全没有检索更差的准确性。
通过项目反应理论增强试题
将IRT集成到流程中显著提高了试题质量。IRT基于问题特征和模型能力建模正确响应的可能性,使用难度、区分度和猜测机会三个因素创建能更准确反映和预测模型性能的试题。
通过持续基于IRT参数分析和调整试题,试题区分模型的能力有了显著提升。例如,使用Fisher信息量化试题的信息量,该指标衡量可观测随机变量关于未知参数提供的信息量。
生成试题的评估
为进一步增强RAG模型的评估,使用语义分析和Bloom修订分类法对试题进行分类。Bloom分类法通过认知复杂性(从基本回忆到分析任务)帮助分类问题,实现对模型能力的结构化评估。
对于StackExchange任务,“评估”和“理解”是Bloom分类法中最具区分度的维度,而“回忆”区分度最低。在语义类别中,“什么”和“哪个”在低能力水平最具区分性,“何时”在高能力水平更具区分性。
未来工作
未来研究将扩展到问答应用之外的领域,如摘要、翻译和情感分析。同时,将处理元评估的复杂任务,比较和优化评估方法以考虑LLM性能的多维性,并持续更新方法以适应LLM技术的快速发展。
致谢
感谢Laurent Callot的贡献。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码


浙公网安备 33010602011771号