大模型解决幻觉方法BSChecker
BSChecker 是一种用于检测和缓解大模型幻觉问题的工具,以下是其具体的落地细节:
技术原理
-
细粒度检测:BSChecker 将大模型的输出文本分解成知识三元组(主语、谓词、宾语),这种细粒度的检测方式不仅能验证单个知识的真实性,还为进一步的精确分析提供了可能。
-
三元标签模式:与传统幻觉检测方法将整个输出文本分类为是否存在幻觉不同,BSChecker 对输出文本中的每一个声明都进行幻觉检测并分类,分为“蕴涵”“矛盾”“中性”三种情况。
-
多场景覆盖:BSChecker 根据输入大模型的上下文数量和质量,设定了无上下文、带噪声上下文和准确上下文三种场景,以适应不同的任务。
使用方式
-
开源与安装:用户可以在 GitHub 代码仓库中访问 BSChecker,也可以通过 pip 进行安装。
-
操作流程:使用 BSChecker 提取知识三元组,在三元组级别检测幻觉,并评估自定义大模型。用户还可以将自定义的评估结果添加到自动评估排行榜中,与其他结果进行比较。
应用效果
-
自动评估排行榜:BSChecker 框架允许插入基于模型的幻觉检测器,目前已评估了 15 个大模型。通过使用 Kendall’s tau 衡量自动排行榜与人工评估排行榜之间的一致性,结果显示高置信度的组合也具有很高的相关性。
发展方向
-
开源优化:开源声明抽取器和幻觉检测器,优化三元组抽取,提高处理复杂语义和上下文的能力。
-
追溯与对齐:追溯大模型训练数据中的错误记忆,对齐人工评估结果。
-
任务扩展:扩大任务覆盖范围,平衡真实性与有益性,引入有益性评估标准
posted on 2025-05-14 20:31 ExplorerMan 阅读(92) 评论(0) 收藏 举报