大模型解决幻觉方法BSChecker - ExplorerMan - 博客园

大模型解决幻觉方法BSChecker

BSChecker 是一种用于检测和缓解大模型幻觉问题的工具，以下是其具体的落地细节：

技术原理

细粒度检测：BSChecker 将大模型的输出文本分解成知识三元组（主语、谓词、宾语），这种细粒度的检测方式不仅能验证单个知识的真实性，还为进一步的精确分析提供了可能。
三元标签模式：与传统幻觉检测方法将整个输出文本分类为是否存在幻觉不同，BSChecker 对输出文本中的每一个声明都进行幻觉检测并分类，分为“蕴涵”“矛盾”“中性”三种情况。
多场景覆盖：BSChecker 根据输入大模型的上下文数量和质量，设定了无上下文、带噪声上下文和准确上下文三种场景，以适应不同的任务。

使用方式

开源与安装：用户可以在 GitHub 代码仓库中访问 BSChecker，也可以通过 pip 进行安装。
操作流程：使用 BSChecker 提取知识三元组，在三元组级别检测幻觉，并评估自定义大模型。用户还可以将自定义的评估结果添加到自动评估排行榜中，与其他结果进行比较。

应用效果

自动评估排行榜：BSChecker 框架允许插入基于模型的幻觉检测器，目前已评估了 15 个大模型。通过使用 Kendall’s tau 衡量自动排行榜与人工评估排行榜之间的一致性，结果显示高置信度的组合也具有很高的相关性。

发展方向

开源优化：开源声明抽取器和幻觉检测器，优化三元组抽取，提高处理复杂语义和上下文的能力。
追溯与对齐：追溯大模型训练数据中的错误记忆，对齐人工评估结果。
任务扩展：扩大任务覆盖范围，平衡真实性与有益性，引入有益性评估标准

posted on 2025-05-14 20:31 ExplorerMan 阅读(180) 评论(0) 收藏举报

刷新页面返回顶部

导航

公告