构建可扩展、高效的自动化流程,生成高质量多语言事实核查数据集,支持英语、西班牙语、德语及低资源语言,包含 “支持(Supports)”“反驳(Refutes)”“信息不足(Not-info)” 三类声明 - 来源对,最终产出经 5 轮迭代优化的合成数据集。
为每个 Wikipedia 条目生成 8 条知识句子,提升数据多样性:
自动检索的来源可能存在不完整、格式错误或上下文不足的问题,此举旨在模拟真实场景中声明常有的模糊性与不完整性。
采用Mistral-7B-Instruct-v0.3,核心依据是其在研究阶段具备较强的多语言处理能力。
-
目标类别:生成 3 类声明,分别对应标签supports(支持)、refutes(反驳)、not-info(信息不足)
-
特殊要求:为增强模型对对比案例的敏感度,指令模型在声明中融入比较级 / 最高级形容词(如 larger、more、highest 等),助力模型学习来源 - 声明推理逻辑
-
数据规模:随机选取 30,000 个 Wikipedia 条目(对应 240,000 条知识句子)作为生成基础
采用 “LLM 评估 + MNLI 验证” 双重过滤机制,最小化人工干预,筛选高质量声明:
-
模型选择:mDeBERTav3-base-xnli-multilingual-nli-2mil7(经 XNLI 和 multilingual-NLI-26lang 数据集微调)
-
任务转化:将知识句子作为 “前提(premise)”,生成的声明作为 “假设(hypothesis)”
-
类别映射:
-
过滤规则:剔除模型预测类别与目标标签不一致的声明,确保语义一致性
-
可扩展性:流程不依赖特定语言,可适配所有 LLM 和 MNLI 模型支持的语言,尤其适用于低资源语言
-
低耗高效:大幅减少人工标注成本与时间,通过自动化流程实现大规模数据集生成
-
质量可控:通过 “生成 - 过滤 - 评估” 的迭代机制(5 轮优化),确保声明的客观性、自包含性与语义对齐性