大模型的事实核查测试&测试用例

大模型事实核查测试介绍

大模型的事实核查维度主要包括以下几个方面:

  • 事实理解:大模型需要能够理解事实陈述中的事实信息,包括事实的主体、客体、属性、关系等。
  • 知识推理:大模型需要能够根据事实信息进行推理,从而得出新的事实信息。
  • 语言生成:大模型需要能够生成准确的事实陈述,以回答事实核查问题。

具体来说,大模型在事实理解方面需要能够:

  • 识别事实陈述中的关键信息,例如主体、客体、属性、关系等。
  • 理解事实陈述中的语义,例如事实陈述的真实性、确切性、可靠性等。
  • 识别事实陈述中的歧义,并进行消歧。

大模型在知识推理方面需要能够:

  • 利用事实陈述中的事实信息进行推理,得出新的事实信息。
  • 利用事实陈述中的知识库进行推理,得出新的事实信息。
  • 利用逻辑推理进行推理,得出新的事实信息。

大模型在语言生成方面需要能够:

  • 生成准确的事实陈述,符合事实陈述的语法和语义。
  • 生成简洁明了的事实陈述,易于理解。
  • 生成客观公正的事实陈述,不带有主观意见。

除了上述几个维度之外,大模型的事实核查还需要考虑以下因素:

  • 鲁棒性:大模型需要能够在面对复杂的事实核查问题时保持鲁棒性,避免出现错误。
  • 效率:大模型需要能够在合理的时间内完成事实核查任务。

大模型的事实核查技术还处于发展阶段,未来的研究需要在上述维度上进一步加强,以提高大模型的事实核查能力。

事实核查测试用例

FEVER:简单的事实核查评测
BARD:复杂的事实核查评测

FEVER评测基准的示例测试集包括如下:

事实陈述:巴黎是法国的首都。
问题:巴黎位于哪个国家?
答案:法国

事实陈述:地球是圆的。
问题:地球是圆的吗?
答案:是

事实陈述:水的沸点是 100 摄氏度。
问题:水的沸点是多少摄氏度?
答案:100

事实陈述:美国的首都是华盛顿特区。
问题:美国的首都是哪里?
答案:华盛顿特区

事实陈述:中国是世界上人口最多的国家。
问题:世界上人口最多的国家是哪个?
答案:中国

事实陈述:人类的血液由红细胞、白细胞和血小板组成。
问题:人类的血液由哪些成分组成?
答案:红细胞、白细胞和血小板

这些数据涵盖了广泛的事实核查问题,包括地理、历史、科学、社会等领域。

BARD 的复杂事实核查案例的测试集包括如下:

  • 问题:巴黎是哪个国家的首都?

  • 事实陈述:巴黎是法国的首都,但它也是欧洲的首都。

  • 答案:巴黎是法国的首都,但它不是欧洲的首都。

  • 问题:地球是圆的吗?

  • 事实陈述:地球是圆的,但它不是正圆。

  • 答案:地球是圆的,但它不是正圆。

  • 问题:水的沸点是多少摄氏度?

  • 事实陈述:水的沸点是 100 摄氏度,但在高海拔地区会降低。

  • 答案:水的沸点在海平面为 100 摄氏度,在高海拔地区会降低。

  • 问题:美国的首都是哪里?

  • 事实陈述:美国的首都是华盛顿特区,但它不是最大的城市。

  • 答案:美国的首都是华盛顿特区,但它不是最大的城市。

  • 问题:中国是世界上人口最多的国家吗?

  • 事实陈述:中国是世界上人口最多的国家,但印度很快就会超过它。

  • 答案:中国是世界上人口最多的国家,但印度很快就会超过它。

  • 问题:人类的血液由哪些成分组成?

  • 事实陈述:人类的血液由红细胞、白细胞和血小板组成,但血浆也是血液的重要组成部分。

  • 答案:人类的血液由红细胞、白细胞、血小板和血浆组成。

BARD与FEVER的差异不同

 

BARD 事实核查问题通常是多步推理的,需要模型能够理解事实陈述中的多个事实信息,并进行逻辑推理。例如,BARD 的事实核查问题“地球是圆的吗?”的事实陈述“地球是圆的,但它不是正圆”包含了两个事实信息:地球是圆的,但它不是正圆。模型需要理解这两个事实信息,并进行逻辑推理,才能得出“地球是圆的,但它不是正圆”的答案。

FEVER 事实核查问题通常是简单的,只需要模型判断事实陈述是否正确。例如,FEVER 的事实核查问题“地球是圆的吗?”的事实陈述“地球是圆的”只包含了一个事实信息。模型只需要判断这个事实信息是否正确,即可得出“是”的答案

 

  • 问题的复杂性:BARD 的问题通常是多步推理的,而 FEVER 的问题通常是简单的。
  • 事实信息的数量:BARD 的事实陈述通常包含多个事实信息,而 FEVER 的事实陈述通常只包含一个事实信息。
  • 答案的类型:BARD 的答案通常是多步推理的结果,而 FEVER 的答案通常是简单的判断。

BARD 数据集中的真实案例。这些案例具有以下特点:

  • 问题通常是多步推理的,需要模型能够理解事实陈述中的多个事实信息,并进行逻辑推理。
  • 问题通常具有歧义,需要模型能够消歧。
  • 问题通常涉及多个领域,需要模型能够跨领域知识推理。

这些案例表明,BARD 可以有效地处理复杂的事实核查问题。

 

posted @ 2023-12-08 18:41  Syw_文  阅读(210)  评论(0编辑  收藏  举报