基于基础语言模型的文本摘要零样本学习忠实度评价

image

https://arxiv.org/pdf/2310.11648v1.pdf

1.问题:摘要模型的忠诚度问题。

以前的方法:

  1. 在其他任务上训练的模型(通过零样本学习)转移到摘要领域。(模型性能缺乏保证)
  2. 使用合成域内数据进行弱监督评估。 (泛化能力差)
  3. 用ChatGPT,通过设计prompts以零样本学习方式查询模型进行评估。(这种强语言模型对细微差别敏感,在不同的prompt下表现的性能不稳定)

综上所述,作者认为一个理想的摘要忠实度评估指标应该是:1独立于其他任务的,2能在不同的基准上推广的,3大模型几乎学习到了所有知识,prompt只是为了教模型产生高质量的输出。(看过答案,不是本质上的忠诚度)。仅用基础模型来计算忠诚度。

提出了一个综合评价度量FFLM。

2.方法

给定原文档X={x1,...,xn}和相应的摘要Y={y1,...,ym}。目的是在基础模型LM上设计一个度量Y的忠实度。

2.1 通过概率变化测量忠实度

直觉中,当提供更多相关和一致的信息时,一段文本的生成概率会增加。相反,当信息不一致时,生成概率会下降。

随先验概率的变化

摘要Y的先验概率可由基础模型LM估计:image

在给定X的情况下,Y的概率为:image

如果Y是忠实的摘要,那么\(p^{s2s}\)应该大于\(p^{lm}\)。因为通过条件X的作用,给了更多和Y一致的信息。
因此忠实度量可以定义为:image

从另一个角度来看,我们期望Y的生成高度依赖于X,而不是存储在LM中的参数化知识,这是幻觉的主要来源.

同样,一个忠实的摘要Y可以支持原文X中的内容。因此,给定Y的X的概率与先验概率X之间的差是另一种合理的度量:
image

随条件概率的变化

不是将s2s的生成概率与先验概率进行比较,另一种方法是在输入文档X之外添加更多的信息P,从而对Y的生成概率产生影响。
简单地,设置P = Y。这样,如果Y与X不一致,前缀P会导致输入中的信息矛盾,使Y相对于一致的Y出现的概率降低。
image
没有和上文一样把X和Y反过来。主要原因是X比Y长的多,输出成本高。

2.2一种可行的FFLM设计

Goyal等在训练摘要模型时发现,高损失的token通常对应不忠实的内容。因此我们认为在计算忠实度分数的时候,应该更多的关注这种高损失(或者低概率)的token。

首先,在减法之间取对数,这将放大低概率token的变化。其次,根据\(p^{s2s}_{Y}\)\(p^{s2s}_{X}\)对每个token重新加权:
image
最后,FFLM是这些度量的混合:image
其中,α、β、δ为权重参数,取值范围为0 ~ 1,α + β + δ = 1。这三个权重可以在验证集上调优,或者手动设置为超参数。

posted @ 2023-10-23 15:32  ︶ㄣ演戲ㄣ  阅读(90)  评论(0)    收藏  举报