基于基础语言模型的文本摘要零样本学习忠实度评价

https://arxiv.org/pdf/2310.11648v1.pdf

1.问题：摘要模型的忠诚度问题。

以前的方法：

在其他任务上训练的模型（通过零样本学习）转移到摘要领域。（模型性能缺乏保证）
使用合成域内数据进行弱监督评估。（泛化能力差）
用ChatGPT，通过设计prompts以零样本学习方式查询模型进行评估。（这种强语言模型对细微差别敏感，在不同的prompt下表现的性能不稳定）

综上所述，作者认为一个理想的摘要忠实度评估指标应该是：1独立于其他任务的，2能在不同的基准上推广的，3大模型几乎学习到了所有知识，prompt只是为了教模型产生高质量的输出。（看过答案，不是本质上的忠诚度）。仅用基础模型来计算忠诚度。

提出了一个综合评价度量FFLM。

2.方法

给定原文档X={x1，...，xn}和相应的摘要Y={y1，...，ym}。目的是在基础模型LM上设计一个度量Y的忠实度。

2.1 通过概率变化测量忠实度

直觉中，当提供更多相关和一致的信息时，一段文本的生成概率会增加。相反，当信息不一致时，生成概率会下降。

随先验概率的变化

摘要Y的先验概率可由基础模型LM估计：

在给定X的情况下，Y的概率为：

如果Y是忠实的摘要，那么\(p^{s2s}\)应该大于\(p^{lm}\)。因为通过条件X的作用，给了更多和Y一致的信息。
因此忠实度量可以定义为：

从另一个角度来看，我们期望Y的生成高度依赖于X，而不是存储在LM中的参数化知识，这是幻觉的主要来源.

同样，一个忠实的摘要Y可以支持原文X中的内容。因此，给定Y的X的概率与先验概率X之间的差是另一种合理的度量：

随条件概率的变化

不是将s2s的生成概率与先验概率进行比较，另一种方法是在输入文档X之外添加更多的信息P，从而对Y的生成概率产生影响。
简单地，设置P = Y。这样，如果Y与X不一致，前缀P会导致输入中的信息矛盾，使Y相对于一致的Y出现的概率降低。

没有和上文一样把X和Y反过来。主要原因是X比Y长的多，输出成本高。

2.2一种可行的FFLM设计

Goyal等在训练摘要模型时发现，高损失的token通常对应不忠实的内容。因此我们认为在计算忠实度分数的时候，应该更多的关注这种高损失（或者低概率）的token。

首先，在减法之间取对数，这将放大低概率token的变化。其次，根据\(p^{s2s}_{Y}\)和\(p^{s2s}_{X}\)对每个token重新加权：

最后，FFLM是这些度量的混合：
其中，α、β、δ为权重参数，取值范围为0 ~ 1，α + β + δ = 1。这三个权重可以在验证集上调优，或者手动设置为超参数。

posted @ 2023-10-23 15:32 ︶ㄣ演戲ㄣ阅读(93) 评论(0) 收藏举报

刷新页面返回顶部