ACL21-SimCLS: A Simple Framework for Contrastive Learning of Abstractive Summarization

Motivation

生成式文本摘要往往采用seq2seq模型的方法,这种方法存在两个问题,一方面学习的目标函数和最终的评价指标不一致,目标函数使用最大似然函数,是字符级别的,而评价指标是ROUGE等,都是句子级别的,会在全局比对生成的句子和基准的差异。另一方面,由于训练时使用teacher-forcing,在测试阶段,模型需要持续输出一个序列,并没有中间token级别的监督输入,在解码时前面积累的偏差,会影响整个模型输出的效果,训练和测试之间的这种gap被称为曝光偏差。在这篇文章中,作者提出了SimCLS模型,将摘要生成和对比学习分离开,分为两个阶段,首先训练seq2seq模型,利用最大似然估计生成候选摘要,然后利用对比学习训练模型,对候选摘要进行reference-free的评价,选出最佳的摘要。

Summary

作者提出了一个概念简单但足够有效的摘要生成框架:SimCLS,在当前的SOTA摘要生成模型(BART、Pegasus)基础上,SimCLS在生成模型之后加上了一个无参考摘要的候选摘要打分模型,该打分模型的训练采用了对比学习的思想。SimCLS可以缓解Seq2Seq框架固有的目标函数和评价指标不一致的问题,从而可以从模型生成的候选摘要中筛选出真实的评价指标(ROUGE)打分更高的摘要。

摘要

在本文中,我们提出了一个概念简单但经验强大的抽象总结框架SIMCLS,通过将文本生成定义为一个由对比学习辅助的无参考评估问题(即质量评估),SIMCLS可以弥合学习目标与当前主导的序列到序列学习框架产生的评估指标之间的差距。实验结果表明,SimCLS在现有顶级评分系统基础上稍加修改,就能大幅度提高现有顶级模型的性能。特别是,在CNN/DailyMail数据集上,与BART (Lewis等人,2020年)相比的绝对改善为2.51,与PEGASUS (Zhang等人,2020a) w.r.t ROUGE-1相比的绝对改善为2.50,将最先进的性能提升到一个新的水平。我们的代码和结果是开源的。我们提出的模型的结果已部署到EXPLAINABOARD (Liu et al.,2021a)平台,该平台允许研究人员以更细粒度的方式了解我们的系统。

1 引言

序列到序列(Seq2Seq)神经模型(Sutskever et al., 2014)已被广泛用于语言生成任务,如文摘摘要(Nallapati et al., 2016)和神经机器翻译(Wu et al., 2016)。而抽象模型(Lewis等人,2020;Zhang等人,2020a)在总结任务中显示出了很好的潜力,他们共享了Seq2Seq模型训练的广泛公认挑战。具体而言,Seq2Seq模型通常在最大似然估计(Maximum Likelihood Estimation, MLE)框架下进行训练,在实践中通常使用教师强迫算法(Williams and Zipser, 1989)进行训练。这就引入了目标函数和评价指标之间的差距,因为目标函数是基于局部的、标记级的预测,而评价指标(例如ROUGE (Lin, 2004))会比较黄金参考和系统输出之间的整体相似性。此外,在测试阶段,模型需要自回归地生成输出,这意味着在前面的步骤中所犯的错误将会累积。在之前的研究中,训练和测试之间的这种差距被称为暴露偏差(Bengio等人,2015;Ranzato等人,2016)。

方法的主线(Paulus等人,2018;Li等人,2019年)提出使用强化学习(RL)范式来缓解上述差距。虽然RL训练使基于全局预测并与评估指标密切相关的奖励训练模型成为可能,但它也引入了深度RL的常见挑战。具体来说,基于RL的训练存在噪声梯度估计(Greensmith et al., 2004)问题,这往往使训练不稳定,对超参数敏感。作为一种替代方法,最小风险训练也被用于语言生成任务(Shen等人,2016;Wieting等人,2019年)。然而,估计损失的准确性受到采样输出数量的限制。其他方法(Wiseman和Rush, 2016;Norouzi等,2016;Edunov等人,2018)的目标是扩展MLE的框架,将句子级别的分数纳入目标函数。虽然这些方法可以缓解MLE训练的局限性,但其方法中使用的评价指标和目标函数之间的关系可能是间接和隐式的。

在此背景下,在本研究中,我们概括了对比学习的范式(Chopra et al., 2005),引入了一种抽象摘要的方法,实现了用相应的评价指标直接优化模型的目标,从而减轻了MLE训练中训练和测试阶段之间的差距。而一些相关工作(Lee等人,2021;Pan等人,2021年)提出引入对比损失作为条件文本生成任务的MLE训练的补充,我们选择通过在我们提出的框架的不同阶段引入对比损失和MLE损失来分解它们的功能。

具体来说,受Zhong等人(2020)近期工作的启发;Liu等人(2021b)在文本摘要方面,我们建议使用两阶段模型进行生成式摘要,其中Seq2Seq模型首先经过训练,生成具有MLE损失的候选摘要,然后训练参数化评估模型,通过对比学习对生成的候选摘要进行排序。通过对生成模型和评估模型分别进行优化,我们可以通过监督学习对这两个模块进行训练,绕过了基于RL的方法具有挑战性和复杂的优化过程。

我们在这项工作中的主要贡献是通过提出一个使用对比学习生成然后评估的两阶段框架,来接近面向度量的抽象摘要训练,这不仅将CNN/DailyMail的最先进的性能提高到一个新的水平(与基线模型相比提高了2.2 ROUGE-1),还展示了这两阶段框架的巨大潜力。呼吁未来使用极大似然估计之外的方法来优化Seq2Seq模型。

2 抽象摘要的对比学习框架

给定源文档 \(D\) 和参考摘要\(\hat S\),抽象摘要模型 \(f\) 的目标是生成候选摘要 \(S = f(D)\),从而获得由评估指标 \(M\) 分配的最高分数 \(m = M(S,\hat S)\)。在这项工作中,我们将整体生成过程分为两个阶段,其中包括生成候选摘要的生成模型 \(g\) 和评分及选择最佳候选人的评估模型 \(h\)图1说明了总体框架。

图1: 两阶段摘要的SimCLS框架,其中Doc, S, Ref分别代表文档,生成摘要和参考摘要。在第一阶段,使用Seq2Seq生成器(BART)生成候选摘要。在第二个阶段,使用一个评分模型(RoBERTa)根据源文档预测候选摘要的性能。评分模型使用对比学习进行训练,其中训练示例由Seq2Seq模型提供。

第一阶段:候选摘要生成模型 \(g(·)\) 是一个Seq2Seq模型,经过训练,在给定源文档 \(D\) 的情况下,使参考摘要 \(\hat S\) 的可能性最大化。然后使用预先训练的 \(g(·)\) 产生多个候选摘要 \(S_1,···,S_n\),并使用采样策略,如光束搜索,其中 \(n\) 为抽样候选的数量。

第二阶段:Reference-free评价 高层次的想法是,更好的候选摘要 \(S_i\) 应该在源文档 \(D\) 中获得更高的质量分数。我们通过对比学习来接近上述想法,并定义一个评估函数 \(h(·)\),旨在给\(g(·)\) 生成的候选摘要 \(S_i\) 打不同的分数 \(r_1 , ··· , r_n\),即 \(r_i=h(S_i,D)\)。最终的输出的摘要 \(S\) 是最高分数的候选摘要:

在这里,我们将 \(h(·)\) 初始化为一个大型预训练的自注意模型RoBERTa。首先分别对 \(S_i\)\(D\) 进行编码,将计算各第一个标记编码[CLS]时的余弦相似度,将其作为候选摘要的相似度评分 \(r_i\)

对比训练 文章的亮点在于,作者没有像大多数现有的对比学习工作那样显式地构建一个正负样本(Chen等人,2020;Wu et al., 2020),这里的“对比”反映在不同的候选摘要 \(S_i\) 与源文档 \(D\) 的相关性得分上。具体来说,我们向 \(h(·)\) 引入排序损失(将对比损失推广到排序损失)而是利用生成阶段的MLE的分数,构建对比损失:

其中 \(\widetilde{S}_1,···,\widetilde{S}_n\)\(M(\widetilde{S}_i,\widetilde{S})\) (ROUGE得分)降序排序。这里,\(λ_{ij} = (j−i)∗λ\) 是我们在Zhong等人(2020)之后定义的对应边距,\(λ\) 是一个超参数,用来调节每两个相邻的位置差会带来多大的间隔。\(M\) 可以是任何自动评估指标或人类判断,这里我们使用ROUGE (Lin, 2004)。

大体上说,在训练过程中,\(h(·)\) 会学习真实评价指标的排序模式,即真实的评价指标负责提供希望模型学习的排序结果,而模型需要在没有参考摘要的条件下依靠原文档为候选摘要排序。

3 实验

3.1 数据集

我们的实验使用了两个数据集。数据集统计数据列于附录A。

CNNDM CNN/DailyMail(Hermann等人,2015;Nallapati et al., 2016)数据集是一个大型新闻文章数据集。

XSum (Narayan et al., 2018) XSum数据集是一个高度抽象的数据集,包含来自英国广播公司(BBC)的在线文章。

3.2 评价指标

我们采用ROUGE-1/2/L (R-1/2/L)作为实验的主要评价指标。我们还根据最近开发的语义相似度指标,即BERTScore (Zhang等人,2020b)和MoverScore (Zhao等人,2019),评估我们的模型。

3.3 基础系统

由于我们的两阶段框架中的生成模型和评估模型是分开训练的,我们使用预先训练的最先进的抽象摘要系统作为我们的生成模型。具体来说,我们使用BART (Lewis et al., 2020)和Pegasuss (Zhang et al.,2020a),因为它们很受欢迎,并且已经被综合评估过。

3.4 训练细节

对于基线系统,我们使用Transformers (Wolf et al., 2020)库提供的检查点。我们使用不同的波束搜索(Vijayakumar et al., 2016)作为抽样策略来生成候选摘要。我们使用16组样本进行多样性抽样,得到16个候选样本。为了训练评估模型,我们使用Adam优化器(Kingma和Ba, 2015)和学习率调度。验证集上的模型性能用于选择检查点。更多的细节在附录B中描述。

3.5 CNNDM数据集的结果

在CNNDM数据集上的结果如表1所示。我们使用预训练的BART作为基本生成模型(Origin)。我们使用BART、Pegasus、GSum (Dou等人,2021年)和ProphetNet (Qi等人,2020年)进行比较。值得注意的是,总是选择最佳候选的Max oracle具有比原始输出更好的性能,这表明使用多样化的抽样策略可以进一步开发预先训练的抽象系统的潜在能力。除了ROUGE之外,我们还给出了语义相似度的评价结果。我们的方法在所有度量指标上都优于基线模型,表明它的改进超越了ROUGE的潜在工件。虽然改进的规模更难用这些度量解释,我们注意到改进能够通过显著性检验。

表1:CNNDM的结果。BS表示BERTScore, MS表示MoverScore。Origin表示基线模型的原始性能。Min、Max、Random是根据候选摘要的ROUGE分数来选择候选摘要的oracles。†:显著优于基线模型(Origin) (p < 0.01)。*:原始论文报告的结果。

在计算能力的限制下,我们尽量使用尽可能多的候选摘要进行评价模型的训练。然而,我们也注意到,我们的方法对于特定数量的候选是稳健的,因为在测试中,我们发现我们的模型仍然能够在候选人较少的情况下优于基线模型,如图2所示。

图2: 在CNNDM上测试不同数目的候选摘要的性能。Origin表示基线模型的原始性能。

3.6细粒度分析

为了证明我们的方法能够对摘要质量做出有意义的改进,这里我们将我们的方法与CNNDM上不同语义级别的基线模型进行比较。

3.6.1 实体级别

受Gekhman等人(2020)和Jain等人(2020)工作的启发,我们比较了显著实体的模型性能,这些显著实体是参考摘要中出现的源文档中的实体。具体来说,(1)我们从源文档中提取实体,(2)基于参考摘要中的实体选择显著实体,(3)将显著实体与候选摘要中的实体进行比较。表3的结果表明,我们的方法可以更好地捕获源文档的重要语义信息。

3.6.2 句子级别

句子对齐 在这里,我们研究了我们的方法与基线模型相比是否会造成句子水平的差异。具体来说,(1)我们根据摘要中的每个句子与源文档中的一个句子的相似度(由ROUGE分数表示)来匹配它们,(2)根据参考文献和系统生成的摘要在源文档中匹配句子的重叠度计算它们之间的句子级相似度。从表3的结果可以看出,我们的方法生成的摘要在句子层面上更接近于参考摘要。

表3:CNNDM数据集的性能分析。Origin表示基线模型的原始性能。

位置偏差表2中,我们给出了一个句子对齐的案例研究。我们使用相同的匹配方法将摘要句子与源文章中的句子进行匹配。在这个示例中,我们方法的输出与参考摘要关注的是相同的句子,而基准摘要关注的是不同的句子。

表2: CNNDM数据集上源文章和摘要之间的句子对齐。用于参考和总结的对齐句子被加粗(它们在本例中相同)。基线摘要的对齐句子用斜体字表示。Origin表示基线模型的原始性能。

有趣的是,参考文献的摘要集中在文章的最后一句话,我们的方法可以遵循这个模式。通过检查这个模式,我们注意到抽象模型在处理长源文章(超过30个句子)时存在位置偏差。从图3可以看出,与参考摘要相比,基线摘要更倾向于关注标题句,这可能是Seq2Seq模型的自回归生成过程造成的。我们的方法能够缓解这种偏差,因为候选采样过程(不同波束搜索)产生的候选结果与原始输出不同,我们的评估模型可以评估候选结果的整体质量。

图3:位置偏差。X-asis:对应句子在源文件中的相对位置。Y轴:匹配句子的比例。为了公平比较,文章首先被截短为生成器的最大输入长度。Origin表示基线模型的原始性能。

3.7 XSum数据集上的结果

为了评估我们的方法在CNNDM数据集之外的性能,我们还在XSum数据集上测试了我们的方法,结果如表4所示。这里,我们使用Pegasus作为基本系统,因为它在XSum上比BART性能更好。我们遵循相同的抽样策略来生成训练数据。然而,由于这种策略在XSum数据集上通常会导致较低的ROUGE-2分数,所以我们使用不同的策略来生成验证和测试数据(由4个不同的组生成4个候选数据)。我们的方法仍然能够优于基线,但与CNNDM相比,边际较小。XSum中的摘要较短(一句话),更抽象,限制了候选者的语义多样性,难以进行有意义的改进。

表4:XSum数据集上的结果。BS表示BERTScore, MS表示MoverScore。Origin表示基线模型的原始性能。Min、Max、Random是根据候选摘要的ROUGE分数来选择候选摘要的oracles。†:显著优于基线模型(Origin) (p < 0.05)。*:原始论文报告的结果。

4 结论

在这项工作中,我们提出了一个对比摘要框架,旨在优化在摘要级别生成的摘要的质量,这减轻了MLE框架中训练和测试阶段之间的差异。除了在CNNDM数据集上较基线模型有显著改进外,我们还在不同语义层次上进行了综合评价,解释了该方法改进的来源。值得注意的是,我们的实验结果还表明,现有的抽象系统具有产生候选摘要的潜力,比原始输出要好得多。因此,我们的工作为未来的方向开辟了可能性,包括:(1)将这两阶段策略扩展到其他数据集的抽象模型;(2)改进抽象模型的训练算法,使优化过程更加全面。

本文的出发点是希望解决训练和测试的不一致的问题,这个问题可以分为两个方面,一个是自回归式的 MLE 本身存在的曝光偏差问题,另一个是目标函数和评价指标的不一致问题,而本文主要致力于解决后一个问题。

本文的思路并不复杂,就是利用对比学习训练了一个能够在没有参考摘要的条件下打分的评价模型,该评价模型选择出的摘要在真实的评价指标上的表现比随机选择更好。这一思路其实可以推广到所有目标函数和评价指标不一致的场景下,即用可微的模型去学习不可微的评价指标,以获取一个近似的打分函数。

第二阶段所谓的Reference-free Evaluation,其实就是计算相似度,这个方法没有什么特别,只不过套了一个Contrastive Learning的壳儿。在实际使用中,其实原文包括很多噪声,我们期望通过抽象的摘要生成,来去掉这些噪声,提取核心意思。该方法在噪声较多的场景中,提取核心意思。该方法在噪声较多的场景中,可能无法得到好的效果。

posted @ 2022-06-08 15:23  万事胜意HX  阅读(444)  评论(0)    收藏  举报