NLP论文之That is a Known Lie: Detecting Previously Fact-Checked Claims

0.摘要

  最近虚假新闻的激增引发了一系列反应,最显著的是出现了几个人工事实核查举措(fact-checking)。因此,随着时间的推移,大量经事实核实的声明不断累积,这增加了社交媒体上的新声明或政客的新声明可能已经被某个值得信赖的事实核查组织进行事实核查的可能性,因为病毒性声明往往在社交媒体上传播一段时间后再次出现,政客们喜欢重复他们最喜欢的声明,对还是错,一遍又一遍。由于手动事实检查非常耗时(而全自动事实检查存在可信度问题),因此,务必尽量节省这项工作,并避免在已进行事实检查的声明上浪费时间。有趣的是,尽管这项任务很重要,但到目前为止,它在很大程度上被研究界忽视。在这里,我们的目标是弥合这一差距。特别是,我们制定了任务,并讨论了它与以前的工作的关系,但也不同于以前的工作。我们进一步创建了一个专门的数据集,并将其发布给研究社区。最后,我们介绍了“学习排名(learning-to-rank)”实验,这些实验表明,与最先进的检索和文本相似性方法相比,它们有了相当大的改进。

 

1.引言

  2016年的特点是与英国脱欧和美国总统选举有关的大规模虚假信息运动。虽然虚假陈述并不是一种新现象,例如,黄色媒体和小报已经存在了几十年,但由于社交媒体平台,这一次在规模和效果上都有了显著的不同,社交媒体平台既提供了一种接触数百万用户的媒介,也提供了一种根据精确的地理、人口、心理和/或政治貌相,对特定的狭隘选民群体进行微观定位的简便方法。各国政府、国际组织、科技公司、媒体、记者和普通用户发起了一系列举措,以限制新出现的大规模网络信息发布武器化的影响。值得注意的是,这包括手动事实核查举措,旨在揭穿各种虚假声明,以期限制其影响,但也教育公众,并非所有在线声明都是真实的。

  随着时间的推移,此类倡议的数量大幅增加,例如,在撰写本文时,杜克记者实验室列出了237个活跃的事实核查组织和另外92个不活跃的机构[2]。虽然一些组织仅揭穿了几百条指控,但其他组织,如Politifact[3],FactCheck.org[4],Snopes[5]和Full Fact[6]已经核实了数千甚至数万条声明。

 

 

  这些资源集合的价值已在研究界得到认可,并被用于训练系统执行自动事实检查(Popat等人,2017年;Wang,2017年;Zlatkova等人,2019年)或在政治辩论中检测可检查的主张(Hassan等人,2015年;Gencheva等人,2017年;Patwari等人,2017年;Vasileva等人,2019年)。还有一些数据集结合了来自多个事实核查组织的声明(Augenstein等人,2019年),同样是为了执行自动事实核查。

  有人认为,根据之前事实核查的声明数据库进行检查应该是端到端自动事实核查管道的一个不可或缺的步骤(Hassan等人,2017年)。图1对此进行了说明,其中显示了此类管道的一般步骤(Elsayed et al.,2019):(i)评估声明的检查价值(可能来自社交媒体、政治辩论等),(ii)检查之前是否对类似声明进行了事实检查(我们在此重点关注的任务),(iii)检索证据(从网络、社交媒体、维基百科、知识库等),以及(iv)评估声明的真实性。

 

  从事实核查人员的角度来看,大量之前经过事实核查的声明增加了需要核查的下一个声明可能已经由某个受信任的组织进行了事实核查。事实上,社交媒体上的病毒式言论往往会在一段时间后再次出现,众所周知,政客们会一次又一次地重复同样的言论[7]。因此,在花费数小时手动检查声明事实之前,首先要确保没有人已经这样做了。

  另一方面,手动事实检查往往来得太晚。一项研究表明,假新闻的传播速度是真实新闻的六倍(Vosoughi等人,2018年)。另一项研究表明,一些病毒性声明的传播超过50%发生在其在社交媒体上发布的前十分钟内(Zaman等人,2014年)。同时,可以自动且非常快速地检测到新的病毒性声明已经过事实检查,从而允许及时采取行动,限制传播和潜在的恶意影响。

  从新闻工作者的角度来看,快速检查一项声明之前是否已被事实核实的能力可能会带来革命性的变化,因为这将允许政客实时到场,例如在现场采访期间。在这种情况下,自动事实核查的效用有限,因为考虑到目前的技术状况,它在记者眼中无法提供足够的可信度。

  有趣的是,尽管在过去检测一项声明是否经过事实核查的任务很重要,但它在很大程度上被研究界忽视了。在这里,我们的目标是弥合这一差距。我们的贡献可以总结如下:

  ①我们制定了这个任务,并讨论了它如何与以前的工作相关,但与以前的工作不同。

  ②我们创建了一个专门的数据集,并将其发布给研究社区[8]。与以往的事实核查工作不同,后者使用来自事实核查数据集的标准化声明,我们处理自然发生的声明,例如,在辩论或社交媒体中。

  ③我们提出了一个排序学习的模型,它比现有的检索和文本相似性模型取得了相当大的改进。

  本文的其余部分组织如下:第2节讨论了相关工作,第3节介绍了任务,第4节介绍了数据集,第5节讨论了评价措施,第6节介绍了我们实验的模型,第7节描述了我们的实验,第8节总结并讨论了未来的工作。

 

2.相关工作

  据我们所知,检测一项声明是否经过事实核查的任务以前没有处理过。Hassan等人(2017)提到这是他们端到端自动事实核查管道的一个完整步骤,但关于该组件的细节很少,因此没有进行评估。

  在工业环境中,谷歌开发了事实检查浏览器[9],这是一种探索工具,允许用户搜索许多事实检查网站(使用schema.org[10]中的ClaimReview的网站),以查找主题、人物等。但是,该工具无法处理复杂的声明,因为它运行的谷歌搜索没有针对长声明的语义匹配进行优化。虽然这种情况在未来可能会发生变化,因为有报道称谷歌已经开始在搜索中使用BERT,但在撰写本文时,该工具无法将长时间的声明作为输入处理。

  ClaimsKG数据集和系统(Tchechmedjiev等人,2019年)是一项非常类似的工作,它包括来自多个来源的28K份声明,并组织成一个知识图(KG)。系统可以执行数据探索,例如,它可以找到包含特定命名实体或关键字的所有声明。相比之下,我们感兴趣的是检测之前是否对声明进行了事实核查。

  其他工作的重点是创建文本事实核查声明的数据集,而不是构建KG。其中一些较大的数据集包括PolitiFact的12.8K声明的说谎者数据集(Wang,2017),以及26个事实核查组织的38K声明的MULTICC数据集(Augenstein等人,2019),不同程度的10K声明真相(Rashkin等人,2017)数据集,以及其他几个数据集,这些数据集用于个人声明的自动事实核查,不用于检查输入声明之前是否进行了事实检查。请注意,虽然上述工作使用手动规范化的声明作为输入,但我们使用的是在政治辩论、演讲或社交媒体中自然出现的声明。

  关于声明和谣言的自动事实检查,也有很多研究,研究方向有几个不同。一个研究方向侧重于声明的社会方面,以及社交媒体用户对其的反应(Canini等人,2011年;Castillo等人,2011年;Ma等人,2016年;Gorrell等人,2019年;Ma等人,2019年)。另一个方向是在网络上挖掘证明或反驳该主张的信息(Mukherjee和Weikum,2015年;Karadzhov等人,2017年;Popat等人,2017年;Baly等人,2018b;Mihaylova等人,2018年;Nadeem等人,2019年)。在任何一种情况下,都必须对来源的可靠性以及声明相对于其他声明的立场进行建模;事实上,有人提出,声明可以仅基于其来源(Baly等人,2018a)或仅基于其立场(Dungs等人,2018)进行事实核查。第三个方向是对维基百科(Thorne等人,2018年;Nie等人,2019年)或一般文件集(Miranda等人,2019年)进行事实检查。第四个方向使用知识库或知识图(Ciampaglia等人,2015年;Shiadralkar等人,2017年;Gad Elrab等人,2019a,b;Huynh和Papotti,2019年)。另一个方向是基于表格进行事实核查(Chen等人,2019年)。最近也有关于使用语言模型作为知识库的研究(Petroni等人,2019年)。我们的研究是另一个研究方向。

  虽然我们在这里的主要贡献是新任务和新数据集,但我们还应该提到一些检索文档的工作。在我们的实验中,我们使用BM25(Robertson和Zaragoza,2009)进行检索,并使用基于BERT的相似性进行重新排序,这是最近最先进的检索模型中的常见策略(Akkalyoncu-Yilmaz等人,2019a;Nogueira和Cho,2019;Akkalyoncu-Yilmaz等人,2019b)。

  我们的方法与(Akkalyoncu-Yilmaz et al.,2019a)的方法最为相似,但我们在与BM25和BERT进行匹配时,与规范化声明、标题以及事实检查数据集中的文章全文不同;在组合不同的分数和排名时,我们还使用分数和对等排名。此外,我们用Sentence-BERT代替BERT。以前的研究认为,BERT本身并不能产生良好的句子表征。因此,有人提出了Sentence-BERT(Reimers和Gurevych,2019)等方法,这些方法经过专门训练,可以产生良好的句子级表达。这是通过对NLI和STS-B数据进行微调的孪生BERT网络实现的。事实上,在我们的实验中,我们发现句子BERT的表现比伯特好得多。通用句子编码器(Cer等人,2018年)是另一种选择,但在我们的实验中,Sentence-BERT效果更好。

  最后,我们的任务与语义关联性任务有关,例如,来自GLUE基准测试(Wang等人,2018),例如自然语言推理或NLI任务(Williams等人,2018),识别文本蕴涵,或RTE(Bentivogli等人,2009),释义检测(Dolan和Brockett,2005),以及语义文本相似性,或STS-B(Cer等人,2017)。但是,它也不同于它们,我们将在下面的部分中看到。

 

3.任务定义

  我们对任务的定义如下:给定一个可检查的输入声明和一组已验证的声明(verified claims),对这些已验证的声明进行排序,以便能够帮助验证输入声明或其中的子声明,排在任何不利于验证输入声明的声明之上。

  表1显示了一些经过输入验证的声明对的例子,其中输入的声明是2016年美国总统辩论的句子,经过验证的声明是政治事实(PolitiFact)中相应的事实核查的反部分。

 

  我们可以在表1的第1行看到一个小案例,其中验证的声明与输入声明相同;然而,这种情况并不常见,正如下面第7节中BM25基线的实验所示。

  第2行和第3行显示了更困难的情况,其中输入声明及其手动注释的对应部分在词汇选择上有很大的不同,而后者可以用于验证前者。

  第4行和第5行,显示了一个复杂的输入声明,其中包含两个子声明,每个子声明都由PolitiFact中的两个相应的声明来验证。

  从上面的例子中可以看出,很明显,我们的任务不是一个释义任务,如例子2-5所示。它也不是一个自然语言推理(NLI)或识别文本隐含(RTE)任务,因为一个声明可以有子声明,这使隐含推理变得复杂(如例4-5所示)。最后,该任务不仅仅是简单的文本相似性,因此它不仅仅是语义文本相似性(STS-B)的一个实例。

  请注意,我们并没有试图正式定义是什么使已验证的声明与输入声明良好匹配。相反,我们相信事实核查专家对此的手动注释,他们在评论政治辩论和演讲中的声明时执行。在许多情况下,事实核查人员在辩论/演讲中明确指出,以前经过事实核查的声明对应于给定的原始声明。对相关任务采用了类似的方法,例如,它被用于获取CLEFChecheckThat!实验室(阿塔纳索瓦等人,2018,2019年;Barr‘onCede˜no等人,2020年)。

 

4.数据集

  我们创建了两个数据集,为每一个数据集收集一组经验证的声明(verified claims)和匹配的输入经验证(matching input–verified claims)的声明对(以下,我们也将这些声明对称为输入经验证的声明对(Input-VerClaim pairs)):第一个数据集PolitiFact是关于政治辩论和演讲的,在第4.1节中进行了描述;第二个数据集Snopes包含推文,第4.2节对此进行了描述。

4.1PolitiFact Dataset

  PolitiFact是一个事实核查网站,主要关注政客、民选官员和一般有影响力的人的言论。政治事实通过为声明分配真实值并发布一篇提供背景信息和解释分配标签的文章来检查声明的事实。这与其他事实核查网站的运作方式类似。

  我们从PolitiFact中检索了16636个已验证的声明,分别填充以下字段:

  VerClaims:声明的文本,是原始声明的标准化版本,因为人类事实核查人员通常会重新表述它,例如,使其更清晰,上下文独立和独立;

  TruthValue:分配给声明的标签(我们在实验中不使用声明准确性标签,但我们收集它们以备将来可能使用。)

  Title:讨论该声明的关于政治事实的文章的标题;

  Body:这篇文章的正文

 

  通常,在一个重大的政治事件之后,如一个政治演讲或一场辩论,政治事实组织会发表报告(请注意,这些报告讨论了多项声明,与典型的PolitiFact关于特定声明的文章不同。),讨论在该事件期间提出的一些声明的事实性。对我们来说重要的是,在这些报告中,一些声明与政治事实中先前证实的声明有关。这样的原始声明和先前验证的声明形成我们的Claim-VerClaim对。

  我们收集了2012-2019年期间78个公共事件的概述报告,共收集了768对Input–VerClaim pairs。给定一个输入声明,我们将这对中相应的验证声明作为其匹配的VerClaim声明。一般来说,有1:1对应,但在某些情况下,输入声明映射到数据库中的多个VerClaim声明,在其他情况下,多个输入声明与同一VerClaim声明匹配。

  因此,当实例化到PolitiFact数据集时,第3节中的任务阅读如下:给定一个输入声明,对所有16,636个VerClaim声明进行排序,从而使其匹配的VerClaim声明排在首位。

4.2Snopes Dataset

  Snopes是一个专门调查神话、谣言和城市传说的网站。我们使用它提供的信息创建了第二个数据集,这次主要关注推文。我们从一篇关于一项声明的典型文章开始,在文章中查找可能提出该声明的推文链接。请注意,文章中提到的一些推文没有做出相应的验证声明,一些推文也没有做出任何声明;我们手动检查并过滤掉了这些推文。

  我们收集了1000条合适的推文作为输入声明,并将它们与相应的声明配对,即该页面与VerClaim声明大致相同。我们进一步从文章中提取了它的标题,以及输入声明的真实值(Snopes[13]中指定的声明评级)。

  input-verclaim对的示例如表2所示。将它们与表1中的那些进行比较,我们可以观察到,Snopes的推文通常更独立和上下文独立。

 

  最后,我们创建了一组VerClaim声明,以与使用ClaimsKG数据集中的Snopes声明相匹配(Tchechmedjiev等人,2019)。最终,我们的Snopes数据集包括1,000个input-verclaim对和10,396个已验证的声明。

关于数据集的统计数据如表3所示;这些数据集可以在线获得[8]

 

4.3分析

  在第3节中,我们讨论了将一些输入声明与相应的已验证声明进行匹配可能是一项非常重要的任务,并给出了简单和困难的示例。为了捕捉这种区别,我们将Input–VerClaim pairs分为两种类型。类型1对是这样的,输入声明可以使用简单的近似字符串匹配技术与VerClaim匹配。如表1第1行和表2第1-2行所示。相反,类型2对的输入声明无法轻松映射到VerClaim,如表1的第2-5行和表2的第3行。我们从PolitiFact Input–VerClaim pairs中手工标注了100对样本,发现其中48%为2型。

  我们进一步分析了使用字级TF-IDF从同一Input– VerClaim pair将输入声明与VerClaim匹配的复杂性。表4显示了这种相似性高于阈值的对的数量。我们可以看到,对于PolitiFact,只有27%的配对具有高于0.25的相似性分数,而对于Snopes,这个百分比为50%,这表明Snopes应该比PolitiFact更容易。

 

 

 

5.评价措施

  我们将任务视为排序问题。因此,我们使用排名评价措施,即平均倒数排名(MRR),平均平均精度(MAP),和MAP截断排序K。MAP@k.我们也报道HasPositive@k,也就是说,在top-k结果中是否存在真正的积极因素。

  例如MAP@k和HasPositive@k,k∈{1,3,5},在记者需要实时核实声明的情况下,这将是相关的,在这种情况下,系统将返回一个简短的3-5份声明清单,记者可以快速浏览,并确保它们确实匹配。

  我们将进一步报道MAP@k和HasPositive@k,k∈{10,20}以及MAP(非实时),这将更适合于非实时场景,其中回忆将更为重要。

 

6.模型

6.1BM25

  一个简单的基线是使用BM25(Robertson and Zaragoza,2009),这是信息检索中的经典方法。BM25根据查询中的单词与目标文档中的单词之间的精确匹配,为每个查询文档对分配一个分数,并使用该分数进行排名。我们对BM25进行了实验,使用输入声明作为对已验证声明的不同表示形式的查询:

  IR (Title):文章标题

  IR (VerClaim):经核实的声明

  IR (Body):文章正文

 

6.2BERT-Based Model

  BM25算法侧重于精确匹配,但正如表1中的第2行和表2中的第3行所示,输入声明可以使用完全不同的单词。因此,我们进一步尝试使用BERT进行语义匹配。

最初,我们试图微调BERT(Devlin等人,2019年),但效果不佳,可能是因为我们没有足够的数据来执行微调。因此,我们最终选择使用BERT(及其变体)作为句子编码器,并在倒数第二层执行最大池,以获得输入文本的表示。然后,我们计算数据集中输入声明和验证声明的表示之间的余弦相似性,并使用该相似性进行排名。

  BERT:base

  RoBERTa:base

  sentence-BERT:base:BERT,经过专门训练,能够产生良好的句子表达(Reimers和Gurevych,2019);这与BERT和RoBERTa不同,我们发现完全不相关的主张之间的余弦相似性通常相当高;

  sentence-BERT:large

  BERT on full articles:我们进一步扩展了上述模型,以与文件正文(Body)相匹配,借鉴并进一步发展了(Yang等人,2019年)的想法。我们使用Sentence-BERT对Body中的每个句子进行编码,然后计算输入声明和每个句子之间的余弦相似性。接下来,我们收集每个声明文件对(claim-document pair)的分数,而不是只有一个分数代表输入和验证声明之间的相似性。这些分数包括(i)声明与VerClaim的余弦相似性,(ii)声明与标题,以及(iii)声明与正文句子的前n名分数。最后,我们训练了一个二元分类器,该分类器接受所有这些分数,并预测声明文档对是否匹配良好。

 

6.3ReRanking

  由于BM25和BERT捕获不同类型的信息,因此可以根据BM25返回的排名和在嵌入声明对时计算的相似性分数(the similarity scores computed on the embedding of the claim pairs),将它们组合起来创建一组特征。接下来(Nogueira et al.,2019),我们使用了一种重新排序算法,即带有RBF kernel的rankSVM,它使用成对损失学习排序。

 

7.实验

  下面我们将描述我们在PolitiFact和Snopes数据集上的实验。我们先从基于IRbased Model开始,然后是基于BERT的声明和文章语义相似性,最后我们用learning-to-rank models进行排序。

7.1Politifact Experiments

  对于Politifact数据集,我们使用第6节中的所有模型进行实验,结果如表5所示。

 

 

 

7.1.1 Experiment 1: BM25-based Baselines

  我们进行了实验,将Input与Title, VerClaim, Body和Title+VerClaim+Body进行匹配。我们可以在表5中看到,使用标题产生的结果在很大程度上是最低的。这是因为标题只是一个摘要,而VerClaim和Body包含更多细节和上下文。我们可以进一步看到,在所有衡量标准上,最好的表现是使用Body,它的性能比使用VerClaim好0.12-0.14MAP@k和MAP,在MRR上0.09。这可能是因为文章正文较长,这增加了有更多单词匹配输入声明的可能性。最后,匹配所有三个目标比只使用Body略差。

7.1.2 Experiment 2: Semantic Matching

  接下来,我们对输入声明和VerClaim之间的余弦相似性进行了实验,因为上面的BM25实验表明,使用VerClaim比使用Title更好。我们可以在表5中看到,BERT:uncased在所有衡量指标上都优于RoBERTa(区分大小写),这表明套管可能并不重要。我们进一步发现,最好的语义模型是句子伯特:句子伯特的基本变体和大变体在所有测量中都比伯特和罗伯塔至少绝对高13%(在某些情况下,差距要大得多)。

7.1.3 Experiment 3: BERT on Full Articles

  接下来,我们进行了完整文章的实验,我们使用了句子BERT的大模型,因为它比表5所示的其他BERT模型表现得更好。我们使用句子BERT:large提取了每个声明文档对的相似性分数。然后我们训练了一个简单的神经网络(20-relu10-relu)进行分类。我们使用学习率为1e-3的Adam优化器对模型进行了15个阶段的训练,批量大小为2048。我们进一步使用了类别权重,因为数据严重不平衡:在1000万份声明文件对中,有614份为正例,因为我们将614份输入声明与数据库中的16636份经验证的声明配对。我们对从身体上获得的不同数量的top-n余弦分数进行了实验,因为我们想调查模型性能和它使用的信息之间的关系。

  在表5的完整文章部分中,我们可以看到,使用文章正文中前四个最匹配句子的分数,以及VerClaim和文章标题的分数,产生了最好的表现。此外,结果与BM25的结果更接近,尽管总体而言,它们仍然落后一点。

7.1.4 Experiment 4: Reranking

  最后,我们训练了一个成对的RankSVM模型,对使用IR:Body检索到的前N个结果重新排序。对于top-N列表中的每一对声明文件,我们收集了IR:Title、IR:VerClaim、IR:Body的分数,以及N 4的BERT:large句子的分数,以及相应的倒数排名。如第6.3节所述,使用这两种方法可以产生更好的预测,因为这结合了精确匹配和语义相似性。我们可以在表5中看到,与之前实验中的模型相比,re ranker产生了一致且相当大的改进,在不同的测量中,绝对值提高了0.04-0.05点,这是值得注意的,因为文献中众所周知,BM25是IR任务的非常强的基线。这是因为我们的重新排序器能够使用精确匹配和语义匹配来定位数据集中发现的不同类型的对。我们还注意到,当我们增加正在被重新排序的列表的长度,直到其长度达到100时,重新排序的性能有所提高,之后它开始降级。

 

7.2 Experiments on Snopes

  在Snopes数据集上,我们进行了类似于PolitiFact数据集的实验,但有一些不同,最重要的是,这次我们没有对文章正文进行匹配,因为在Snopes数据集中用作输入声明的推文是从文章正文中提取的。请注意,对于PolitiFact数据集来说,这不是一个问题,因为辩论/演讲中的输入声明需要进行大量规范化,并且无法在文章正文中逐字找到。表6报告了评价结果。

 

 

7.2.1 Experiment 1: BM25-based Baselines

  我们使用BM25进行了三个实验,将输入与Title、VerClaim和Title VerClaim进行匹配。我们可以在表6中看到,就像PolitiFact一样,使用VerClaim比使用文章标题表现更好,这对所有评估指标都是正确的;然而,这一次的差距比PolitiFact要小得多。我们进一步注意到所有人的情况都有了小的改善MAP@k与文章标题和声明匹配时的度量。总的来说,由于输入声明和验证声明之间的高单词重叠,BM25是SNOPE的一个非常强的基线(同样,与PolitiFact相比,正如我们在上面的表4中所看到的)。

7.2.2 Experiment 2: Semantic Matching

  基于PolitiFact的经验教训,对于语义匹配,我们只对句子进行了实验。我们可以在表6中看到,几乎所有报告的测量结果都比BM25的结果低至少0.10个绝对值;然而,这一差距小于政治行动。在这些实验中,与经验证的声明相匹配的结果再次超过了与文章标题相匹配的结果。

7.2.3 Experiment 3: BERT on Full Articles

  如上所述,在完整文章中,我们没有将输入推文与文章正文进行匹配,因为这很容易给出答案:推文可以在目标文章中逐字找到。为了进行比较,在尝试匹配之前,我们尝试从文章正文中过滤出输入推文的文本,但仍然得到了不切实际的高结果。因此,我们最终决定放弃这些实验。

7.2.4 Experiment 4: Reranking

  最后,我们训练了一个成对的RankSVM模型,对IR:VerClaim Title的前N个结果重新排序。对于top-N列表中的每个声明文档对,我们从IR:Title、IR:VerClaim、IR:VerClaim Title、句子BERT:large:Title和句子BERT:large:VerClaim中提取分数,并根据这些分数为所有目标文档提取相应的倒数排名。这与PolitiFact相同,只是现在我们不使用分数将输入匹配到文档体。我们可以在表6中看到,在所有评估指标上,最佳重新排名模型比最佳个人模型产生了0.09-0.18分的显著改善。

  比较Snopes和PolitiFact的最佳重新排名模型,我们可以看到,与PolitiFact的前100名相比,Snopes在使用前50名列表时表现最好。我们认为,这是因为用于提取前N对的检索模型的性能不同:对于Snopes,IR:VerClaim Title的MMR分数为0.664,而最佳政治模型IR:Body的MRR分数为0.565。因此,对于Snopes,我们重新排列一个由更强的IR模型提取的N-best列表,因此不需要深入列表。

 

8.结论和未来工作

  我们认为,有必要将检测之前经过事实核查的主张作为一项本身的任务来处理,这可能是自动事实核查的一个组成部分,也可能是帮助人类事实核查人员或记者的工具。我们创建了专门的数据集,并将其与我们的代码一起发布给研究社区,以便进行进一步的研究。最后,我们介绍了学习torank实验,展示了相对于最先进的检索和文本相似性方法的巨大改进。在未来的工作中,我们计划将这项工作扩展到更多的数据集和更多的语言。我们还想超越文本声明,将claim-image和claim-video对作为输入。

posted @ 2022-03-31 16:36  wpwpwpyo  阅读(375)  评论(0)    收藏  举报