MDFEND: Multi-domain Fake News Detection

MDFEND: Multi-domain Fake News Detection

MDFEND:多领域假新闻检测

作者:南琼、曹娟   CIKM 2021 short paper

论文地址:https://arxiv.org/pdf/2201.00987.pdf

数据集和代码:https://github.com/kennqiang/MDFEND-Weibo21

 

本文首次建模和探索多领域虚假新闻检测问题。具体地,我们首先构建了首个中文多领域虚假新闻数据集——Weibo21,该数据集包含来自于政治、军事、社会生活等9个领域的真假新闻数据;此外,我们提出了一种简洁而有效的多领域虚假新闻检测模型——MDFEND,该模型通过“领域门”聚合多个“专家”的表示。实验表明,我们的方法在多领域虚假新闻检测效果上有显著提升。

一、中文多领域虚假新闻检测数据集Weibo21

从微博社区管理中心爬取了从2014年12月至2021年3月的数据,为了获取真实数据,我们收集了被睿鉴识谣平台核实为“真”的数据,并保证了数据的时间分布范围与虚假数据一致。对于每一条数据,我们收集了多个维度的信息,包括文本内容、配图、时间戳、评论、辟谣信息(只针对虚假信息)。我们发现,收集到的原始数据存在很多重复,因此我们采用one-pass聚类的方法进行去重。最终我们获得了4,488条虚假新闻和4,640条真实新闻。

我们参考了多个事实核查网站和相关研究报告后,确定了以下9个领域:科技、军事、教育、事故、政治、健康、财经、娱乐、社会。10名标注人员独立对整个数据集进行了领域标注,当多于8名标注人员达成一致时就确定最终的领域标签,否则进一步讨论、评估以达成一致。最终的数据统计信息如表1所示。

 

二、多领域虚假新闻检测模型MDFEND

我们提出了多领域虚假新闻检测模型MDFEND,整体框架如下图所示。

 

详细框架解读见:https://zhuanlan.zhihu.com/p/443690475

三、实验

 

上表中分别为:

l  单领域模型基线:TextCNN_single 、BiGRU_single、BERT_single;

l  混合领域模型基线:TextCNN_all 、BiGRU_all、BERT_all;

l  多领域模型基线:EANN、MMOE、MOSE、EDDFN。

 

(吐槽……):

尽管他是short paper我也没有嫌弃他,个人还是从主观上对他很感兴趣,珍藏了半个月打算有空的时候一定要拿出来仔细观摩一下,因为我以为的Multi-domain是多模态,是我知识浅薄了,也可能是我魔怔了居然下意识就把这两个东西想成了一个东西……

 

posted @ 2022-11-22 16:54  silvan_happy  阅读(650)  评论(0编辑  收藏  举报