MDFEND: Multi-domain Fake News Detection

MDFEND：多领域假新闻检测

作者：南琼、曹娟 CIKM 2021 short paper

论文地址：https://arxiv.org/pdf/2201.00987.pdf

数据集和代码：https://github.com/kennqiang/MDFEND-Weibo21

本文首次建模和探索多领域虚假新闻检测问题。具体地，我们首先构建了首个中文多领域虚假新闻数据集——Weibo21，该数据集包含来自于政治、军事、社会生活等9个领域的真假新闻数据；此外，我们提出了一种简洁而有效的多领域虚假新闻检测模型——MDFEND，该模型通过“领域门”聚合多个“专家”的表示。实验表明，我们的方法在多领域虚假新闻检测效果上有显著提升。

一、中文多领域虚假新闻检测数据集Weibo21

从微博社区管理中心爬取了从2014年12月至2021年3月的数据，为了获取真实数据，我们收集了被睿鉴识谣平台核实为“真”的数据，并保证了数据的时间分布范围与虚假数据一致。对于每一条数据，我们收集了多个维度的信息，包括文本内容、配图、时间戳、评论、辟谣信息（只针对虚假信息）。我们发现，收集到的原始数据存在很多重复，因此我们采用one-pass聚类的方法进行去重。最终我们获得了4,488条虚假新闻和4,640条真实新闻。

我们参考了多个事实核查网站和相关研究报告后，确定了以下9个领域：科技、军事、教育、事故、政治、健康、财经、娱乐、社会。10名标注人员独立对整个数据集进行了领域标注，当多于8名标注人员达成一致时就确定最终的领域标签，否则进一步讨论、评估以达成一致。最终的数据统计信息如表1所示。