Generate First, Then Sample: Enhancing Fake News Detection with LLM-Augmented Reinforced Sampling

1. 任务

如何提高假新闻检测的效果,特别是针对假新闻本身的检测能力

2. 研究背景与问题提出:

  • 假新闻指包含虚假信息的新闻,其在社交媒体上的传播对公共卫生、政治等关键社会议题构成严重威胁。

  • 现有假新闻检测模型在识别假新闻方面的性能显著低于识别真新闻,差距常超过20%,限制了其实际部署价值。

  • 性能差距的主要原因:

    1. 数据集不平衡:假新闻在数据集中代表性不足;
    2. 模型对目标平台数据分布理解不足。

本文解决方案:GSFND框架

  • 先生成,后采样

    • 使用大语言模型生成多种风格的假新闻,增强训练集中假新闻的多样性;

    • 引入强化学习动态采样,自动学习训练过程中真假新闻的最优比例。

1. 假新闻检测

  • 早期方法:基于语言特征(如Castillo et al., 2011);

  • 深度学习方法:利用神经网络捕捉新闻语义(如Wang et al., 2018a);

  • 上下文增强方法:引入社交上下文(如评论、传播网络)和外部知识(如Hu et al., 2021);

  • 数据增强:传统方法成本高,本文使用LLM高效生成多样假新闻。

2. LLM在假新闻检测中的应用

  • 利用LLM的推理能力

    • 生成多视角解释(Hu et al., 2024);

    • 构建用户-新闻交互网络(Wan et al., 2024);

    • 自我辩论生成对抗性解释(Wang et al., 2024b)。

  • 用LLM增强新闻内容

    • 生成用户评论(Nan et al., 2024);

    • 提取新闻嵌入和实体(Ma et al., 2024)。

  • 结论:LLM单独检测假新闻能力有限,但可作为小模型的有力辅助。

3. 强化学习在假新闻检测中的应用

  • RL被用于

    • 学习领域不变特征(Mosallanezhad et al., 2022);

    • 多模态新闻中的噪声过滤(Gu et al., 2024);

    • 自动选择高质量弱标签样本(Wang et al., 2020);

    • 优化输入新闻(Guo et al., 2023);

    • 生成传播子图以最大化检测准确率(Yang et al., 2022)。

  • 本文创新:使用RL动态学习训练集中真假新闻的最优比例。

总结

本文的 IntroductionRelated Work 清晰地指出了当前假新闻检测模型在假新闻识别性能不足和缺乏平台自适应能力两大核心问题,并在此基础上提出了融合LLM生成强化学习采样的GSFND框架,具有较强的创新性和实用性。相关工作部分则系统梳理了假新闻检测的技术演进,尤其是LLM和RL在该领域的最新应用,为本文方法的提出奠定了坚实的理论基础。

posted @ 2025-10-07 11:05  Gabriel_7  阅读(14)  评论(0)    收藏  举报