Generating Realistic Adversarial User Comment Attacks to Evaluate the Robustness of Fake News Detectors

论文基础信息

  • 标题:Generating Realistic Adversarial User Comment Attacks to Evaluate the Robustness of Fake News Detectors
中文翻译:生成逼真的用户评论对抗攻击以评估假新闻检测器的鲁棒性
  • 作者:Chandler Underwood, Md Athikul Islam, Edoardo Serra, Francesca Spezzano
  • 来源:IEEE Transactions on Computational Social Systems (IEEE TCSS)
  • 发布时间:2026 年(录用时间 2026 年 1 月 5 日)
  • 代码:https://github.com/mdathikulislam/Realistic-Adversarial-User-Comment-Attacks

研究背景与问题

研究动机(现有不足)

  1. 假新闻检测模型易受对抗攻击,现有攻击多聚焦新闻文本、用户 - 新闻传播图,忽略用户评论这一关键攻击维度。
  1. 现有评论攻击方法:
    • 检索式评论:上下文相关性差,难以适配目标新闻。
    • 生成式评论(如 MALCOM):不自然、不逼真,易被检测,攻击效果有限。
  1. 基于强化学习的生成模型存在奖励信号歧义(负奖励无法区分是攻击失败还是文本不真实),训练不稳定。
  1. 大模型生成缺乏自我反思优化,攻击成功率与文本真实度难以兼顾。

研究问题(RQs)

  1. 基于强化学习的 TRL/ReST 能否生成兼顾逼真度与攻击效果的对抗评论?
  1. 带自我反思的 LLM 攻击能否优于现有方法?
  1. 自我反思机制对 LLM 攻击的具体贡献?
  1. 强化学习中正负奖励 / 仅正奖励对生成效果的影响?
  1. 现有假新闻检测器对本文攻击的鲁棒性,及防御启示?

Methods 

3. Methodology 总目标

生成逼真、上下文相关的用户评论,实现假新闻检测模型的逃逸攻击将假新闻判为真、真新闻判为假)。

3.1 基于强化学习的攻击策略

核心模型

轻量模型T5,先微调学习真实评论分布,再用强化学习优化攻击效果。
image

3.1.1 Transformer Reinforcement Learning (TRL)

  1. 框架:基于PPO算法优化 T5。
  1. 三阶段流程:
    • Rollout:T5 以新闻标题为输入生成评论。
    • Evaluation:用假新闻检测器输出置信度作为奖励
    • Optimization:
      • 用策略网络与参考网络(初始微调后的 T5)计算KL 散度
      • 约束生成不偏离真实评论分布,避免不自然文本
      • 使用 PPO 更新模型
  1. 缺陷:正负奖励混合,模型无法区分负奖励来源,训练不稳定。

image

3.1.2 Reinforced Self-Training (ReST)

  1. 两阶段迭代:
    • Grow step:T5 批量生成评论,扩充数据集。
    • Improve step:用奖励模型筛选高奖励样本,仅对这些样本微调 T5。
  1. 优势:仅用正奖励,无负奖励歧义,训练更稳定,保留文本逼真度。
  1. 前提:预训练模型需具备基础攻击能力。

3.2 带自我反思的大模型攻击策略

核心模型

LLaMA-3.1 8B(无审查版本),无需访问目标检测模型,纯黑盒攻击。
image
image

自我反思机制

  1. 初始生成:输入新闻标题 / 全文 + 标签,生成目标评论。
  1. 反思评估:LLM 自查评论是否贴合新闻、能翻转分类
  1. 迭代优化:最多 3 轮反思,修正不相关 / 无效评论。
  1. 优势:
    • 上下文窗口大(128k tokens),可输入全文与历史评论。
    • 无需训练、无需查询目标模型,通用性极强。

Experiment 

4.1 实验设置

数据集(4 个公开数据集)

image

 

目标假新闻检测器

  • dEFEND(文章 - 评论协同注意力)
  • RoBERTa(Transformer 分类)
  • TextCNN(卷积文本分类)
  • RNN(替代模型)

评价指标

  • 攻击成功率 (Att%):正确分类样本被攻击后翻转预测的比例。
  • 逼真度:RoBERTa 二分类检测合成评论(F1/AUROC/AvgP,越低越逼真)。
  • 人类相似度:LLaMA 自动排序打分。
  • 计算效率:训练 / 推理时间。

4.2 Baselines

  1. 生成式基线
    • MALCOM:当前 SOTA 评论攻击框架。
    • T5 First Fine-Tune:仅微调不做强化学习。
  1. 检索式基线
    • CopyCat:语义相似检索评论。
    • Topic-specific:主题相关检索。
    • Generic:无关泛化评论。

4.3 实验内容与结果

4.3.1 攻击成功率

image

  1. RL 方法:ReST-T5 >> TRL-T5;ReST 稳定、攻击效果更强。
  1. LLM 方法:LLM/LLM∗ 远超所有基线,28/42 场景达到最优
    • LLM∗(输入全文 + 评论)效果 ≥ LLM(仅标题)。
    • 黑盒 LLM 攻击无需访问模型,仍优于白盒 RL。
  1. 替代模型迁移:ReST 用替代模型训练,迁移攻击效果下降,LLM 不受影响。

4.3.2 合成评论检测(逼真度)

image

  • 越低得分 = 越难被检测 = 越逼真。
  • 排序:LLM∗ > ReST-T5 > LLM > T5 First Fine-Tune > TRL-T5 > MALCOM
  • MALCOM 最易被检测,LLM∗最接近真实评论。

4.3.3 人类相似度评估

image

  • LLM 生成评论最像人类,ReST-T5 次之,MALCOM 最差。
  • 评判依据:上下文相关、语法通顺、符合社交评论表达习惯。

4.3.4 自我反思消融实验

image

  • 有反思 > 无反思:攻击成功率显著提升
  • 最优迭代轮数:3 轮,继续迭代收益饱和。

4.3.5 计算效率

image

  • 训练耗时:ReST-T5 > MALCOM > TRL-T5 > LLM(0 训练)
  • 推理耗时:LLM >> 其他(大模型 + 反思带来延迟)。
  • 权衡:LLM 适合低量精准攻击,ReST 适合高批量生成。

4.4 实验结论

  1. ReST-T5 优于 TRL-T5:仅正奖励更稳定,无信号歧义。
  1. 带自我反思的 LLM 是最优黑盒攻击:成功率高、逼真度高、无需访问目标模型。
  1. 自我反思是 LLM 攻击的核心增益模块
  1. 现有假新闻检测器鲁棒性极差,极易被逼真评论攻击欺骗。

论文核心观点与贡献

核心观点

用户评论是假新闻检测的薄弱环节,逼真的对抗评论可高效逃逸检测;强化学习(ReST)与带自我反思的 LLM能生成兼顾攻击效果与真实度的对抗样本,可用于评估与提升检测器鲁棒性。

核心贡献

  1. 提出两种 RL 评论攻击:TRL-T5、ReST-T5,平衡攻击与逼真度。
  1. 提出带自我反思的 LLM 黑盒攻击,无需访问目标模型,效果 SOTA。
  1. 消融验证自我反思的关键作用,对比 RL 奖励设计的影响。
  1. 揭示现有检测器的脆弱性,为防御提供数据与思路。
  2. 开源代码,支持复现与后续研究。
posted @ 2026-03-11 00:47  卓然666  阅读(6)  评论(0)    收藏  举报
Live2D