Generating Realistic Adversarial User Comment Attacks to Evaluate the Robustness of Fake News Detectors
论文基础信息
- 标题:Generating Realistic Adversarial User Comment Attacks to Evaluate the Robustness of Fake News Detectors
中文翻译:生成逼真的用户评论对抗攻击以评估假新闻检测器的鲁棒性
- 作者:Chandler Underwood, Md Athikul Islam, Edoardo Serra, Francesca Spezzano
- 来源:IEEE Transactions on Computational Social Systems (IEEE TCSS)
- 发布时间:2026 年(录用时间 2026 年 1 月 5 日)
- 代码:https://github.com/mdathikulislam/Realistic-Adversarial-User-Comment-Attacks
研究背景与问题
研究动机(现有不足)
- 假新闻检测模型易受对抗攻击,现有攻击多聚焦新闻文本、用户 - 新闻传播图,忽略用户评论这一关键攻击维度。
- 现有评论攻击方法:
- 检索式评论:上下文相关性差,难以适配目标新闻。
- 生成式评论(如 MALCOM):不自然、不逼真,易被检测,攻击效果有限。
- 基于强化学习的生成模型存在奖励信号歧义(负奖励无法区分是攻击失败还是文本不真实),训练不稳定。
- 大模型生成缺乏自我反思优化,攻击成功率与文本真实度难以兼顾。
研究问题(RQs)
- 基于强化学习的 TRL/ReST 能否生成兼顾逼真度与攻击效果的对抗评论?
- 带自我反思的 LLM 攻击能否优于现有方法?
- 自我反思机制对 LLM 攻击的具体贡献?
- 强化学习中正负奖励 / 仅正奖励对生成效果的影响?
- 现有假新闻检测器对本文攻击的鲁棒性,及防御启示?
Methods
3. Methodology 总目标
生成逼真、上下文相关的用户评论,实现假新闻检测模型的逃逸攻击(将假新闻判为真、真新闻判为假)。
3.1 基于强化学习的攻击策略
核心模型
轻量模型T5,先微调学习真实评论分布,再用强化学习优化攻击效果。

3.1.1 Transformer Reinforcement Learning (TRL)
- 框架:基于PPO算法优化 T5。
- 三阶段流程:
- Rollout:T5 以新闻标题为输入生成评论。
- Evaluation:用假新闻检测器输出置信度作为奖励。
-
- Optimization:
- 用策略网络与参考网络(初始微调后的 T5)计算KL 散度
- 约束生成不偏离真实评论分布,避免不自然文本
- 使用 PPO 更新模型
- Optimization:
- 缺陷:正负奖励混合,模型无法区分负奖励来源,训练不稳定。

3.1.2 Reinforced Self-Training (ReST)
- 两阶段迭代:
- Grow step:T5 批量生成评论,扩充数据集。
- Improve step:用奖励模型筛选高奖励样本,仅对这些样本微调 T5。
- 优势:仅用正奖励,无负奖励歧义,训练更稳定,保留文本逼真度。
- 前提:预训练模型需具备基础攻击能力。
3.2 带自我反思的大模型攻击策略
核心模型
LLaMA-3.1 8B(无审查版本),无需访问目标检测模型,纯黑盒攻击。


自我反思机制
- 初始生成:输入新闻标题 / 全文 + 标签,生成目标评论。
- 反思评估:LLM 自查评论是否贴合新闻、能翻转分类。
- 迭代优化:最多 3 轮反思,修正不相关 / 无效评论。
- 优势:
- 上下文窗口大(128k tokens),可输入全文与历史评论。
- 无需训练、无需查询目标模型,通用性极强。
Experiment
4.1 实验设置
数据集(4 个公开数据集)

目标假新闻检测器
- dEFEND(文章 - 评论协同注意力)
- RoBERTa(Transformer 分类)
- TextCNN(卷积文本分类)
- RNN(替代模型)
评价指标
- 攻击成功率 (Att%):正确分类样本被攻击后翻转预测的比例。
- 逼真度:RoBERTa 二分类检测合成评论(F1/AUROC/AvgP,越低越逼真)。
- 人类相似度:LLaMA 自动排序打分。
- 计算效率:训练 / 推理时间。
4.2 Baselines
- 生成式基线
- MALCOM:当前 SOTA 评论攻击框架。
- T5 First Fine-Tune:仅微调不做强化学习。
- 检索式基线
- CopyCat:语义相似检索评论。
- Topic-specific:主题相关检索。
- Generic:无关泛化评论。
4.3 实验内容与结果
4.3.1 攻击成功率

- RL 方法:ReST-T5 >> TRL-T5;ReST 稳定、攻击效果更强。
- LLM 方法:LLM/LLM∗ 远超所有基线,28/42 场景达到最优。
- LLM∗(输入全文 + 评论)效果 ≥ LLM(仅标题)。
- 黑盒 LLM 攻击无需访问模型,仍优于白盒 RL。
- 替代模型迁移:ReST 用替代模型训练,迁移攻击效果下降,LLM 不受影响。
4.3.2 合成评论检测(逼真度)

- 越低得分 = 越难被检测 = 越逼真。
- 排序:LLM∗ > ReST-T5 > LLM > T5 First Fine-Tune > TRL-T5 > MALCOM。
- MALCOM 最易被检测,LLM∗最接近真实评论。
4.3.3 人类相似度评估

- LLM 生成评论最像人类,ReST-T5 次之,MALCOM 最差。
- 评判依据:上下文相关、语法通顺、符合社交评论表达习惯。
4.3.4 自我反思消融实验

- 有反思 > 无反思:攻击成功率显著提升。
- 最优迭代轮数:3 轮,继续迭代收益饱和。
4.3.5 计算效率

- 训练耗时:ReST-T5 > MALCOM > TRL-T5 > LLM(0 训练)。
- 推理耗时:LLM >> 其他(大模型 + 反思带来延迟)。
- 权衡:LLM 适合低量精准攻击,ReST 适合高批量生成。
4.4 实验结论
- ReST-T5 优于 TRL-T5:仅正奖励更稳定,无信号歧义。
- 带自我反思的 LLM 是最优黑盒攻击:成功率高、逼真度高、无需访问目标模型。
- 自我反思是 LLM 攻击的核心增益模块。
- 现有假新闻检测器鲁棒性极差,极易被逼真评论攻击欺骗。
论文核心观点与贡献
核心观点
用户评论是假新闻检测的薄弱环节,逼真的对抗评论可高效逃逸检测;强化学习(ReST)与带自我反思的 LLM能生成兼顾攻击效果与真实度的对抗样本,可用于评估与提升检测器鲁棒性。
核心贡献
- 提出两种 RL 评论攻击:TRL-T5、ReST-T5,平衡攻击与逼真度。
- 提出带自我反思的 LLM 黑盒攻击,无需访问目标模型,效果 SOTA。
- 消融验证自我反思的关键作用,对比 RL 奖励设计的影响。
- 揭示现有检测器的脆弱性,为防御提供数据与思路。
- 开源代码,支持复现与后续研究。

浙公网安备 33010602011771号