Generating Realistic Adversarial User Comment Attacks to Evaluate the Robustness of Fake News Detectors

论文基础信息

标题：Generating Realistic Adversarial User Comment Attacks to Evaluate the Robustness of Fake News Detectors

中文翻译：生成逼真的用户评论对抗攻击以评估假新闻检测器的鲁棒性

作者：Chandler Underwood, Md Athikul Islam, Edoardo Serra, Francesca Spezzano

来源：IEEE Transactions on Computational Social Systems (IEEE TCSS)

发布时间：2026 年（录用时间 2026 年 1 月 5 日）
代码：https://github.com/mdathikulislam/Realistic-Adversarial-User-Comment-Attacks

研究背景与问题

研究动机（现有不足）

假新闻检测模型易受对抗攻击，现有攻击多聚焦新闻文本、用户 - 新闻传播图，忽略用户评论这一关键攻击维度。

现有评论攻击方法：

检索式评论：上下文相关性差，难以适配目标新闻。

生成式评论（如 MALCOM）：不自然、不逼真，易被检测，攻击效果有限。

基于强化学习的生成模型存在奖励信号歧义（负奖励无法区分是攻击失败还是文本不真实），训练不稳定。

大模型生成缺乏自我反思优化，攻击成功率与文本真实度难以兼顾。

研究问题（RQs）

基于强化学习的 TRL/ReST 能否生成兼顾逼真度与攻击效果的对抗评论？

带自我反思的 LLM 攻击能否优于现有方法？

自我反思机制对 LLM 攻击的具体贡献？

强化学习中正负奖励 / 仅正奖励对生成效果的影响？

现有假新闻检测器对本文攻击的鲁棒性，及防御启示？

Methods

3. Methodology 总目标

生成逼真、上下文相关的用户评论，实现假新闻检测模型的逃逸攻击（将假新闻判为真、真新闻判为假）。

3.1 基于强化学习的攻击策略

核心模型

轻量模型T5，先微调学习真实评论分布，再用强化学习优化攻击效果。

3.1.1 Transformer Reinforcement Learning (TRL)

框架：基于PPO算法优化 T5。

三阶段流程：

Rollout：T5 以新闻标题为输入生成评论。

Evaluation：用假新闻检测器输出置信度作为奖励。

- Optimization：
  - 用策略网络与参考网络（初始微调后的 T5）计算KL 散度
  - 约束生成不偏离真实评论分布，避免不自然文本
  - 使用 PPO 更新模型

缺陷：正负奖励混合，模型无法区分负奖励来源，训练不稳定。

3.1.2 Reinforced Self-Training (ReST)

两阶段迭代：

Grow step：T5 批量生成评论，扩充数据集。

Improve step：用奖励模型筛选高奖励样本，仅对这些样本微调 T5。

优势：仅用正奖励，无负奖励歧义，训练更稳定，保留文本逼真度。

前提：预训练模型需具备基础攻击能力。

3.2 带自我反思的大模型攻击策略

核心模型

LLaMA-3.1 8B（无审查版本），无需访问目标检测模型，纯黑盒攻击。

自我反思机制

初始生成：输入新闻标题 / 全文 + 标签，生成目标评论。

反思评估：LLM 自查评论是否贴合新闻、能翻转分类。

迭代优化：最多 3 轮反思，修正不相关 / 无效评论。

优势：

上下文窗口大（128k tokens），可输入全文与历史评论。

无需训练、无需查询目标模型，通用性极强。

Experiment

4.1 实验设置

数据集（4 个公开数据集）

目标假新闻检测器

dEFEND（文章 - 评论协同注意力）

RoBERTa（Transformer 分类）

TextCNN（卷积文本分类）

RNN（替代模型）

评价指标

攻击成功率 (Att%)：正确分类样本被攻击后翻转预测的比例。

逼真度：RoBERTa 二分类检测合成评论（F1/AUROC/AvgP，越低越逼真）。

人类相似度：LLaMA 自动排序打分。

计算效率：训练 / 推理时间。

4.2 Baselines

生成式基线

MALCOM：当前 SOTA 评论攻击框架。

T5 First Fine-Tune：仅微调不做强化学习。

检索式基线

CopyCat：语义相似检索评论。

Topic-specific：主题相关检索。

Generic：无关泛化评论。

4.3 实验内容与结果

4.3.1 攻击成功率

RL 方法：ReST-T5 >> TRL-T5；ReST 稳定、攻击效果更强。

LLM 方法：LLM/LLM∗ 远超所有基线，28/42 场景达到最优。

LLM∗（输入全文 + 评论）效果 ≥ LLM（仅标题）。

黑盒 LLM 攻击无需访问模型，仍优于白盒 RL。

替代模型迁移：ReST 用替代模型训练，迁移攻击效果下降，LLM 不受影响。

4.3.2 合成评论检测（逼真度）

越低得分 = 越难被检测 = 越逼真。

排序：LLM∗ > ReST-T5 > LLM > T5 First Fine-Tune > TRL-T5 > MALCOM。

MALCOM 最易被检测，LLM∗最接近真实评论。

4.3.3 人类相似度评估

LLM 生成评论最像人类，ReST-T5 次之，MALCOM 最差。

评判依据：上下文相关、语法通顺、符合社交评论表达习惯。

4.3.4 自我反思消融实验

有反思 > 无反思：攻击成功率显著提升。

最优迭代轮数：3 轮，继续迭代收益饱和。

4.3.5 计算效率

训练耗时：ReST-T5 > MALCOM > TRL-T5 > LLM（0 训练）。

推理耗时：LLM >> 其他（大模型 + 反思带来延迟）。

权衡：LLM 适合低量精准攻击，ReST 适合高批量生成。

4.4 实验结论

ReST-T5 优于 TRL-T5：仅正奖励更稳定，无信号歧义。

带自我反思的 LLM 是最优黑盒攻击：成功率高、逼真度高、无需访问目标模型。

自我反思是 LLM 攻击的核心增益模块。

现有假新闻检测器鲁棒性极差，极易被逼真评论攻击欺骗。

论文核心观点与贡献

核心观点

用户评论是假新闻检测的薄弱环节，逼真的对抗评论可高效逃逸检测；强化学习（ReST）与带自我反思的 LLM能生成兼顾攻击效果与真实度的对抗样本，可用于评估与提升检测器鲁棒性。

核心贡献

提出两种 RL 评论攻击：TRL-T5、ReST-T5，平衡攻击与逼真度。

提出带自我反思的 LLM 黑盒攻击，无需访问目标模型，效果 SOTA。

消融验证自我反思的关键作用，对比 RL 奖励设计的影响。

揭示现有检测器的脆弱性，为防御提供数据与思路。
开源代码，支持复现与后续研究。

posted @ 2026-03-11 00:47 卓然666 阅读(6) 评论(0) 收藏举报

刷新页面返回顶部

zh24

Generating Realistic Adversarial User Comment Attacks to Evaluate the Robustness of Fake News Detectors

论文基础信息

研究背景与问题

研究动机（现有不足）

研究问题（RQs）

Methods

3. Methodology 总目标

3.1 基于强化学习的攻击策略

核心模型

3.1.1 Transformer Reinforcement Learning (TRL)

3.1.2 Reinforced Self-Training (ReST)

3.2 带自我反思的大模型攻击策略

核心模型

自我反思机制

Experiment

4.1 实验设置

数据集（4 个公开数据集）

目标假新闻检测器

评价指标

4.2 Baselines

4.3 实验内容与结果

4.3.1 攻击成功率

4.3.2 合成评论检测（逼真度）

4.3.3 人类相似度评估

4.3.4 自我反思消融实验

4.3.5 计算效率

4.4 实验结论

论文核心观点与贡献

核心观点

核心贡献

公告