Intriguing properties of neural networks

介绍：

对抗攻击开山之作。
解释两个问题：

深度神经网络中的高层单元整体构成一个语义空间，而不是单个高层单元就是一个语义（eg：识别猫模型中的猫耳朵）
对抗扰动具有泛化性。（注意到这种可迁移性）

神经网络学习的输入-输出映射是相当不连续的，增加某些难以感知的扰动(imperceptible perturbation)就可以使网络产生错误的分类。带有扰动的输入被称为对抗样本(adversarial examples)

方法

本文观点1

过去认为特征空间（如计算机视觉中）的每一维度都代表一个图片特征，研究人员用该思路分析神经网络，认为隐藏层中的激活值也代表一个特征。
因此研究人员通过寻找最强激活图（输入一张图时，目标神经元的激活值最大，该图便时该神经元的最强激活图）,来确认该神经元对应的是哪个特征

用「神经元对什么图像最敏感」，反推「这个神经元负责识别 / 表征什么图像特征」，本质是给抽象的神经元激活值，找一个看得见、能理解的视觉对应物，把神经网络里黑箱式的操作落地到具体的图像特征上。

现在的方法：通过寻找单个单元的最强激活图（最大化该单元激活值的输入图像），来解析这个单元的语义含义
涉及自然基的公式
公式解释：
ei为自然基坐标，通过与激活值做内积得到目标单元的激活值。该公式的意义就是在于找到哪张图使得目标单元的激活值最大
为何要取内积？

涉及随机基的公式
实验结果：自然基、随机基的最强激活图无显著差异。故表达了观点1.

下面这段Ai解析是为了引出下文对抗样本 —— 对抗样本就是人眼看还是原来的图，但网络里的激活模式全乱了，该激活的单元不激活，不该激活的疯狂激活，所以才会认错。

神经网络识别一个特征 / 一个物体，本质就是靠「对应这个特征的单元群高激活，其他无关单元低激活」的固定模式。
只要正常图（哪怕有小变化）能触发这个稳定的高激活模式，就说明网络 “认得出” 这个特征 / 物体。
而第 3 部分的分析，就是通过 “找最强激活图”，发现了网络对正常图的特征，都有这样清晰、稳定的激活模式，所以我们能看明白它在正常图上的识别逻辑。

本文观点2

深度神经网络根本不满足局部平滑性，它在几乎所有正常图片的 “微小邻域” 里，都存在视觉盲点—— 加一个人眼完全察觉不到的非随机扰动，就能让网络 100% 认错，这就是网络的反直觉特性，也是本节要研究的 “盲 spot（盲点）”

文首次系统性定义了对抗样本：

对一张网络能正确分类的正常图片 x，施加一个人类视觉完全无法察觉的微小扰动 r，得到新图片 x+r；这个新图片人眼看和原图没区别，但网络会彻底错误分类，这个 x+r 就是对抗样本。

构造对抗样本的方案：

定目标：选一张正常图 x（比如熊猫），定一个目标错误标签 l（比如鸵鸟），要让网络把 x+r 分类成 l；
加约束：第一，扰动 r 要尽可能小（保证人眼看不出来）；第二，改后的图片 x+r 的像素值要在 0-1 之间（符合正常图片的像素范围）；
找扰动：用优化算法一点点调整像素，直到满足 “网络分类为 l”，同时扰动达到最小 —— 这个最小的 r，就是我们要的对抗扰动，x+r 就是对抗样本。

3大反直觉结论：

每一张正常图片，都能构造出对抗样本
跨模型泛化 —— 对 A 网络造的对抗样本，B 网络也会认错
跨训练集泛化 —— 用训练集 P1 造的对抗样本，训练集 P2 的网络也会认错

通过同等标准差的高斯随机扰动与同等标准差的对抗扰动的对比实验证明对抗扰动是有规律、有针对性的，不是随机的像素噪声，而是精准击中网络漏洞的 “定向攻击。

第四节结论：深度神经网络是 “高表达能力，但低可解释性、低鲁棒性” 的模型，存在视觉盲点，能通过构造人类不可察觉的对抗样本让其彻底认错，且这类对抗样本具有跨模型、跨训练集的通用性，根源是网络的多层结构会放大微小扰动；而把对抗样本加入训练的对抗训练，能有效提升网络的鲁棒性。

posted @ 2026-03-21 21:22 main(void) 阅读(5) 评论(0) 收藏举报

刷新页面返回顶部

To be or not to be

That is a question

Intriguing properties of neural networks

介绍：

方法

本文观点1

本文观点2

公告