[SENN] [NIPS'18] Towards Robust Interpretability with Self-Explaining Neural Networks

背景

现有机器学习解释方法专注于后验解释。主要通过：

无法获取模型内部信息，对每个样本进行局部分析；
构造query来获取模型输入输出之间局部的关系。

现有的困难主要包括：

如何定义局部性（如结构化的数据）；
解释的可辨识性；
计算代价（有些算法需要复杂的优化过程）。

然而，逐样本的解释无法在邻域输入中进行比较，导致解释不稳定，甚至相矛盾。

本文自底向上构建可解释模型，维持理想的简单的由特征和系数组成的线性模型的特点，同时维持模型效果。self-explaining是说给定一个输入，模型对这个输入进行一个变换，变成了一堆人类更好直观理解的concept，人直接观察concept就可以了。

self-explaining models

参考利普西茨连续（Lipschitz continuity），定义函数 $f : X \subseteq R^{n} \to R^{m}$ 被 $h : X \subseteq R^{n} \to R^{k}$ 差异约束（difference-bounded），当存在 $L \in R$ 使任意 $x, y \in X$ ， $‖ f (x) - f (y) ‖ \leq L ‖ h (x) - h (y) ‖$ 。 $L$ 为常数。也就是说， $f$ 的输出之间的差异被 $h$ 输出的差异限制。

这里的difference bound相当于使两个函数的输出变化方式类似。这样保证了 $f$ 与 $h$ 的变化始终不会出现太大差异，保证了解释的鲁棒性。

实践中这样的限制太严格，很难实现。上述定义改为局部情况（locally difference-bounded），则为对任意 $x_{0}$ ，总存在 $δ > 0$ 和 $L \in R$ 使得 $‖ x - x_{0} ‖ < δ$ 满足 $‖ f (x) - f (x_{0}) ‖ \leq L ‖ h (x) - h (x_{0}) ‖$ 。

讲人话，也就是不要求所有的输入变化都被约束，只要每个输入 $x_{0}$ 附近一段空间 $x - x_{0} < δ$ 的变化能比较平稳地表示就行。

使 $x \in X \subseteq R^{n}$ ， $Y \subseteq R^{m}$ 分别为输入和输出空间，定义 $f : X \to Y$ 为自解释预测模型（self-explaining prediction model），当 $f$ 满足 $f (x) = g (θ (x)_{1} h (x)_{1}, \dots, θ (x)_{k} h (x)_{k})$ ，其中

-P1 $g$ 单调且完全加性可分
-P2 对任意 $z_{i} := θ (x)_{i} h (x)_{i}$ ， $g$ 满足 $\frac{\partial g}{\partial z_{i}} \geq 0$
-P3 $θ$ 被 $h$ 局部差异约束
-P4 $h (x)$ 是 $x$ 的可解释表示
-P5 $k$ 比较小

P1P2是为了限制聚合函数 $g$ 的选择，加性条件让concepts之间相对独立，偏导的约束使 $g (z_{1}, \dots, z_{k}) = \sum_{i} A_{i} z_{i}$ 中的权重部分 $A_{i}$ 总为正。
P5的约束让用作解释的concepts不要太多，实际应用中来决定。

这样，对于给定输入 $x$ ，用集合

E_{f} (x) ≜ {(h (x_{i}), θ (x)_{i})}_{i = 1}^{k}

表示基础概念basis concepts和对应概念的影响力（权重）。

每个 $h$ 分别从一个角度解释了输入，也就是得到了输入从一个角度看会对预测结果产生什么影响。 $θ$ 被 $h$ 局部差异约束，说明 $θ$ 不会完全改变 $h$ 对结果的影响，只是作为参数对它进行微调。

$θ$ 作为参数应该具有稳定性（不会因为输入微小的改变导致解释的巨大变化），看看 $f$ 在 $θ$ 为常数时会如何表现。设 $f$ 为关于 $h (x)$ 的函数 $f (x) = g (h (x))$ ，设 $z = h (x)$ ，通过链式法则可得 $\nabla_{x} f = \nabla_{z} f \cdot J_{x}^{h}$ ，其中 $J_{x}^{h}$ 为 $h$ 关于 $x$ 的雅可比矩阵（就是一个系数）。在给定点 $x_{0}$ ，我们希望 $θ (x_{0}) \approx \nabla_{z} f$ （看看上面的局部差异约束定义）。把这个假设代入 $\nabla_{x} f = \nabla_{z} f \cdot J_{x}^{h}$ 可得

L_{θ} (f (x)) ≜ ‖ \nabla_{x} f (x) - θ (x)^{⊤} J_{x}^{h} (x) ‖ \approx 0

其中的三个元素都可以计算，作为优化目标中的正则项。

为了让 $\nabla_{x} f = \nabla_{z} f \cdot J_{x}^{h}$ 成立，全部移到等式左边作为正则项，让它等于0。

学习可解释的concept

一个合理的可解释concept应该满足以下几点：

fidelity精确： $x$ 的概念表示应该保留相关信息；
diversity差异：输入应该能被表示为几个不重叠的概念；
grouding基础：概念应该能直接被人类理解。

为了实现以上内容，SENN学习概念的过程满足：

$h$ 相当于自编码器，把原始输入映射到可解释的concepts空间；
通过稀疏性来满足diversity，使得一个输入尽可能用独立的concept来表示，而不是所有输入都与所有concepts有关；
通过prototyping来给概念提供可解释性，即提供一个最小训练集来最大程度激活每个概念，方便我们观察每个concept对应的输入有什么特征。

concept encoder把输入变为一组可解释的基础概念；
relevance parametrizer生成对应的分数；
aggregation function把对应的概念和分数（权重）组合起来（加权求和）作为最后的输出。
robustness loss鼓励整个模型局部表现为 $h (x)$ 参数为 $θ (x)$ 的线性模型。

整体的损失函数为：

L_{y} (f (x), y) + λ L_{θ} (f (x)) + ξ L_{h} (x, \hat{x})

实验

可解释性：

可以看出SENN把mnist数据集的输入用5个concepts来表示，相比以前的方法更加直观，这五个concepts进行prototyping后可以看出每个concept对应输入的特征。

可信度：

左图把解释出来每个特征对结果的影响和真实实验得到的每个特征对结果的影响的相关性，越高表示解释的越好。右图是移除某个特征对结果准确率下降的影响。通过删去特征导致模型预测准确率下降的程度可以分析模型给出解释的可信度。由于SENN是直接把concepts进行加权求和，把对应权重设为0就可以轻松删除对应concept的特征，便于分析模型可信度。

稳定性：

图中不同颜色代表对应像素与预测结果的相关性，也就是对输入的解释。通过在输入中随机添加噪声点，我们可以看到现有方法的解释产生了较大的变化和干扰，而SENN很好的保留了给出的解释，体现了模型的稳定性。

本文给模型加上了梯度正则项来增强解释的鲁棒性。Fig.5(A/B)的结果体现了稳定性和预测精度之间存在取舍，更严格的正则会导致模型精度下降。从Fig.5C可看出SENN全面超越了LIME和SHAP。

来自为知笔记(Wiz)

附件列表

posted @ 2020-04-17 16:17 iFzh 阅读(1224) 评论(0) 收藏举报

刷新页面返回顶部

[SENN] [NIPS'18] Towards Robust Interpretability with Self-Explaining Neural Networks

背景

self-explaining models

学习可解释的concept

实验

附件列表

公告