A Methodology for Formalizing Model-Inversion Attacks

由发布机器学习模型引起的训练数据的机密性,最近受到越来越多的关注。受现有 MI 攻击和其他先前证明是“伪装”的 MI 攻击的驱动,本文通过提出一种基于游戏的方法启动了对 MI 攻击的正式研究。我们的方法揭示了许多微妙的问题,并且设计一个严格的基于游戏的定义,类似于密码学中的定义,是未来工作的有趣途径。我们描述了两种类型的攻击的方法。第一个是黑盒攻击,它考虑了一个仅通过 oracle 访问模型来推断敏感值的对手。第二种方法针对白盒场景,其中对手对模型结构有一些额外的了解。对于布尔模型和黑盒攻击的受限类,我们使用无噪声情况下布尔分析的影响概念来表征模型可逆性,并将模型可逆性与噪声情况下的稳定影响联系起来。有趣的是,我们还发现了一个有趣的现象,我们称之为“可逆干扰”,即通过添加很少的噪声,高度可逆的模型很快变得高度不可逆。对于白盒情况​​,我们考虑机器学习模型中的一个常见现象,其中模型是几个子模型的顺序组合。我们从数量上表明,即使层之间非常有限的通信也可能泄漏大量信息。也许更重要的是

第 I 节 介绍

在过去十年中,围绕统计信息发布的隐私问题受到了相当多的关注。统计数据隐私研究的目标是能够准确提取有价值的数据模式,同时在底层数据集中保护个人隐私,防止数据隐私攻击。一般来说,文献中有两种数据隐私攻击。第一个是反对特定的隐私概念,例如差异隐私 [1]。对此类攻击的调查导致了下限(例如[2]、[3])。第二种攻击是针对属性隐私,这是一个通用概念,其中研究需要多少失真才能防止对手从非敏感属性中推断出敏感属性(具体性,请参见例如重建攻击 [4],[5])。特别是在应用数据隐私文献中广泛考虑了属性隐私攻击,其中重点关注医疗信息发布等场景。

本文重点介绍属于第二种类型的特定类型的攻击。我们考虑的攻击类别与从发布的模型(例如机器学习模型)或模型反转(MI) 攻击中推断敏感属性有关。其中一些攻击已经出现在文献中。最近,弗雷德里克森等人。[6]在个性化医疗的背景下探索了 MI 攻击。具体来说,弗雷德里克森等人。[6] “反转”公开发布的线性回归模型,以根据模型输出推断敏感的遗传标记(华法林剂量)加上其他几个非敏感属性(例如,身高、年龄、体重)。有趣的是,他们证明了模型输出的知识(此处为 War-farin 剂量),或者甚至是它的合理近似值,会导致敏感属性泄漏在统计上显着增加。这导致自然的问题,即统计模型存在这种有效和高效的反演攻击的范围有多广,以及如何量化由于访问模型而导致的额外泄漏。

最近,发现了更多有效 MI 攻击的实例,进一步激发了对此类攻击的兴趣。例如,[7]考虑了对用于分类图像的模型的白盒 MI 攻击。他们证明,通过利用此类模型提供的额外置信信息,可以显着提高 MI 攻击的有效性和效率。有趣的是,我们注意到这些攻击让人想起在反转高度压缩图像特征的背景下讨论的隐私攻击,这在之前已经探讨过[8] - [9] [10]. 然而,我们相信,如果我们要针对所有这些攻击制定对策,甚至对它们构成的危险做出准确解释,我们将需要超越基于示例的定义,需要一种方法来捕捉这种现象。我们认为这篇论文只是第一步,还有很多工作要做。

在本文中,我们迈出了提供 MI 攻击的正式处理方法的第一步。我们的贡献总结如下:

我们提出了两种方法,它们都受到密码定义中常见的“两个世界”游戏的启发。一种黑盒攻击的方法,其中对手可以访问模型,以及一种白盒攻击的方法攻击,其中对手拥有有关模型结构的信息。我们的方法提供了一个“蓝图”,使这些定义在特定情况下精确。将其扩展到精确的一般定义(例如 SMC 文献中使用的真实和理想世界定义)将是一个有趣的追求方向。我们的方法侧重于机器学习 (ML) 模型,因为它们一直是现有 MI 攻击的目标。我们方法的一个缺点是我们没有考虑 ML 模型或学习任务的特定结构。同样,将我们的方法与 ML 文献中的各种概念(例如稳定性)联系起来,为未来的工作提供了一条有吸引力的途径。

然后我们将我们的方法专门用于重要的特殊情况,以隔离影响模型可逆性的重要因素(即一个人如何成功地反转模型)。确定这些因素对于至少两个应用程序很重要。首先,作为发布模型之前的决策程序,估计可逆性可以帮助人们衡量敏感属性的泄漏,从而帮助决定模型的哪个部分是可发布的。二是有助于防止 MI 攻击:如果可逆性较低,则可以使用很少的噪声来有效防止 MI 攻击,而不会牺牲太多效用。

对于布尔函数模型(例如,具有有限域属性的决策树),我们有一些具体的结果。在这种情况下,我们可以利用布尔分析中的强大工具。特别是对于黑盒 MI 攻击,其中对手知道模型输出和准确的所有其他特征,并且没有噪声,我们表明模型可逆性的特点是受布尔分析的影响。不幸的是,如果对手的先验知识中存在噪声,情况就会变得更加复杂。尽管如此,我们证明可逆性与稳定影响有关在布尔分析中。有趣的是,我们在嘈杂情况下的探索还揭示了一个现象,即通过添加一点噪声,高度可逆的模型很快就会变得高度不可逆。我们以“可逆干扰”的名义研究这种现象。

对于白盒 MI 攻击,我们研究了一种常见现象,其中机器学习模型的计算是多个层或模型的顺序组合。利用这些层之间通信的中间信息,即使它被高度压缩,也可以给对手带来显着的优势。事实上,[7]中描述的白盒攻击正是利用了这样的信息,其中置信度信息是在模型的中间层计算的似然概率。因此,我们研究了这些受限的通信渠道如何泄漏信息。有趣的是,我们的结果从数量上表明,即使只有 1位通信,也可能存在重大泄漏. 我们的结果还揭示了这些受限通道的意外计算能力,据我们所知,这是以前未知的。

本文的其余部分组织如下:第二部分描述了我们的黑盒和白盒 MI 攻击方法。然后在第 III 节中,我们将提供一些对我们以后的开发所必需的技术背景。第 IV 节和第 V 节专门针对重要的特殊情况进行一般表述。最后,我们通过讨论我们的公式与其他密码学概念的联系来结束第六节的论文。

第二节 一种形式化 Mi 攻击的方法

研究 MI 攻击的一个基本目标是量化敏感属性与模型输出之间的相关强度。虽然这个目标非常直观,但由于此类攻击的多样性,将这些攻击形式化是一个挑战。此外,正如我们之前提到的,许多不同的攻击都可以被视为“MI 攻击”。这表明很难在不冒过度概括的风险的情况下给出 MI 攻击的“统一”定义(即,即使许多具有“弱相关性”的良性案例也将被归类为攻击)。作为第一次尝试,我们的目标是从现有攻击中抽象出重要因素,并提出一种方法论。在这些方法的指导下,我们在本文后面确定了导致理论见解的 MI 攻击的特殊情况。

本节组织如下: 我们首先讨论机器学习的概念,这为我们的方法论提供了背景。然后我们以直观的方式讨论 MI 攻击。在第 II-A和II-B 节中,我们分别介绍了黑盒 MI 和白盒 MI 攻击的方法。在此过程中,我们讨论了我们的方法如何捕获现有攻击,并可以用于模拟以前未解决的其他有趣场景。

MI 攻击:场景和观察
直观地说,MI 攻击旨在捕获有关训练集中参与者的隐私问题,这源于以下场景:组织在从大量个人收集的某些数据集上训练模型。在组织内对模型进行限制访问(比如在一些严格的访问控制下)之后,现在他们想向公众发布模型用于一般用途(例如,专门提供个性化医疗的医疗诊所。)我们设想了两种发布模型的机制:将模型作为黑匣子发布以便公众可以自由使用,或者将模型作为白匣子发布并发布了有关其架构和参数的一些信息。令人担忧的是,模型中编码的某些相关性可能太强,以至于潜在对手可以利用公开发布的模型以及有关训练集中个人的额外知识来恢复参与者的敏感信息。研究 MI 攻击的基本目标是量化此类相关性的强度,以便人们可以更好地了解此类问题的重要性。

为了实现这一目标,人们需要制定一个合理的对手模型来捕捉对手如何利用该模型。我们有以下简单的观察:(1)我们对机器学习测试阶段的MI 攻击感兴趣,其中一个模型H已经受过训练。(2) 攻击需要有一定的目标,可以被某个函数捕获τ 映射样本 z∈ Z到某个范围。(3) 量化是在训练数据集上进行的,因为主要关注的是数据集中的参与者。(4) 量化应该比较“两个世界”,一个是对手可以访问模型,另一个是对手没有。这是为了捕捉我们想要量化发布模型的额外风险这一事实。

限制
接下来我们讨论我们方法的一些局限性,解决这些局限性为未来的工作提供了有趣的途径。我们的方法论侧重于一个组织,因此例如,我们的模型不包括以下场景:不同的组织可以收集数据秒⋆ 相似 秒 并建立一个模型 H⋆(可能使用相同的学习算法),然后可用于推断有关参与者的敏感信息。此外,结果需要根据具体情况进行解释。例如,假设我们对特定上下文参数化的定义产生了优势1N, 在哪里 N 是训练集的大小 秒. 我们应该认为这是一次攻击吗?这取决于上下文。我们承认我们的方法没有利用 ML 任务和模型的结构(例如,也许看损失函数升)。一般而言,我们认为被视为侵犯隐私的行为在很大程度上取决于上下文。

A. 黑盒 MI
我们现在提出一种将黑盒 MI 攻击形式化的方法,其中对手可以访问模型。在此过程中,我们介绍了稍后将使用的符号。

衡量攻击的有效性

考虑对单个样本点的攻击是否成功是很有吸引力的。虽然这在某些特定情况下可能是明智的(例如,对手想要获取有关特定个人的遗传信息),但这似乎不是一个好的正式措施。这是因为与加密相比,机器学习模型应该传达有关样本的一些信息,因此在最坏的情况下,始终可以提取有关特定个人的一些信息。

另一方面,人们可能会尝试测量对数据生成分布的攻击 D,这是机器学习任务的定义。然而,这会导致一个复杂的问题D通常是未知的,因此必须对其结构强加假设。我们选择测量对用于训练模型的数据集的攻击。因此,这为数据集中的参与者提供了隐私损失措施。此外,这允许我们在没有额外参数的情况下进行量化D.

对手及其力量

我们首先注意到测试阶段的模型是固定的,因此没有渐近行为,因为没有无限的模型族。因此,我们将对手建模为概率算法,而不会限制其计算复杂性。换句话说,对手都是强大的。我们注意到其他数据隐私公式,例如差分隐私[1],也对对抗能力做出了这样的假设。

我们现在提出一种制定黑盒 MI 攻击的方法,目的是衡量这些攻击的有效性。为了使用这种方法作为模板来为特定场景生成精确的定义,必须在攻击和模拟攻击的方法中分别实例化辅助信息生成器 gen 和 sgen。在两个世界中拥有两个不同的生成器为我们提供了额外的灵活性(例如,在 Warfarin 攻击中,MI-Attack 世界中的攻击者知道一些 Warfarin 剂量的“近似值”。)请注意,无法使用 oracle 计算此信息,因为对手不知道所有的特征值。在某些情况下,gen 和 sgen 将相同。

posted on 2021-12-05 15:02  Le2duo  阅读(161)  评论(0)    收藏  举报

导航