Exploiting Unintended Feature Leakage in Collaborative Learning

协作机器学习和相关技术(如联合学习)允许多个参与者(每个人都有自己的训练数据集)通过本地训练和定期交换模型更新来构建联合模型。
我们证明,这些更新泄露了参与者培训数据的意外信息,并开发了被动和主动推理攻击来利用这种泄露。首先,我们表明,对抗性参与者可以推断准确数据点的存在,例如,其他人训练数据中的特定位置(即成员推断)。然后,我们展示了对手如何推断出仅适用于训练数据子集且与联合模型旨在捕获的属性无关的属性。例如,他可以推断某个特定的人何时第一次出现在用于训练二元性别分类的照片中。
我们评估对各种任务、数据集和学习配置的攻击,分析其局限性,并讨论可能的防御措施。

I. I NTRODUCTION

然而,协作培训确实通过基于培训数据的模型更新来披露信息。本文研究的关键问题是:从协作模型培训期间披露的模型更新中,可以推断出参与者的培训数据集的哪些方面?
当然,ML的目的是发现有关数据的新信息。任何有用的ML模型都会揭示一些关于从中提取训练数据的人群的信息。例如,除了准确地对输入进行分类外,分类模型还可以揭示特定类别的特征或帮助构建属于该类别的数据点。
在本文中,我们着重于推断“非预期”特征,即对训练数据的某些子集有效的属性,但不是对所有类成员通用的属性。
此设置中的基本隐私冲突是:成员身份推断:给定确切的数据点,判断它是否用于训练模型。先前的工作描述了针对ML模型的被动和主动成员推理攻击[24,53],但协作学习为此类推理提供了有趣的新途径。例如,我们表明,敌对参与者可以推断是否使用特定的位置文件在FourSquare位置数据集[64]上以0.99的精确度和完美的回忆训练性别分类员。
然后,我们研究了被动和主动属性推断攻击,这些攻击允许协作学习中的敌对参与者推断出其他参与者的训练数据的属性,而这些属性对于整个类来说是不真实的,甚至与联合模型类的特征无关。我们还研究了各种变化,如在培训期间推断财产何时在数据中出现和消失,例如,确定某个人何时首次出现在用于培训一般性别分类的照片中。
对于各种数据集和ML任务,我们展示了基于[52]的两方和多方协作学习以及基于[35]的多方联合学习的成功推理攻击。例如,当在LFW数据集[28]上对模型进行训练以识别性别或种族时,我们推断训练照片中的人是否戴眼镜——这与主要任务无关。相比之下,先前的属性推断攻击[2,25]只推断出表征整个类的属性。我们将在第三节详细讨论这一关键区别。
我们的主要观察结果(通过我们的实验得到了具体的说明)是,现代深度学习模型提出了各种特征的独立内部表示,其中一些特征独立于正在学习的任务。这些“无意”的功能泄露了参与者的信息培训数据。我们还证明,主动对手可以使用多任务学习来欺骗联合模型,使其更好地内部分离感兴趣的特征,从而提取更多信息。
我们的一些推理攻击具有直接的隐私影响。例如,当在FaceScrub[40]数据集上训练二元性别分类时,我们以高精度(0.9 AUC分数)推断某个人出现在单个训练批次中,即使该批次中有一半的照片描绘了其他人。在培训Yelp医疗相关评论的一般情绪分析模型时,我们可以非常准确地推断被评论医生的专业。在另一组Yelp评论中,我们识别作者,即使他们的评论不到该批评论的三分之一。
我们还根据参与者的数量来衡量攻击的性能(见第七节)。在图像分类任务中,一旦参与者人数超过十几人,AUC就会下降。在Yelp评论的情绪分析任务中,即使有30名参与者,许多作者的作者识别AUC仍然很高。
采用模型平均的联合学习[35]不会显示单个梯度更新,从而大大减少对手可用的信息。即使在这种情况下,我们也证明了成功的攻击,例如,推断某个人的照片出现在培训数据中。
最后,我们评估了共享较少梯度的可能防御,降低了输入空间的维数,并发现它们不能有效阻止我们的攻击。我们还尝试使用参与者级别的不同隐私[36],然而,这是为了与成千上万的用户一起工作,联合模型在我们的设置中无法收敛。

III. R EASONING ABOUT P RIVACY IN M ACHINE L EARNING

要辩称训练过程和/或结果模型侵犯了“隐私”,仅表明对手对训练输入有了新的了解是不够的。至少,对手必须比他们各自的其他成员更多地了解训练输入。为了将我们的贡献放在相关工作的背景下(在第X节中调查),并激发研究非预期特征泄漏的需要,我们讨论了研究文献中先前考虑的几种类型的对抗性推理

A. Inferring class representatives

请注意,这两种技术都不会重建实际的训练输入。
事实上,没有证据表明[25]中使用的GANs甚至可以区分训练输入和同一类的随机成员。
只有当所有类成员都相似时,模型反演和GANs产生的数据点才与训练输入相似,MNIST(在[25]中使用的手写数字数据集)和人脸识别就是如此。这简单地说明了ML的工作原理。训练有素的分类师揭示每个类别的输入特征,从而使对手能够从类别群体中取样。例如,图1显示了我们在实验中使用的LFW数据集上性别分类任务的GAN构建图像(见第六节)。这些图像显示的是一张普通女性的脸,但无法从中判断训练中是否使用了特定女性的图像。
最后,[25]中的主动攻击通过将类的联合模型表示过度匹配到单个参与者的表示来工作培训数据。这假设给定类的整个训练语料库属于该参与者。我们不知道有任何协作学习的部署场景。相比之下,我们关注的是一个更现实的场景,即每个班级的培训数据分布在多个参与者之间,尽管他们的数据集之间可能存在显著差异。

B. Inferring membership in training data

最简单的隐私破坏是,给定一个模型和一个精确的数据点,推断该点是否用于训练模型。
针对聚合统计的成员身份推断攻击是众所周知的[14,27,50],最近的工作证明了针对ML模型的黑盒成员身份推断[24,34,53,58]。
如果数据集本身是敏感的,则对手推断训练数据集中存在特定数据点的能力构成了直接的隐私威胁。例如,如果一个模型接受了关于某一疾病患者记录的培训,那么了解到某个人的记录就直接影响到他或她的隐私。
成员资格推断还可以帮助证明数据的不当使用(例如,使用医疗记录为未经授权的目的培训ML模型[4]),强制执行个人权利,如“被遗忘的权利”,和/或检测违反数据保护法规的行为,如GDPR[19]。协作学习为这种推理提供了有趣的新途径。
C. Inferring properties of training data
在协作和联合学习中,参与者的培训数据可能分布不一致。联邦学习的明确设计是为了利用参与者可能拥有不同于同一类公开数据的私人培训数据这一事实[35]。
先前的工作[2,16,25]旨在推断表征整个类别的属性:例如,给定一个人脸识别模型,其中一个类别是Bob,推断Bob的长相(例如,Bob戴眼镜)。目前尚不清楚将这些信息隐藏在一个好的分类器中是否可行或可取。
相比之下,我们的目标是推断训练输入子集的真实属性,而不是整个类的真实属性。例如,当Bob的照片用于训练性别分类员时,我们推断Alice出现在一些照片中。我们特别关注与类的特征无关的属性。与人脸识别的例子相反,“鲍勃戴眼镜”是整个班级的特征,在我们的性别参与者对协作学习每次迭代的贡献基于一批培训数据。我们推断单批次属性,即检测给定批次中的数据具有该属性,而其他批次不具有该属性。我们还可以推断属性何时出现在训练数据中。这有严重的隐私问题。例如,我们可以推断某个人何时开始出现在参与者的照片中,或者参与者何时开始拜访某类医生。最后,我们推断参与者的整个数据集(而不是整个类)的特征属性,例如,用于训练情绪分析模型的文本的作者。
参与者对协作学习每次迭代的贡献基于一批培训数据。我们推断单批次属性,即检测给定批次中的数据具有该属性,而其他批次不具有该属性。我们还可以推断属性何时出现在训练数据中。这有严重的隐私问题。例如,我们可以推断某个人何时开始出现在参与者的照片中,或者参与者何时开始拜访某类医生。最后,我们推断参与者的整个数据集(而不是整个类)的特征属性,例如,用于训练情绪分析模型的文本的作者。

IV. I NFERENCE ATTACKS

B. Overview of the attacks
图2提供了推理攻击的高级概述。在训练的每次迭代t中,对手下载当前的联合模型,根据协作学习算法的规定计算梯度更新,并发送他自己对服务器的更新。对手保存联合模型参数θt的快照。在连续快照之间的差值Δθt=θt− θt−1=kΔθt k等于来自所有参与者的聚合更新,因此advΔθt− Δθt是除对手之外的所有参与者的汇总更新。

XI. C ONCLUSION

在本文中,我们提出并评估了几种针对协作学习的推理攻击。这些攻击使恶意参与者不仅能够推断成员身份,即在其他参与者的训练数据中存在确切的数据点,还可以推断表征训练数据子集的属性,这些属性独立于联合模型要捕获的属性。
深度学习模型似乎能够在内部识别数据的许多特征,这些特征与他们正在接受培训的任务不相关。因此,协作学习期间的模型更新会将这些“意外”功能的信息泄露给敌对参与者。在这种情况下,主动攻击可能非常强大,因为它们使敌方能够欺骗联合模型,使其学习目标的特征对手的选择不会对模型在其主要任务中的性能产生重大影响。
我们的研究结果表明,非预期特征的泄漏会使协作学习受到强大的推理攻击。我们还表明,诸如选择性梯度共享、降维和辍学等防御措施是无效的。这将推动未来更好的防御工作。例如,只学习与给定任务相关的特性的技术[15、42、43]可以潜在地作为“最低特权”协作训练模型的基础。此外,还可能检测到操纵模型学习额外特征的主动攻击。最后,当协作学习涉及相对较少的参与者时,参与者级别的差异隐私机制是否能够产生准确的模型仍然是一个悬而未决的问题。

posted on 2021-12-09 16:53  Le2duo  阅读(252)  评论(0)    收藏  举报

导航