Differential Privacy: A Primer for a Non-technical Audience
本文档是关于差异隐私(Dierential Privacy)的入门读物,差异隐私是一个正式的数学框架,用于在分析或发布统计数据时确保隐私保护。最近从理论计算机科学文献中出现的不同隐私现在正处于在各种学术、行业和政府环境中实施和使用的初始阶段。本文档使用直观的插图和有限的数学形式主义,为非技术从业者提供了对不同隐私的介绍,随着不同隐私的使用越来越广泛,他们的任务越来越多,需要做出关于不同隐私的决策。具体地说,本文档中的示例说明了社会科学家在管理有关研究对象的个人数据并告知他们隐私保护时,如何将不同隐私提供的保证概念化,这些保证涉及他们在管理有关研究对象的个人数据时做出的决定,并告知他们将被授予的隐私保护。
观众
本文档是为非技术读者编写的。特别是,它旨在为社会学家、心理学家、行为经济学家和政治学家等社会科学研究人员提供资源,他们收集和分析隐私敏感的个人数据,并决定是否以及如何与他人共享他们的研究数据和结果。它还旨在更广泛地帮助法律学者和政策制定者,因为他们正在考虑当前和未来的法律框架和文书将如何适用于基于正式隐私模式的工具,如差异隐私(Dierential Privacy)。
本文的目标是向读者介绍差异隐私(Differential Privacy)的概念,这是一种新的隐私保护的形式化数学模型。
虽然本文在撰写时考虑到了隐私敏感数据的分析人员,但有些小节从数据主体的角度出发,即在统计分析中使用其个人数据的个人。尤其是,我们使用了数据主体的观点,其中我们讨论了不同的隐私如何控制由于个人隐私敏感数据对数据分析的贡献而给个人带来的风险增加。我们希望这种描述差异隐私特征的方式能帮助社会科学研究者理解差异隐私提供的保障,以便他们能够在研究过程中决定是否使用差异隐私,如果是的话,他们应该对研究对象做出什么样的关于差异隐私提供的保证的承诺。我们希望通过这种方式,社会科学研究者能够更好地理解ffff隐私提供的保障,以便他们能够在研究过程中决定是否使用差异隐私,如果是的话,他们应该就差异隐私提供的保障向他们的研究对象做出什么样的承诺。
1 Introduction
经验社会科学中的一个共同挑战是出于复制和二次研究的目的共享隐私敏感数据。社会科学研究数据通常包含个别参与者的个人信息,这些信息被认为是敏感或机密的。不恰当地披露这些数据可能会对研究对象的关系、声誉、受雇能力、保险能力或fi财务状况产生不良后果,甚至导致民事责任、刑事处罚或身体伤害。由于这些和相关的担忧,大量的法律、法规、道德规范、机构政策、合同和最佳实践应运而生,以解决人类受试者研究导致的与隐私相关的潜在危害。
1.1 Introduction to legal and ethical frameworks for research data privacy
一般来说,研究政策要求研究人员保护隐私,将其作为维护受试者尊严和福利的基本原则。因此,研究人员有责任实施隐私保护措施,并将命令的保护范围生态地传达给他们的受试者。此外,根据隐私法和研究机构、资助组织的政策,规范fic的行政、技术和物理措施是必要的。
隐私权要求也出现在技术标准中,例如国际标准化组织的标准,该组织提供关于实施信息安全控制以保护个人身份信息的技术指导。fi(国际标准化组织)提供了关于实施信息安全控制以保护可识别个人身份的信息的技术指南。此外,国际隐私准则已被世界各国政府采纳。最广泛采用的指引是经济合作暨发展组织制订的私隐原则,包括收集限制、数据质素、指定用途、使用限制、保安保障、公开、个人参与和问责原则。隐私权也受到各种国际条约和国家宪法的保护。
综上所述,这些法律和伦理框架所需的保障措施旨在保护研究对象的隐私;确保他们充分了解需要收集的个人信息的范围以及与他们参与研究相关的隐私风险;避免对他们自己和所在机构的行政、民事和刑事处罚;以及维护公众对科学研究的信任和信心。
1.2 Traditional statistical disclosure limitation techniques
在这些法律和道德框架的背景下,已经制定了一些在保护个人隐私的同时披露数据的技术措施。在统计披露限制(SDL)的标题下开发了用于发布统计数据的技术的子集,并且被统计机构、数据分析师和社会科学研究人员广泛使用。该术语指的是应用于包含隐私敏感个人信息的数据集的技术集合,其目的是使其更多地(或不可能)学习个人特有的个人信息变得更困难。这类技术包含了广泛的方法,用于抑制、聚合和概括数据中的个人属性。这样的技术通常以明确的de-identification目标被应用,数据通过编校或粗化的方式进行转换,以使其成为将身份识别的人与数据发布中的记录相关联变得困难。
然而,信息收集和分析方式的变化,包括分析能力的进步、计算能力的提高以及来自广泛来源的个人数据可用性的扩大,正在侵蚀传统sdl技术的eff效率。自20世纪90年代以来,随着频率的增加,隐私和安全研究人员已经证明,已被识别fi的数据通常可以通过记录链接成功地重新识别[19]。通过记录链接的重新识别(re-identififi),或称链接攻击,是指通过唯一地链接去识别(de-identifi)数据集中的记录与诸如选民登记列表的公共可用数据集中的识别识别记录来重新识别(re-identifi)数据集中的一个或多个记录。关于隐私的其他方法也发现了弱点。了解这些技术的局限性是正在进行的研究的主题。
1.3 The emergence of formal privacy models
Re-identification attacks 随着时间的推移变得越来越复杂,其他类型的攻击也是如此,这些攻击试图根据数据中关于个人的信息来推断个人的特征。对de-identified数据的成功攻击表明,用于隐私保护的传统技术措施可能特别容易受到技术部署和使用后设计的攻击。例如,一些识别fi阳离子技术要求将数据中的属性指定为识别的(例如,姓名、出生日期或地址)或非识别的(例如,电影评级或入院日期)。它们还可能需要仔细分析当前和未来的数据源,这些数据源可能潜在地与身份识别(de-identifi)数据相链接,并且能够重新识别(re-identifi)数据。研究人员稍后可能会发现,最初被认为是不可识别的属性实际上可以用于重新识别个体,或者意外的辅助信息源可以用于重新识别fi阳离子。事实上,Sciencefic文献提供了许多具有这种性质的攻击的真实世界演示。
诸如此类的问题突显了隐私技术的必要性,这些技术不仅不受联动攻击的影响,而且不受任何潜在攻击的影响,包括目前未知或不可预见的攻击。他们还证明,隐私技术不仅必须在“独立”环境中提供有意义的隐私保护,而且还必须在潜在攻击者(包括雇主、保险公司、亲戚和数据中某个主题的朋友)可以获得大量外部信息的环境中提供有意义的隐私保护。此外,现实世界的攻击表明,事后补救措施(例如在发现漏洞时简单地“取回数据”)是有效的,因为通常存在一组数据的许多副本。
为了回应积累的相对于传统方法的弱点的证据,计算机科学文献中出现了一种新的隐私范式:Differential隐私。差分隐私主要在收集、分析和发布聚合统计信息的上下文中进行研究。这些方法的范围从简单的统计估计(如平均值)到机器学习。差异隐私(Differential Privacy)于2006年首次提出[3],它是正在进行的研究的主题,目的是开发隐私技术,提供强大的保护以抵御广泛的潜在攻击,包括目前无法预见的攻击类型。
重要的是,差分隐私不是一个单一的工具,而是一种量化和管理隐私风险的定义或标准,为此已经设计了许多技术工具。目前,各种学术、行业和政府机构都在实施和使用用于隐私分析的工具,这些工具现在处于早期阶段。我们讨论了不同隐私的定义,它是如何处理隐私风险的,不同隐私分析是如何构造的,以及这些分析如何在实践中使用。我们以一些高级主题和进一步阅读的指针来结束。
2 What is the differential privacy guarantee?

考虑一下对包含个人个人信息的数据的分析。分析可能像确定数据中个人的平均年龄一样简单,也可能更复杂,并利用复杂的建模和推理技术。在任何情况下,分析都涉及对输入数据执行计算并输出结果。目标是生成安全发布的数据的净化版本。换句话说,我们可以互换地使用术语分析和计算来指代通常由计算机程序执行的将输入数据转换成某些输出的任何转换。这个分析概念如图1所示。
差分隐私将这一直觉形式化为一种数学定义(definition)。这个定义又可以用来设计隐私保护分析,该分析提供隐私保护的数学保证。在此框架中,隐私不仅是输出的属性,而且是生成输出的计算的属性。
在这种情况下,可以使用差分隐私来解决约翰的问题。如果对来自该研究的数据的分析被设计为完全保密,那么约翰可以保证,即使在分析中使用了他的信息,分析的结果也不会向他透露任何特定的信息。

要观察到此场景中的分析结果确实不依赖于约翰的信息,请注意,如果约翰的个人详细信息完全不同,则分析结果根本不会改变。
约翰的记录不在分析输入的方案与现实世界的方案不同,现实世界的方案涉及基于约翰的信息以及其他人的个人信息的分析。因此,现实世界的场景会给约翰的隐私带来一些潜在的风险。因为约翰的信息被用作分析的输入,所以关于他的个人信息可能会在分析结果中被揭示,尽管从这样的分析中揭示的关于约翰的信息量通常非常小。
2.1 What does differential privacy protect and what does it not protect?
Differential Privacy旨在以一种模仿约翰在选择退出场景中作为的隐私保护的方式来保护他在现实世界场景中的隐私。
下面的示例说明了在使用和不使用差分隐私的情况下,实际场景中受保护的内容。他们还更详细地探讨了约翰选择退出的情况。我们将看到,即使在约翰选择退出的情况下,一项分析也可能揭示关于约翰的信息,这些信息可能会让他难堪,损害他的社会地位,或者对他未来的就业能力或保险能力产生不利影响。
这个故事说明了如何结合使用同一人的信息进行多项分析的结果,使人能够对数据中的个人得出结论。艾丽斯和鲍勃各自发表了孤立地看起来无伤大雅的信息。然而,当这些信息结合在一起时,就会危及约翰的隐私。这种类型的隐私侵犯是爱丽丝或鲍勃单独防止的diffi邪教,因为他们都不知道哪些信息已经泄露或未来将被其他人泄露。这个问题被称为composition问题。
接下来考虑一下,如果Alice和Bob在发布计数之前将随机噪声添加到计数中,会发生什么情况。
假设在上面的示例中,爱丽丝和鲍勃决定向他们在文章中发布的数据添加随机噪声。对于家庭收入超过100万美元的新生人数,爱丽丝公布了3月份的204人,鲍勃公布了4月份的199人。这些言论的发布将阻止Eve得出结论,即有一名学生在3月份从大学退学,而且这名学生来自家庭收入超过100万美元的家庭,从而降低了约翰的个人信息可能根据这些发布被泄露的风险。
但是请注意,这并不意味着在多次以不同方式进行的私有计算之后隐私不会降级。
此示例说明了差分隐私的最大优势之一:能够测量和限制对同一个人的信息进行多个分析的累积隐私风险。
但是,重要的是要注意,每次分析都会导致有关其信息正在被分析的个人的信息泄露,并且这种泄露会随着每次分析而累积。正如我们在下面的3.2和7.2节中更详细描述的那样,对于每一次数据发布,包括聚合统计数据的发布,情况都是如此。出于这个原因,在提供可接受的隐私保证的同时,可以对数据集执行的分析次数是有限制的。这就是为什么衡量隐私损失和定量了解风险是如何累积的至关重要的原因。
Examples illustrating what differential privacy does not protect
differential privacy不保护基于公共已发布信息作出的统计判断。因此,使用差分隐私只保证不会泄露任何特定于john的信息。这些例子表明,更广泛地说,任何有用的分析都有泄露个人信息的风险。然而,我们认为,这种风险在很大程度上是不可避免的。在一个关于个人的数据被收集、分析和发布的世界里,约翰不能期望比他的选择退出方案所提供的更好的隐私保护,因为他没有能力阻止其他人参与研究或发布公共记录。此外,约翰选择退出方案中允许的信息披露类型通常会带来个人和社会的好处。例如,红酒消费和癌症风险升高之间的因果关系的发现可以让约翰知道他可以对自己的习惯做出可能的改变,这些改变可能会对他的健康产生积极的影响。此外,公立学校教师工资的公布可能被视为在透明度和公共政策方面发挥关键作用,因为它可以帮助社区就其公职人员的适当工资做出明智的决定。
为了屏蔽现实世界计算和个人选择退出场景之间的差异,从而实现不同的隐私,分析必须引入一定的随机性。也就是说,与标准统计分析(例如平均值、中位数和线性回归方程的计算)不同的是,执行的分析与标准统计分析不同,因为在计算中加入了随机噪声。这意味着不同的私有分析的结果不是精确的,而是近似的,并且如果执行两次,不同的私有分析可能返回不同的结果。在下面的第6节中,我们提供了更详细的关于差分隐私分析的构造的讨论。
3 The privacy loss parameter
理想情况下,无论调查中是否包括像约翰这样的单个人,这一估计都应该保持完全相同。然而,要确保这一属性准确,就需要从分析中完全排除John的信息。它还需要排除格特鲁德和彼得的信息,以便也为他们提供隐私保护。我们可以继续这一论点,删除每个接受调查的个人的个人信息,以满足他们个人的选择退出情景。不过,如果这样做,我们便要得出结论,便是分析不能依赖任何人的资料,所以是没有用的。
为了避免这种两难境地,差分隐私只要求分析的输出保持大致相同,无论是否参与调查。也就是说,差分隐私允许现实世界分析的输出与每个人的选择退出场景的输出之间存在轻微的偏差(DierentialffPrivacy)

该参数测量每个人的信息对分析输出的影响程度等。它也可以被视为个人可能招致的额外隐私风险的衡量标准,而不是在选择退出方案中发生的风险。请注意,在图3中,我们用一个原型个体X替换了john,以强调不同的隐私保证是同时对样本中的所有个体进行的,而不仅仅是john。对于信息包含在输入中的每个个体X,选择退出方案和现实世界计算之间的最大偏差应该同时存在。
选择的值可视为调整所需的隐私保护级别。此选择还会影响可从分析中获得的效用或准确性。值越小,实际分析与选择退出方案之间的偏差越小,因此与更强的隐私保护相关,但准确性较低。例如,当设置为零时,真实世界中的顺序私有分析完美地模拟了所有个人的选择退出场景。然而,正如我们在本节开头所说的那样,同时模拟被调查人群中所有个人的选择退出情景将需要忽略输入中的所有信息,因此分析将不会提供任何有意义的输出。然而,当设置为一个较小的数字(如0.1)时,真实世界计算与每个人的选择退出方案之间的偏差将很小,从而提供强大的隐私保护,同时还使分析师能够根据数据推导出有用的统计数据。
3.1 A technical discussion of the privacy loss parameter
例如,如果约翰认为如果他的信息没有被包括在由保险公司通过Diff私有机制访问的医学研究数据库中,则将他的信息添加到数据库可以将该概率增加到最多5%。如果约翰认为他被拒绝保险覆盖的概率至多为5%,则将他的信息添加到该数据库最多可以将该概率增加到

因此,隐私损失参数(在本例中=0.01)确保约翰被拒绝保险的概率几乎相同,无论关于他的信息是否出现在该医学研究数据库中。
3.2 The composition of differentially private analyses
隐私风险随着对个人数据的多次分析而累积,无论是否应用任何隐私保护技术都是如此。在不同的隐私分析情况下,参数通过多次分析来描述隐私风险是如何累积的。为了说明此参数在顺序私有分析的组成中所起的作用,请考虑以下示例。
浙公网安备 33010602011771号