差分隐私报告---第4组

差分隐私报告

汇报人:倪元元、曾文丽、杨顼

时间:2020.3.3

1.背景. 2

2.以往的工作及其局限性. 2

3.差分隐私模型. 2

4.差分隐私的性质发展. 3

5.相关定义的发展. 3

6.实现机制. 4

总结. 5

参考文献. 5

 

 

1.背景

计算机技术的发展和网络攻击手段的不断丰富,使得保护隐私数据已远远不再是隐藏数据中敏感属性那么简单。

数据挖掘等分析技术的快速发展,使得攻击者可以从海量数据中挖掘出与用户隐私有关的信息,却不用直接访问数据。传统的加密,访问控制等技术对这样的攻击方式没有太好的效果。

Google、苹果等公司都开始采用本地化差分隐私方法,它是差分隐私的另一分支,他们将该技术应用在Emoji、QuickType输入建议、查找提示等领域。在早期,人们很难证明我们的方法是否保护了隐私,更无法证明究竟保护了多少隐私。现在差分隐私用严格的数学证明告诉我们,只要按照该方法做,那么就可以保证隐私不被泄露。

2.以往的工作及其局限性

李凤华提出了隐私信息的全生命周期模型。

已有的隐私保护方案(K-匿名、l-多样性、t-closeness),有一个共同的缺点----都依赖于攻击者的背景知识,没有对攻击模型做出合理的假设。

背景知识攻击是指攻击者可以通过找出一个或多个准身份信息属性和敏感属性之间的关联,以此来缩小对敏感属性猜测的范围。

3.差分隐私模型

2006年Dwork等人提出了差分隐私模型。

该模型通过加入随机噪声的方法来确保公开的输出结果不会因为一个个体是否在数据集中而产生明显的变化,并对隐私泄露程度给出了定量化的模型。因为一个个体的变化不会对数据查询结果有显著的影响,所以攻击者无法以明显的优势通过公开发布的结果推断出个体样本的隐私信息,所以差分隐私模型不需要依赖于攻击者所拥有多少背景知识。

而且对隐私信息提供了更高级别的语义安全,因此被作为一种新型的隐私保护模型而广泛使用。

4.差分隐私的性质发展

McSherry等人在2010年对差分隐私提出了2个重要性质,分别是:

性质1.顺序合成性质

性质2.平行合成性质

这两个性质在设计差分隐私机制时有重要的作用,它们可以被用来控制一个差分隐私机制在使用中所需要的隐私预算。这个预算决定了安全条件下允许query的次数。

Daniel Kifer等人在2010年对差分隐私又提出了另外2个性质,分别是:

性质3.变换不变性

性质4.中凸性

5.相关定义的发展

定义1.差分隐私

从该定义可以看出,当epsilon的值越小,作用在一对相邻数据集上的差分隐私算法返回的查询结果的概率分布越相似,攻击者就越难以区分这一对相邻数据集,保护程度就越高。

发现问题、解决问题:差分隐私可以通过在查询结果上加入噪声来实现对用户隐私信息的保护,而噪声量的大小是一个关键的量,要使加入的噪声既能保护用户隐私,又不能使数据因为加入过多的噪声而导致数据不可用。Dwork等人在2006年,提出了全局敏感度以及拉普拉斯机制的概念,通过全局敏感度来控制生成的噪声的大小,可以实现满足差分隐私要求的隐私保护机制。

定义2.全局敏感度

全局敏感度反映了一个查询函数( :D->R, 为查询函数,D为一数据集,R是查询函数的返回结果)在一对相邻数据集上进行查询时变化的最大范围。它与数据集无关,只由查询函数本身决定。

拉普拉斯机制是一种简单,而且广泛用于数值型查询的隐私保护机制。不同epsilon值,对应的拉普拉斯噪声的概率密度函数不同。epsilon值越小,所加入的噪声为0的概率就越小,对输出的混淆程度就越大,保护程度就越高。

发现问题、解决问题:但当全局敏感度较大时,根据全局敏感度生成的噪声往往会对数据提供过度的保护。Nissim等人提出了局部敏感度以及平滑敏感度等新的概念来解决这一问题。

定义3.局部敏感度

与全局敏感度不同,局部敏感度定义中的数据集D是给定的,不是任意的。局部敏感度中给定的数据集大到与全局敏感度中数据集相同时,局部敏感度等于全局敏感度。

发现问题、解决问题:因为根据局部敏感度所产生的噪声和数据集本身相关,所以直接使用局部敏感度生成噪声会泄露数据集信息。Nissim等人提出了根据平滑敏感度来生成噪声的方案。他们首先提出了平滑上界的概念。

定义4.平滑上界

定义5.平滑敏感度

平滑敏感度就是可以满足平滑上界条件的最小函数。

Nissim等人还提出了Sample-Aggregate框架,使用平滑敏感度,保证了添加的噪声虽然与数据集有关,但不会泄露有关数据集的相关信息。

对于很多查询函数来说,它的平滑敏感度可能是难以有效计算的,而且对于不同的查询函数,平滑敏感度的计算是不能自动进行的。Sample-Aggregate解决了这一问题。它可以自动地进行,并且大多数查询函数都适用,而且不需要精确的计算出查询函数的平滑敏感度。

Sample-Aggregate框架首先将一个数据集随机取样划分为m个小子集,m是框架中设定好的参数,然后对每个子集上执行查询函数 来生成一个在 的输出空间上的值 ,最后通过聚合函数生成 来替代原始查询函数 ,加入校正至平滑敏感度的噪声来得到查询结果。

发现问题、解决问题:对于批量线性查询的问题,Li等人提出了一种矩阵机制,优化了大量线性查询中噪声量过大的问题。

发现问题:矩阵机制对于大型的数据是难以使用的。

发现问题、解决问题:由于拉普拉斯机制只能针对数值型数据进行隐私保护,对于非数值型数据,例如实体对象。McSherry等人提出了指数机制。

指数机制的目的、意义:指数机制的目的是使输出结果满足一定的概率分布。指数机制的意义在于防止了攻击者对数据集中个体的投票情况的推测。

定义6.指数机制

                    6.实现机制         

通常使用拉普拉斯机制(Laplace Machanism)和指数机制(Exponential Mechanism)来实现差分隐私保护。其中,拉普拉斯机制用于数值型结果的保护,指数机制用于离散型结果的保护。

普拉斯机制(Laplace Machanism)

向确切的查询结果中加入服从拉普拉斯分布的随机噪声来实现ε-差分隐私保护。记位置参数为0、尺度参数为b的拉普拉斯分布为Lap(b),那么其概率密度函数为:p(x)=exp(-|x|/b)/2b,对于拉普拉斯机制,我们进行以下定义:给定数据集D,设有函数f:D->Rd,其敏感度为Δf,那么随机算法M(D)=f(D)+Y提供ε-差分隐私保护,其中Y~Lap(Δf/ε)为随机噪声,服从尺度参数为Δf/ε的拉普拉斯分布。

指数机制(Exponential Mechanism)

为了解决返回离散型结果而提出,设随机算法M输入为数据集D,输出为一实体对象r∈Range,q(D,r)->R为可用性函数,Δq为函数q(D,r)->R的敏感度。若算法M以正比于exp(εq(D,r)/2Δq)的概率从Range中选择并输出r,那么算法M提供ε-差分隐私保护。

总结

本次报告主要是简单的对差分隐私的背景、局限性、发展以及实现机制进行了简单的介绍,对它所运行在那些环境中还没有进行介绍,下一步还需要阅读大量的资料,来分析它可以运行的环境,以及针对不同的环境,应该如何对其算法进行改造。差分隐私提供了一种无关攻击者背景知识的数据保护方案,相比于其他方法更具优势。矩阵机制对于大型的数据是难以使用,该问题未得到解决,还需要进一步对其进行学习研究。

参考文献

[1] 李效光,李晖,李凤华,朱辉.差分隐私综述[J].信息安全学报,2018,3(05):92-104.

[2] https://www.freebuf.com/articles/database/182906.html

posted @ 2020-03-03 11:10  曾文丽  阅读(1084)  评论(1编辑  收藏  举报