数据挖掘 | 数据隐私(3) | 差分隐私 | 差分隐私概论(上)(Intro to Differential Privacy 1)

L3-Intro to Differential Privacy

从这节课开始就要介绍差分隐私算法了。

随机响应(Randomized Response)

场景提出

假若你是某一门课的教授,你希望统计一门课有多少学生作弊。显然你通过直接的问卷派发手段,学生不太可能会老老实实地上交真实答案。为此我们需要改进这一手段,加入一些隐私空间。场景抽象如下:

假若有\(n\)个个人,每人\(i\)拥有一份隐私秘密字节\(X_i\in \{0,1\}\),这个数据是完全保密的。为此每个人向数据分析器发送一个存在与\(X_i\)相关随机过程的\(Y_i\)。那么最终数据分析器能得到一个比例的准确估计\(p=\frac{1}{n}\sum^n_{i=1}X_i\)

首先我们可以采用一个等值的方法,输出原值,其公式定义如下:

\[Y_i=\begin{cases} X_i & \text{概率为1}\\ 1-X_i & \text{概率为0} \end{cases} \]

在这种情况下,\(\tilde p=\frac{1}{n}\sum^n_{i=1}X_i\),完全符合\(\tilde p = p\)。换句话来说就是结果是完全准确的。同理这种情况下毫无隐私,也就是无隐私(No privacy)

如果我们如下进行设计:

\[Y_i=\begin{cases} X_i & \text{概率为1/2}\\ 1-X_i & \text{概率为1/2} \end{cases} \]

在这个时候,显然\(Y_i\)就是完美隐私的,统一不再与\(X_i\)相关,其实此时管理者根本就没有泄露出一丝关于\(X_i\)的信息。但是此时就会损失掉所有的精确度:\(\tilde Z=\frac{1}{n}\sum^n_{i=1}Y_i\)是一个伯努利分布\(\frac{1}{n}Binomial(n,1/2)\),且完全独立于统计量\(Z\)

如今,我们构造了两种情况:要么完全隐私,要么完全精确。

为此这种称为“随机响应”,由参数\(\gamma \in [0,1/2]\)

\[Y_i=\begin{cases} X_i & \text{概率为1/2 + $\gamma$}\\ 1-X_i & \text{概率为1/2 - $\gamma$} \end{cases} \]

那么\(Y_i\)基于\(X_i\)的隐私性有多高?我们目前先采用一种非严谨的说法:首先注意到\(\gamma=1/2\)时为最精确、毫无隐私的策略,而\(\gamma=0\)时则为统一完全随机的策略。如果\(\gamma\)取中值,即\(\gamma=1/4\)的话如何?

可见,对于最终结果的合理怀疑程度即是隐私性的程度。那么我们来看看这个策略的隐私程度如何:

首先由伯努利分布可得:

\[E[Y_i]=2\gamma X_i+1/2-\gamma \]

为此:

\[E\bigg[\frac{1}{2\gamma}(Y_i-1/2+\gamma)\bigg]=X_i \]

为此顺势就能得到这个比例的估计量:

\[\tilde E=\frac{1}{n}\sum^n_{i=1}\bigg[\frac{1}{2\gamma}(Y_i-1/2+\gamma)\bigg] \]

为此我们还能得到\(\tilde p\)的方差:

\[\begin{align} \mathbf{Var}[\tilde p]= & \mathbf{Var}\Bigg[\frac{1}{n}\sum^n_{i=1}\bigg[\frac{1}{2\gamma}(Y_i-1/2+\gamma)\bigg]\Bigg] \\ =& \frac{1}{4\gamma^2 n^2}\sum^n_{i=1}\mathbf{Var}[Y_i] \\ \le & \frac{1}{16\gamma^2 n} \end{align} \]

留意到最后一个不等式中是因为伯努利分布中的方差上界为\(1/4\)。此时此刻,我们就能应用切比雪夫不等式(Chebyshev’s inequality):

\[|\tilde p - p|\le O\bigg(\frac{1}{\gamma\sqrt n}\bigg) \]

显然上式\(n\rarr \infty\)时,误差接近于\(0\)。换句话来说,如果我们要附加误差\(\alpha\),我们就需要\(n=O(1/\alpha^2\gamma^2)\)。要留意到。当\(\gamma\)接近于\(0\),误差不断增加。这相当自然,当隐私性越高,那么达到同样精确度需要的数据量就越大。

接下来,为了评价策略的隐私程度,我们会正式引入差分隐私(differential privacy)这个概念。

差分隐私(Differential Privacy)

为了安全与隐私起见,我们必须要对准确度(即隐私程度)下一个准确的定义,为此我们提出了差分隐私(Differential Privacy),又或者叫做中心化差分隐私(central differential privacy)或者置信管理者模型(trusted curator model)

假若我们在\(X_n\)中有个体\(n\)\(X_i\)。然后将这些数据传输到一个置信管理者(trusted curator)中,这些管理者通过算法\(M\)进行运作,然后通过一个计算过程输出结果。而差分隐私就是这个算法\(M\)在计算过程中所符合的性质。符合这个定义的算法在总体上其输出结果不会受到一个小个体的改变而影响严重。

定义

给定算法\(M:X^n\rarr Y\).

给定两个数据集\(X, X'\in X^n\),这两个数据集仅有一项数据不一致,称为邻近数据集(neighbouring datasets),有时候会写成\(X\sim X'\)。若算法\(M\)\(\epsilon\)-(纯)差分隐私(ε-(pure) DP),对于一切邻近数据集\(X\)\(X'\)以及$T \subseteq Y $,则满足:

\[\mathbf{Pr}[M(X)\in T] \le e^\epsilon\mathbf{Pr}[M(X')\in T] \]

其中这条公式的随机因数是由\(M\)决定的

相关性质

对于差分隐私,一定要搞清楚以下性质与定义:

  • \(\epsilon\)越小时,隐私性越强,反之则越弱
  • 一般来说\(\epsilon\)是一个较小的常数,一般在\(0.1\)\(5\)之间的隐私程度比较合理
  • 这是一个对下限的定义,也就是说只考虑最为糟糕的情况。也有类似的采用平均定义的方法,但是容易造成陷阱而不经常使用。
  • 之所以使用两个邻近数据集进行定义,是因为这一种带界限的差分隐私

差分隐私的目标在于使得攻击者难以分辨两个邻近数据集以达到保护隐私的目的。

值得留意的是,差分隐私适用于统计学以及机器学习,但是不适用要寻找一个个体的目标。例如可以基于阳性患者或者吸烟者比例去评估某个地区的COVID19风险或者吸烟致癌的风险,但是不可能用于寻找潜在的阳性患者。

回顾随机响应

差分隐私算法的设计一般都是围绕着几种基础的核心算法,其中一种便是随机响应。

只需要考虑具体实现即可证明,对于\((Y_1,\dots,Y_n)\)中的\(a\in\{0,1\}^n\),我们有\(\mathbf{Pr}[M(X)=a]=\prod_{i=1}^n\mathbf{Pr}[Y_i=a_i]\)。而\(X\)\(X'\)为一对数据集为在\(j\)的邻近数据集:

\[\frac{\mathbf{Pr}[M(X)=a]}{\mathbf{Pr}[M(X')=a]} =\frac{\prod_{i=1}^n\mathbf{Pr}[Y_i=a_i]}{\prod_{i=1}^n\mathbf{Pr}[Y_i'=a_i]} =\frac{\mathbf{Pr}[Y_j=a_j]}{\mathbf{Pr}[Y_j'=a_j]} \le \frac{1/2+\gamma}{1/2-\gamma}\le e^{O(\gamma)} \]

其中显然该不等式基于\(\gamma \le 1/4\).为此我们可知\(\epsilon\)-randomized即是\(O(\epsilon)\)-差分隐私,其准确度为\(O(\frac{1}{\epsilon\sqrt{n}})\)。准确来说,随机响应比起中心化差分隐私提供更高的隐私性,称为局部差分隐私(local differential privacy),这种情况每个个体仅仅信任其本身(?)。

posted @ 2021-03-07 21:09  Uzuki  阅读(453)  评论(0编辑  收藏  举报