Loading

差分隐私-实现方法与性质

实现方法与性质

离散值域:随机回答

在很多场合,回答是或者不是,本身就属于隐私数据。也就是说有些隐私是离散的数据。

随机回答的局部差分隐私:考虑任意一个被调查者i。由于数据只有一条\(x_i\),所以只需要考虑\(Pr[A_{RR}(x_i)=0]\)\(Pr[A_{RR}(x_i)=1]\)

比如\(A_{RR}\)可以如下设计:

第一次抛硬币:若为正面,则返回真实值y, 反之,进行第二次抛硬币。
	第二次抛硬币:若为正面,则返回1,否者返回0

连续值域:拉普拉斯噪声发和高斯噪声法

\(L_1\)敏感度:给定函数\(f: 2^{\chi} \to R^k\)\(L_1\)全局敏感度定义为:

\[\bigtriangleup _1 f = max_{D_1, D_2 \in \chi_{相邻}}||f(D_1)-f(D_2)|| \]

\(f\)\(L_1\)局部敏感度定义为

\[\bigtriangleup _1^L f =max_{x_1, x_2 \in \chi}||f(x_1)-f(x_2)|| \]

其中\(||*||\)表示的是绝对值符号,下面是函数\(f\)\(L_2\)全局敏感计算:

\[\bigtriangleup _1 f = max_{D_1, D_2 \in \chi_{相邻}}(f(D_1)-f(D_2))^2 \]

然后函数\(f\)\(L_p\)全局敏感度和局部敏感度以此类推。

下面是关于\(f\)函数的两种函数:拉普拉斯函数高斯函数

分布函数

拉普拉斯分布

随机变量\(x\)满足以下概率密度函数,则称\(x\)服从拉普拉斯分布:

\[f(x|\mu, b)=\frac{1}{2b}e^{-\frac{|x-\mu|}{b}} \]

image-20230216163326415

拉普拉斯分布函数如下:

\[F(x|\mu, b)=\begin{cases} \frac{1}{2}e^{-\frac{\mu-x}{b}} & \text{ if } x < \mu \\ 1-\frac{1}{2}e^{-\frac{x-\mu}{b}} & \text{ if } x \ge \mu \end{cases} \]

将位置参数\(\mu =0\),尺度参数b的拉普拉斯分布记作\(Lap(x|b)\). 若\(x \sim Lap(b)\),则\(EX = 0, DX=2b^2\)

高斯分布-略

拉普拉斯噪声

拉普拉斯噪声法:给定函数\(f:2^{\chi} \to R^k, D \subseteq \chi\), 满足\(\varepsilon-\)差分隐私的拉普拉斯噪声法定义如下:

\[A_{L}(D. f. \varepsilon ) =f(x) + (Y_1, Y_2, ..,Y_k) \]

其中, \(Y_i\)为独立并且\(Y_i \sim Lap(\bigtriangleup _1 f/ \varepsilon)\)分布的随机变量。

拉普拉斯噪声法会对\(f\)的计算结果加入噪声,从而使得计算结果不精确;且隐私要求越高,隐私预算\(\varepsilon\),需要加入的噪声尺度\(\bigtriangleup _1 f/ \varepsilon\)就越大,对计算结果的精确度影响就越大。

image-20230216181946788

高斯噪声

虽然拉普拉斯噪声符合\(\varepsilon-\)差分隐私的条件,但是拉普拉斯分布存在一个问题,拉普拉斯分布无法进行加和。也就是如下:

\[X \sim Lap(a_1, b_1), Y \sim Lap(a_2, b_2), X+Y \nsim Lap(*) \]

所以,高斯噪声使用更加广泛。

高斯噪声法:给定函数\(f: 2^{\chi} \to R^k, D \subseteq \chi\),高斯噪声定义为:

\[A_{N}(D, f, \delta) = f(D)+(Y_1, Y_2, ..., Y_D)^T \]

其中,\(Y_i\)独立切服从\(N(0, \delta^2)\)分布的随机变量。

高斯噪声法的差分隐私性:令\(\varepsilon \in (0, 1)\),若\(c^2 > 2ln(\frac{1.25}{\delta})\),则当$\delta > c \bigtriangleup _2 f/\varepsilon \(时,高斯噪声满足\)\varepsilon-$差分隐私条件。

差分隐私的性质

在很多时候,数据的处理和查询任务时,对数据的处理是多步骤的,所以有必要知道如何使用基本的查分隐私算法构造更加复杂的查分隐私算法。

后处理

后处理:所有不访问隐私数据本身,而仅是访问差分隐私算法输出的算法操作叫做后处理。

后处理的差分隐私性:令随机算法A:\(2^{\chi} \to Y\) 满足\((\varepsilon , \delta)-\)差分隐私算法的条件,其中\(f: Y \to Y^{'}\)的映射函数(后操作)。则\(f*A: 2^{\chi} \to Y^{'}\)也满足差分隐私的条件。

并行复合

对同一组数据反复使用拉普拉斯噪声法并求平均值,噪声也会相互抵消,从而使得平均值比每一次返回值都要更加接近真实结果。

并行复合的差分隐私性:令\(A_1, A_2: 2^{\chi} \to Y\)分别满足\((\varepsilon _1, \delta_1), (\varepsilon_2, \delta_2)\)的差分隐私。假设\(\forall D \subset \chi, A_1(D)\)\(A_2(D)\)相互独立,则\(A(D)=(A_1(D), A_2(D))\)满足\((\varepsilon _1 + \varepsilon _2, \delta_1+\delta_2)\)差分隐私。

序列复合

数据处理中经常存在对同一组数据运行多步骤相互关联的数据处理算法。

序列复合的差分隐私性:令\(A_1 : 2^{\chi} \to Y\)满足\(\varepsilon _1 -\)差分隐私; \(A_2: 2^{\chi}*Y \to Y^{'}\)满足\(\forall y \in Y, A_2(*, y)\)满足\(\varepsilon_2-\)差分隐私。假设\(A_1\)\(A_2\)相互独立,则算法\(A: D \subset \chi \to (A_1(D), A_2(D, A_1(D)))\) 满足\((\varepsilon _1 + \varepsilon _2)-\)差分隐私。

总结

以上只是介绍了2种基本的差分隐私,还存在其他实现差分隐私的方法比如指数算法,稀疏向量法等等。

posted @ 2023-02-16 19:00  青山新雨  阅读(345)  评论(0)    收藏  举报