隐私保护神经网络精度提升新技术
提升隐私保护神经网络准确性的新技术
差分隐私通过向数据添加噪声来量化隐私风险,但在机器学习中,这种方法往往会降低模型准确性。在计算语言学协会欧洲分会第16届会议上,提出了一种新的差分隐私文本转换算法ADePT(基于自动编码器的差分隐私文本),能够在保护隐私的同时不损失模型效用。
ADePT工作原理
ADePT使用自动编码器,这是一种经过训练能够准确输出输入内容的神经网络。在输入和输出之间,网络将其对输入数据的表示压缩成一个相对较小的向量。在训练过程中,网络学习生成一个能够保留足够输入信息的编码向量,以便能够忠实地重建或解码输入内容。
使用ADePT时,在典型的自然语言理解系统短语上训练自动编码器。但在运行时,在编码向量传递到解码器之前会向其添加噪声。因此,解码器看到的向量并不完全编码输入短语,而是编码表示空间中接近输入短语的一个短语。
解码器的输出因此是输入的近似值,而不是重建。例如,给定输入"What are the flights on January first 1992 from Boston to San Francisco?",带噪声的自动编码器输出问题是"What are the flights on Thursday going from Dallas to San Francisco?"。使用转换后的短语而不是原始输入来训练自然语言理解模型。
隐私保护评估
差分隐私的理念是,从统计上讲,应该无法判断特定数据项是否用于生成聚合统计的数据集中。更准确地说,数据项在数据集内或不在数据集内的概率差异应低于阈值。
为了评估转换算法提供的隐私保护,针对成员推理攻击进行测试。成员推理攻击推断给定数据点是否为目标模型训练数据的一部分。攻击者训练一个本质上是二元分类器的攻击模型,将输入样本分类为成员(存在于训练数据中)或非成员(不存在于训练数据中)。该攻击模型越准确,转换提供的隐私保护就越少。
在测试中,攻击目标是在广泛使用的ATIS和SNIPS数据集上使用转换后数据训练的意图分类器。实验表明,该转换技术在显著提高模型性能的同时,也提高了针对成员推理攻击的鲁棒性。
转换效果对比
原始样本 | 基线转换 | ADePT转换 |
---|---|---|
what are the flights on january first 1992 from boston to san francisco | what are the flights on february inhales 1923 from boston to san mostrar | what are the flights on thursday going from dallas to san francisco |
i would like to book a flight for august twenty seventh from baltimore to san francisco on us air | i would like to list all flights for ground transportation from baltimore to general mitchell on us air | i would like to find a flight for august fifth from denver to pittsburgh with lufthansa |
do you have a night flight from washington to boston on august twenty seventh | do you have a listing flights from beach to boston on coach class | do you have evening flight from vegas to austin on july thirteen |
实验结果显示,该文本转换模型比基线提供更好的语义连贯性,在提高模型性能的同时增强了对成员推理攻击的防御能力。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码