隐私保护神经网络精度提升新技术

提升隐私保护神经网络准确性的新技术

差分隐私通过向数据添加噪声来量化隐私风险,但在机器学习中,这种方法往往会降低模型准确性。在计算语言学协会欧洲分会第16届会议上,提出了一种新的差分隐私文本转换算法ADePT(基于自动编码器的差分隐私文本),能够在保护隐私的同时不损失模型效用。

ADePT工作原理

ADePT使用自动编码器,这是一种经过训练能够准确输出输入内容的神经网络。在输入和输出之间,网络将其对输入数据的表示压缩成一个相对较小的向量。在训练过程中,网络学习生成一个能够保留足够输入信息的编码向量,以便能够忠实地重建或解码输入内容。

使用ADePT时,在典型的自然语言理解系统短语上训练自动编码器。但在运行时,在编码向量传递到解码器之前会向其添加噪声。因此,解码器看到的向量并不完全编码输入短语,而是编码表示空间中接近输入短语的一个短语。

解码器的输出因此是输入的近似值,而不是重建。例如,给定输入"What are the flights on January first 1992 from Boston to San Francisco?",带噪声的自动编码器输出问题是"What are the flights on Thursday going from Dallas to San Francisco?"。使用转换后的短语而不是原始输入来训练自然语言理解模型。

隐私保护评估

差分隐私的理念是,从统计上讲,应该无法判断特定数据项是否用于生成聚合统计的数据集中。更准确地说,数据项在数据集内或不在数据集内的概率差异应低于阈值。

为了评估转换算法提供的隐私保护,针对成员推理攻击进行测试。成员推理攻击推断给定数据点是否为目标模型训练数据的一部分。攻击者训练一个本质上是二元分类器的攻击模型,将输入样本分类为成员(存在于训练数据中)或非成员(不存在于训练数据中)。该攻击模型越准确,转换提供的隐私保护就越少。

在测试中,攻击目标是在广泛使用的ATIS和SNIPS数据集上使用转换后数据训练的意图分类器。实验表明,该转换技术在显著提高模型性能的同时,也提高了针对成员推理攻击的鲁棒性。

转换效果对比

原始样本 基线转换 ADePT转换
what are the flights on january first 1992 from boston to san francisco what are the flights on february inhales 1923 from boston to san mostrar what are the flights on thursday going from dallas to san francisco
i would like to book a flight for august twenty seventh from baltimore to san francisco on us air i would like to list all flights for ground transportation from baltimore to general mitchell on us air i would like to find a flight for august fifth from denver to pittsburgh with lufthansa
do you have a night flight from washington to boston on august twenty seventh do you have a listing flights from beach to boston on coach class do you have evening flight from vegas to austin on july thirteen

实验结果显示,该文本转换模型比基线提供更好的语义连贯性,在提高模型性能的同时增强了对成员推理攻击的防御能力。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-10-16 10:56  CodeShare  阅读(3)  评论(0)    收藏  举报