摘要:联邦学习允许边缘设备协同学习共享模型,同时将训练数据保留在设备上,将模型训练能力与将数据存储在云中的需求分离开来。针对例如卷积神经网络(CNNs)和LSTMs等的现代神经网络结构的联邦学习问题,我们提出了联邦匹配平均(FedMA)算法。FedMA通过对特征提取到的具有相似特征的隐元素(即卷积层的通道;LSTM的隐状态;全连接层的神经元)进行匹配和平均,按层构建共享全局模型。我们的实验表明,FedMA训练的深度CNN和LSTM结构在实际数据集上优于流行的最新联邦学习算法,同时提高了通信效率。
阅读全文
摘要:联邦学习(FL)是一种机器学习环境,其中许多客户端(如移动设备或整个组织)在中央服务器(如服务提供商)的协调下协同训练模型,同时保持训练数据去中心化。FL体现了集中数据收集和最小化的原则,可以减轻传统的中心化机器学习和数据科学方法带来的许多系统隐私风险和成本。在FL研究爆炸式增长的推动下,本文讨论了近年来的进展,提出了大量的开放性问题和挑战。
阅读全文
摘要:联邦学习涉及在大规模分布式网络中训练机器学习模型。虽然联邦平均(FedAvg)是在该设置中训练非凸模型的主要优化方法,但在实际的联邦设置中,当跨统计异质设备(即每个设备以不同的方式收集数据)学习时,它的表现并没有得到很好的理解。在这项工作中,我们引入了一个处理统计异质性的框架FedProx,它将FedAvg作为一个特例。我们通过设备差异性假设为FedProx提供了收敛保证,该假设允许我们描述网络中的异构性。最后,我们对一组联邦数据集进行了详细的实证评估,验证了我们的理论分析,并证明了相对于FedAvg,广义FedProx框架在异构网络中学习更具有鲁棒性和稳定性。
阅读全文
摘要:联邦学习使得大量的边缘计算设备在不共享数据的情况下共同学习模型。联邦平均法(FedAvg)是该算法中的一种主要算法,它在所有设备的一小部分上并行运行随机梯度下降(SGD),并每隔一段时间对序列进行平均。尽管它很简单,但在现实环境下却缺乏理论上的保障。本文分析了FedAvg在非iid数据上的收敛性,建立了强凸光滑问题的收敛速度O(1/T),其中T是SGDs的迭代次数。重要的是,我们的界证明了通信效率和收敛速度之间的权衡。由于用户设备可能与服务器断开连接,我们将设备完全参与的假设放宽到部分设备参与,并研究了不同的平均方案;在不严重降低学习速度的情况下,可以实现低设备参与率。我们的结果表明,数据的异质性减缓了收敛速度,这与经验观测相符。此外,我们还为FedAvg在非iid数据上的收敛性提供了一个必要条件:即使使用全梯度,学习率也必须下降;否则,解将偏离最优解。
阅读全文
摘要:写本篇是为了记录一下之前阅读过的一些关于联邦学习的文章,然后对其中的一些关键点进行了总结,并加入了个人对于联邦学习这一研究领域的理解以及思考
阅读全文
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! arXiv:1908.07873v1 [cs.LG] 21 Aug 2019 Abstract 联邦学习包括通过远程设备或孤立的数据中心(如移动电话或医院)训练统计模型,同时保持数据本地化。在异构和潜在的大规模网络中进行训练带来了新的挑战
阅读全文
摘要:联邦学习是现代大规模机器学习中的一个关键场景。在这种情况下,训练数据仍然分布在大量的客户机上,这些客户机可能是电话、其他移动设备或网络传感器,并且在不通过网络传输客户机数据的情况下学习集中式模型。此方案中使用的标准优化算法是联邦平均(FedAvg)。然而,当客户端数据是异质的(这在应用程序中是典型的)时,FedAvg并不能保证良好的收敛性。这是因为客户机上的本地更新可能会发散开来,这也解释了FedAvg在实践中的缓慢收敛和难以调整的特性。本文提出了一种新的随机控制平均算法(SCAFFOLD),该算法利用控制变量来减少不同客户之间的漂移。我们证明了该算法需要的通信次数明显减少,并且有良好的收敛性保证。
阅读全文
摘要:联邦学习允许多个参与方在其整合数据上联合训练一个深度学习模型,而无需任何参与方将其本地数据透露给一个集中的服务器。然而,这种形式的隐私保护协作学习的代价是训练期间的大量通信开销。为了解决这个问题,分布式训练文献中提出了几种压缩方法,这些方法可以将所需的通信量减少三个数量级。然而,这些现有的方法在联邦学习设置中的实用性有限,因为它们只压缩从客户端到服务器的上行通信(而下行通信未压缩),或者仅在理想化的条件下良好地执行,例如客户端数据的IID分布,这通常不符合在联邦学习的实际情况。在这项工作中,我们提出稀疏三元压缩(Sparse Ternary Compression,STC),这是一个新的压缩框架,专门为满足联邦学习环境的要求而设计的。STC用一种新的机制扩展了现有的top-k梯度稀疏化压缩技术,以实现下游压缩以及权重更新的三元化和最优Golomb编码。我们对四种不同学习任务的实验表明,在常见的联邦学习场景中,STC明显优于联邦平均,在这些场景中,客户机 a)持有non-iid数据,b)在训练期间使用小批量,或者 c)客户机数量多,参与每轮通信的比率低。
阅读全文
摘要:我们解决了非i.i.d.情况下的联邦学习问题,在这种情况下,局部模型漂移,抑制了学习。基于与终身学习的类比,我们将灾难性遗忘的解决方案改用在联邦学习上。我们在损失函数中加入一个惩罚项,强迫所有局部模型收敛到一个共享的最优值。我们表明,这可以有效地进行通信(不增加进一步的隐私风险),在分布式设置中随着节点数量的增加而扩展。实验结果表明,该方法在MNIST数据集上的识别效果优于同类方法。
阅读全文
摘要:基于“learning with errors”(LWE)问题,分析了理论上基于声音格的加密方案的具体安全性和密钥大小。我们的主要贡献是:(1)针对LWE提出了一种新的格攻击,它结合了基归约和一个允许时间/成功折衷的枚举算法,其性能优于先前分析中所考虑的简单区分攻击;(2)基于LWE的密码系统的具体参数和安全性估计,该系统比文献中已知的方案更为紧凑和高效。我们的新密钥大小比以前的示例小10倍,同时提供更强大的具体安全级别。
阅读全文
摘要:联邦学习是一种很有前途的机器学习方法,它利用来自多个节点(如移动设备)的分布式个性化数据集来提高性能,同时为移动用户提供隐私保护。在联邦学习中,训练数据广泛分布在移动设备上,作为用户得到维护。中央聚合方通过使用移动设备的本地训练数据从移动设备收集本地更新来更新全局模型,以在每次迭代中训练全局模型。然而,不可靠的数据可能被移动设备(即用户)上传,从而导致联邦学习任务中的欺诈。用户可能故意执行不可靠的更新,例如数据中毒攻击,或无意执行,例如由能量限制或高速移动引起的低质量数据。因此,在联邦学习任务中找到可信和可靠的用户变得至关重要。本文引入信誉的概念作为度量标准。在此基础上,提出了一种用于联邦学习任务的可靠用户选择方案。联盟链被用作一种去中心化的方法,以实现对用户的有效信誉管理,而无需拒绝和篡改。通过数值分析,证明了该方法可以提高移动网络中联邦学习任务的可靠性。
阅读全文
摘要:我们展示了如何构造各种“trapdoor”密码工具,假设标准格问题的最坏硬度(例如在最短的非零向量上近似于小因子)。应用包括带预图像采样的trapdoor函数,简单高效的“哈希签名”数字签名方案、通用可组合的不经意传输和基于身份的加密。
阅读全文
摘要:在mxnet框架中加入(同态)加密时的探索记录笔记
阅读全文
摘要:对称加密(DES、3DES、AES)与非对称加密(RSA)的实现
阅读全文
摘要:Paillier同态加密实现(C++ / Python)
阅读全文
摘要:本文研究了一个新的计算问题,即合数剩余阶问题(Composite Residuosity Class Problem),及其在公钥密码学中的应用。我们提出了一种新的陷阱门(trapdoor)机制,并从这一技术中推导出了三种加密方案:一种陷阱门排列方案和两种同态概率加密方案,其计算结果与RSA相当。我们的密码系统基于通常的模块化算法,在标准模型的适当假设下可以证明其安全性。
阅读全文
摘要:不幸的是,我们发现任何隐私保护的协作深度学习都容易受到我们在本文中设计的强大攻击。特别是,我们表明分布式、联邦或分散的深度学习方法从根本上将会被打破,并且不再能保护诚实参与者的训练集。我们开发的攻击利用了学习过程的实时性,使对手能够训练一个生成对抗网络(GAN)。该网络生成目标训练集的原型样本,而目标训练集是私有的(由GAN生成的样本旨在产生自与训练数据相同的分布)。有趣的是,我们表明,如前面的工作中所提出的,应用于模型共享参数的记录级别差异隐私是无效的(即记录级别差异隐私DP不是为解决我们的攻击而设计的)。
阅读全文
摘要:我们建立了一个隐私保护的深度学习系统,在这个系统中,许多学习参与者对组合后的数据集执行基于神经网络的深度学习,而实际上没有向中央服务器透露参与者的本地数据。为此,我们重新回顾了Shokri和Shmatikov(ACM CCS 2015)之前的工作,并指出本地数据信息实际上可能泄漏给诚实但好奇的服务器。然后,我们通过构建一个具有以下特性的增强系统来解决这个问题:(1)没有向服务器泄漏任何信息;(2)与普通的深度学习系统相比,在合并的数据集上,精度保持不变。
阅读全文
摘要:(转载)本文将讨论一个简化了的图像分析案例,介绍所有需要用到的技术。GitHub上有一些和本文配套的notebook(mortendahl/privateml),其中主要的notebook提供了概念证明实现。
阅读全文