【读书笔记】《联邦学习》第1章 引言

1 引言

1.1 人工智能面临的挑战

  • 通常能够获得的都是“小数据”,即数据规模小、缺少标签或部分特征数值。
  • “数据孤岛”现象
  • 用户隐私与数据安全的要求不断提高,2018欧盟《通用数据条例》(GDPR)、中国《中华人民共和国民法通则》、2017《中华人民共和国网络安全法》

1.2 联邦学习概述

根据应用场景不同,联邦学习系统可能涉及也可能不涉及中央协调方。

包括协调方的联邦学习架构(客户-服务器架构)

在此场景中,协调方是一台聚合服务器(也称为参数服务器)。

P2P方式的联邦学习架构(对等网络架构)

不需要协调方,进一步加强了安全性,但可能需要更多的计算操作来对消息进行加密与解密。

1.2.2 联邦学习分类(按数据划分)

设矩阵\(D_i\)表示第\(i\)个参与方的数据,矩阵\(D_i\)的每一行表示一个数据样本,每一列表示一个具体的数据特征。特征空间\(X\)、标签空间\(Y\)、样本ID空间\(I\)组成了一个训练数据集\((I, X, Y)\)

横向联邦学习(Horizontal Federated Learning)

适合于参与方特征空间大部分重叠,即在特征空间上对齐,但样本不同。利用对齐的部分进行训练。

例如,当联邦学习的参与方是两家服务于不同区域市场的银行时,它们虽然可能只有很少重叠的客户,但是客户的数据可能因为相似的商业模式而有非常相似的特征空间。这两家银行就可以通过横向联邦学习来协同建立一个机器学习模型。

纵向联邦学习(Vertical Federated Learning)

适合于参与方样本ID空间大部分重叠,即在样本ID空间上对齐,但在特征空间上有所不同。利用对齐的部分进行训练。

例如,两家公司(一家银行,一家电商)提供不同的服务,但在客户群体上有非常大的交集,它们可以在各自的不同特征空间上协作,为各自各自得到一个更好的机器学习模型。

联邦迁移学习(Ferated Transfer Learning)

当参与方在特征空间与样本ID空间上的重叠都比较少时,适用联邦迁移学习。

1.3 联邦学习的发展

开源平台

  • Federated AI Technology Enabler(FATE):微众银行发起的一个开源项目,提供了一个安全的计算框架和联邦学习平台。FATE平台实现了一种基于同态加密和多方计算的安全计算协议,支持一系列的联邦学习架构和安全计算算法,包括逻辑回归、决策树、梯度提升树、深度学习与迁移学习。
  • TensorFlow Federated(TFF):一个为联邦学习和其他计算方法在中心化数据集上进行实验的开源框架。TFF让开发者能在自己的模型和数据上模拟实验现有的联邦学习算法,以及其他新颖算法。TFF的接口由两层构成:联邦学习API和联邦学习核心API。
  • TensorFlow-Encrypted:一个搭建于TensorFlow顶层的Python包,提供了类似于TensorFlow的接口。
  • coMind:一个训练面向隐私保护联邦深度学习模型的开源平台。coMind搭建在TensorFlow的顶层并提供实现联邦学习的高层API。
  • Horovod:由Uber创立,是一个深度学习的开源分布式训练框架,工作在TensorFlow和PyTorch的顶层。Horovod通过MPI(Message Passing Interface)支持联邦学习,目前还不支持加密方式。
  • OpenMined/PySyft:提供了隐私保护的两种方法:联邦学习和差分隐私,还进一步支持安全多方计算和同态加密,能够支持两种以上的安全计算方法。OpenMined已经将PySyft框架开源,PySyft是PyTorch的一个简单外挂拓展。
posted @ 2022-05-02 23:13  MaplesWCT  阅读(323)  评论(0编辑  收藏  举报