FedAtt

[[Learning Private Neural Language Modeling with Attentive Aggregation.pdf]]

问题背景

传统中心化方法需收集大量用户数据，存在隐私风险
联邦学习通过分布式训练保护用户隐私
现有FedAvg方法简单平均客户端模型，忽略各客户端贡献差异
服务端聚合缺乏优化，全局模型泛化能力有限

其核心就是基于相关度的加权平均来代替 Prox，其中相关度是由参数偏移程度决定的：

\[\begin{aligned} s_k^l &= \| \omega^l - \omega^l_k \|_p \\ \alpha_k^l &= {\rm softmax}(s_k^l) \\ \theta_{t + 1} &= \theta_t - \epsilon \sum \alpha_k (\theta_t - \theta^k_{t}) \end{aligned} \]

值得注意的是，\(w^l\) 表示 LM 第 \(l\) 层的参数，\(\omega_k^l\) 是 SM 的，\(\alpha_k^l\) 是对每一层的原始相似度加权重，对于每个模型的每一层都有一个权重。

这个与 [[FedProx]] 还是很不一样的。

论文中还有一些其他的细节：

差分隐私的使用，对于聚合的 \(\theta_{t}^k\) 加入了 \(N(0, \sigma^2)\) 的噪声
引入了困惑度^[1]的阈值来判断收敛
模型采用的是 [[GRU]]，数据采用 Penn Treebank、WikiText-2 和 Reddit Comments 三个英文语料库。

在原文 Section IV.C 中，困惑度定义为分布熵 \(H(p)\) 的指数形式：

\[\]
\[\]
其值越小，熵越大，代表对于下一个的确信度就越高；如果是平均猜测，那么，熵最小，其值最大，预测稳定性最弱。 ↩︎

posted @ 2026-04-22 11:22 jeefy 阅读(5) 评论(0) 收藏举报

刷新页面返回顶部

jeefy

信仰，梦想，希望！

FedAtt

公告