Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 笔记
概述
提出了一个专家混合网络。通过门控系统来确定不同专家系统的加权组合,以在不同的场景中激活不同的专家模块。
动机
神经网络吸收信息的能力受到参数量的限制,在理论上,有人提出了条件计算的方法,即网络的某些部分在每个实例都基础上处于活跃的状态。因此可以通过门控网络来显著地增加模型的容量。
方法
以上为门控网络,其通过 H(x) 来作为 Softmax 的承载的函数,其构造是输入 x dot 可训练的网络参数 Wg,在这个基础上加上平滑噪音以负载均衡,使得每个 Expert 都有被选择的空间。同时,使用了 Topk 确保了稀疏性。最后,使用 Softmax 计算权重。