Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 笔记

概述

提出了一个专家混合网络。通过门控系统来确定不同专家系统的加权组合，以在不同的场景中激活不同的专家模块。

动机

神经网络吸收信息的能力受到参数量的限制，在理论上，有人提出了条件计算的方法，即网络的某些部分在每个实例都基础上处于活跃的状态。因此可以通过门控网络来显著地增加模型的容量。

方法

以上为门控网络，其通过 H(x) 来作为 Softmax 的承载的函数，其构造是输入 x dot 可训练的网络参数 Wg，在这个基础上加上平滑噪音以负载均衡，使得每个 Expert 都有被选择的空间。同时，使用了 Topk 确保了稀疏性。最后，使用 Softmax 计算权重。

posted @ 2024-10-14 14:02 EpicMoCN 阅读(58) 评论(0) 编辑收藏举报

努力加载评论中...

刷新页面返回顶部

【推荐】100%开源！大型工业跨平台软件C++源码提供，建模，组态！
【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步