MoE

参考:
文章 https://www.zhihu.com/tardis/bd/ans/3364787819

MoE优点:

  1. 训练速度更快,效果更好
  2. 相同参数,推理成本低
  3. 扩展性好
  4. 多任务学习能力
    缺点:
  5. 训练稳定性差,需设计特别的损失函数
  6. 路由机制会增加通信的成本
  7. 模型复杂度高
  8. 稀疏性会导致过拟合

如果一个多层网络用来训练不同的子任务,通常会有强烈的干扰效应,这会导致学习过程变慢和泛化能力差。这种干扰效应的原因在于,当网络试图同时学习多个子任务时,不同任务的学习过程可能会相互干扰。例如,学习一个子任务时对权重的调整可能会影响其他子任务的学习效果,因为这些权重变化会改变其他子任务的loss。这种相互影响使得网络在处理每个子任务时都试图最小化所有其他子任务的loss。

posted @ 2025-02-16 00:09  leleleocc  阅读(14)  评论(0)    收藏  举报