摘要: SwiGLU 作为一种高效的激活函数,近几年已被广泛应用于许多 LLM 中,例如 Llama 系列、DeepSeek LLM 和 Qwen 1.5 等。在了解 SwiGLU 之前,需要先了解它的几个重要 “前身”,即 Swish、SiLU 和 GLU 激活函数。 Swish Swish 激活函数是由 阅读全文
posted @ 2025-09-25 22:22 有何m不可 阅读(62) 评论(0) 推荐(0)
摘要: 1. 阅读前提 本次课一共讲解三个不同版本的 MOE,分别是基础版MOE,大模型训练用的 SparseMoE,还有 DeepSeek 用的比较多的 shared_expert 的 SparseMoE。 2. 版本1:基础版本MOE 输入是一个 Token, 输出是一个 Token Embedding 阅读全文
posted @ 2025-09-25 21:53 有何m不可 阅读(16) 评论(0) 推荐(0)