摘要:
SwiGLU 作为一种高效的激活函数,近几年已被广泛应用于许多 LLM 中,例如 Llama 系列、DeepSeek LLM 和 Qwen 1.5 等。在了解 SwiGLU 之前,需要先了解它的几个重要 “前身”,即 Swish、SiLU 和 GLU 激活函数。 Swish Swish 激活函数是由 阅读全文
posted @ 2025-09-25 22:22
有何m不可
阅读(62)
评论(0)
推荐(0)
摘要:
1. 阅读前提 本次课一共讲解三个不同版本的 MOE,分别是基础版MOE,大模型训练用的 SparseMoE,还有 DeepSeek 用的比较多的 shared_expert 的 SparseMoE。 2. 版本1:基础版本MOE 输入是一个 Token, 输出是一个 Token Embedding 阅读全文
posted @ 2025-09-25 21:53
有何m不可
阅读(16)
评论(0)
推荐(0)

浙公网安备 33010602011771号