摘要: 1、混合专家模型(MoE) 参考HuggingFace中介绍:混合专家模型主要由两部分构成: 1、稀疏的MoE层:这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个),每个专家本身是一个独立的神经网络。在实际应用中,这些专家通常是前馈 阅读全文
posted @ 2025-01-29 22:14 Big-Yellow-J 阅读(1129) 评论(0) 推荐(0)
levels of contents