2025 年 1月 29 日随笔档案 - Big-Yellow-J

2025年1月29日

摘要： 1、混合专家模型（MoE）参考HuggingFace中介绍：混合专家模型主要由两部分构成： 1、稀疏的MoE层：这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个)，每个专家本身是一个独立的神经网络。在实际应用中，这些专家通常是前馈阅读全文

posted @ 2025-01-29 22:14 Big-Yellow-J 阅读(1129) 评论(0) 推荐(0)

Big-Yellow-J

公告