导航

2025年1月17日

摘要: DeepSeek-V3 采用的 DeepSeekMoE 架构,通过细粒度专家、共享专家和 Top-K 路由策略,实现了模型容量的高效扩展。 每个 MoE 层包含 1 个共享专家和 256 个路由专家,每个 Token 选择 8 个路由专家,最多路由至 4 个节点。这种稀疏激活的机制,使得 DeepS 阅读全文

posted @ 2025-01-17 13:57 蝈蝈俊 阅读(9741) 评论(0) 推荐(1)