摘要: 前情提要 DeepSeek V3是一个MOE结构的模型,本文仅解读文中介绍的序列内负载均衡损失:Complementary Sequence-Wise Auxiliary Loss,至于序列间负载均衡Auxiliary-Loss-Free Load Balancing,由于简单易懂本文不做解读,但是 阅读全文
posted @ 2025-04-26 16:31 王冰冰 阅读(194) 评论(2) 推荐(0)