2025年3月10日

DeepSeek V3 详细解读

摘要: 1.摘要 DeepSeek-V3 是一个 MoE(Mixture-of-Experts)语言模型,总参数量 671B,每个 Token 激活的参数量为 37B。为实现高效训练与推理,DeepSeek-V3 延续了 DeepSeek-V2 的 MLA(Multi-head Latent Attenti 阅读全文

posted @ 2025-03-10 20:00 limingqi 阅读(1107) 评论(0) 推荐(0)

导航