2025 年 3月 10 日随笔档案 - limingqi

2025年3月10日

DeepSeek V3 详细解读

摘要： 1.摘要 DeepSeek-V3 是一个 MoE（Mixture-of-Experts）语言模型，总参数量 671B，每个 Token 激活的参数量为 37B。为实现高效训练与推理，DeepSeek-V3 延续了 DeepSeek-V2 的 MLA（Multi-head Latent Attenti 阅读全文

posted @ 2025-03-10 20:00 limingqi 阅读(1254) 评论(0) 推荐(0)

DeepSeek V3 详细解读

导航

公告