DeepSeek V4 重磅发布:1.6万亿参数MoE巨模型,上下文长度突破100万tokens
-
V4 1.6T, V4-Lite 285B
→ V4 1.6万亿参数,V4-Lite 2850亿参数 -
Attention: DSA2 (NSA + DSA), head-dim 512 Sparse MQA + SWA
→ 注意力机制:DSA2(NSA + DSA),头维度 512,稀疏多查询注意力(Sparse MQA)+ 滑动窗口注意力(SWA) -
MoE: Fused MoE Mega-Kernel with 6 active in 384 experts
→ MoE:融合MoE超级内核(Fused MoE Mega-Kernel),共384个专家,每次激活6个 -
Residual: Hyper-Connections
→ 残差连接:超连接(Hyper-Connections) -
Optimizer: Muon
→ 优化器:Muon优化器(基于牛顿-舒尔茨正交化的动量优化器) -
Pretrain context length: 32K
→ 预训练上下文长度:32K(32,000 tokens) -
RL: GRPO with corrected KL
→ 强化学习:GRPO(Group Relative Policy Optimization,群相对策略优化),并加入修正KL散度 -
Final Context Length: 1M
→ 最终上下文长度:1M(100万 tokens) -
Modality: Text only
→ 模态:纯文本
DeepSeek V4 技术规格
V4(1.6万亿参数)、V4-Lite(2850亿参数)
注意力机制:DSA2(NSA + DSA),头维度512,稀疏MQA + 滑动窗口注意力(SWA)
MoE架构:融合MoE超级内核,384专家激活6个
残差结构:超连接(Hyper-Connections)
优化器:Muon
预训练上下文长度:32K
强化学习:GRPO + 修正KL散度
最终上下文长度:100万 tokens
模态:纯文本
原文:
https://x.com/yifan_zhang_/status/2046937210813808962

浙公网安备 33010602011771号