DeepSeek V4 重磅发布：1.6万亿参数MoE巨模型，上下文长度突破100万tokens

V4 1.6T, V4-Lite 285B
→ V4 1.6万亿参数，V4-Lite 2850亿参数
Attention: DSA2 (NSA + DSA), head-dim 512 Sparse MQA + SWA
→ 注意力机制：DSA2（NSA + DSA），头维度 512，稀疏多查询注意力（Sparse MQA）+ 滑动窗口注意力（SWA）
MoE: Fused MoE Mega-Kernel with 6 active in 384 experts
→ MoE：融合MoE超级内核（Fused MoE Mega-Kernel），共384个专家，每次激活6个
Residual: Hyper-Connections
→ 残差连接：超连接（Hyper-Connections）
Optimizer: Muon
→ 优化器：Muon优化器（基于牛顿-舒尔茨正交化的动量优化器）
Pretrain context length: 32K
→ 预训练上下文长度：32K（32,000 tokens）
RL: GRPO with corrected KL
→ 强化学习：GRPO（Group Relative Policy Optimization，群相对策略优化），并加入修正KL散度
Final Context Length: 1M
→ 最终上下文长度：1M（100万 tokens）
Modality: Text only
→ 模态：纯文本

DeepSeek V4 技术规格
V4（1.6万亿参数）、V4-Lite（2850亿参数）
注意力机制：DSA2（NSA + DSA），头维度512，稀疏MQA + 滑动窗口注意力（SWA）
MoE架构：融合MoE超级内核，384专家激活6个
残差结构：超连接（Hyper-Connections）
优化器：Muon
预训练上下文长度：32K
强化学习：GRPO + 修正KL散度
最终上下文长度：100万 tokens
模态：纯文本
原文：
https://x.com/yifan_zhang_/status/2046937210813808962

posted @ 2026-04-23 17:16 gyc567 阅读(167) 评论(0) 收藏举报

刷新页面返回顶部

thinking different

非同凡想

DeepSeek V4 重磅发布：1.6万亿参数MoE巨模型，上下文长度突破100万tokens