打赏

DeepSeek V4 重磅发布:1.6万亿参数MoE巨模型,上下文长度突破100万tokens

  • V4 1.6T, V4-Lite 285B
    V4 1.6万亿参数,V4-Lite 2850亿参数

  • Attention: DSA2 (NSA + DSA), head-dim 512 Sparse MQA + SWA
    注意力机制:DSA2(NSA + DSA),头维度 512,稀疏多查询注意力(Sparse MQA)+ 滑动窗口注意力(SWA)

  • MoE: Fused MoE Mega-Kernel with 6 active in 384 experts
    MoE:融合MoE超级内核(Fused MoE Mega-Kernel),共384个专家,每次激活6个

  • Residual: Hyper-Connections
    残差连接:超连接(Hyper-Connections)

  • Optimizer: Muon
    优化器:Muon优化器(基于牛顿-舒尔茨正交化的动量优化器)

  • Pretrain context length: 32K
    预训练上下文长度:32K(32,000 tokens)

  • RL: GRPO with corrected KL
    强化学习:GRPO(Group Relative Policy Optimization,群相对策略优化),并加入修正KL散度

  • Final Context Length: 1M
    最终上下文长度:1M(100万 tokens)

  • Modality: Text only
    模态:纯文本


DeepSeek V4 技术规格
V4(1.6万亿参数)、V4-Lite(2850亿参数)
注意力机制:DSA2(NSA + DSA),头维度512,稀疏MQA + 滑动窗口注意力(SWA)
MoE架构:融合MoE超级内核,384专家激活6个
残差结构:超连接(Hyper-Connections)
优化器:Muon
预训练上下文长度:32K
强化学习:GRPO + 修正KL散度
最终上下文长度:100万 tokens
模态:纯文本
原文:
https://x.com/yifan_zhang_/status/2046937210813808962

posted @ 2026-04-23 17:16  gyc567  阅读(167)  评论(0)    收藏  举报