MoE+MLA+多Token预测+DualPipe+FP8

超详细版!DeepSeek核心技术大揭秘 https://mp.weixin.qq.com/s/2Xt58gWm1T6V8eMGVkWMjQ

Tencent腾讯技术工程看技术造未来Technology & Engineering二、DeepSeek多重技术创新DeepSeek多重技术创新 一多重技术创新降低成本——持续迭代的工程与创新:MoE+MLA+多Token预测+DualPipe+FP8,极致降低成本DeepSeeklmoE相比moE有2个核心优化成本下降42.5%混合专家架构[MoE]:1、科室拆分更细,并成立综合门诊DeepSeek-Vz 引入 moE后训练成本删诚增加Expert数量;公用Expert共享化,其它Expert专注于差异化重点解决训练过程中存在负载均衡问题,提升训练效率推理效率提升3倍2、把活派好,避免专家累死相比传统刷密模型MLA配备了低秩键值联合压缩功能较Llama2-7B模型,多头潜在注意力[MLA]:KV缓存减少92.19%,MLA就像给MHA装了个“内存压缩包”在保持效果的网时,让大模型能处理更长的文本、更大的批量,还能跑得更快同时保持性施仅下特0.5%IMLA改进MHA,从而压缩KV缓存,提高训练效率mTP将单token生成,转变成多token生成多Token预测[mTP]:一次生成多个后续词,训练效率提升40%1、训练信号更密集,效率更高mTP一次预测多个token,训练更长更多数据,提升大模型的训练和推理效率2、让模型学会"提前规划"创新管道DualPipe并行算法相对未优化的情况下管道并行调度策略[DualPipe]:GPU利用率可能提高20%-50%不等1、让前向和后向计算“叠着干活”2、通信和计算“你传我算,无缝衔接”每一对前向和后向块内重叠计算和通信,提高通信效率、加速了模型训练;双管道显若减少了管道气泡3、减少“排队浪费”,提升整体速度无论微批次数量如何增加,管道气泡和激活内存都不会增加相对未优化的情况下FP8框架通过精细化精度分配和工程优化训练效率:比BF16快64%细粒度的混合精度框架[FP8]:1、大部分计算用“简化版数据格式“加速跑通信开销:减少61~64%大部分计算采用FPB,提升效率;理论上可将计算速度提升至2、关键岗位还得用“专业人才"把关BF16的两倍ル,▁N#山加m对精度敏感的操作、关键模块保留高精度,仍使用FP16或FP32,避免低精度导致的数值不稳定算法创新或加速训练与CUDA解耦两种不同思想:1.分层处理,抓大放小2.硬件优化,提速又省内存国内:引入MoE降低成本+高算力原生稀疏注意力[NSA]:硬件对齐且可原生训然的稀政注意力机制3.端到婚训练,遵免“半吊子“优化国外:算法+硬件上极致优化[2025-02-18论文发布,目前无应用〕Deep5eek V3论文:中称训练成本仅557w美金;性能与gpt-4o相当[gpt-4o训练成本预计超过1亿美金],成本是同类型的5%~6%

 

 

posted @ 2025-03-14 18:05  papering  阅读(44)  评论(0)    收藏  举报