06 2025 档案
摘要:最近做吞吐量调试涉及到输入batch_size的设置,为了把算力和显存用起来,同时不触发out of memory,需要提前估计大模型推理过程中的显存占用,我参考了MindIE官网的这个文档完成了估计:https://www.hiascend.com/document/detail/zh/mindi
阅读全文
摘要:最近和开发者做了很多DeepSeek-R1模型相关的推理项目,这两天抽时间把hugging face上面的源码拉下来仔细看了一遍,在这里做一个分享。主要是解析MOE部分的代码,包括EP并行的代码实现。 整体结构 查看hugging face上面的modeling_deepseek.py文件和conf
阅读全文
浙公网安备 33010602011771号