03 2025 档案

摘要:​ 最近有很多朋友都在部署deepseek模型,而且都用到了模型量化这个功能,目的是减少显存占用、提升推理速度。 上图是w8a8量化算法流程,主要包含4步: ①,使用昇腾 msmodelslim 仓库提供的量化接口对原始模型权重进行量化,生成int8格式的权重文件,以及后续在推理的时候要用到的激活值 阅读全文
posted @ 2025-03-31 10:19 AI布道Mr-Jin 阅读(208) 评论(0) 推荐(0)