03 2025 档案

昇腾 msmodelslim w8a8量化代码解析

摘要：最近有很多朋友都在部署deepseek模型，而且都用到了模型量化这个功能，目的是减少显存占用、提升推理速度。上图是w8a8量化算法流程，主要包含4步： ①，使用昇腾 msmodelslim 仓库提供的量化接口对原始模型权重进行量化，生成int8格式的权重文件，以及后续在推理的时候要用到的激活值阅读全文

posted @ 2025-03-31 10:19 AI布道Mr-Jin 阅读(208) 评论(0) 推荐(0)

03 2025 档案

公告