摘要: 在一个预训练好的大模型中,通常会有一部分权重,他在大部分的问答中都是处于低激活,甚至几乎不激活的状态,这显然会浪费一部分显存和算力,在模型每次加载和传递的过程中。 为此,我们采用了大模型剪枝的方法,核心组件有两个,钩子(Hooks)和一套我们自己定义的目标剪枝(Targeted Pruning)策略 阅读全文
posted @ 2025-09-26 15:53 liujunxi 阅读(83) 评论(0) 推荐(0)