论文《Block Pruning For Faster Transformers》
该论文在movement pruning的基础上进行块内修剪,其将模型的权重矩阵和注意力权重参数进行分块,评价每个块内的重要性分数,然后在反向传播的过程中更新块内的权重和该块的重要分数。
该论文为hugging face发表。
开源代码:https://github.com/huggingface/nn_pruning
该论文在movement pruning的基础上进行块内修剪,其将模型的权重矩阵和注意力权重参数进行分块,评价每个块内的重要性分数,然后在反向传播的过程中更新块内的权重和该块的重要分数。
该论文为hugging face发表。
开源代码:https://github.com/huggingface/nn_pruning