老舍长 - 博客园

[置顶] 论文《Network Pruning via Transformable Architecture Search》

摘要：上图为传统的神经结构搜索算法与TAS的对比。整体的网络模型结构图，为每个通道设定一个超参数α（可更新），用于计算该通道可能被保留的概率，可视为该通道的贡献度。贡献度越大，被保留的概率越大。之后对每一层保留的通道数进行K次采样，如图中K=2个。如图中第一层，采样的通道数为3和4，则对前三个通道与P3 阅读全文

posted @ 2023-02-27 17:09 老舍长阅读(29) 评论(0) 推荐(0)

2023年3月18日

论文《Filter Pruning by Switching to Neighboring CNNs with Good Attributes》

摘要：在网络剪枝的过程中选择合适的剪枝标准（通过模型的准确率进行选择）。通过不同的剪枝标准评估模型的性能，再选择性能最佳的剪枝标准。模型的框架图如下：模型的框架图如下：其中第5步是寻找最佳的剪枝标准。阅读全文

posted @ 2023-03-18 20:26 老舍长阅读(10) 评论(0) 推荐(0)

2023年3月15日

论文《Group Fisher Pruning for Practical Network Compression》

摘要：这是一篇很好的剪枝范文，文章的近期总结及时。与我的研究内容一致，激发了我的阅读兴趣。可在论文撰写时作为参考。该论文的思想是将模型中所有层的通道进行聚类，寻找各个通道的父通道，子通道与父通道（为同一组）具有相同的剪枝掩码，在计算重要性分数时，累计该组全部通道的分数。寻找父通道的过程中采用的是深度优阅读全文

posted @ 2023-03-15 22:17 老舍长阅读(160) 评论(1) 推荐(0)

2023年3月14日

论文《MorphNet: Fast & Simple Resource-Constrained Structure Learning of Deep Networks》

摘要：该论文在进行神经网络的结构搜索时只考虑优化每层的输出通道数。在每次更新完网络权重后计算网络的宽度编码（长度为L），第i位表示第i层保留的通道数。为了不让网络过小，将寻找满足模型约束的最大w,w用于控制模型通道的缩放。具体算法如下：模型的结构图：阅读全文

posted @ 2023-03-14 16:11 老舍长阅读(12) 评论(0) 推荐(0)

论文《Block Pruning For Faster Transformers》

摘要：该论文在movement pruning的基础上进行块内修剪，其将模型的权重矩阵和注意力权重参数进行分块，评价每个块内的重要性分数，然后在反向传播的过程中更新块内的权重和该块的重要分数。该论文为hugging face发表。开源代码：https://github.com/huggingface/ 阅读全文

posted @ 2023-03-14 10:38 老舍长阅读(69) 评论(0) 推荐(0)

论文《Movement Pruning: Adaptive Sparsity by Fine-Tuning》

摘要：论文提出里一种movement pruning,该方法将在训练的过程中同时更新模型权重和权重的重要分数，同时提出里两种修剪版本：硬和软。硬剪枝直接取前v%的权重，软剪枝则设定一个分数阈值，权重分数超过该阈值则选择保留。反向传播时，权重分数的梯度计算如下。 L为损失函数，S为分数，W为权重，其中，M是阅读全文

posted @ 2023-03-14 09:20 老舍长阅读(172) 评论(0) 推荐(0)

2023年3月7日

论文《Blockwisely Supervised Neural Architecture Search with Knowledge Distillation.》--DNA

摘要：该方法的命名为DNA（有趣的名字），该文属于NAS算法，将整个搜索空间比作人的大脑，类型相似的模型归为一类，不同的类具有不同的功能性，同一类中所含的模型具有相似的结构。该文通过在每个类中选择一至二个小模型作为该类的代表，同时训练所有类中的代表模型，并通过中间层的蒸馏对这些代表模型进行修正。模型的整阅读全文

posted @ 2023-03-07 21:14 老舍长阅读(19) 评论(0) 推荐(0)

论文《Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding》

摘要：网络结构图：结合多种模型压缩方式，对模型进行逐步的缩小，通过剪枝，量化，哈夫曼编码的操作顺序。。阅读全文

posted @ 2023-03-07 20:58 老舍长阅读(15) 评论(0) 推荐(0)

2023年2月24日

论文《Knowledge Distillation with the Reused Teacher Classifier》

摘要：在某种程度上，我们重用教师分类器的关键思想是与之前关于假设迁移学习 (HTL) 的研究有关。HTL 旨在利用学习到的源域分类器来帮助目标域分类器的训练，条件是只有少量标记的目标数据集并且没有可用的源数据集。 SimKD 的一个关键组成部分是“分类器重用”操作，即我们直接借用预训练的教师分类器进行学生阅读全文

posted @ 2023-02-24 15:23 老舍长阅读(28) 评论(0) 推荐(0)

论文《SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size》

摘要：在相同的精度下，较小的 CNN 架构至少提供了三个优势：（1）较小的 CNN 在分布式训练期间需要在服务器之间进行更少的通信。(2) 较小的 CNN 需要更少的带宽来将新模型从云端导出到自动驾驶汽车。(3)较小的cnn更容易部署在fpga和其他内存有限的硬件上。为了提供所有这些优势，我们提出了一种称阅读全文

posted @ 2023-02-24 12:22 老舍长阅读(39) 评论(0) 推荐(0)

jiawen0607

公告