论文《Network Pruning via Transformable Architecture Search》

上图为传统的神经结构搜索算法与TAS的对比。

整体的网络模型结构图，为每个通道设定一个超参数α（可更新），用于计算该通道可能被保留的概率，可视为该通道的贡献度。贡献度越大，被保留的概率越大。之后对每一层保留的通道数进行K次采样，如图中K=2个。如图中第一层，采样的通道数为3和4，则对前三个通道与P₃进行乘积，前4个通道与P₄进行乘积，最后通道对齐（channel wise interpolation，CWI）进行相加作为该层的最终输出。此处的通道对齐（CWI）使用的是3D的自适应平均池化操作。

需要注意的是，采样的过程不能够进行梯度回传，所以不能够从P_i回传到α_i,此文引入了Gumbel-softmax分布来soften采样过程以此来优化α。

最终的LOSS还引入了计算损失，此处的计算损失是使用分段计算，这样能够使得模型在收敛目标周围更加敏感。

在获得小模型后，将其权重随机初始化，并使用蒸馏技术来训练小模型。

整体的算法过程如下：

posted @ 2023-02-27 17:09 老舍长阅读(27) 评论(0) 收藏举报

刷新页面返回顶部

jiawen0607

论文《Network Pruning via Transformable Architecture Search》

公告