论文《Network Pruning via Transformable Architecture Search》

 

 上图为传统的神经结构搜索算法与TAS的对比。

 

 整体的网络模型结构图,为每个通道设定一个超参数α(可更新),用于计算该通道可能被保留的概率,可视为该通道的贡献度。贡献度越大,被保留的概率越大。之后对每一层保留的通道数进行K次采样,如图中K=2个。如图中第一层,采样的通道数为3和4,则对前三个通道与P3进行乘积,前4个通道与P4进行乘积,最后通道对齐(channel wise interpolation,CWI)进行相加作为该层的最终输出。此处的通道对齐(CWI)使用的是3D的自适应平均池化操作。

需要注意的是,采样的过程不能够进行梯度回传,所以不能够从Pi回传到αi,此文引入了Gumbel-softmax分布来soften采样过程以此来优化α。

最终的LOSS还引入了计算损失,此处的计算损失是使用分段计算,这样能够使得模型在收敛目标周围更加敏感。

在获得小模型后,将其权重随机初始化,并使用蒸馏技术来训练小模型。

整体的算法过程如下:

 

posted @ 2023-02-27 17:09  老舍长  阅读(27)  评论(0)    收藏  举报