剪枝剪的好,就像中彩票。
Ref' https://www.zhihu.com/question/347847220/answer/890794195
[6] Frankle, Jonathan, and Michael Carbin. "The lottery ticket hypothesis: Finding sparse, trainable neural networks."ICLR 2019
这篇 paper 具体是这么做的:
- 随机初始化一个网络
- 训练他,直到收敛
- 然后根据此刻参数的绝对值大小,进行剪枝
- 剪枝完,再把那些保留下来的参数,回退到当时他们初始化的值
- 然后再更新这些保留下来并回退到初始化的参数
- 发现这个稀疏网络 work 的还挺好
听起来很有趣。作者给出的解释是:
如果我们把没有剪枝的网络看做是一个大网络,那么这个大网络在初始化之后,其中就有一个幸运的小网络(所以作者给文章起名 Lottery ticket hypothesis-彩票假设 ),他的能力和大网络基本上是一样的。
但是呢,这个幸运的小网络怎么得到呢,你还是得先训练,再根据绝对值大小来找。
作者:董鑫
链接:https://www.zhihu.com/question/347847220/answer/890794195
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。