摘要: 让RNN的每一个时间步具有不同的运算量。 阅读全文
posted @ 2019-12-03 14:52 RyanXing 阅读(922) 评论(0) 推荐(0) 编辑
摘要: 让一群小模型共同优化,达到比单独学习和蒸馏学习更好的效果。这是一种优化策略上的健壮性提升,类似于dropout在网络结构上的健壮性提升。 阅读全文
posted @ 2019-12-03 11:56 RyanXing 阅读(780) 评论(0) 推荐(0) 编辑