摘要: Introduction 这篇paper是做Transformer压缩的,但其实bert的核心也就是transformer,这篇paper的实验里也做了bert的压缩。作者的主要工作是提出了 LayerDrop 的方法,即一种结构化的dropout的方法来对transformer模型进行训练,从而在 阅读全文
posted @ 2020-04-27 17:09 zyxxmu 阅读(918) 评论(0) 推荐(0)
摘要: Introduction 这篇paper是做Transformer压缩的,但其实bert的核心也就是transformer,这篇paper的实验里也做了bert的压缩。作者的主要工作是提出了 LayerDrop 的方法,即一种结构化的dropout的方法来对transformer模型进行训练,从而在 阅读全文
posted @ 2020-04-27 17:04 zyxxmu 阅读(38) 评论(0) 推荐(0)