摘要:
Introduction 这篇paper是做Transformer压缩的,但其实bert的核心也就是transformer,这篇paper的实验里也做了bert的压缩。作者的主要工作是提出了 LayerDrop 的方法,即一种结构化的dropout的方法来对transformer模型进行训练,从而在 阅读全文
posted @ 2020-04-27 17:09
zyxxmu
阅读(918)
评论(0)
推荐(0)
摘要:
Introduction 这篇paper是做Transformer压缩的,但其实bert的核心也就是transformer,这篇paper的实验里也做了bert的压缩。作者的主要工作是提出了 LayerDrop 的方法,即一种结构化的dropout的方法来对transformer模型进行训练,从而在 阅读全文
posted @ 2020-04-27 17:04
zyxxmu
阅读(38)
评论(0)
推荐(0)

浙公网安备 33010602011771号