05 2020 档案
摘要:论文:Lite Transformer with Long-Short Range Attention by Wu, Liu et al. [ code in github ] LSRA特点:两组head,其中一组头部专注于局部上下文建模(通过卷积),而另一组头部专注于长距离关系建模(通过注意)。
阅读全文
摘要:ELECTRA 与现有的生成式的语言表示学习方法相比,判别式的预训练任务具有更高的计算效率和参数效率。 计算效率:训练判别器分辨每一个 token 是否被替换,而不是 MLM 那样训练网络作为生成器预测被损坏的 15% token 的原始 token,从而使模型从所有的输入 token 中学习而不是
阅读全文
摘要:持续更新 2020-05-28 Transformer Transformer详解 Long-Short Range Attention 论文阅读 | Lite Transformer with Long-Short Range Attention 参考: ICLR 2020趋势分析:NLP中更好&
阅读全文
摘要:[ github 源码地址 ] 本文基于PaddlePaddle 1.7版本,解析动态图下的Transformer encoder源码实现。 Transformer的每个Encoder子层(bert_base中包含12个encoder子层)包含 2 个小子层 : Multi-Head Attenti
阅读全文
摘要:背景 方法 作者们提出了一种模型驱动的方法,使用自动对抗的方法自动生成未观察过的对抗样本,并运用生成的样本最终提升阅读理解模型的效果鲁棒性,全程无需人工参与。 该方法可以简单地划分为三个步骤: (1)对每个训练样本利用对抗的方法生成一个干扰向量输入,使得它能够误导当前的阅读理解模型; (2)采用贪心
阅读全文
摘要:DynaBERT: Dynamic BERT with Adaptive Width and Depth 论文中作者提出了新的训练算法,同时对不同尺寸的子网络进行训练,通过该方法训练后可以在推理阶段直接对模型裁剪。依靠新的训练算法,本文在效果上超越了众多压缩模型,比如DistillBERT、Tiny
阅读全文
浙公网安备 33010602011771号