摘要: ELECTRA 与现有的生成式的语言表示学习方法相比,判别式的预训练任务具有更高的计算效率和参数效率。 计算效率:训练判别器分辨每一个 token 是否被替换,而不是 MLM 那样训练网络作为生成器预测被损坏的 15% token 的原始 token,从而使模型从所有的输入 token 中学习而不是 阅读全文
posted @ 2020-05-25 21:23 山竹小果 阅读(705) 评论(0) 推荐(0) 编辑
摘要: 持续更新 2020-05-28 Transformer Transformer详解 Long-Short Range Attention 论文阅读 | Lite Transformer with Long-Short Range Attention 参考: ICLR 2020趋势分析:NLP中更好& 阅读全文
posted @ 2020-05-25 20:23 山竹小果 阅读(618) 评论(0) 推荐(1) 编辑
摘要: 未完待续 阅读全文
posted @ 2020-05-25 20:09 山竹小果 阅读(816) 评论(0) 推荐(0) 编辑
摘要: [ github 源码地址 ] 本文基于PaddlePaddle 1.7版本,解析动态图下的Transformer encoder源码实现。 Transformer的每个Encoder子层(bert_base中包含12个encoder子层)包含 2 个小子层 : Multi-Head Attenti 阅读全文
posted @ 2020-05-25 10:13 山竹小果 阅读(1425) 评论(0) 推荐(0) 编辑