2020 年 5月 25 日随笔档案 - 山竹小果

2020年5月25日

预训练模型 | ELECTRA: Efficiently Learning an Encoder that Classifies Token Replacements Accurately

摘要： ELECTRA 与现有的生成式的语言表示学习方法相比，判别式的预训练任务具有更高的计算效率和参数效率。计算效率：训练判别器分辨每一个 token 是否被替换，而不是 MLM 那样训练网络作为生成器预测被损坏的 15% token 的原始 token，从而使模型从所有的输入 token 中学习而不是阅读全文

posted @ 2020-05-25 21:23 山竹小果阅读(705) 评论(0) 推荐(0) 编辑

Transformer 及其家族( Transformer-XL, Reformer... )

摘要：持续更新 2020-05-28 Transformer Transformer详解 Long-Short Range Attention 论文阅读 | Lite Transformer with Long-Short Range Attention 参考： ICLR 2020趋势分析：NLP中更好& 阅读全文

posted @ 2020-05-25 20:23 山竹小果阅读(618) 评论(0) 推荐(1) 编辑

持续更新

摘要：未完待续阅读全文

posted @ 2020-05-25 20:09 山竹小果阅读(816) 评论(0) 推荐(0) 编辑

PaddlePaddle Transformer encoder 源码解析

摘要： [ github 源码地址 ] 本文基于PaddlePaddle 1.7版本，解析动态图下的Transformer encoder源码实现。 Transformer的每个Encoder子层（bert_base中包含12个encoder子层）包含 2 个小子层： Multi-Head Attenti 阅读全文

posted @ 2020-05-25 10:13 山竹小果阅读(1425) 评论(0) 推荐(0) 编辑

公告