摘要: 最近我在学习 Transformer 结构的时候,发现其中的 positional encoding 很不好理解,尤其是其中的公式,为什么要这样设计,后来上网收集各种资料,方才理解,遂于此写一篇文章进行记录 首先你需要知道,Transformer 是以字作为输入,将字进行字嵌入之后,再与位置嵌入进行 阅读全文
posted @ 2021-11-07 14:49 啊诚 阅读(462) 评论(1) 推荐(0) 编辑
摘要: Transformer 是谷歌大脑在 2017 年底发表的论文 attention is all you need 中所提出的 seq2seq 模型。现在已经取得了大范围的应用和扩展,而 BERT 就是从 Transformer 中衍生出来的预训练语言模型 这篇文章分为以下几个部分 Transfor 阅读全文
posted @ 2021-11-07 14:37 啊诚 阅读(108) 评论(0) 推荐(0) 编辑