摘要: 论文创新点: 多头注意力 transformer模型 Transformer模型 上图为模型结构,左边为encoder,右边为decoder,各有N=6个相同的堆叠。 encoder 先对inputs进行Embedding,再将位置信息编码进去(cancat方式),位置编码如下: 然后经过多头注意力 阅读全文
posted @ 2019-11-15 11:21 我的锅 阅读(1354) 评论(0) 推荐(0)